Sesgo Algorítmico y la Epistemología del Dato en Ciberseguridad Organizacional
Guido Rosales 24/03/2026
El verdadero riesgo no es la falta de información, sino la confianza en información distorsionada que el sistema presenta como objetiva
Sesgo Algorítmico y la Epistemología del Dato en Ciberseguridad Organizacional
La adopción acelerada de inteligencia artificial en ciberseguridad genera sistemas que operan con precisión sobre datos que pueden no representar la realidad. Este trabajo propone analizar el sesgo algorítmico desde una perspectiva epistemológica: el problema no reside en cómo se procesan los datos, sino en cómo se construye el conocimiento a partir de ellos. Se identifican ocho fuentes de sesgo en el dato de incidentes y se propone un modelo de gobernanza por capas, anonimización controlada y validación adversarial. La tesis central: el verdadero riesgo no es la falta de información, sino la confianza en información distorsionada que el sistema presenta como objetiva.
- 01 Introducción
- 02 Epistemología del Dato en Ciberseguridad
- 03 El Sesgo Algorítmico como Fenómeno Sociotécnico
- 04 Ocho Fuentes de Sesgo en el Dato de Incidentes
- 05 La Ilusión Colectiva de Seguridad
- 06 Balance entre Verdad y Estabilidad
- 07 Modelo de Gobernanza del Dato por Capas
- 08 Repositorio de Incidentes con Anonimización Controlada
- 09 Validación Adversarial del Dato
- 10 El Rol del Regulador en la Calidad del Dato
- 11 Conclusiones
- — Referencias
- — Glosario de Términos
Introducción
Los sistemas de inteligencia artificial aplicados a la ciberseguridad han transformado la capacidad organizacional de detectar, analizar y responder a amenazas. Herramientas de análisis de comportamiento, correlación de eventos y predicción de riesgos operan hoy en entornos donde la velocidad y el volumen de datos superan con creces la capacidad de procesamiento humano.
Sin embargo, esta transformación trae consigo una dependencia crítica: la calidad del dato. Un modelo de IA no evalúa si sus datos son correctos; optimiza su función objetivo sobre cualquier base que reciba. Si esa base está sesgada, el modelo producirá decisiones sesgadas con apariencia de objetividad científica.
En ciberseguridad, los datos de incidentes —la materia prima del conocimiento sobre el riesgo— están sujetos a múltiples presiones que los distorsionan sistemáticamente: cognitivas, organizacionales, regulatorias, comerciales y técnicas. El resultado es lo que este trabajo denomina una deriva epistemológica del riesgo: la organización cree conocer su estado de seguridad, pero opera sobre una representación que no refleja la realidad.
Epistemología del Dato en Ciberseguridad
La epistemología permite cuestionar no solo el dato en sí, sino la forma en que este es generado, interpretado y utilizado para tomar decisiones. En ciberseguridad, el conocimiento sobre el riesgo se construye principalmente a partir de datos históricos de incidentes: qué ocurrió, cuándo, con qué impacto, con qué frecuencia.
El problema emerge cuando estos datos no reflejan la realidad, sino una versión seleccionada, filtrada o distorsionada de ella. En ese caso, el conocimiento derivado pierde validez epistemológica: la organización no sabe lo que cree saber. Y lo que es peor, no sabe que no lo sabe.
Adoptar una perspectiva epistemológica sobre el dato de incidentes implica preguntarse no solo ¿qué dice el dato? sino ¿por qué dice lo que dice? ¿Qué fuerzas lo moldearon? ¿Qué quedó fuera y por qué? Estas preguntas cuestionan la base de decisiones ya tomadas, pero son necesarias para construir una seguridad organizacional genuinamente robusta.
El Sesgo Algorítmico como Fenómeno Sociotécnico
El sesgo algorítmico suele abordarse desde la perspectiva del modelo: un algoritmo mal diseñado, una función objetivo incorrecta. Sin embargo, en entornos organizacionales complejos, el sesgo emerge principalmente como un fenómeno sociotécnico que trasciende el código.
El principio articulador es simple pero poderoso: los modelos no crean el sesgo, lo heredan y lo amplifican. Kahneman y Tversky (1974) documentaron cómo las distorsiones cognitivas humanas generan patrones sistemáticos en el juicio; cuando esas distorsiones se codifican en datos de entrenamiento, los modelos las replican a escala y velocidad industrial.
Los modelos operan bajo lógicas pragmáticas: optimizan su función objetivo sin cuestionar la veracidad del dato. Cualquier distorsión en la base de datos se convierte en una decisión optimizada y replicable. El modelo no está equivocado en términos técnicos; está perfectamente calibrado sobre una realidad incorrecta. Y a través de los bucles de retroalimentación algorítmica, consolida y normaliza esas distorsiones en las iteraciones futuras.
Ocho Fuentes de Sesgo en el Dato de Incidentes
El sesgo no proviene de una única fuente, sino de un sistema distribuido de distorsiones que opera en múltiples niveles simultáneamente.
La Ilusión Colectiva de Seguridad
Cuando múltiples fuentes de sesgo operan simultáneamente en la misma dirección, emerge un fenómeno de orden superior: la ilusión colectiva de seguridad.
Este fenómeno no es producto de una conspiración ni de una falsificación deliberada. Es el resultado emergente de decisiones individuales y organizacionales que, tomadas cada una bajo sus propias lógicas de incentivo, producen colectivamente una narrativa del riesgo sistemáticamente distorsionada.
El efecto sobre la toma de decisiones es grave: la organización invierte donde el dato dice que está el problema, no donde el problema realmente está. Y lo hace con la confianza que otorga el respaldo de sistemas técnicamente sofisticados que, sin embargo, operan sobre una base epistemológicamente frágil.
Balance entre Verdad y Estabilidad
La respuesta intuitiva ante la ilusión colectiva es la transparencia total. Sin embargo, en sectores como el financiero, la divulgación descontrolada de debilidades puede desencadenar crisis reales mediante la profecía autocumplida: la percepción de vulnerabilidad provoca las condiciones que la materializan.
Esto introduce una tensión que no admite resolución binaria. La verdad no debe ocultarse, pero sí debe gestionarse. Tres principios orientan ese balance:
Modelo de Gobernanza del Dato por Capas
Para operacionalizar el balance entre verdad y estabilidad, se propone un modelo de gobernanza estructurado en cuatro capas que cubre el ciclo de vida completo del dato de incidentes:
| Capa | Foco | Principal exposición al sesgo | Control propuesto |
|---|---|---|---|
| Generación | Producción del dato | Sesgo humano, cognitivo y organizacional | Anonimización, cultura de reporte, incentivos al registro honesto |
| Resguardo | Protección e integridad | Manipulación retroactiva, acceso indebido | Inmutabilidad, trazabilidad, control de acceso por roles |
| Interpretación | Análisis y modelado | Amplificación de sesgos, bucles de retroalimentación | Validación adversarial, diversidad de modelos, auditoría del sesgo |
| Comunicación | Exposición de la información | Sobre o subdivulgación, pánico sistémico | Transparencia progresiva, contextualización, segmentación de audiencia |
Este modelo reconoce que el sesgo no puede eliminarse completamente, pero sí puede contenerse, monitorearse y corregirse si se interviene en el nivel adecuado. La gobernanza por capas permite que exista una realidad íntegra —aunque no completamente visible para todos— que sirva de base para decisiones estratégicas informadas.
Repositorio de Incidentes con Anonimización Controlada
Una de las principales causas del subregistro es el temor a las consecuencias reputacionales, regulatorias o competitivas de documentar incidentes. Para reducir este desincentivo sin sacrificar la calidad del dato, se propone la creación de repositorios sectoriales con anonimización controlada.
El modelo de referencia es la aviación civil, donde el sistema ASRS (Aviation Safety Reporting System) permite reportar eventos de seguridad con protección de identidad, generando un conocimiento colectivo que ha contribuido significativamente a la mejora de la seguridad del sector (Billings et al., 1998). Aplicado a ciberseguridad, implicaría:
- Registro completo del evento, independientemente de su gravedad o de quién sea responsable.
- Protección de la identidad organizacional mediante anonimización técnica verificable.
- Acceso diferenciado por niveles: datos agregados para el sector, detallados para reguladores con acuerdos de confidencialidad, completos para investigación académica bajo condiciones controladas.
- Incentivos regulatorios al reporte: protección frente a sanciones para organizaciones que reporten proactivamente.
Validación Adversarial del Dato
El modelo de gobernanza se complementa con mecanismos de validación adversarial orientados a evaluar la fidelidad del sistema de registro, no solo la de los modelos que lo consumen. La lógica es análoga al red team en seguridad ofensiva: si se quiere saber si un sistema es robusto, se contrata a alguien para que intente vulnerarlo.
- Simulación de incidentes: se introduce un evento controlado y se verifica si el sistema lo registra correctamente, con qué nivel de detalle y en qué tiempo.
- Red team de procesos: equipos especializados intentan manipular el registro de un incidente —minimizándolo, reclasificándolo u omitiéndolo— para identificar los puntos de fragilidad del proceso.
- Correlación con telemetría técnica: se comparan los registros documentados con datos técnicos independientes para identificar discrepancias que indiquen subregistro o manipulación.
El Rol del Regulador en la Calidad del Dato
El regulador es, paradójicamente, tanto una fuente de sesgo como uno de los actores con mayor capacidad para reducirlo. El modelo regulatorio actual —que sanciona la ocurrencia de incidentes significativos— produce inevitablemente comportamientos de optimización de la narrativa.
Se propone una evolución hacia un regulador de aprendizaje sistémico, caracterizado por:
- Incentivar el reporte honesto mediante protección frente a sanciones para incidentes reportados proactivamente.
- Sancionar el ocultamiento, no el incidente: la consecuencia regulatoria grave debe recaer sobre la falta de reporte, no sobre la vulnerabilidad en sí.
- Facilitar la construcción de conocimiento sectorial compartido, actuando como custodio de datos anonimizados que benefician al ecosistema completo.
- Distinguir entre fallas de seguridad y fallas de gobernanza del dato, reconociendo que el subregistro es en sí mismo un riesgo sistémico.
Conclusiones
El sesgo algorítmico en ciberseguridad no es un problema aislado del modelo. Es la manifestación computacional de un problema más profundo: la forma en que las organizaciones y su entorno construyen, registran y gestionan el dato sobre el riesgo.
La perspectiva epistemológica adoptada en este trabajo permite precisar la naturaleza del problema: el verdadero riesgo no es la ausencia de datos, sino la confianza en datos distorsionados que el sistema presenta como objetivos. Esta distinción cambia el foco de la intervención: de la mejora de los modelos a la mejora de la base sobre la que operan.
Las propuestas presentadas —gobernanza por capas, repositorios con anonimización controlada, validación adversarial y regulación orientada al aprendizaje— son componentes de un sistema de gestión epistemológica del riesgo que requiere cambios técnicos, organizacionales, regulatorios y culturales.
Referencias
Billings, C. E., Lauber, J. K., Funkhouser, H., Lyman, E. G., & Huff, E. M. (1998). NASA Aviation Safety Reporting System. NASA Technical Memorandum.
Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press.
Kahneman, D., & Tversky, A. (1974). Judgment under Uncertainty: Heuristics and Biases. Science, 185(4157), 1124–1131.
Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.
Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science, 366(6464), 447–453.
Passi, S., & Barocas, S. (2019). Problem Formulation and Fairness. Proceedings of the ACM Conference on Fairness, Accountability, and Transparency (FAccT).
Glosario de Términos
Los siguientes términos constituyen el marco conceptual del presente trabajo, presentados en orden temático para facilitar su comprensión progresiva.
