Sesgo Algorítmico y la Epistemología del Dato en Ciberseguridad Organizacional | Guido E. Rosales Uriona

Documento de Trabajo · 2026

Sesgo Algorítmico y la Epistemología del Dato en Ciberseguridad Organizacional

Guido E. Rosales Uriona (Doctorante) Línea: Transformación Digital y nuevos Modelos de Negocio

Resumen

La adopción acelerada de inteligencia artificial en ciberseguridad genera sistemas que operan con precisión sobre datos que pueden no representar la realidad. Este trabajo propone analizar el sesgo algorítmico desde una perspectiva epistemológica: el problema no reside en cómo se procesan los datos, sino en cómo se construye el conocimiento a partir de ellos. Se identifican ocho fuentes de sesgo en el dato de incidentes y se propone un modelo de gobernanza por capas, anonimización controlada y validación adversarial. La tesis central: el verdadero riesgo no es la falta de información, sino la confianza en información distorsionada que el sistema presenta como objetiva.

Contenido

01 Introducción
02 Epistemología del Dato en Ciberseguridad
03 El Sesgo Algorítmico como Fenómeno Sociotécnico
04 Ocho Fuentes de Sesgo en el Dato de Incidentes
05 La Ilusión Colectiva de Seguridad
06 Balance entre Verdad y Estabilidad
07 Modelo de Gobernanza del Dato por Capas
08 Repositorio de Incidentes con Anonimización Controlada
09 Validación Adversarial del Dato
10 El Rol del Regulador en la Calidad del Dato
11 Conclusiones
— Referencias
— Glosario de Términos

SECCIÓN 01

Introducción

Los sistemas de inteligencia artificial aplicados a la ciberseguridad han transformado la capacidad organizacional de detectar, analizar y responder a amenazas. Herramientas de análisis de comportamiento, correlación de eventos y predicción de riesgos operan hoy en entornos donde la velocidad y el volumen de datos superan con creces la capacidad de procesamiento humano.

Sin embargo, esta transformación trae consigo una dependencia crítica: la calidad del dato. Un modelo de IA no evalúa si sus datos son correctos; optimiza su función objetivo sobre cualquier base que reciba. Si esa base está sesgada, el modelo producirá decisiones sesgadas con apariencia de objetividad científica.

«El verdadero riesgo no es la falta de información, sino la confianza en información distorsionada que el sistema presenta como objetiva.»

En ciberseguridad, los datos de incidentes —la materia prima del conocimiento sobre el riesgo— están sujetos a múltiples presiones que los distorsionan sistemáticamente: cognitivas, organizacionales, regulatorias, comerciales y técnicas. El resultado es lo que este trabajo denomina una deriva epistemológica del riesgo: la organización cree conocer su estado de seguridad, pero opera sobre una representación que no refleja la realidad.

SECCIÓN 02

Epistemología del Dato en Ciberseguridad

La epistemología permite cuestionar no solo el dato en sí, sino la forma en que este es generado, interpretado y utilizado para tomar decisiones. En ciberseguridad, el conocimiento sobre el riesgo se construye principalmente a partir de datos históricos de incidentes: qué ocurrió, cuándo, con qué impacto, con qué frecuencia.

El problema emerge cuando estos datos no reflejan la realidad, sino una versión seleccionada, filtrada o distorsionada de ella. En ese caso, el conocimiento derivado pierde validez epistemológica: la organización no sabe lo que cree saber. Y lo que es peor, no sabe que no lo sabe.

«El problema no es tecnológico, sino cognitivo y organizacional: la incapacidad de garantizar que el dato refleje la realidad.»

Adoptar una perspectiva epistemológica sobre el dato de incidentes implica preguntarse no solo ¿qué dice el dato? sino ¿por qué dice lo que dice? ¿Qué fuerzas lo moldearon? ¿Qué quedó fuera y por qué? Estas preguntas cuestionan la base de decisiones ya tomadas, pero son necesarias para construir una seguridad organizacional genuinamente robusta.

SECCIÓN 03

El Sesgo Algorítmico como Fenómeno Sociotécnico

El sesgo algorítmico suele abordarse desde la perspectiva del modelo: un algoritmo mal diseñado, una función objetivo incorrecta. Sin embargo, en entornos organizacionales complejos, el sesgo emerge principalmente como un fenómeno sociotécnico que trasciende el código.

El principio articulador es simple pero poderoso: los modelos no crean el sesgo, lo heredan y lo amplifican. Kahneman y Tversky (1974) documentaron cómo las distorsiones cognitivas humanas generan patrones sistemáticos en el juicio; cuando esas distorsiones se codifican en datos de entrenamiento, los modelos las replican a escala y velocidad industrial.

Los modelos operan bajo lógicas pragmáticas: optimizan su función objetivo sin cuestionar la veracidad del dato. Cualquier distorsión en la base de datos se convierte en una decisión optimizada y replicable. El modelo no está equivocado en términos técnicos; está perfectamente calibrado sobre una realidad incorrecta. Y a través de los bucles de retroalimentación algorítmica, consolida y normaliza esas distorsiones en las iteraciones futuras.

SECCIÓN 04

Ocho Fuentes de Sesgo en el Dato de Incidentes

El sesgo no proviene de una única fuente, sino de un sistema distribuido de distorsiones que opera en múltiples niveles simultáneamente.

FUENTE 01Humana y cognitiva

El sesgo de optimismo y la disonancia cognitiva (Festinger, 1957) llevan a las personas a minimizar o reinterpretar eventos negativos. El resultado es un subregistro natural de incidentes, incluso sin mala intención.

FUENTE 02Organizacional interna

Incentivos internos —reputación, evaluación de desempeño, presión jerárquica— generan subregistro deliberado, reclasificación de incidentes graves o diferimiento de su documentación: la doble contabilidad de incidentes.

FUENTE 03Regulatoria

Al sancionar la ocurrencia de incidentes, el regulador induce optimización de la narrativa. Las organizaciones construyen una homeostasis artificial: proyectan estabilidad independientemente de su exposición real.

FUENTE 04Industrial y proveedores

Los proveedores minimizan eventos, reetiquetan fallas o retrasan divulgaciones para proteger su imagen comercial. Este sesgo, agregado a nivel sectorial, distorsiona la percepción general del riesgo ecosistémico.

FUENTE 05Inteligencia compartida

Los sistemas de threat intelligence dependen de lo que se detecta y se decide compartir, introduciendo sesgos de disponibilidad y de representación: ciertos sectores o tipos de amenaza quedan sistemáticamente subrepresentados.

FUENTE 06Mediática y social

La amplificación de incidentes con mayor impacto narrativo y la invisibilización de otros genera distorsiones en la percepción colectiva del riesgo, afectando las prioridades de inversión y defensa.

FUENTE 07Técnica

Logs incompletos, zonas ciegas en el monitoreo y umbrales de detección inadecuados generan una falsa sensación de control: el sistema no informa ausencia de incidentes, sino ausencia de detección.

FUENTE 08Algorítmica

Los modelos refuerzan los sesgos existentes mediante bucles de retroalimentación: entrenados sobre datos con subregistro de ciertos incidentes, aprenden a no anticiparlos, consolidando la distorsión como patrón normal.

SECCIÓN 05

La Ilusión Colectiva de Seguridad

Cuando múltiples fuentes de sesgo operan simultáneamente en la misma dirección, emerge un fenómeno de orden superior: la ilusión colectiva de seguridad.

Este fenómeno no es producto de una conspiración ni de una falsificación deliberada. Es el resultado emergente de decisiones individuales y organizacionales que, tomadas cada una bajo sus propias lógicas de incentivo, producen colectivamente una narrativa del riesgo sistemáticamente distorsionada.

«No se trata de una falsificación deliberada, sino de una construcción distribuida de una realidad aceptable que nadie diseñó pero todos contribuyeron a edificar.»

El efecto sobre la toma de decisiones es grave: la organización invierte donde el dato dice que está el problema, no donde el problema realmente está. Y lo hace con la confianza que otorga el respaldo de sistemas técnicamente sofisticados que, sin embargo, operan sobre una base epistemológicamente frágil.

SECCIÓN 06

Balance entre Verdad y Estabilidad

La respuesta intuitiva ante la ilusión colectiva es la transparencia total. Sin embargo, en sectores como el financiero, la divulgación descontrolada de debilidades puede desencadenar crisis reales mediante la profecía autocumplida: la percepción de vulnerabilidad provoca las condiciones que la materializan.

Esto introduce una tensión que no admite resolución binaria. La verdad no debe ocultarse, pero sí debe gestionarse. Tres principios orientan ese balance:

Separación de capas de verdad: distintos niveles de detalle y acceso para distintos públicos y propósitos, sin suprimir la realidad en ningún nivel.

Contextualización de la información: la exposición del dato acompañada del marco necesario para su correcta interpretación, evitando lecturas parciales o alarmistas.

Transparencia progresiva: revelación graduada según la madurez del receptor y la estabilidad del entorno, sin sacrificar la integridad del dato base.

SECCIÓN 07

Modelo de Gobernanza del Dato por Capas

Para operacionalizar el balance entre verdad y estabilidad, se propone un modelo de gobernanza estructurado en cuatro capas que cubre el ciclo de vida completo del dato de incidentes:

Capa	Foco	Principal exposición al sesgo	Control propuesto
Generación	Producción del dato	Sesgo humano, cognitivo y organizacional	Anonimización, cultura de reporte, incentivos al registro honesto
Resguardo	Protección e integridad	Manipulación retroactiva, acceso indebido	Inmutabilidad, trazabilidad, control de acceso por roles
Interpretación	Análisis y modelado	Amplificación de sesgos, bucles de retroalimentación	Validación adversarial, diversidad de modelos, auditoría del sesgo
Comunicación	Exposición de la información	Sobre o subdivulgación, pánico sistémico	Transparencia progresiva, contextualización, segmentación de audiencia

Este modelo reconoce que el sesgo no puede eliminarse completamente, pero sí puede contenerse, monitorearse y corregirse si se interviene en el nivel adecuado. La gobernanza por capas permite que exista una realidad íntegra —aunque no completamente visible para todos— que sirva de base para decisiones estratégicas informadas.

SECCIÓN 08

Repositorio de Incidentes con Anonimización Controlada

Una de las principales causas del subregistro es el temor a las consecuencias reputacionales, regulatorias o competitivas de documentar incidentes. Para reducir este desincentivo sin sacrificar la calidad del dato, se propone la creación de repositorios sectoriales con anonimización controlada.

El modelo de referencia es la aviación civil, donde el sistema ASRS (Aviation Safety Reporting System) permite reportar eventos de seguridad con protección de identidad, generando un conocimiento colectivo que ha contribuido significativamente a la mejora de la seguridad del sector (Billings et al., 1998). Aplicado a ciberseguridad, implicaría:

Registro completo del evento, independientemente de su gravedad o de quién sea responsable.
Protección de la identidad organizacional mediante anonimización técnica verificable.
Acceso diferenciado por niveles: datos agregados para el sector, detallados para reguladores con acuerdos de confidencialidad, completos para investigación académica bajo condiciones controladas.
Incentivos regulatorios al reporte: protección frente a sanciones para organizaciones que reporten proactivamente.

SECCIÓN 09

Validación Adversarial del Dato

El modelo de gobernanza se complementa con mecanismos de validación adversarial orientados a evaluar la fidelidad del sistema de registro, no solo la de los modelos que lo consumen. La lógica es análoga al red team en seguridad ofensiva: si se quiere saber si un sistema es robusto, se contrata a alguien para que intente vulnerarlo.

Simulación de incidentes: se introduce un evento controlado y se verifica si el sistema lo registra correctamente, con qué nivel de detalle y en qué tiempo.
Red team de procesos: equipos especializados intentan manipular el registro de un incidente —minimizándolo, reclasificándolo u omitiéndolo— para identificar los puntos de fragilidad del proceso.
Correlación con telemetría técnica: se comparan los registros documentados con datos técnicos independientes para identificar discrepancias que indiquen subregistro o manipulación.

SECCIÓN 10

El Rol del Regulador en la Calidad del Dato

El regulador es, paradójicamente, tanto una fuente de sesgo como uno de los actores con mayor capacidad para reducirlo. El modelo regulatorio actual —que sanciona la ocurrencia de incidentes significativos— produce inevitablemente comportamientos de optimización de la narrativa.

Se propone una evolución hacia un regulador de aprendizaje sistémico, caracterizado por:

Incentivar el reporte honesto mediante protección frente a sanciones para incidentes reportados proactivamente.
Sancionar el ocultamiento, no el incidente: la consecuencia regulatoria grave debe recaer sobre la falta de reporte, no sobre la vulnerabilidad en sí.
Facilitar la construcción de conocimiento sectorial compartido, actuando como custodio de datos anonimizados que benefician al ecosistema completo.
Distinguir entre fallas de seguridad y fallas de gobernanza del dato, reconociendo que el subregistro es en sí mismo un riesgo sistémico.

SECCIÓN 11

Conclusiones

El sesgo algorítmico en ciberseguridad no es un problema aislado del modelo. Es la manifestación computacional de un problema más profundo: la forma en que las organizaciones y su entorno construyen, registran y gestionan el dato sobre el riesgo.

La perspectiva epistemológica adoptada en este trabajo permite precisar la naturaleza del problema: el verdadero riesgo no es la ausencia de datos, sino la confianza en datos distorsionados que el sistema presenta como objetivos. Esta distinción cambia el foco de la intervención: de la mejora de los modelos a la mejora de la base sobre la que operan.

Las propuestas presentadas —gobernanza por capas, repositorios con anonimización controlada, validación adversarial y regulación orientada al aprendizaje— son componentes de un sistema de gestión epistemológica del riesgo que requiere cambios técnicos, organizacionales, regulatorios y culturales.

«La seguridad organizacional no depende únicamente de la tecnología, sino de la capacidad de construir una representación honesta de la realidad sobre la que esa tecnología opera.»

REFERENCIAS

Referencias

Billings, C. E., Lauber, J. K., Funkhouser, H., Lyman, E. G., & Huff, E. M. (1998). NASA Aviation Safety Reporting System. NASA Technical Memorandum.

Festinger, L. (1957). A Theory of Cognitive Dissonance. Stanford University Press.

Kahneman, D., & Tversky, A. (1974). Judgment under Uncertainty: Heuristics and Biases. Science, 185(4157), 1124–1131.

Kahneman, D. (2011). Thinking, Fast and Slow. Farrar, Straus and Giroux.

Obermeyer, Z., Powers, B., Vogeli, C., & Mullainathan, S. (2019). Dissecting racial bias in an algorithm used to manage the health of populations. Science, 366(6464), 447–453.

Passi, S., & Barocas, S. (2019). Problem Formulation and Fairness. Proceedings of the ACM Conference on Fairness, Accountability, and Transparency (FAccT).

GLOSARIO

Glosario de Términos

Los siguientes términos constituyen el marco conceptual del presente trabajo, presentados en orden temático para facilitar su comprensión progresiva.

Sesgo AlgorítmicoDistorsión sistemática en las salidas de un modelo de IA, originada no solo en el diseño del algoritmo sino en las distorsiones presentes en los datos de entrenamiento, que reflejan sesgos humanos, organizacionales y estructurales.

Epistemología del DatoPerspectiva que analiza cómo se genera, valida e interpreta el dato como fuente de conocimiento. En ciberseguridad, cuestiona si los datos de incidentes representan fielmente la realidad o una versión distorsionada de ella.

Deriva Epistemológica del RiesgoFenómeno por el cual una organización cree conocer su estado de seguridad pero opera sobre una representación distorsionada de la realidad, producto de sesgos acumulados en sus datos históricos de incidentes.

Bias In, Bias OutPrincipio que establece que cualquier sesgo presente en los datos de entrada de un modelo se traducirá —y potencialmente amplificará— en sus salidas y decisiones automatizadas.

Sesgo de OptimismoTendencia cognitiva a subestimar la probabilidad de eventos adversos propios. En ciberseguridad, se manifiesta como subregistro sistemático de incidentes.

Disonancia CognitivaEstado de incomodidad psicológica ante contradicciones entre creencias y hechos. En el contexto de incidentes, lleva a reinterpretar o minimizar eventos negativos para reducir esa tensión (Festinger, 1957).

Subregistro de IncidentesPráctica, frecuentemente no deliberada, de no documentar la totalidad de los eventos de seguridad ocurridos, por factores culturales, cognitivos, regulatorios o de reputación.

Doble Contabilidad de IncidentesPráctica de mantener un registro oficial ajustado a incentivos externos —reputación, auditoría, regulación— paralelo a una realidad interna no documentada.

Homeostasis ArtificialEstado en que una organización ajusta su narrativa de incidentes para proyectar estabilidad ante reguladores y el mercado, independientemente de su situación real de seguridad.

Ilusión Colectiva de SeguridadFenómeno sistémico en el que múltiples actores contribuyen de forma distribuida a construir una representación del riesgo más favorable que la realidad, sin que ninguno lo haya diseñado deliberadamente.

Threat IntelligenceConocimiento estructurado sobre amenazas activas, tácticas de actores maliciosos y vulnerabilidades, producido a partir de datos recopilados y compartidos entre organizaciones o por proveedores especializados.

Sesgo de Disponibilidad (en IA)Tendencia de los modelos a asignar mayor relevancia a los eventos que aparecen con mayor frecuencia en los datos de entrenamiento, independientemente de su representatividad real.

Profecía AutocumplidaMecanismo por el cual la divulgación o anticipación de una debilidad provoca las condiciones que materializan el evento temido. En ciberseguridad, la exposición descontrolada de vulnerabilidades puede desencadenar crisis reales.

Gobernanza del Dato por CapasModelo estructurado que distingue cuatro etapas en el ciclo de vida del dato —generación, resguardo, interpretación y comunicación— asignando controles diferenciados en cada nivel para equilibrar integridad y transparencia.

Capa de GeneraciónPrimera etapa del modelo de gobernanza, donde el dato es producido. Es el nivel más expuesto a sesgos humanos y organizacionales, y donde las intervenciones preventivas tienen mayor impacto potencial.

Capa de ResguardoSegunda etapa del modelo, donde el dato es protegido mediante inmutabilidad, trazabilidad y control de acceso, garantizando su integridad para usos futuros.

Capa de InterpretaciónTercera etapa del modelo, donde el dato es analizado para construir conocimiento. Es el nivel donde los modelos de IA operan y donde los sesgos del dato se traducen en decisiones.

Capa de ComunicaciónCuarta etapa del modelo, donde se gestiona qué información se expone, a quién y en qué formato, equilibrando transparencia con estabilidad organizacional y sectorial.

Anonimización ControladaTécnica que permite registrar y compartir datos de incidentes protegiendo la identidad de las organizaciones involucradas, reduciendo el miedo al reporte y mejorando la calidad del dato sectorial.

Validación Adversarial del DatoProceso de evaluación de la fidelidad de los registros de incidentes mediante simulación de eventos, red team de procesos y correlación con telemetría técnica independiente.

Red Team de ProcesosEquipo especializado que simula comportamientos adversariales sobre los procesos de registro y gobernanza del dato, para identificar debilidades en la calidad e integridad de la información.

Transparencia ProgresivaPrincipio de gestión de información según el cual la verdad no se oculta pero se dosifica según el contexto, el público y el momento, para evitar consecuencias sistémicas no deseadas.

Regulador de Aprendizaje SistémicoModelo regulatorio que prioriza incentivar el reporte honesto de incidentes y sancionar el ocultamiento —no el incidente en sí—, favoreciendo la construcción de conocimiento sectorial sobre el riesgo real.

Fenómeno SociotécnicoInteracción compleja entre factores tecnológicos y humanos/organizacionales que produce resultados que ninguno de los dos componentes podría generar de forma independiente.

Bucle de Retroalimentación AlgorítmicaMecanismo por el cual un modelo entrenado sobre datos sesgados produce decisiones que refuerzan los sesgos originales, consolidándolos progresivamente como patrones normales en futuras iteraciones.

Autor / Redactor / Director

Guido Rosales

Apasionado por la Seguridad!!

See author's posts

Tags: confianza, distorsion, docotorado, epistemologia

Sesgo Algorítmico y la Epistemología del Dato en Ciberseguridad Organizacional

Sesgo Algorítmico y la Epistemología del Dato en Ciberseguridad Organizacional

Introducción

Epistemología del Dato en Ciberseguridad

El Sesgo Algorítmico como Fenómeno Sociotécnico

Ocho Fuentes de Sesgo en el Dato de Incidentes

La Ilusión Colectiva de Seguridad

Balance entre Verdad y Estabilidad

Modelo de Gobernanza del Dato por Capas

Repositorio de Incidentes con Anonimización Controlada

Validación Adversarial del Dato

El Rol del Regulador en la Calidad del Dato

Conclusiones

Referencias

Glosario de Términos

Autor / Redactor / Director

Guido Rosales

La Capa 8 que Ningún Firewall Protege

Blockchain: Entre la certeza criptografica y la fragilidad de la verdad

CARBANAK: De un problema Tecnico, a un tema de Negocio

La Capa 8 que Ningún Firewall Protege