Desviación Cognitiva en Sistemas Data-Driven | Guido E. Rosales Uriona

Documento de Trabajo · 2026

Desviación Cognitiva en Sistemas Data-Driven:

De Data Poisoning a la Amplificación Social de la Realidad

Guido E. Rosales Uriona Línea: Transformación Digital y nuevos Modelos de Negocio

Resumen

En los sistemas basados en datos, la integridad de la información ha sido abordada principalmente desde la perspectiva de ataques directos como el data poisoning. Sin embargo, este enfoque resulta insuficiente frente a dinámicas emergentes donde la distorsión no proviene únicamente de la manipulación directa del dato, sino de procesos sociales de amplificación, dominancia y retroalimentación cognitiva. Este trabajo propone una ampliación conceptual que integra el data poisoning, los sesgos cognitivos en datasets y el fenómeno de amplificación social, estableciendo un modelo de desviación cognitiva en múltiples niveles. Se argumenta que los sistemas de inteligencia artificial no solo pueden ser comprometidos, sino también «coherentemente sesgados» por la estructura del ecosistema informacional. Finalmente, se plantea la necesidad de desarrollar capacidades de discernimiento sobre la veracidad y representatividad de los datos como un nuevo objetivo estratégico en ciberseguridad.

Contenido

01 Introducción
02 Del Data Poisoning al Sesgo Sistémico
03 Sesgos Cognitivos en Datasets
04 Amplificación Social y Economía de la Atención
05 Modelo de Desviación Cognitiva en Cinco Niveles
06 Ciclo de Retroalimentación y Estabilización
07 Implicaciones para la Ciberseguridad
08 Conclusiones
— Referencias
— Glosario de Términos

SECCIÓN 01

Introducción

La evolución de los sistemas de inteligencia artificial ha desplazado el foco de atención desde la protección de infraestructuras hacia la protección del conocimiento. En este contexto, el data poisoning ha sido ampliamente estudiado como un vector de ataque que compromete la integridad del aprendizaje automático.

No obstante, este enfoque resulta limitado al asumir que toda distorsión es necesariamente maliciosa y puntual. En los entornos digitales actuales —caracterizados por redes sociales, economías de atención y alta concentración de plataformas— la información es sometida a procesos de amplificación que alteran su representatividad de forma orgánica y continua.

«Los sistemas pueden aprender correctamente desde el punto de vista técnico, pero sobre una versión de la realidad previamente inclinada.»

La pregunta no es solo si el modelo fue atacado, sino sobre qué versión de la realidad fue entrenado. Esta distinción es el punto de partida del presente trabajo.

SECCIÓN 02

Del Data Poisoning al Sesgo Sistémico

El data poisoning puede entenderse como la alteración intencional de los datos de entrenamiento de un modelo. Sin embargo, este fenómeno representa solo un subconjunto de un problema más amplio: la distorsión sistemática del dato como representación de la realidad.

Esta distorsión puede originarse en múltiples factores, no necesariamente maliciosos:

Coordinación de actores (ataques tipo enjambre o Sybil)
Dominancia de fuentes de información con alta visibilidad
Sesgos culturales o geopolíticos en la producción de contenido
Procesos de curación o selección de datos con criterios parciales

Desde una perspectiva epistemológica, el dataset deja de ser un reflejo neutral de la realidad y pasa a ser una construcción contextualizada, cargada de supuestos implícitos sobre qué información merece existir y con qué peso.

SECCIÓN 03

Sesgos Cognitivos en Datasets

Los datasets pueden incorporar sesgos análogos a los sesgos cognitivos humanos. Entre los más relevantes para el análisis de sistemas de IA:

Sesgo de disponibilidad: mayor frecuencia de aparición implica mayor percepción de veracidad por parte del modelo.
Sesgo de confirmación: la selección de datos tiende a alinearse con hipótesis o categorías previamente definidas.
Sesgo de representatividad: se asume que una muestra limitada refleja adecuadamente la totalidad de un fenómeno.

Estos sesgos no son necesariamente maliciosos, pero generan una inclinación estructural en la forma en que los sistemas aprenden y generalizan. El resultado es un modelo que opera con alta coherencia interna, pero sobre una base de realidad distorsionada.

SECCIÓN 04

Amplificación Social y Economía de la Atención

Las redes sociales y plataformas digitales actúan como mecanismos de amplificación de contenido. Bajo la lógica de la economía de la atención (Simon, 1971), lo que se vuelve visible no es necesariamente lo más verdadero, sino lo más consumido.

Se introduce aquí el concepto de Sesgo de Amplificación Social: el proceso mediante el cual ciertos contenidos adquieren mayor peso relativo dentro de un ecosistema informacional debido a su visibilidad, generando una representación desbalanceada de la realidad que posteriormente ingresa a los datasets de entrenamiento.

Este fenómeno puede estar influenciado por capacidades económicas, tecnológicas o estratégicas de ciertos actores, configurando lo que podríamos denominar plutocracia digital: quien tiene más recursos para amplificar su narrativa, tiene mayor influencia sobre lo que los sistemas aprenden como «normal».

SECCIÓN 05

Modelo de Desviación Cognitiva en Cinco Niveles

Se propone un modelo estructurado en cinco niveles que describe cómo la información se distorsiona desde su origen social hasta la toma de decisiones institucional:

Nivel	Nombre	Descripción
Nivel 0	Influencia social previa	Narrativas amplificadas y tendencias virales condicionan la información disponible antes de cualquier recolección de datos.
Nivel 1	Desviación en el dato	El dataset incorpora desequilibrios que reflejan la realidad amplificada, no la realidad distribuida.
Nivel 2	Desviación en el modelo	El sistema aprende patrones inclinados sin que exista un error técnico detectable.
Nivel 3	Desviación en la interpretación	El usuario o analista asume objetividad en la salida del modelo, sin cuestionar su base.
Nivel 4	Desviación en la decisión	Las decisiones resultantes institucionalizan y refuerzan la narrativa dominante.

SECCIÓN 06

Ciclo de Retroalimentación y Estabilización

La interacción entre manipulación de datos y amplificación de visibilidad genera un ciclo de retroalimentación positiva (Forrester, 1961) que puede describirse en cinco fases:

FASE 01

Introducción

Un sesgo o narrativa ingresa al ecosistema informacional

FASE 02

Amplificación

Las plataformas aumentan su visibilidad por métricas de engagement

FASE 03

Normalización

El contenido se acepta por su mera repetición (Mere Exposure Effect)

FASE 04

Incorporación

El sesgo ingresa a los datasets de entrenamiento como dato válido

FASE 05

Retroalimentación

Los modelos producen salidas que refuerzan la narrativa, cerrando el ciclo

«El mayor riesgo no es la inestabilidad del sistema, sino su estabilización sobre una base sesgada: un atractor cognitivo difícil de revertir.»

SECCIÓN 07

Implicaciones para la Ciberseguridad

El enfoque tradicional de la ciberseguridad, centrado en la protección de sistemas y la detección de ataques técnicos, resulta insuficiente frente a las formas de distorsión descritas. Se propone ampliar el objetivo hacia la protección de la integridad del conocimiento.

Esto implica incorporar nuevas capacidades y prácticas:

Validación activa de fuentes y diversidad de datos en los pipelines de entrenamiento
Análisis de dominancia y representatividad antes de que un dataset sea utilizado
Monitoreo de patrones de amplificación en el ecosistema informacional
Desarrollo de capacidades de discernimiento de veracidad como competencia organizacional
Trazabilidad de datos (data lineage) como requisito de gobernanza, no solo de auditoría

La ciberseguridad evoluciona hacia una disciplina que no solo protege sistemas, sino también percepciones. La amenaza ya no es únicamente el dato corrompido, sino el dato coherente con una realidad fabricada.

SECCIÓN 08

Conclusiones

Los sistemas de inteligencia artificial no solo pueden ser vulnerables a ataques directos sobre sus datos, sino también a dinámicas estructurales del ecosistema informacional que inclinan la realidad que aprenden. En este contexto, el mayor riesgo no es el error técnico, sino la coherencia sobre una base sesgada.

Este trabajo propone un modelo de desviación cognitiva en cinco niveles que permite identificar puntos de intervención a lo largo del ciclo de vida de los datos, desde la producción de contenido hasta la toma de decisiones institucional.

Se plantea la necesidad de desarrollar modelos y metodologías interdisciplinarias que integren ciberseguridad, ciencia de datos y epistemología. La protección de la verdad —entendida como un constructo dinámico y contextual— se convierte en un nuevo desafío estratégico para los sistemas digitales contemporáneos.

REFERENCIAS

Referencias

Forrester, J. W. (1961). Industrial Dynamics. MIT Press.

Simon, H. A. (1971). Designing Organizations for an Information-Rich World. En M. Greenberger (Ed.), Computers, Communication, and the Public Interest. Johns Hopkins Press.

GLOSARIO

Glosario de Términos

Los siguientes términos constituyen el marco conceptual del presente trabajo. Los términos marcados con NUEVO corresponden a conceptos propuestos o ampliados en esta version de documento.

Data PoisoningManipulación intencional de los datos de entrenamiento de un modelo de IA con el objetivo de alterar su comportamiento o degradar su desempeño.

Data Poisoning DistribuidoVariante donde múltiples actores contribuyen de forma coordinada o acumulativa a la contaminación del dataset.

Ataque de EnjambreMúltiples entradas o actores que, sin ser individualmente significativos, generan un impacto colectivo relevante sobre un sistema de aprendizaje o percepción.

Ataque CognitivoAtaque que busca influir en la percepción, interpretación o toma de decisiones mediante manipulación de información, sin comprometer sistemas técnicos directamente.

Sesgo CognitivoPatrón sistemático de desviación en el procesamiento de información; en este contexto, se extiende al comportamiento de datasets y modelos.

Sesgo de DisponibilidadTendencia a considerar más relevantes o verdaderos aquellos datos que aparecen con mayor frecuencia o visibilidad.

Sesgo de ConfirmaciónTendencia a favorecer información que valida creencias o hipótesis previas, tanto en humanos como en procesos de selección de datos.

Sesgo de RepresentatividadError al asumir que una muestra limitada refleja adecuadamente la totalidad de un fenómeno.

Sesgo de Amplificación Social NUEVOProceso por el cual ciertos contenidos adquieren mayor peso relativo en un ecosistema informacional debido a su viralización, generando una representación desbalanceada de la realidad que ingresa a los datasets de entrenamiento.

Sesgo de Autoridad Algorítmica NUEVOTendencia a aceptar como válidos los resultados producidos por sistemas automatizados sin cuestionar la calidad o representatividad de los datos que los originaron.

Economía de la AtenciónModelo en el cual la atención humana es un recurso limitado y valioso, y los sistemas priorizan la visibilidad de contenidos según su capacidad de captarla (Simon, 1971).

Agenda SettingTeoría que plantea que los medios y plataformas influyen en sobre qué temas pensar, aunque no dictan qué pensar.

Mere Exposure EffectFenómeno psicológico donde la repetición de un estímulo aumenta su aceptación o percepción de veracidad.

DatasetConjunto de datos utilizado para entrenar, validar o probar modelos de IA. No es neutral; refleja decisiones de selección y contexto.

Representatividad del DatasetGrado en que un conjunto de datos refleja adecuadamente la diversidad y características del fenómeno que pretende modelar.

Dominancia de DatosSituación en la que ciertos patrones, fuentes o tipos de información tienen un peso desproporcionado dentro de un dataset.

Desviación del DatoAlteración o inclinación en los datos respecto a una representación equilibrada o esperada de la realidad.

Desviación del ModeloConsecuencia de la desviación del dato; el modelo aprende patrones incorrectos o incompletos sin error técnico detectable.

Desviación Cognitiva SistémicaFenómeno en el que múltiples niveles —datos, modelos, interpretación y decisiones— presentan inclinaciones coherentes que distorsionan la percepción de la realidad.

Modelo de Desviación Cognitiva NUEVOMarco conceptual propuesto que describe cómo la información se distorsiona a través de cinco niveles: influencia social, datos, modelo, interpretación y decisión.

Retroalimentación (Feedback Loop)Proceso en el cual las salidas de un sistema influyen en sus entradas futuras, reforzando patrones existentes.

Retroalimentación PositivaTipo de feedback que amplifica cambios o desviaciones en un sistema, pudiendo llevar a estados dominantes o estables (Forrester, 1961).

Atractor (Sistemas Dinámicos)Estado hacia el cual un sistema tiende a evolucionar y estabilizarse, incluso frente a perturbaciones menores.

Normalización de NarrativaProceso mediante el cual una idea o interpretación se vuelve comúnmente aceptada debido a su repetición y visibilidad.

Coherencia SesgadaSituación en la que un sistema produce resultados consistentes, pero basados en una realidad previamente inclinada o incompleta.

Discernimiento de VeracidadCapacidad de analizar, contrastar y evaluar la calidad, origen y representatividad de los datos para determinar su confiabilidad.

Integridad del ConocimientoExtensión del concepto de integridad en ciberseguridad, aplicada a la calidad y fidelidad de la información utilizada para generar conocimiento.

Plutocracia DigitalEscenario en el cual actores con mayor poder económico o tecnológico influyen de forma desproporcionada en la visibilidad, distribución y validación de la información.

Ecosistema InformacionalConjunto de fuentes, plataformas, usuarios y procesos que generan, distribuyen y consumen información.

Curación de DatosProceso de selección, limpieza y organización de datos previo a su uso en sistemas de análisis o aprendizaje.

Data LineageCapacidad de rastrear el origen, transformación y uso de los datos a lo largo de su ciclo de vida.

Sybil AttackAtaque donde una sola entidad crea múltiples identidades falsas para influir en un sistema. El nombre alude a un caso clínico de trastorno de identidad múltiple.

Punto de Inflexión Cognitiva NUEVOMomento en un sistema dinámico donde la desviación acumulada supera un umbral y se vuelve autosostenida, dificultando su reversión sin intervención externa deliberada.

Autor / Redactor / Director

Guido Rosales

Apasionado por la Seguridad!!

See author's posts

Desviación Cognitiva en Sistemas Data-Driven

Desviación Cognitiva en Sistemas Data-Driven:

Introducción

Del Data Poisoning al Sesgo Sistémico

Sesgos Cognitivos en Datasets

Amplificación Social y Economía de la Atención

Modelo de Desviación Cognitiva en Cinco Niveles

Ciclo de Retroalimentación y Estabilización

Implicaciones para la Ciberseguridad

Conclusiones

Referencias

Glosario de Términos

Autor / Redactor / Director

Guido Rosales

Teoria de juegos (J. Nash): Cuando todos pierden jugando solos

Ingeniería Social en redes: cómo detectar perfiles falsos, estafas en conciertos y manipuladores digitales

Riesgo emergente en ecosistemas fintech

Introducción

Del Data Poisoning al Sesgo Sistémico

Sesgos Cognitivos en Datasets

Amplificación Social y Economía de la Atención

Modelo de Desviación Cognitiva en Cinco Niveles

Ciclo de Retroalimentación y Estabilización

Implicaciones para la Ciberseguridad

Conclusiones

Referencias

Glosario de Términos

Autor / Redactor / Director

Guido Rosales

Más historias

Teoria de juegos (J. Nash): Cuando todos pierden jugando solos

Ingeniería Social en redes: cómo detectar perfiles falsos, estafas en conciertos y manipuladores digitales

Riesgo emergente en ecosistemas fintech