Técnico

Cómo funcionan los detectores de IA: perplejidad y burstiness

Tomás Salcedo
Ingeniero de benchmarking · 2026-06-06 · 10 min

Los detectores de IA no buscan frases específicas ni plagios. Tampoco comparan el texto contra una base de datos de documentos existentes. Lo que hacen es analizar propiedades matematicas y estadísticas del texto que son difíciles de imitar conscientemente y relativamente fáciles de medir con algoritmos. Las dos métricas fundamentales que utilizan prácticamente todos los detectores del mercado son la perplejidad y el burstiness, conceptos que provienen de la teoria de la información y la lingüística computacional.

Comprender cómo funcionan estas métricas no solo es útil desde una perspectiva técnica. También permite entender por qué los detectores cometen errores, por qué algunos tipos de texto son más propensos a falsos positivos, y qué limitaciones inherentes tiene la tecnología actual de detección. Esta guía explica cada métrica con ejemplos prácticos en español.

Perplejidad: la predictibilidad estadística de las palabras

La perplejidad es una medida de qué tan "sorprendente" es cada palabra en su contexto estadístico. Para entender intuitivamente este concepto, pensemos en una oración incompleta: "El estudiante entregó su trabajo antes de la fecha de..." La mayoría de lectores completarían esta frase con "entrega" o "vencimiento". Una IA haría exactamente lo mismo, eligiendo casi siempre la palabra más probable según su modelo de lenguaje.

Cuando GPT-4o escribe, selecciona consistentemente las palabras con mayor probabilidad según su distribución interna. Esto produce texto con perplejidad baja (cada palabra es predecible dado el contexto anterior) y muy uniforme (la predictibilidad se mantiene constante a lo largo del texto). Los humanos, en cambio, hacemos elecciones léxicas más inesperadas: usamos sinónimos poco comunes, inventamos expresiones coloquiales, variamos nuestro vocabulario de formas que ningún modelo estadístico puede predecir con precisión, y cometemos errores ocasionales que los modelos de lenguaje rara vez producen.

Los detectores como Originality.ai y GPTZero calculan la perplejidad por segmentos de texto (típicamente ventanas de 200 a 300 palabras) y comparan los valores obtenidos con distribuciones conocidas de texto humano frente a texto de IA. Si la perplejidad del segmento cae consistentemente dentro del rango asociado a modelos de lenguaje (generalmente entre 15 y 35 en la escala estándar), la herramienta asigna mayor probabilidad de origen artificial.

Burstiness: la variación entre oraciones

El burstiness (en español, "rafagueo" o "variabilidad") mide la varianza en longitud y complejidad entre oraciones consecutivas. Un humano puede escribir una oración de 5 palabras ("Nadie lo esperaba") seguida de un párrafo de 4 líneas que desarrolle una idea compleja con múltiples cláusulas subordinadas. Los modelos de IA tienden a producir oraciones de complejidad y longitud muy similares entre sí, creando un ritmo monótono que, aunque puede no ser perceptible para un lector casual, es estadísticamente detectable.

El cálculo del burstiness implica medir la desviación estándar de la longitud de las oraciones dentro de un texto. Valores bajos de burstiness indican oraciones uniformes (típico de IA), mientras que valores altos indican variación natural (típico de humanos). GPTZero, por ejemplo, utiliza un umbral de burstiness combinado con perplejidad para producir su clasificación, y muestra el resultado de ambas métricas en su interfaz de análisis.

Un aspecto importante del burstiness es que no se limita a la longitud de las oraciones. También se mide la variación en complejidad sintáctica (número de cláusulas subordinadas), la variedad léxica (diversidad de vocabulario dentro de segmentos consecutivos) y la alternancia entre registros formales e informales que es característica de la escritura humana natural.

El problema específico del español

El español académico formal tiene perplejidad naturalmente baja comparado con el inglés. Las estructuras subordinadas complejas, el vocabulario abstracto y los conectores formales ("es importante señalar que", "cabe destacar", "en este sentido") producen patrones léxicos que se superponen significativamente con los del texto generado por IA. Por esta razón, los detectores tienen tasas de falsos positivos más altas en español (entre 7% y 17% según nuestro benchmark) que en inglés (entre 3% y 8% según estudios comparables).

Además, los modelos de lenguaje actuales fueron entrenados predominantemente con texto en inglés. Cuando generan texto en español, producen una versión del idioma que es estadísticamente "correcta" pero que carece de las idiosincrasias regionales y estilemas personales que caracterizan la escritura humana en español latinoamericano. Irónicamente, un nativo que escribe español muy formal puede producir texto que se parece más al de una IA que al de un hablante promedio.

Otros factores que analizan los detectores

Además de perplejidad y burstiness, los detectores modernos utilizan una combinación de señales adicionales para refinar su clasificación:

Frecuencia de n-gramas: secuencias de 2, 3 o 4 palabras consecutivas que aparecen con frecuencia inusualmente alta en texto de IA pero no en texto humano. Por ejemplo, la triada "es importante destacar" aparece con una frecuencia 4.7 veces mayor en texto de GPT-4o que en ensayos humanos equivalentes.
Entropia de Shannon: la cantidad de información por palabra, que tiende a ser más baja y uniforme en texto de IA. La entropía mide la incertidumbre promedio de cada simbolo en un mensaje; cuánto menor es la entropía, más predecible es el texto.
Distribución de conectores discursivos: los modelos de IA sobreusan ciertos conectores como "asimismo", "en este contexto", "es fundamental", "cabe señalar" y "resulta relevante". Un análisis estadístico de la frecuencia relativa de estos conectores puede indicar origen artificial.
Patrones de puntuación: la distribución de comas, puntos y puntos y coma difiere entre texto humano y texto de IA. Los modelos tienden a usar estructuras de puntuación más regulares y predecibles.
Análisis de vocabulario: la riqueza léxica (medida como la razón type-token, es decir, el número de palabras únicas dividido por el número total de palabras) suele ser menor en texto de IA, que tiende a reutilizar las mismas palabras con mayor frecuencia.

El proceso de clasificación paso a paso

Cuando pegas un texto en un detector, el proceso típico incluye varias etapas. Primero, el texto se divide en segmentos o ventanas (generalmente de 200 a 300 palabras). Para cada segmento, se calculan las métricas mencionadas: perplejidad por palabra, burstiness entre oraciones, frecuencia de n-gramas sospechosos y entropía de Shannon. Estos valores se comparan con distribuciones de referencia calibradas a partir de miles de muestras de texto humano y texto de IA en el idioma correspondiente.

Luego, un clasificador (típicamente una red neuronal o un modelo de regresión logística) combina todas estas señales para producir una probabilidad final de origen artificial. Los umbrales de decisión varían entre herramientas: algunos detectores consideran "IA" a partir del 50% de probabilidad, mientras que otros usan umbrales más conservadores del 65% o 70% para reducir falsos positivos. Nuestro detector gratuito utiliza un umbral del 70% para clasificar texto como "probablemente IA" y del 40% como umbral inferior para "resultado incierto".

Watermarking: el futuro de la detección

Una alternativa a la detección estadística tradicional es el watermarking o marca de agua digital. Esta técnica consiste en que el propio modelo de IA inserte patrones imperceptibles para el lector humano pero detectables algorítmicamente en el texto que genera. OpenAI, Google y Meta han investigado activamente esta tecnología, y algunos modelos ya implementan versiones experimentales de watermarking que permiten verificar el origen del texto con precisión cercana al 99% y tasas de falsos positivos inferiores al 1%.

El desafío del watermarking es que requiere la cooperación de los proveedores de modelos de IA, y el texto con marca de agua puede perder su señal si es editado sustancialmente, parafraseado o traducido entre idiomas. Además, los modelos de código abierto como Llama no implementan watermarking, lo que significa que esta tecnología no puede ser una solución universal. Por ahora, la detección estadística sigue siendo la herramienta principal disponible, con todas las limitaciones que hemos descrito. Los detectores como los que evaluamos en nuestro benchmark seguirán siendo relevantes hasta que el watermarking alcance adopción masiva.

Calibración regional y dialectal

Un aspecto poco discutido de la detección de IA es la variación regional dentro del propio español. Los detectores actuales tratan al español como un idioma monolítico, pero las diferencias entre el español de México, Colombia, Argentina y Chile son significativas en términos de vocabulario, estructuras sintácticas preferidas y expresiones idiomáticas. En nuestras pruebas, el texto escrito por argentinos mostró una tasa de falsos positivos ligeramente superior al promedio (12% vs 11.5%), posiblemente por el uso frecuente del "voseo" y estructuras gramaticales que difieren del español estándar que los modelos de IA producen.

Los escritores bilingües también enfrentan un riesgo elevado de falsos positivos. Cuando una persona alterna regularmente entre inglés y español, su escritura en español puede adoptar patrones sintácticos del inglés (oraciones más cortas, uso más frecuente de voz pasiva, estructuras de sujeto-verbo-objeto más rígidas) que coinciden con los patrones estadísticos del texto generado por IA. Esta intersección entre bilingüismo y detección automática es un área que necesita más investigación y calibración específica.

Limitaciones fundamentales de la detección

Ningún detector es perfecto ni podrá serlo con la tecnología actual. Todos los métodos existentes son probabilísticos: calculan una probabilidad estimada, no una certeza matemática. Un texto puede ser genuinamente humano y tener baja perplejidad (un académico escribiendo en su área de especialización utilizará vocabulario técnico altamente predecible). O puede ser de IA y tener alta perplejidad (si se usa un parámetro de temperature alto en la generación o prompts muy específicos que fuerzan vocabulario inusual).

Además, la carrera armamentista entre modelos generativos y detectores es constante. Cada nueva versión de GPT, Claude o Gemini produce texto más natural y difícil de detectar. Las herramientas de parafraseo y "humanización" de texto de IA también complican la detección al modificar artificialmente las métricas de perplejidad y burstiness. La detección de IA es una herramienta de apoyo, no un veredicto definitivo, y debe tratarse como tal en contextos académicos y profesionales. Para más información sobre las consecuencias prácticas de estas limitaciones, consulta nuestro análisis de falsos positivos en español.

Tomás Salcedo
Tomás diseña y ejecuta las pruebas comparativas de detectores de IA. Metodología con 2.400 muestras por herramienta evaluada.

¿Quieres saber si tu texto parece escrito por IA?

Analiza tu texto ahora