Saltar al contenido
detector de ia
Vol. I  •  Benchmark Independiente  •  Sin Afiliados  •  detectordeia.lat
Tecnico

Como funcionan los detectores de IA: perplejidad y burstiness

Tomas Salcedo
Ingeniero de benchmarking | 2026-06-06 | 10 min
DOS METRICAS CLAVEPerplejidadQue tan predecible es cada palabraIA: baja, uniformeHumano: alta, variableLos modelos eligen siempre la palabra mas probable.Los humanos somos impredecibles.BurstinessVariacion en complejidad entre oracionesIA: oraciones igualesHumano: variadasLa IA produce complejidad uniforme.Los humanos mezclan cortas con largas.

Los detectores de IA no buscan frases especificas ni plagios. Analizan propiedades matematicas del texto que son dificiles de imitar y faciles de medir. Las dos metricas fundamentales son la perplejidad y el burstiness.

Perplejidad: la predictibilidad de las palabras

La perplejidad mide que tan "sorprendente" es cada palabra en su contexto estadistico. Cuando GPT-4o escribe, elige casi siempre la palabra mas probable segun su modelo de lenguaje. Esto produce texto con perplejidad baja y muy uniforme. Los humanos, en cambio, hacemos elecciones lexicas mas inesperadas: usamos sinonimos poco comunes, inventamos expresiones, y variamos nuestro vocabulario de formas que los modelos no predicen.

Los detectores como Turnitin y GPTZero calculan la perplejidad por segmentos de texto (tipicamente 200-300 palabras) y comparan con distribuciones conocidas de texto humano vs texto de IA.

Burstiness: la variacion entre oraciones

El burstiness mide la varianza en longitud y complejidad entre oraciones consecutivas. Un humano puede escribir una oracion de 5 palabras seguida de un parrafo de 4 lineas. Los modelos de IA tienden a producir oraciones de complejidad y longitud similares, creando un ritmo monotono que es estadisticamente detectable.

Por que el espanol es especial

El espanol academico formal tiene perplejidad naturalmente baja comparado con el ingles. Las estructuras subordinadas complejas, el vocabulario abstracto y los conectores formales ("es importante senalar", "cabe destacar") producen patrones que se superponen con los del texto de IA. Por esto, los detectores tienen tasas de falsos positivos mas altas en espanol (7-17%) que en ingles (3-8%).

Que otros factores analizan los detectores

  • Frecuencia de n-gramas: secuencias de 2-4 palabras que aparecen con frecuencia inusual en texto de IA pero no en texto humano.
  • Entropia de Shannon: la cantidad de informacion por palabra, que tiende a ser mas baja y uniforme en texto de IA.
  • Distribucion de conectores: los modelos de IA sobreusan ciertos conectores discursivos ("asimismo", "en este contexto", "es fundamental").

Limitaciones de la deteccion

Ningun detector es perfecto. Todos los metodos actuales son probabilisticos: calculan una probabilidad, no una certeza. Un texto puede ser genuinamente humano y tener baja perplejidad (un academico escribiendo en su area de expertise). O puede ser de IA y tener alta perplejidad (usando temperature alta o prompts muy especificos). La deteccion es una herramienta, no un veredicto.

Tomas Salcedo
Tomas disena y ejecuta las pruebas comparativas de detectores de IA. Metodologia con 2.400 muestras por herramienta evaluada.