Datos de precisión
Metodología completa y resultados del benchmark independiente.
Resultados generales
| # | Herramienta | Precisión | Falso pos. | Falso neg. | Latencia | Precio | Punt. |
|---|---|---|---|---|---|---|---|
| #1 | Originality.aioriginality.ai | 7% | 11% | 420ms | De pago | 4.6/5 | |
| #2 | GPTZerogptzero.me | 10% | 15% | 380ms | Freemium | 4.1/5 | |
| #3 | Copyleakscopyleaks.com | 12% | 22% | 510ms | Freemium | 3.7/5 | |
| #4 | Sapling AIsapling.ai | 17% | 24% | 610ms | Freemium | 3.2/5 | |
| #5 | Writer.comwriter.com | 8% | 18% | 290ms | De pago | 3.9/5 | |
| #6 | Hive Moderationthehive.ai | 9% | 12% | 340ms | De pago | 4.2/5 | |
| #7 | ZeroGPTzerogpt.com | 17% | 12% | 650ms | Gratis | 2.8/5 | |
| #8 | Smodinsmodin.io | 14% | 9% | 520ms | Freemium | 3.2/5 | |
| #9 | JustDonejustdone.ai | 10% | 11% | 480ms | De pago | 3.5/5 |
Metodología
Corpus
Textos humanos (1.200): 240 muestras por categoría, ensayos académicos, periodismo, marketing, documentación técnica, escritura creativa. Verificados como anteriores a 2022.
Textos de IA (1.200): 300 por modelo, Claude 3.5 Sonnet, GPT-4o, Gemini 1.5 Pro, Llama 3.1 70B. Sin instrucciones para evadir detección.
Métricas
Precisión general = (VP + VN) / 2.400. FPR = FP / 1.200 muestras humanas. FNR = FN / 1.200 muestras de IA. Latencia = mediana de 100 llamadas.
Por categoría
Académica: GPTZero mejor rendimiento; mayor FPR en STEM. Periodismo: más fácil, media 86%. Marketing: más difícil, media 79%. Técnica: mayor FPR; Sapling marcó 31% de documentación humana como IA.
Tasas de evasión
En una fase separada del benchmark, probamos 14 herramientas humanizadoras contra los 6 detectores. Las tasas de evasión varían del 23% al 91% según la combinación detector-humanizador. Originality.ai fue el detector más resistente: su precisión cayó de 91% a 67% con texto humanizado, la menor caída del grupo. Sapling AI fue el más vulnerable: de 76% a 31%.
Las herramientas humanizadoras más efectivas contra Originality.ai fueron Undetectable.ai (34% de evasión) y Quillbot Pro (41%). Contra GPTZero, el mismo texto humanizado logró 67% de evasión. La varianza sugiere que los detectores están optimizados para corpus y estrategias de evasión distintas.
Reproducibilidad
El corpus de prueba está documentado con sus hashes SHA-256 para verificación. Las cifras pueden variar ±3% entre ejecuciones debido a la temperatura de los modelos. Todos los promedios son mediana de 3 ejecuciones independientes.
Independencia
Sin afiliados ni patrocinios. Acceso a APIs pagado a tarifas estándar. Proveedores no notificados.
Preguntas frecuentes
¿Qué diferencia hay entre precisión global y tasa de falsos positivos?
La precisión global mide el porcentaje total de clasificaciones correctas (tanto texto humano como IA). La tasa de falsos positivos mide específicamente cuántos textos humanos fueron marcados incorrectamente como IA. Un detector puede tener alta precisión global pero un FPR inaceptable si es muy agresivo al clasificar.
¿Cómo afecta el idioma a la precisión de los detectores?
La mayoría de detectores fueron entrenados predominantemente con texto en inglés. En español, la precisión puede caer entre 3 y 8 puntos porcentuales según el detector. Las variantes regionales del español latinoamericano y los textos bilingües presentan desafíos adicionales que los benchmarks en inglés no capturan.
¿Pueden los detectores distinguir entre GPT-4 y GPT-3.5?
Algunos detectores avanzados como Originality.ai intentan identificar el modelo específico, pero la precisión de esta clasificación es significativamente menor que la detección binaria humano/IA. GPT-4o produce texto más variado que GPT-3.5, lo que paradójicamente puede hacerlo ligeramente más difícil de detectar.
¿Por qué un texto humano puede marcarse como generado por IA?
Ocurre cuando el texto humano tiene características estadísticas similares a las del texto de IA: baja variación léxica, estructura muy uniforme o vocabulario predecible. Los grupos más afectados son los hablantes no nativos del español, los escritores de textos técnicos y los estudiantes con un estilo muy formal y cuidado.