Probando el nuevo clasificador de textos de OpenAI para identificar contenidos escritos con IA

OpenAI anunció y ha lanzado un clasificadoor entrenado para distinguir entre texto escrito por IA y texto escrito por humanos.

Cada documento presentado se clasifica en una de cinco clases:
1️⃣ Muy improbable generado por IA
2️⃣ Improbable generado por IA
3️⃣ No está claro si está generado por IA
4️⃣ Posiblemente generado por IA
5️⃣ Probablemente generado por IA

OpenAI ha entrenado un clasificador para diferenciar entre texto escrito por humanos y por IA basándose en un modelo GPT ajustado. El modelo puede predecir la probabilidad de que una porción de texto haya sido generada por IA o no, y a partir de una variedad de fuentes, incluyendo ChatGPT.

Utilicé AI21Labs, Cohere, text-davinci-003, ChatGPT y otras fuentes para generar texto sobre un tema arbitrario y ambiguo como «puntualidad» para probar el clasificador.

En la tabla siguiente se muestra un resumen de los resultados, con la fuente del texto a la izquierda y la precisión del clasificador a la derecha. Los detalles de los resultados se discuten en el artículo…

OpenAI afirma claramente lo siguiente:

Nuestro clasificador no es totalmente fiable.

En nuestras evaluaciones sobre un «conjunto de desafíos» de textos en inglés, nuestro clasificador identifica correctamente el 26% de los textos escritos por IA (verdaderos positivos) como «probablemente escritos por IA».

Mientras que en el 9% de los casos (falsos positivos), el texto escrito por humanos se considera escrito por inteligencia artificial.

La fiabilidad de nuestro clasificador suele mejorar a medida que aumenta la longitud del texto de entrada.

En comparación con nuestro clasificador anterior, este nuevo clasificador es significativamente más fiable con textos de sistemas de IA más recientes.

Tabla de contenidos

Texto generado a través de Cohere LLM

En la imagen de abajo se ve el texto generado en el sistema Cohere… el prompt diseñado está indicado por la flecha roja. En otras palabras, la instrucción dada al LLM; la entrada.

Y debajo, marcado como salida, se ve el texto generado por Cohere:

A continuación, el texto generado por Cohere se copia en el clasificador de texto de IA de OpenAI. El resultado del clasificador es que el texto debe considerarse probablemente generado por IA. Por tanto, correcto y de plena confianza.

Texto generado a través de AI21Labs

El mismo comando de generación se emitió en AI21Labs… pidiendo al LLM de AI21Labs que generara un texto sobre la importancia de la puntualidad.

A continuación, el texto generado por AI21Labs se somete al clasificador de textos de IA de OpenAI, con la respuesta deseada. El resultado del clasificador es que el texto debe considerarse probablemente generado por IA. Por tanto, correcto con total confianza.

*Los textos generados en el AI21Labs Playground se envían aquí al clasificador de textos de IA de OpenAI.*

ChatGPT

A continuación se muestra el contexto generado por ChatGPT… y es calificado como posible por el clasificador. Por lo tanto, se ve un paso más cerca de texto generado por humanos en comparación con Cohere y AI21Labs.

Habría esperado que el clasificador dijera «generado por IA» con total confianza.

Modelo OpenAI text-davinci-003

También envié un texto de 500 palabras generado por text-davinci-003 sobre el tema de la puntualidad y recibí la misma respuesta de ChatGPT: Posiblemente generado por IA.

Supuse que el clasificador sería capaz de detectar claramente el texto generado en text-davinci-003 o ChatGPT.

Un ensayo de la Web

He copiado un fragmento de un ensayo en línea, y el resultado del clasificador es ambicioso hasta cierto punto, pero bastante preciso.

Mi propio escrito

A continuación se muestra un artículo original que escribí sobre el mismo tema, que fue marcado por OpenAI como posiblemente generado por IA. Yo esperaría un resultado de «Poco claro si es generado por IA»

Pero me apresuro a añadir que la pieza es corta, y como he dicho antes, la pieza es ambigua sin mucho texto definitivo.

Wikipedia

Teniendo en cuenta que el clasificador de texto de IA se entrenó en Wikipedia, copié un fragmento de Wikipedia sobre la Primera Guerra Mundial y le pedí al clasificador que investigara el contenido. Aquí obtuve la respuesta correcta, y también la clasificación más alta de muy improbable.

¿Puede ChatGPT detectar el origen de los textos?

La respuesta corta es… sí.
Los resultados son definitivos, y en mis pocos intentos, muy precisos:

Y la respuesta sobre mi propio escrito también es correcta.

Ten en cuenta

Aparte de las cuestiones de precisión expuestas al principio de este artículo, existen otras limitaciones…

⏺ El texto y el tema que he utilizado como premisa para la redacción son muy genéricos y generales. Es muy probable que contenidos más ambiguos como éste sean más difíciles de clasificar.

⏺ Cuanto más largo sea el texto a analizar (> 1.0000 caracteres) más fiables serán los resultados.

⏺ Los textos escritos por humanos a veces se etiquetan incorrectamente como escritos por IA. Por tanto, parece que existe una especie de sesgo hacia una clasificación por defecto de «escrito por IA».

⏺ El clasificador es sólo inglés y no multilingüe.

⏺ El clasificador no es fiable a la hora de clasificar código.

⏺ El texto generado por IA y editado por un humano puede engañar al clasificador.

Los datos

OpenAI recopiló un conjunto de datos de texto generado por IA y texto escrito por humanos.
El texto escrito por humanos tiene tres fuentes:

Conjunto de datos de Wikipedia
Conjunto de datos WebText recopilados en 2019
Conjunto de demostraciones humanas recogidas como parte del entrenamiento InstructGPT

En conclusión

Es evidente que la precisión del clasificador no está donde debería, y OpenAI declara este hecho abiertamente: «Nuestro clasificador no es totalmente fiable«.

Sin embargo, hay algunos aspectos positivos… el primero es que se trata de un paso en la dirección correcta y se convertirá en una herramienta de valor incalculable, especialmente para educadores e instituciones educativas.

La IA responsable siempre ha estado en el punto de mira de la mayoría de la gente, y OpenAI ha sido muy abierto sobre su enfoque y diligencia debida en relación con la IA responsable.

Teniendo en cuenta todo esto, el clasificador es un paso en la dirección correcta y otro ejemplo de cómo OpenAI toma la iniciativa.

Probando el nuevo clasificador de textos de OpenAI para identificar contenidos escritos con IA

PorCobus Greyling

Texto generado a través de Cohere LLM

Texto generado a través de AI21Labs

ChatGPT

Modelo OpenAI text-davinci-003

Un ensayo de la Web

Mi propio escrito

Wikipedia

¿Puede ChatGPT detectar el origen de los textos?

Ten en cuenta

Los datos

En conclusión

Por Cobus Greyling

Entrada relacionada

Mejores prácticas de IA conversacional en la era de los chatbots: una retrospectiva del diseño

Interfaz agente-ordenador (ACI) de IA

WebUI abierta e IA de chatbot libre: capacitar a las empresas con IA privada sin conexión y capacidades LLM

Deja una respuesta Cancelar la respuesta

You missed

Mejores prácticas de IA conversacional en la era de los chatbots: una retrospectiva del diseño

Interfaz agente-ordenador (ACI) de IA

WebUI abierta e IA de chatbot libre: capacitar a las empresas con IA privada sin conexión y capacidades LLM

Cómo alojar tu propio chatbot de inteligencia artificial