Se ha evaluado la eficacia de diferentes formatos de archivo (PDF, DOCX, MD, TXT y un grupo de control) en la capacidad de ChatGPT para generar respuestas correctas y se ha llegado a la conclusión de que el formato Markdown es el que ofrece mejores resultados y por extensión cualquier archivo de texto puro.

Método

Se utilizó el script pdf2md para convertir el archivo PDF de 110 páginas de extensión: Mesures i suports universals en el centre educatiu a los formatos DOCX y Markdown. Al archivo Markdown (con extensión MD) se le cambió la extensión a TXT, por lo que fue utilizado dos veces con el mismo contenido. Esto se hizo porque se sospechaba que el cambio de extensión provocaba un cambio en la forma de ser consultado por ChatGPT. El control ha consistido en la ausencia de cualquier tipo de documento.

Con estos archivos se creó un GPT para cada uno de ellos con el siguiente prompt: «Responde las preguntas consultando el documento que tienes».

Se les hizo las mismas preguntas a todos ellos y se utilizó el botón «Volver a generar» para obtener un total de 3 respuestas a la misma pregunta. Cada pregunta se ha hecho en una conversación nueva y requieren la lectura del documento para poder ser respondidas.

Para verificar si las respuestas correctas difieren entre los distintos formatos, se realizó una prueba de Kruskal-Wallis. Para identificar qué formatos presentaban diferencias significativas, se aplicó la prueba U de Mann-Whitney.

Resultados

A continuación, se presentan los datos de puntuaciones para cada pregunta y formato, que se utilizaron en los análisis estadísticos:

PreguntaPDFDOCXMDTXT
(=MD)
Control
101330
200300
300320
400020
510010
600330
Aciertos5.6%5.6%66.7%61.1%0%
Aciertos a cada pregunta de un total de 3 posibilidades. Puntuación máxima: 3, puntuación mínima: 0.

Análisis estadístico

Las medias de aciertos y desviaciones estándar calculadas para cada formato fueron las siguientes:

FormatoMediaDesviación estándar
PDF0.170.41
DOCX0.170.41
MD2.001.55
TXT1.831.17
Control0.000.00
Medias de aciertos y sus desviaciones estándar. El formato MD es el que obtiene una media de aciertos más alta.

Pruebas para comprobar las diferencias entre los formatos

Para comprobar la igualdad de varianzas (necesaria para el test de Kruskal-Wallis) se ha usado el test de Levene que indica que no hay diferencias entre ellas (W = 1.84, p-valor = 0.152).

Test de Kruskal-Wallis: Este test no paramétrico se utilizó para comparar las medianas entre los diferentes grupos (formatos de archivo).

  • Valor estadístico H = 14.66
  • p-valor: 0.0055

Este resultado indica que hay diferencias significativas entre los formatos de archivo.

Comparaciones post hoc con la prueba U de Mann-Whitney: Para identificar qué grupos diferían entre sí, se realizaron comparaciones por pares.

Comparaciónp-valorResultado
MD vs PDF0.0276Significativo
MD vs DOCX0.0276Significativo
MD vs TXT0.6660No significativo
MD vs Control0.0123Significativo
TXT vs PDF0.0101Significativo
TXT vs DOCX0.0101Significativo
TXT vs Control0.0047Significativo
PDF vs DOCX1.0000No significativo
PDF vs Control0.2023No significativo
DOCX vs Control0.2023No significativo

Interpretación:

  • Los formatos MD y TXT son significativamente superiores a PDFDOCX, y Control.
  • MD y TXT no muestran diferencias significativas entre ellos.
  • Los formatos PDF y DOCX no son diferentes del grupo control.

Conclusiones

El análisis revela que los formatos MD y TXT son significativamente más efectivos que los formatos PDFDOCX, y el grupo de Control para la generación de respuestas correctas por ChatGPT.

No se encontraron diferencias significativas entre MD y TXT, lo que sugiere que ambos son igualmente efectivos, por lo que cambiar la extensión MD por TXT no aporta ninguna mejora en las respuestas, más bien las empeora ligeramente.

Así pues, la recomendación es utilizar el formato Markdown (MD), ya que es el que tiene una mayor media de aciertos, al menos en los documentos de cierta extensión.

Aunque no hemos puesto a prueba los documentos de texto sin formato Markdown, teniendo en cuenta que este último formato es texto puro con algunos caracteres para representar el formato, el formato en texto puro sería la segunda opción lógica para utilizar con la IA.

Es posible que para documentos de pocas páginas todos los formatos sean igualmente apropiados, comprobar esto requeriría un estudio adicional.

Tomado de BILATERIA