CUED: Evaluación de la eficacia del formato de archivo en la generación de respuestas correctas por ChatGPT

martes, 27 de agosto de 2024

Evaluación de la eficacia del formato de archivo en la generación de respuestas correctas por ChatGPT

Por Juan José de Haro

Se ha evaluado la eficacia de diferentes formatos de archivo (PDF, DOCX, MD, TXT y un grupo de control) en la capacidad de ChatGPT para generar respuestas correctas y se ha llegado a la conclusión de que el formato Markdown es el que ofrece mejores resultados y por extensión cualquier archivo de texto puro.

Método

Se utilizó el script pdf2md para convertir el archivo PDF de 110 páginas de extensión: Mesures i suports universals en el centre educatiu a los formatos DOCX y Markdown. Al archivo Markdown (con extensión MD) se le cambió la extensión a TXT, por lo que fue utilizado dos veces con el mismo contenido. Esto se hizo porque se sospechaba que el cambio de extensión provocaba un cambio en la forma de ser consultado por ChatGPT. El control ha consistido en la ausencia de cualquier tipo de documento.

Con estos archivos se creó un GPT para cada uno de ellos con el siguiente prompt: «Responde las preguntas consultando el documento que tienes».

Se les hizo las mismas preguntas a todos ellos y se utilizó el botón «Volver a generar» para obtener un total de 3 respuestas a la misma pregunta. Cada pregunta se ha hecho en una conversación nueva y requieren la lectura del documento para poder ser respondidas.

Para verificar si las respuestas correctas difieren entre los distintos formatos, se realizó una prueba de Kruskal-Wallis. Para identificar qué formatos presentaban diferencias significativas, se aplicó la prueba U de Mann-Whitney.

Resultados

A continuación, se presentan los datos de puntuaciones para cada pregunta y formato, que se utilizaron en los análisis estadísticos:

Pregunta	PDF	DOCX	MD	TXT (=MD)	Control
1	0	1	3	3	0
2	0	0	3	0	0
3	0	0	3	2	0
4	0	0	0	2	0
5	1	0	0	1	0
6	0	0	3	3	0
Aciertos	5.6%	5.6%	66.7%	61.1%	0%

Aciertos a cada pregunta de un total de 3 posibilidades. Puntuación máxima: 3, puntuación mínima: 0.

Análisis estadístico

Las medias de aciertos y desviaciones estándar calculadas para cada formato fueron las siguientes:

Formato	Media	Desviación estándar
PDF	0.17	0.41
DOCX	0.17	0.41
MD	2.00	1.55
TXT	1.83	1.17
Control	0.00	0.00

Medias de aciertos y sus desviaciones estándar. El formato MD es el que obtiene una media de aciertos más alta.

Pruebas para comprobar las diferencias entre los formatos

Para comprobar la igualdad de varianzas (necesaria para el test de Kruskal-Wallis) se ha usado el test de Levene que indica que no hay diferencias entre ellas (W = 1.84, p-valor = 0.152).

Test de Kruskal-Wallis: Este test no paramétrico se utilizó para comparar las medianas entre los diferentes grupos (formatos de archivo).

Valor estadístico H = 14.66
p-valor: 0.0055

Este resultado indica que hay diferencias significativas entre los formatos de archivo.

Comparaciones post hoc con la prueba U de Mann-Whitney: Para identificar qué grupos diferían entre sí, se realizaron comparaciones por pares.

Comparación	p-valor	Resultado
MD vs PDF	0.0276	Significativo
MD vs DOCX	0.0276	Significativo
MD vs TXT	0.6660	No significativo
MD vs Control	0.0123	Significativo
TXT vs PDF	0.0101	Significativo
TXT vs DOCX	0.0101	Significativo
TXT vs Control	0.0047	Significativo
PDF vs DOCX	1.0000	No significativo
PDF vs Control	0.2023	No significativo
DOCX vs Control	0.2023	No significativo

Interpretación:

Los formatos MD y TXT son significativamente superiores a PDF, DOCX, y Control.
MD y TXT no muestran diferencias significativas entre ellos.
Los formatos PDF y DOCX no son diferentes del grupo control.

Conclusiones

El análisis revela que los formatos MD y TXT son significativamente más efectivos que los formatos PDF, DOCX, y el grupo de Control para la generación de respuestas correctas por ChatGPT.

No se encontraron diferencias significativas entre MD y TXT, lo que sugiere que ambos son igualmente efectivos, por lo que cambiar la extensión MD por TXT no aporta ninguna mejora en las respuestas, más bien las empeora ligeramente.

Así pues, la recomendación es utilizar el formato Markdown (MD), ya que es el que tiene una mayor media de aciertos, al menos en los documentos de cierta extensión.

Aunque no hemos puesto a prueba los documentos de texto sin formato Markdown, teniendo en cuenta que este último formato es texto puro con algunos caracteres para representar el formato, el formato en texto puro sería la segunda opción lógica para utilizar con la IA.

Es posible que para documentos de pocas páginas todos los formatos sean igualmente apropiados, comprobar esto requeriría un estudio adicional.

Tomado de BILATERIA

No hay comentarios:

Publicar un comentario

Páginas