Por Juan José de Haro
Se ha evaluado la eficacia de diferentes formatos de archivo (PDF, DOCX, MD, TXT y un grupo de control) en la capacidad de ChatGPT para generar respuestas correctas y se ha llegado a la conclusión de que el formato Markdown es el que ofrece mejores resultados y por extensión cualquier archivo de texto puro.
Método
Se utilizó el script pdf2md para convertir el archivo PDF de 110 páginas de extensión: Mesures i suports universals en el centre educatiu a los formatos DOCX y Markdown. Al archivo Markdown (con extensión MD) se le cambió la extensión a TXT, por lo que fue utilizado dos veces con el mismo contenido. Esto se hizo porque se sospechaba que el cambio de extensión provocaba un cambio en la forma de ser consultado por ChatGPT. El control ha consistido en la ausencia de cualquier tipo de documento.
Con estos archivos se creó un GPT para cada uno de ellos con el siguiente prompt: «Responde las preguntas consultando el documento que tienes».
Se les hizo las mismas preguntas a todos ellos y se utilizó el botón «Volver a generar» para obtener un total de 3 respuestas a la misma pregunta. Cada pregunta se ha hecho en una conversación nueva y requieren la lectura del documento para poder ser respondidas.
Para verificar si las respuestas correctas difieren entre los distintos formatos, se realizó una prueba de Kruskal-Wallis. Para identificar qué formatos presentaban diferencias significativas, se aplicó la prueba U de Mann-Whitney.
Resultados
A continuación, se presentan los datos de puntuaciones para cada pregunta y formato, que se utilizaron en los análisis estadísticos:
Pregunta | DOCX | MD | TXT (=MD) | Control | |
---|---|---|---|---|---|
1 | 0 | 1 | 3 | 3 | 0 |
2 | 0 | 0 | 3 | 0 | 0 |
3 | 0 | 0 | 3 | 2 | 0 |
4 | 0 | 0 | 0 | 2 | 0 |
5 | 1 | 0 | 0 | 1 | 0 |
6 | 0 | 0 | 3 | 3 | 0 |
Aciertos | 5.6% | 5.6% | 66.7% | 61.1% | 0% |
Análisis estadístico
Las medias de aciertos y desviaciones estándar calculadas para cada formato fueron las siguientes:
Formato | Media | Desviación estándar |
---|---|---|
0.17 | 0.41 | |
DOCX | 0.17 | 0.41 |
MD | 2.00 | 1.55 |
TXT | 1.83 | 1.17 |
Control | 0.00 | 0.00 |
Pruebas para comprobar las diferencias entre los formatos
Para comprobar la igualdad de varianzas (necesaria para el test de Kruskal-Wallis) se ha usado el test de Levene que indica que no hay diferencias entre ellas (W = 1.84, p-valor = 0.152).
Test de Kruskal-Wallis: Este test no paramétrico se utilizó para comparar las medianas entre los diferentes grupos (formatos de archivo).
- Valor estadístico H = 14.66
- p-valor: 0.0055
Este resultado indica que hay diferencias significativas entre los formatos de archivo.
Comparaciones post hoc con la prueba U de Mann-Whitney: Para identificar qué grupos diferían entre sí, se realizaron comparaciones por pares.
Comparación | p-valor | Resultado |
---|---|---|
MD vs PDF | 0.0276 | Significativo |
MD vs DOCX | 0.0276 | Significativo |
MD vs TXT | 0.6660 | No significativo |
MD vs Control | 0.0123 | Significativo |
TXT vs PDF | 0.0101 | Significativo |
TXT vs DOCX | 0.0101 | Significativo |
TXT vs Control | 0.0047 | Significativo |
PDF vs DOCX | 1.0000 | No significativo |
PDF vs Control | 0.2023 | No significativo |
DOCX vs Control | 0.2023 | No significativo |
Interpretación:
- Los formatos MD y TXT son significativamente superiores a PDF, DOCX, y Control.
- MD y TXT no muestran diferencias significativas entre ellos.
- Los formatos PDF y DOCX no son diferentes del grupo control.
Conclusiones
El análisis revela que los formatos MD y TXT son significativamente más efectivos que los formatos PDF, DOCX, y el grupo de Control para la generación de respuestas correctas por ChatGPT.
No se encontraron diferencias significativas entre MD y TXT, lo que sugiere que ambos son igualmente efectivos, por lo que cambiar la extensión MD por TXT no aporta ninguna mejora en las respuestas, más bien las empeora ligeramente.
Así pues, la recomendación es utilizar el formato Markdown (MD), ya que es el que tiene una mayor media de aciertos, al menos en los documentos de cierta extensión.
Aunque no hemos puesto a prueba los documentos de texto sin formato Markdown, teniendo en cuenta que este último formato es texto puro con algunos caracteres para representar el formato, el formato en texto puro sería la segunda opción lógica para utilizar con la IA.
Es posible que para documentos de pocas páginas todos los formatos sean igualmente apropiados, comprobar esto requeriría un estudio adicional.
Tomado de BILATERIA
No hay comentarios:
Publicar un comentario