Por Juan José De Haro
Recientemente y hablando de matemáticas, he visto comentarios acerca de que los chatbots son incapaces de resolver problemas matemáticos donde hay algún tipo de cálculo o que no pueden comprender lo que se les sube, por ejemplo, en PDF.
Estas críticas entroncan directamente con dos capacidades matemáticas importantes: la capacidad de realizar operaciones matemáticas y, una más genérica, que es el formato con el que leen mejor los datos.
Chatbots con capacidad de cálculo
El primer error que suele cometer el docente inexperto consiste en pensar que da igual usar un chatbot u otro, pongamos, por ejemplo, Copilot o ChatGPT, para resolver un problema. Nada más lejos de la realidad, porque las diferencias en las capacidades matemáticas entre chatbots son abismales. Como veremos a continuación, los chatbots dan resultados incorrectos porque intentan hacer los cálculos «de cabeza» y se equivocan. Son muy pocos los que pueden utilizar herramientas informáticas de cálculo (programación).
Veamos un ejemplo donde les pedimos la media de 39 números. Hemos utilizado tres prompts en el mismo chat. El primero ha sido:
Calcula la media con un decimal de: 17.0, 14.0, 93.1, 22.8, 75.7, 55.6, 68.7, 83.2, 52.0, 93.5, 69.8, 83.0, 23.0, 5.2, 96.1, 26.1, 2.6, 55.5, 35.3, 50.8, 25.5, 31.8, 82.4, 75.4, 65.1, 56.1, 85.3, 75.9, 95.6, 79.0, 75.9, 75.0, 18.1, 20.8, 98.9, 2.9, 42.7, 32.3, 25.5
El segundo ha sido:
Utiliza programación para calcularlo y dame el resultado
Y, por último:
Haz un programa en HTML que lo calcule automáticamente
En la siguiente tabla podemos ver los resultados obtenidos con cada uno de los chatbots.
Chatbot | Resultados de los prompts: 1 / 2 / 3 | ¿Resultado correcto? |
---|---|---|
Claude | 53.5 / 53.5 / 53.5 | |
ChatGPT | 53.8 / 53.5 / 53.5 | |
Gemini | 53.4 / 53.4 / 53.5 | |
DeepSeek | 51.3 / 51.3 / 53.5 | |
Grok | 53.6 / 53.6 / 53.5 | |
Copilot | 57.4 / 57.4 / – | |
Perplexity | 52.0* / 52.0 / – |
* Perplexity da un primer resultado válido, pero no los siguientes. El motivo es que, en la versión gratuita, la opción Pro Search se desactiva automáticamente, por lo tanto se considera un resultado negativo.
- Claude ha utilizado programación desde el primer momento (hizo un programa en JavaScript), por lo que su resultado ha sido exacto desde el principio. De hecho, cuando se le puso el segundo prompt se «quejó» diciendo que ya lo había hecho antes.
- ChatGPT confió en sus capacidades de cálculo y lo resolvió en un primer momento sin usar programación; el resultado fue, lógicamente, erróneo. ChatGPT no siempre hace esto, cuando ve operaciones complejas, suele utilizar programación desde un primer momento (hace programas en Python). Para asegurarnos de que siempre lo hará así, lo mejor es decirle desde el principio que use programación para los cálculos, de este modo su resultado será siempre acertado.
- Gemini, DeepSeek y Grok dan un resultado erróneo en un primer momento. Cuando se les pide que usen programación en el chat con el segundo prompt, los tres hacen un programa que no ejecutan, por lo que tampoco dan el resultado correcto. Se limitan a decir que con ese programa el usuario podrá comprobar que el primer resultado era válido. Cuando se les pide un programa en HTML, los tres lo hacen, lo permiten ejecutar desde el mismo chat y se obtiene el resultado correcto.
- Copilot y Perplexity no dan el resultado correcto en ningún caso, ya que no pueden ejecutar programas en el chat y tampoco son capaces de ejecutar los programas que crean en HTML, por lo que no es posible comprobar sin salir del chat, si los programas realmente funcionan.
Como conclusión, podemos decir que, cuando hay implicados cálculos matemáticos, debemos limitarnos a utilizar Claude y ChatGPT. Por seguridad, siempre es preferible decirles desde el principio que usen programación para calcular los resultados.
Podemos utilizar Gemini, DeepSeek o Grok (aquí también entraría el chatbot Qwen) siempre que les hagamos hacer programas en HTML para poder ejecutarlos una vez que los hayan creado.
Bajo ningún concepto deberíamos usar Copilot o Perplexity, ya que los resultados tienen una alta probabilidad de ser erróneos.
Debemos tener en cuenta que tanto ChatGPT como Claude pueden utilizar librerías como SymPy o mathjs con las que se puede hacer cálculo simbólico como, por ejemplo, derivadas de funciones y también librerías gráficas con las que podremos tener gráficos en el transcurso de nuestra conversación en el chat. Estos dos chatbots están muy por delante de cualquiera de sus competidores.
ChatGPT hace los programas en Python y Claude en JavaScript, dado que Python es más potente para la manipulación y cálculo matemático, ChatGPT se presenta como el chatbot más potente en matemáticas, no obstante, para las tareas habituales ambos nos irán igualmente bien.
En el artículo ¿Qué IA me conviene? hay una tabla, que se actualiza periódicamente, donde se indica la capacidad de las diferentes IA para hacer cálculos (fila 7). En el caso de que otros chatbots adquieran posteriormente la capacidad de hacer cálculos matemáticos, se indicará puntualmente allí.
El formato matemático desde la perspectiva de los chatbots
El formato que mejor manejan los chatbots es el de texto puro. Todos ellos utilizan para sus respuestas el formato Markdown, que es texto puro, pero con ciertas marcas que definen formatos, listas de viñetas o fórmulas. Cuando usamos el botón copiar del chat, lo que estamos copiando es el texto en formato Markdown.
Aunque podemos escribir una fracción como: (x+1)/(3x+2), hay expresiones que pueden ser más complicadas de representar y la recomendación es usar LaTeX. La fórmula anterior se escribiría como \frac{x+1}{3x+2} que se vería como
Documentos
Para convertir un texto en formato DOCX o PDF a Markdown podemos utilizar Gemini, ya que hace una conversión más que aceptable. Podemos usar un prompt como este:
Transcribe el siguiente documento al formato Markdown, no añadas citas
La coletilla «no añadas citas» es para evitar que nos añada enlaces al documento con la localización del texto, aunque si las pone tampoco supondrá un problema.
El texto producido hay que copiarlo con el botón que hay en la base del chat (nunca seleccionando con el ratón) y lo podremos pegar directamente en ChatGPT o Claude. También lo podemos guardar en un archivo de texto, utilizando un programa como el bloc de notas de Windows, con la extensión: md. Por ejemplo: mi_examen.md o guardándolo como texto sin formato en Word o Google Docs. No debemos guardarlo con el formato por defecto de estos procesadores de texto.
Si actuamos de este modo, los chatbots entenderán perfectamente el texto que les estamos proporcionando y ya no tendremos la impresión de que la IA no nos entiende cuando le pedimos algo (cuando, en realidad, lo que no entiende son los datos que le subimos).
Utilidades para las fórmulas
Estos programas son de utilidad para el que trabaja habitualmente con fórmulas. El primero es para reutilizar las conversaciones con los chatbots y el segundo para hacer fórmulas.
MDAITex. Con este programa podremos hacer el paso inverso al explicado antes: el resultado proporcionado por el chatbot (la solución de un examen, ejercicios, etc.) lo podremos pasar a nuestro procesador de textos favorito.
EdiCuaTeX. Es un editor de fórmulas gráfico con el que podemos hacer fórmulas que obtendremos en LaTeX y que también podremos descargar como imagen.
Imágenes
Aunque no es tan preciso como lo anterior, todos los chatbots pueden descifrar las imágenes, por lo que si subimos fotos no debería haber ningún problema, incluso si el texto y las fórmulas están escritas a mano.
Conclusiones
Los mejores chatbots para usar en matemáticas y otras asignaturas científicas, son ChatGPT y Claude. En las conversaciones conviene indicarles que hagan los cálculos mediante programación. Para pasarles documentos hay que pedirle a Gemini que los transcriba a formato Markdown y se los proporcionaremos en este formato.
Pódcast creado con NotebookLM
FAQ del artículo
1. ¿Son todos los chatbots igualmente capaces de resolver problemas matemáticos?
No, las diferencias en las capacidades matemáticas entre los chatbots son abismales. Muchos chatbots cometen errores al intentar realizar cálculos «de cabeza» y no pueden utilizar herramientas de programación. Solo unos pocos chatbots, como Claude y ChatGPT, son fiables para cálculos matemáticos complejos, ya que pueden usar programación.
2. ¿Por qué algunos chatbots dan resultados incorrectos en matemáticas y cómo se puede mejorar su precisión?
Los chatbots dan resultados incorrectos cuando intentan hacer los cálculos sin usar programación. Para asegurar resultados precisos, es fundamental pedirles que usen programación desde el principio. Por ejemplo, al solicitar a ChatGPT que use programación (Python), sus resultados son consistentemente correctos. Otros chatbots como Gemini, DeepSeek, y Grok, aunque pueden generar código, no lo ejecutan internamente, requiriendo que el usuario ejecute el programa (por ejemplo, en HTML) para obtener la respuesta correcta.
3. ¿Cuáles son los chatbots más recomendados para tareas matemáticas y científicas?
Los mejores chatbots para usar en matemáticas y otras asignaturas científicas son ChatGPT y Claude. Claude utiliza JavaScript para su programación interna, mientras que ChatGPT usa Python. Aunque ambos son muy competentes, Python ofrece una mayor potencia para la manipulación y el cálculo matemático, lo que posiciona a ChatGPT como el más potente en matemáticas. Ambos pueden integrar librerías de cálculo simbólico (como SymPy o mathjs) y gráficas.
4. ¿Qué formato de datos es el más efectivo para que los chatbots entiendan la información, especialmente en matemáticas?
El formato que mejor manejan los chatbots es el de texto puro, específicamente Markdown. Markdown permite incluir ciertas marcas para definir formatos, listas o fórmulas. Para expresiones matemáticas complejas, se recomienda usar LaTeX, ya que los chatbots lo interpretan sin problemas. Es crucial copiar el texto directamente con el botón de copiar del chat para asegurar que el formato Markdown se preserve.
5. ¿Cómo se pueden transcribir documentos como DOCX o PDF para que los chatbots los procesen eficazmente?
Para transcribir documentos en formatos como DOCX o PDF a un formato legible para los chatbots, se puede utilizar Gemini. Se le puede pedir a Gemini que transcriba el documento a formato Markdown con un prompt como: «Transcribe el siguiente documento al formato Markdown, no añadas citas». Una vez transcrito, el texto resultante debe copiarse utilizando el botón de copiar del chat y pegarse directamente en chatbots como ChatGPT o Claude, o guardarse como un archivo .md.
6. ¿Es posible que los chatbots entiendan texto y fórmulas escritas a mano en imágenes?
Sí, aunque no con la misma precisión que con texto puro o LaTeX, todos los chatbots pueden descifrar imágenes. Esto significa que si se suben fotos con texto y fórmulas, incluso si están escritas a mano, los chatbots deberían poder procesarlas sin mayores problemas.
7. ¿Qué herramientas externas pueden complementar el uso de chatbots para trabajar con fórmulas matemáticas?
Existen utilidades que facilitan el trabajo con fórmulas. MDAITex es un programa que permite convertir los resultados proporcionados por los chatbots (en Markdown) a un formato compatible con procesadores de texto, invirtiendo el proceso de transcripción. EdiCuaTeX es un editor gráfico de fórmulas que permite crear expresiones en LaTeX y descargarlas como imagen, facilitando la creación de contenido matemático.
8. ¿Qué precauciones deben tomarse al usar chatbots para cálculos matemáticos?
Es crucial indicar a los chatbots (especialmente a Claude y ChatGPT) que realicen los cálculos mediante programación para asegurar la exactitud de los resultados. Además, para proporcionar documentos a los chatbots, se recomienda transcribirlos previamente a formato Markdown usando Gemini. Se desaconseja el uso de chatbots como Copilot o Perplexity para cálculos matemáticos, ya que sus resultados son propensos a errores y no pueden ejecutar programas internamente. Las capacidades mencionadas corresponden a las versiones gratuitas de los chatbots.
Notas
Las versiones de las que hablamos en este artículo son las gratuitas para cada uno de los chatbots, las que aparecen por defecto al abrir su enlace.
Este artículo tiene nivel 0 en el marco para la integración de la IA generativa en las tareas educativas. Excepto las FAQ y el pódcast que ha sido creado por NotebookLM.
Tomado de BILATERIA