CUED: ¿Qué IA me conviene? Comparativa de chatbots

Por Juan José de Haro

Hemos analizado una serie de características de los chatbots más populares. No es un estudio detallado y sistemático con docenas de parámetros, sino simplemente algunas de las características que un servidor aprecia más en un chatbot.

Tras la tabla se hace una pequeña discusión de cada una de las características observadas y, por último, se proporciona una ficha de cada una de las diferentes IA.

Tabla de comparación

Casi todos los chatbots constan de diferentes modelos con distintas capacidades, en esta tabla están representados únicamente los modelos que aparecen por defecto en las versiones gratuitas.

Están ordenados de mejor a peor resultado, pero esto es algo muy relativo, ya que cada característica la hemos contabilizado por igual (un punto para cada una de ellas), pero diferentes intereses y objetivos nos podrían llevar a dar diferentes pesos a cada una de ellas, con lo que también obtendríamos un orden diferente.

Debemos señalar que Qwen tiene una puntuación negativa en dos características de las que ya se han anunciado su incorporación, como la creación de imágenes y la conexión a Internet. Cuando esto suceda, según los parámetros que hemos utilizado, pasará al primer lugar, por delante de ChatGPT y Claude.

Generación de imágenes

Es la capacidad para generar imágenes, indicándolo directamente en el chat. Hay que destacar que en Qwen aparece un botón para generar imágenes no funcional, pero que indica que próximamente estará en funcionamiento.

En esta tarea destaca Grok, que hace imágenes muy realistas y con pocas limitaciones. Por el lado contrario está Gemini, que se niega a crear representaciones de personas, aunque estas sean inexistentes.

Compartir públicamente conversaciones

Es la posibilidad de poder compartir conversaciones completas. Gemini solo permite compartir respuestas individuales, pero no conversaciones. Claude permite compartir artefactos, que son aplicaciones o textos creados por la IA, lo cual es muy útil, pero no directamente conversaciones. Grok y Copilot no permiten compartir nada.

Hacer aplicaciones que ejecuta el mismo chatbot

Cuando se le pide un programa o aplicación a la IA, todas nos dan el código, pero solo Claude y Qwen son capaces de ejecutarlas. No ejecutan cualquier programa, sino únicamente los hechos con JavaScript (el lenguaje de las páginas web), por lo que, cuando deseemos probar lo que nos ha hecho, deberemos pedírselo en HTML. En el caso de Claude, podremos compartirlo públicamente, por lo que podremos utilizarlo para nuestras clases. En el caso de Qwen solo podremos verlo y, si nos interesa, descargarlo como página web.

ChatGPT permite ejecutar programas en Python, aunque de forma no interactiva (es decir, no podremos cambiar valores o parámetros), pero no en JavaScript, de forma que no podremos compartir aplicaciones.

Subir documentos de texto

Por curioso que parezca, hay chatbots a los que no les podemos subir ni un simple archivo de texto plano para que lo analicen, se trata de Copilot y Gemini. En el caso de Grok, esta opción queda para las cuentas de pago.

El resto de chatbots admite muchos tipos como DOCX, XLS, MD, PDF, etc. Los tipos son variables entre los diferentes chatbots, pero suelen admitir los más utilizados para su análisis.

Ver las imágenes de los PDF

La posibilidad de ver las imágenes contenidas en los PDF solo está disponible en Claude. El resto de los chatbots ignoran cualquier imagen que contenga y solo tienen en cuenta el texto. Esto es tremendamente importante si debemos trabajar con PDF que contengan imágenes relevantes, como esquemas, infografías, etc.

Aunque no está incluido en este trabajo, porque no es un chatbot genérico, sino especializado en documentos, NotebookLM también puede verlas.

Representación de fórmulas matemáticas

Es la capacidad de representar correctamente las fórmulas matemáticas, cosa que hacen todos, excepto Gemini. Esta IA utiliza texto para visualizar fórmulas, por lo que no es útil si trabajamos en materias que hacen un uso extensivo de ellas.

Fórmula para la resolución de una ecuación de 2º grado generada por Gemini.

Cálculos matemáticos exactos

En cualquier materia de ciencias son importantes cálculos precisos y exactos, eso solo se consigue si la IA realiza las operaciones utilizando un programa creado por ella misma. En el caso de ChatGPT lo hace con Python y Claude con JavaScript. Ambos nos aseguran que el resultado será correcto.

El resto de chatbots hace los cálculos «a mano», es decir, sin ningún apoyo computacional y para operaciones medianamente complejas el resultado será casi siempre erróneo.

Si trabajamos con cálculos matemáticos, es obligado utilizar ChatGPT o Claude.

Conexión a Internet

Para comprobar datos o noticias actuales que las IA desconocen, es necesaria una conexión a Internet para que puedan consultar páginas web. Claude, Qwen y Mistral no disponen de ningún tipo de conexión, el resto sí. Aunque, como pasaba con la generación de imágenes, Qwen dispone de un botón para buscar en Internet que indica que pronto estará disponible.

Problema de lógica

Esta es probablemente una de las características más importantes, ya que el nivel de razonamiento del cual disponga la IA determinará en gran parte la calidad de sus respuestas. Para ponerla a prueba, le hemos pedido a ChatGPT-o1 (el modelo más avanzado en la actualidad) que elaborase una prueba de lógica que fuese nueva. Aunque el tipo de problema no es nuevo (deducir características a partir de una serie de pistas), sí lo es la situación, por lo que la IA debe mostrar un buen nivel de lógica, división del trabajo en pasos sucesivos y comprensión del problema para llegar a la solución correcta.

Este tipo de prueba nos indica si serán capaces de seguir instrucciones complejas dándonos resultados de calidad.

Después de varias propuestas por parte de ChatGPT-o1, hemos seleccionado este problema:

El acertijo de las camisetas y los transportes

Tres personas (Anna, Bob y Carla) llegan a su lugar de trabajo en horarios distintos (8:00, 8:15, 8:30). Cada una lleva una camiseta de un color diferente (roja, verde, azul) y usa un medio de transporte único (coche, autobús, bicicleta).

Datos conocidos:

La persona que lleva la camiseta roja no llega a las 8:00.
Quien va en bicicleta llega 15 minutos antes que Anna.
Bob lleva camiseta verde, pero no usa coche.
Carla llega a las 8:30, pero su camiseta no es roja.
La persona que lleva la camiseta azul va en coche.

Objetivo: Determinar para cada uno (Anna, Bob y Carla):

A qué hora llega.
De qué color es su camiseta.
Qué medio de transporte utiliza.

El problema se les ha hecho resolver cuatro veces en un chat diferente cada vez a cada una de las IA.

En esta prueba aparece la mayor sorpresa, ya que solo un chatbot lo ha resuelto bien todas las veces, se trata de Qwen, que demuestra situarse entre los mejores sin lugar a dudas.

ChatGPT-4o y Claude 3.5 Sonnet lo han resuelto bien 3 de las cuatro veces. El resto de chatbots ha obtenido resultados peores y destacan Perplexity y Copilot que no han obtenido la respuesta correcta ninguna de las cuatro veces. Gemini y Mistral tampoco obtienen buenos resultados, ya que solo han dado una vez la respuesta correcta.

Descripción de los chatbots

A continuación presentamos la ficha técnica de cada chatbot creada por ellos mismos a través del prompt: Ficha técnica del chatbot y pidiéndoselo después en forma de tabla.

ChatGPT-4o

Aspecto	Información
Nombre o denominación completa	ChatGPT
Versión y modelo	Basado en el modelo GPT-4 de OpenAI
Desarrollador o empresa	OpenAI
Fecha de lanzamiento	14 de marzo de 2023 (GPT-4)
Última actualización significativa	Base de conocimiento fija hasta octubre de 2023, con capacidades ampliadas mediante herramientas como navegación web y ejecución de código.
Capacidades principales	– Comprensión y generación de texto en múltiples idiomas (incluyendo español y catalán). – Creación de recursos educativos y explicaciones en temas complejos. – Desarrollo y depuración de código en diversos lenguajes (Python, HTML, JavaScript, etc.). – Análisis de datos, visualización y creación de gráficos. – Generación de contenido: ensayos, informes, guías y prompts personalizados. – Uso de herramientas como acceso web, generación de imágenes y trabajo con datos estructurados.
Limitaciones conocidas	– Conocimiento fijo hasta octubre de 2023, salvo al usar herramientas como la navegación web. – Puede tener limitaciones en matices culturales o expresiones idiomáticas. – Respuestas dependientes de la claridad y especificidad de las instrucciones proporcionadas. – Sin acceso directo a información privada, personal o bases de datos externas sin que se compartan explícitamente. – Puede tener limitaciones en matices culturales o expresiones idiomáticas.
Información adicional	– Instrucciones claras y específicas permiten mejores resultados. – Uso responsable: diseñado para fines educativos, profesionales y creativos. – Adaptable: puedo ajustar el nivel de detalle o formato según las necesidades del usuario.

Claude 3.5 Sonnet

Aspecto	Información
Nombre	Claude
Versión y modelo	Claude 3.5 Sonnet (parte de la familia Claude 3)
Desarrollador	Anthropic
Fecha de lanzamiento	Octubre 2024
Última actualización de conocimientos	Abril 2024
Capacidades principales	– Análisis de datos y resolución de problemas matemáticos complejos. Programación y desarrollo de código en diversos lenguajes. – Creación de contenido escrito, desde textos técnicos hasta creativos. – Análisis y comprensión de imágenes. – Enseñanza y explicación de conceptos. – Conversación natural y asistencia en múltiples idiomas. – Análisis de documentos y extracción de información relevante.
Limitaciones	– No puedo acceder a internet ni abrir enlaces. No puedo modificar ni guardar archivos. – No puedo recordar conversaciones anteriores. – No puedo generar, crear, editar o manipular imágenes. – Mi conocimiento está limitado a abril de 2024.
Información adicional	– Me puedes escribir en cualquier idioma y responderé en el mismo. – Puedo ayudarte con tareas tanto simples como complejas. – Adapto mi nivel de detalle según la complejidad de la pregunta. – Puedo procesar y analizar archivos que me compartas durante nuestra conversación.

Qwen 2.5 Pro

Categoría	Información
Nombre o denominación completa	Qwen
Versión y modelo	Qwen-2.5 Pro
Desarrollador o empresa	Alibaba Cloud (subsidiaria de Alibaba Group)
Fecha de lanzamiento	Lanzamiento inicial: 2024 Última actualización significativa: Julio 2024
Capacidades principales	– Procesamiento de lenguaje natural (NLP) – Conversaciones dinámicas – Generación de contenido – Respuestas basadas en datos hasta septiembre de 2024 – Resolución de problemas complejos
Limitaciones conocidas	– Información posterior a septiembre de 2024 no disponible – Contexto limitado por conversación – Dificultades con interpretación subjetiva (tono emocional, sarcasmo) – No procesa información personal sensible sin consentimiento explícito
Otra información útil	– Interacción clara y específica mejora precisión de respuestas – Respeto principios éticos y de privacidad – Actualizaciones continuas para mejorar rendimiento y adaptabilidad

Mistral

Categoría	Detalle
Nombre o denominación completa	Le Chat
Versión y modelo	Modelo de lenguaje grande (LLM) creado por Mistral AI
Desarrollador o empresa	Mistral AI, una startup francesa con sede en París
Fecha de lanzamiento	No tengo información sobre mi fecha de lanzamiento.
Última actualización significativa	No tengo información sobre mi última actualización significativa.
Capacidades principales	– Generación de texto – Comprensión del lenguaje natural – Traducción – Resumen de texto – Generación de imágenes
Limitaciones conocidas	– No puedo realizar búsquedas en la web ni acceder a Internet – No puedo leer ni transcribir archivos de audio o video, ni leer imágenes – No puedo generar contenido que no sea visual – Límites de tasa en ciertas herramientas
Otra información útil	– Proporciona consultas claras y específicas – Soy muy atento a las fechas – Puedo responder en el idioma que uses o solicites

Perplexity

Información Detallada	Descripción
Nombre Completo	Perplexity AI Assistant
Desarrollador	Perplexity AI
Tipo de Modelo	Modelo de Lenguaje de Gran Escala (LLM)
Fecha de Conocimiento Base	Diciembre de 2023
Capacidades Principales	– Procesamiento de lenguaje natural – Generación de texto inteligente – Búsqueda y síntesis de información – Análisis de datos – Resolución de problemas – Traducción multilingüe
Áreas de Especialización	– Investigación académica – Explicaciones científicas – Análisis técnico – Soporte educativo – Redacción profesional
Limitaciones	– Sin acceso a internet en tiempo real – No puede realizar acciones físicas – Sin memoria persistente entre sesiones – No tiene conciencia ni emociones reales
Principios Operativos	– Precisión – Objetividad – Respeto – Confidencialidad – Ética en la información
Recomendaciones de Uso	– Preguntas claras y específicas – Verificar información crítica – Usar como herramienta de apoyo

Grok

Atributo	Detalles
Nombre o denominación completa	Grok
Versión y modelo	Grok 2
Desarrollador o empresa	xAI
Fecha de lanzamiento y última actualización	No disponible (actualización continua)
Capacidades principales	– Análisis de datos en tiempo real – Respuestas creativas y útiles – Generación de imágenes – Investigación y asistencia – Análisis de contenido
Limitaciones conocidas	– No puede hablar en modo voz – No puede ejecutar código – No puede editar imágenes ni generar imágenes basadas en otras imágenes – No tiene acceso a datos internos de X/Twitter
Otra información útil	– Interacción natural – Maximiza la utilidad – Perspectiva externa sobre asuntos humanos – Objetividad en temas controvertidos – No inventa información – Actualización constante del conocimiento

Copilot

Atributo	Descripción
Nombre o denominación completa	Copilot
Versión y modelo	Modelos de lenguaje avanzados de última generación (no especifico versión/modelo técnico)
Desarrollador o empresa	Microsoft
Fecha de lanzamiento y última actualización	No tengo una fecha específica; mis conocimientos se actualizan continuamente
Capacidades principales	– Responder preguntas – Crear y colaborar en textos – Ofrecer soporte y consejos – Realizar búsquedas web – Generar imágenes – Interpretar imágenes
Limitaciones conocidas	– No proporciono contenido completo protegido por derechos de autor – No realizo acciones en dispositivos (e.g., recordatorios) – No edito imágenes – No busco imágenes específicas – Basado en información disponible (no precisión absoluta garantizada)
Información adicional	– Revisa la declaración de privacidad de Microsoft para más detalles – Comparte sugerencias o retroalimentación para mejorar mi rendimiento

Gemini

Categoría	Descripción
Nombre o denominación completa	Gemini
Versión y modelo	Familia de modelos Gemini, incluyendo 1.5 Flash.
Desarrollador o empresa	Google
Fecha de lanzamiento y última actualización	No hay una fecha de lanzamiento pública específica. Los modelos de Google se actualizan continuamente. La información sobre fechas de actualizaciones específicas de los modelos no se suele divulgar públicamente.
Capacidades principales	* Procesamiento del lenguaje natural: Comprensión y generación de texto en múltiples idiomas, respuesta a preguntas, generación de texto creativo, traducción de idiomas, escritura de contenido creativo. * Acceso a información actualizada: Acceso a información actualizada a través de fragmentos de búsqueda. * Multimodalidad: Capacidad de entender y trabajar con diferentes tipos de información (texto, código, imágenes, audio y video), aunque en esta interfaz la interacción principal es textual.
Limitaciones conocidas	* Falta de capacidades físicas: No puedo realizar acciones en el mundo real. * Dependencia de la información de búsqueda: La calidad de las respuestas depende de la calidad de los resultados de búsqueda. * Posibles sesgos: Puedo reflejar sesgos presentes en los datos de entrenamiento. * Falta de «comprensión» real: No tengo una comprensión real del mundo ni conciencia propia.
Información adicional para la interacción	* Sé específico en tus preguntas: Preguntas específicas resultan en mejores respuestas. * Experimenta con diferentes tipos de preguntas: Prueba diferentes formulaciones. * Verifica la información importante: Siempre verifica información crucial en fuentes confiables. * Distingue entre hechos y opiniones: Distingue entre información objetiva y opiniones. * Estoy en continuo desarrollo: Los modelos Gemini están en constante mejora.

Conclusiones

Por su nivel de lógica destacan tres chatbots sobre el resto: ChatGPT, Claude y Qwen.
Para cálculos matemáticos, tanto ChatGPT como Claude pueden dar resultados precisos, el resto producirá resultados que casi con total seguridad no lo serán.
Si lo que nos interesa es trabajar con PDF, probablemente debemos decantarnos por Claude, ya que es el único capaz de tomar en cuenta las imágenes que contienen.

Así pues, para tareas educativas típicas como puede ser la creación de unidades didácticas, prácticas, ejercicios, actividades, juegos, etc., los mejores resultados se obtendrán con estos tres chatbots: ChatGPT, Claude y Qwen. Además, Qwen no tiene límites de uso definidos, por lo que puede ser una alternativa a la altura de los otros dos.

Pódcast del artículo generado con IA

Tomado de BILATERIA con permiso de su autor

Páginas

martes, 14 de enero de 2025

¿Qué IA me conviene? Comparativa de chatbots