Por Juan José de Haro
Hemos analizado una serie de características de los chatbots más populares. No es un estudio detallado y sistemático con docenas de parámetros, sino simplemente algunas de las características que un servidor aprecia más en un chatbot.
Tras la tabla se hace una pequeña discusión de cada una de las características observadas y, por último, se proporciona una ficha de cada una de las diferentes IA.
Tabla de comparación
Casi todos los chatbots constan de diferentes modelos con distintas capacidades, en esta tabla están representados únicamente los modelos que aparecen por defecto en las versiones gratuitas.
Están ordenados de mejor a peor resultado, pero esto es algo muy relativo, ya que cada característica la hemos contabilizado por igual (un punto para cada una de ellas), pero diferentes intereses y objetivos nos podrían llevar a dar diferentes pesos a cada una de ellas, con lo que también obtendríamos un orden diferente.
Debemos señalar que Qwen tiene una puntuación negativa en dos características de las que ya se han anunciado su incorporación, como la creación de imágenes y la conexión a Internet. Cuando esto suceda, según los parámetros que hemos utilizado, pasará al primer lugar, por delante de ChatGPT y Claude.
Generación de imágenes
Es la capacidad para generar imágenes, indicándolo directamente en el chat. Hay que destacar que en Qwen aparece un botón para generar imágenes no funcional, pero que indica que próximamente estará en funcionamiento.
En esta tarea destaca Grok, que hace imágenes muy realistas y con pocas limitaciones. Por el lado contrario está Gemini, que se niega a crear representaciones de personas, aunque estas sean inexistentes.
Compartir públicamente conversaciones
Es la posibilidad de poder compartir conversaciones completas. Gemini solo permite compartir respuestas individuales, pero no conversaciones. Claude permite compartir artefactos, que son aplicaciones o textos creados por la IA, lo cual es muy útil, pero no directamente conversaciones. Grok y Copilot no permiten compartir nada.
Hacer aplicaciones que ejecuta el mismo chatbot
Cuando se le pide un programa o aplicación a la IA, todas nos dan el código, pero solo Claude y Qwen son capaces de ejecutarlas. No ejecutan cualquier programa, sino únicamente los hechos con JavaScript (el lenguaje de las páginas web), por lo que, cuando deseemos probar lo que nos ha hecho, deberemos pedírselo en HTML. En el caso de Claude, podremos compartirlo públicamente, por lo que podremos utilizarlo para nuestras clases. En el caso de Qwen solo podremos verlo y, si nos interesa, descargarlo como página web.
ChatGPT permite ejecutar programas en Python, aunque de forma no interactiva (es decir, no podremos cambiar valores o parámetros), pero no en JavaScript, de forma que no podremos compartir aplicaciones.
Subir documentos de texto
Por curioso que parezca, hay chatbots a los que no les podemos subir ni un simple archivo de texto plano para que lo analicen, se trata de Copilot y Gemini. En el caso de Grok, esta opción queda para las cuentas de pago.
El resto de chatbots admite muchos tipos como DOCX, XLS, MD, PDF, etc. Los tipos son variables entre los diferentes chatbots, pero suelen admitir los más utilizados para su análisis.
Ver las imágenes de los PDF
La posibilidad de ver las imágenes contenidas en los PDF solo está disponible en Claude. El resto de los chatbots ignoran cualquier imagen que contenga y solo tienen en cuenta el texto. Esto es tremendamente importante si debemos trabajar con PDF que contengan imágenes relevantes, como esquemas, infografías, etc.
Aunque no está incluido en este trabajo, porque no es un chatbot genérico, sino especializado en documentos, NotebookLM también puede verlas.
Representación de fórmulas matemáticas
Es la capacidad de representar correctamente las fórmulas matemáticas, cosa que hacen todos, excepto Gemini. Esta IA utiliza texto para visualizar fórmulas, por lo que no es útil si trabajamos en materias que hacen un uso extensivo de ellas.
Cálculos matemáticos exactos
En cualquier materia de ciencias son importantes cálculos precisos y exactos, eso solo se consigue si la IA realiza las operaciones utilizando un programa creado por ella misma. En el caso de ChatGPT lo hace con Python y Claude con JavaScript. Ambos nos aseguran que el resultado será correcto.
El resto de chatbots hace los cálculos «a mano», es decir, sin ningún apoyo computacional y para operaciones medianamente complejas el resultado será casi siempre erróneo.
Si trabajamos con cálculos matemáticos, es obligado utilizar ChatGPT o Claude.
Conexión a Internet
Para comprobar datos o noticias actuales que las IA desconocen, es necesaria una conexión a Internet para que puedan consultar páginas web. Claude, Qwen y Mistral no disponen de ningún tipo de conexión, el resto sí. Aunque, como pasaba con la generación de imágenes, Qwen dispone de un botón para buscar en Internet que indica que pronto estará disponible.
Problema de lógica
Esta es probablemente una de las características más importantes, ya que el nivel de razonamiento del cual disponga la IA determinará en gran parte la calidad de sus respuestas. Para ponerla a prueba, le hemos pedido a ChatGPT-o1 (el modelo más avanzado en la actualidad) que elaborase una prueba de lógica que fuese nueva. Aunque el tipo de problema no es nuevo (deducir características a partir de una serie de pistas), sí lo es la situación, por lo que la IA debe mostrar un buen nivel de lógica, división del trabajo en pasos sucesivos y comprensión del problema para llegar a la solución correcta.
Este tipo de prueba nos indica si serán capaces de seguir instrucciones complejas dándonos resultados de calidad.
Después de varias propuestas por parte de ChatGPT-o1, hemos seleccionado este problema:
El acertijo de las camisetas y los transportes
Tres personas (Anna, Bob y Carla) llegan a su lugar de trabajo en horarios distintos (8:00, 8:15, 8:30). Cada una lleva una camiseta de un color diferente (roja, verde, azul) y usa un medio de transporte único (coche, autobús, bicicleta).
Datos conocidos:
- La persona que lleva la camiseta roja no llega a las 8:00.
- Quien va en bicicleta llega 15 minutos antes que Anna.
- Bob lleva camiseta verde, pero no usa coche.
- Carla llega a las 8:30, pero su camiseta no es roja.
- La persona que lleva la camiseta azul va en coche.
Objetivo: Determinar para cada uno (Anna, Bob y Carla):
- A qué hora llega.
- De qué color es su camiseta.
- Qué medio de transporte utiliza.
El problema se les ha hecho resolver cuatro veces en un chat diferente cada vez a cada una de las IA.
En esta prueba aparece la mayor sorpresa, ya que solo un chatbot lo ha resuelto bien todas las veces, se trata de Qwen, que demuestra situarse entre los mejores sin lugar a dudas.
ChatGPT-4o y Claude 3.5 Sonnet lo han resuelto bien 3 de las cuatro veces. El resto de chatbots ha obtenido resultados peores y destacan Perplexity y Copilot que no han obtenido la respuesta correcta ninguna de las cuatro veces. Gemini y Mistral tampoco obtienen buenos resultados, ya que solo han dado una vez la respuesta correcta.
Descripción de los chatbots
A continuación presentamos la ficha técnica de cada chatbot creada por ellos mismos a través del prompt: Ficha técnica del chatbot y pidiéndoselo después en forma de tabla.
ChatGPT-4o
Aspecto | Información |
---|---|
Nombre o denominación completa | ChatGPT |
Versión y modelo | Basado en el modelo GPT-4 de OpenAI |
Desarrollador o empresa | OpenAI |
Fecha de lanzamiento | 14 de marzo de 2023 (GPT-4) |
Última actualización significativa | Base de conocimiento fija hasta octubre de 2023, con capacidades ampliadas mediante herramientas como navegación web y ejecución de código. |
Capacidades principales | – Comprensión y generación de texto en múltiples idiomas (incluyendo español y catalán). – Creación de recursos educativos y explicaciones en temas complejos. – Desarrollo y depuración de código en diversos lenguajes (Python, HTML, JavaScript, etc.). – Análisis de datos, visualización y creación de gráficos. – Generación de contenido: ensayos, informes, guías y prompts personalizados. – Uso de herramientas como acceso web, generación de imágenes y trabajo con datos estructurados. |
Limitaciones conocidas | – Conocimiento fijo hasta octubre de 2023, salvo al usar herramientas como la navegación web. – Puede tener limitaciones en matices culturales o expresiones idiomáticas. – Respuestas dependientes de la claridad y especificidad de las instrucciones proporcionadas. – Sin acceso directo a información privada, personal o bases de datos externas sin que se compartan explícitamente. – Puede tener limitaciones en matices culturales o expresiones idiomáticas. |
Información adicional | – Instrucciones claras y específicas permiten mejores resultados. – Uso responsable: diseñado para fines educativos, profesionales y creativos. – Adaptable: puedo ajustar el nivel de detalle o formato según las necesidades del usuario. |
Claude 3.5 Sonnet
Aspecto | Información |
---|---|
Nombre | Claude |
Versión y modelo | Claude 3.5 Sonnet (parte de la familia Claude 3) |
Desarrollador | Anthropic |
Fecha de lanzamiento | Octubre 2024 |
Última actualización de conocimientos | Abril 2024 |
Capacidades principales | – Análisis de datos y resolución de problemas matemáticos complejos. Programación y desarrollo de código en diversos lenguajes. – Creación de contenido escrito, desde textos técnicos hasta creativos. – Análisis y comprensión de imágenes. – Enseñanza y explicación de conceptos. – Conversación natural y asistencia en múltiples idiomas. – Análisis de documentos y extracción de información relevante. |
Limitaciones | – No puedo acceder a internet ni abrir enlaces. No puedo modificar ni guardar archivos. – No puedo recordar conversaciones anteriores. – No puedo generar, crear, editar o manipular imágenes. – Mi conocimiento está limitado a abril de 2024. |
Información adicional | – Me puedes escribir en cualquier idioma y responderé en el mismo. – Puedo ayudarte con tareas tanto simples como complejas. – Adapto mi nivel de detalle según la complejidad de la pregunta. – Puedo procesar y analizar archivos que me compartas durante nuestra conversación. |
Qwen 2.5 Pro
Categoría | Información |
---|---|
Nombre o denominación completa | Qwen |
Versión y modelo | Qwen-2.5 Pro |
Desarrollador o empresa | Alibaba Cloud (subsidiaria de Alibaba Group) |
Fecha de lanzamiento | Lanzamiento inicial: 2024 Última actualización significativa: Julio 2024 |
Capacidades principales | – Procesamiento de lenguaje natural (NLP) – Conversaciones dinámicas – Generación de contenido – Respuestas basadas en datos hasta septiembre de 2024 – Resolución de problemas complejos |
Limitaciones conocidas | – Información posterior a septiembre de 2024 no disponible – Contexto limitado por conversación – Dificultades con interpretación subjetiva (tono emocional, sarcasmo) – No procesa información personal sensible sin consentimiento explícito |
Otra información útil | – Interacción clara y específica mejora precisión de respuestas – Respeto principios éticos y de privacidad – Actualizaciones continuas para mejorar rendimiento y adaptabilidad |
Mistral
Categoría | Detalle |
---|---|
Nombre o denominación completa | Le Chat |
Versión y modelo | Modelo de lenguaje grande (LLM) creado por Mistral AI |
Desarrollador o empresa | Mistral AI, una startup francesa con sede en París |
Fecha de lanzamiento | No tengo información sobre mi fecha de lanzamiento. |
Última actualización significativa | No tengo información sobre mi última actualización significativa. |
Capacidades principales | – Generación de texto – Comprensión del lenguaje natural – Traducción – Resumen de texto – Generación de imágenes |
Limitaciones conocidas | – No puedo realizar búsquedas en la web ni acceder a Internet – No puedo leer ni transcribir archivos de audio o video, ni leer imágenes – No puedo generar contenido que no sea visual – Límites de tasa en ciertas herramientas |
Otra información útil | – Proporciona consultas claras y específicas – Soy muy atento a las fechas – Puedo responder en el idioma que uses o solicites |
Perplexity
Información Detallada | Descripción |
---|---|
Nombre Completo | Perplexity AI Assistant |
Desarrollador | Perplexity AI |
Tipo de Modelo | Modelo de Lenguaje de Gran Escala (LLM) |
Fecha de Conocimiento Base | Diciembre de 2023 |
Capacidades Principales | – Procesamiento de lenguaje natural – Generación de texto inteligente – Búsqueda y síntesis de información – Análisis de datos – Resolución de problemas – Traducción multilingüe |
Áreas de Especialización | – Investigación académica – Explicaciones científicas – Análisis técnico – Soporte educativo – Redacción profesional |
Limitaciones | – Sin acceso a internet en tiempo real – No puede realizar acciones físicas – Sin memoria persistente entre sesiones – No tiene conciencia ni emociones reales |
Principios Operativos | – Precisión – Objetividad – Respeto – Confidencialidad – Ética en la información |
Recomendaciones de Uso | – Preguntas claras y específicas – Verificar información crítica – Usar como herramienta de apoyo |
Grok
Atributo | Detalles |
---|---|
Nombre o denominación completa | Grok |
Versión y modelo | Grok 2 |
Desarrollador o empresa | xAI |
Fecha de lanzamiento y última actualización | No disponible (actualización continua) |
Capacidades principales | – Análisis de datos en tiempo real – Respuestas creativas y útiles – Generación de imágenes – Investigación y asistencia – Análisis de contenido |
Limitaciones conocidas | – No puede hablar en modo voz – No puede ejecutar código – No puede editar imágenes ni generar imágenes basadas en otras imágenes – No tiene acceso a datos internos de X/Twitter |
Otra información útil | – Interacción natural – Maximiza la utilidad – Perspectiva externa sobre asuntos humanos – Objetividad en temas controvertidos – No inventa información – Actualización constante del conocimiento |
Copilot
Atributo | Descripción |
---|---|
Nombre o denominación completa | Copilot |
Versión y modelo | Modelos de lenguaje avanzados de última generación (no especifico versión/modelo técnico) |
Desarrollador o empresa | Microsoft |
Fecha de lanzamiento y última actualización | No tengo una fecha específica; mis conocimientos se actualizan continuamente |
Capacidades principales | – Responder preguntas – Crear y colaborar en textos – Ofrecer soporte y consejos – Realizar búsquedas web – Generar imágenes – Interpretar imágenes |
Limitaciones conocidas | – No proporciono contenido completo protegido por derechos de autor – No realizo acciones en dispositivos (e.g., recordatorios) – No edito imágenes – No busco imágenes específicas – Basado en información disponible (no precisión absoluta garantizada) |
Información adicional | – Revisa la declaración de privacidad de Microsoft para más detalles – Comparte sugerencias o retroalimentación para mejorar mi rendimiento |
Gemini
Categoría | Descripción |
---|---|
Nombre o denominación completa | Gemini |
Versión y modelo | Familia de modelos Gemini, incluyendo 1.5 Flash. |
Desarrollador o empresa | |
Fecha de lanzamiento y última actualización | No hay una fecha de lanzamiento pública específica. Los modelos de Google se actualizan continuamente. La información sobre fechas de actualizaciones específicas de los modelos no se suele divulgar públicamente. |
Capacidades principales | * Procesamiento del lenguaje natural: Comprensión y generación de texto en múltiples idiomas, respuesta a preguntas, generación de texto creativo, traducción de idiomas, escritura de contenido creativo. * Acceso a información actualizada: Acceso a información actualizada a través de fragmentos de búsqueda. * Multimodalidad: Capacidad de entender y trabajar con diferentes tipos de información (texto, código, imágenes, audio y video), aunque en esta interfaz la interacción principal es textual. |
Limitaciones conocidas | * Falta de capacidades físicas: No puedo realizar acciones en el mundo real. * Dependencia de la información de búsqueda: La calidad de las respuestas depende de la calidad de los resultados de búsqueda. * Posibles sesgos: Puedo reflejar sesgos presentes en los datos de entrenamiento. * Falta de «comprensión» real: No tengo una comprensión real del mundo ni conciencia propia. |
Información adicional para la interacción | * Sé específico en tus preguntas: Preguntas específicas resultan en mejores respuestas. * Experimenta con diferentes tipos de preguntas: Prueba diferentes formulaciones. * Verifica la información importante: Siempre verifica información crucial en fuentes confiables. * Distingue entre hechos y opiniones: Distingue entre información objetiva y opiniones. * Estoy en continuo desarrollo: Los modelos Gemini están en constante mejora. |
Conclusiones
- Por su nivel de lógica destacan tres chatbots sobre el resto: ChatGPT, Claude y Qwen.
- Para cálculos matemáticos, tanto ChatGPT como Claude pueden dar resultados precisos, el resto producirá resultados que casi con total seguridad no lo serán.
- Si lo que nos interesa es trabajar con PDF, probablemente debemos decantarnos por Claude, ya que es el único capaz de tomar en cuenta las imágenes que contienen.
Así pues, para tareas educativas típicas como puede ser la creación de unidades didácticas, prácticas, ejercicios, actividades, juegos, etc., los mejores resultados se obtendrán con estos tres chatbots: ChatGPT, Claude y Qwen. Además, Qwen no tiene límites de uso definidos, por lo que puede ser una alternativa a la altura de los otros dos.
Pódcast del artículo generado con IA
Tomado de BILATERIA con permiso de su autor
No hay comentarios:
Publicar un comentario