Large 2 de Mistral es su respuesta a los últimos modelos de Meta y OpenAI
Para los modelos de inteligencia artificial de vanguardia, cuando llueve, derrama. Mistral lanzó un nuevo modelo insignia el miércoles, Large 2, que afirma estar a la altura de los últimos modelos de vanguardia de OpenAI y Meta en cuanto a generación de código, matemáticas y razonamiento.
El lanzamiento de Mistral Large 2 se produce un día después de que Meta lanzara su último y mejor modelo de código abierto, Llama 3.1 405B. Mistral dice que Large 2 establece un nuevo estándar de rendimiento y costo para los modelos abiertos, respaldándolo con una serie de pruebas de referencia.
Large 2 parece superar a Llama 3.1 405B en generación de código y rendimiento matemático, y lo hace con menos de un tercio de los parámetros: 123 mil millones, para ser precisos.
En un comunicado de prensa, Mistral dice que una de sus áreas clave de enfoque durante el entrenamiento fue minimizar los problemas de alucinación del modelo. La empresa dice que Large 2 fue entrenado para ser más exigente en sus respuestas, reconociendo cuando no sabe algo en lugar de inventar algo que parezca plausible.
La startup de inteligencia artificial con sede en París recaudó recientemente $640 millones en una ronda de financiación de la Serie B, liderada por General Catalyst, con una valoración de $6 mil millones. Aunque Mistral es uno de los nuevos participantes en el espacio de la inteligencia artificial, está enviando rápidamente modelos de IA en o cerca de la vanguardia.
Sin embargo, es importante tener en cuenta que los modelos de Mistral no son de código abierto en el sentido tradicional: cualquier aplicación comercial del modelo necesita una licencia de pago. Y aunque es más abierto que, por ejemplo, GPT-4o, pocas personas en el mundo tienen la experiencia y la infraestructura para implementar un modelo tan grande. (Esto es doble para los 405 mil millones de parámetros de Llama, por supuesto.)
Algo que falta en Mistral Large 2, y que estuvo ausente en el lanzamiento de Llama 3.1 de Meta ayer, es la capacidad multimodal. OpenAI está muy por delante de la competencia en lo que respecta a sistemas de inteligencia artificial multimodales, capaces de procesar imágenes y texto simultáneamente, una característica que algunas startups están buscando construir cada vez más.
El modelo tiene una ventana de 128,000 tokens, lo que significa que Large 2 puede recibir una gran cantidad de datos en una sola solicitud (128,000 tokens equivalen aproximadamente a un libro de 300 páginas). El nuevo modelo de Mistral también incluye soporte multilingüe mejorado. Large 2 comprende inglés, francés, alemán, español, italiano, portugués, árabe, hindi, ruso, chino, japonés y coreano, junto con 80 lenguajes de codificación. Cabe destacar que Mistral afirma que Large 2 también produce respuestas más concisas que los principales modelos de IA, que tienden a divagar.
Mistral Large 2 está disponible para su uso en Google Vertex AI, Amazon Bedrock, Azure AI Studio e IBM watsonx.ai. También puede utilizar el nuevo modelo en La Plataforma de Mistral bajo el nombre “mistral-large-2407” y probarlo de forma gratuita en el competidor de chat de la startup, Le Chat.