Mistral Large 2 établit une nouvelle frontière de performance/coût, atteignant 84% de précision et surpassant les modèles Mistral précédents ainsi que les modèles de pointe comme GPT-4o, Claude 3 Opus et Llama 3 405B.
Des efforts importants ont été déployés pour améliorer les capacités de raisonnement de Mistral Large 2 et réduire sa tendance à halluciner ou à fournir des informations inexactes. Il est formé pour reconnaître lorsqu’il ne dispose pas d’informations suffisantes pour fournir une réponse fiable (ndr: on demande à voir).
Mistral Large 2 a amélioré ses capacités de suivi d’instructions et de conversation, comme le démontrent ses performances sur des benchmarks tels que MT-Bench, Wild Bench et Arena Hard