Les modèles linguistiques larges (LLM) ne sont plus seulement « entraînés sur le Web »
Allen Pike remet en question l’idée répandue selon laquelle les modèles linguistiques larges (LLM) sont uniquement « entraînés sur le Web ». Bien que cela ait été vrai par le passé, les entreprises développent de nouvelles méthodes pour améliorer les capacités de ces modèles.
La recherche dans le domaine des LLM a atteint un plafond de données : ajouter simplement plus de données web à l’entraînement ne suffit plus. Des entreprises comme OpenAI possèdent déjà une grande partie des données disponibles sur Internet, y compris des données difficiles d’accès comme les transcriptions de vidéos YouTube.
Pour continuer à faire progresser leurs modèles, les entreprises se tournent vers l’acquisition et la création de données non publiques. Cette approche leur permet de combler les lacunes des données web et d’améliorer les performances des LLM.
Annotations et filtrage
Les chercheurs utilisent des annotations pour concentrer l’apprentissage des LLM sur les données les plus pertinentes. Cela permet d’obtenir de meilleurs résultats avec des modèles plus petits.
Apprentissage par renforcement avec feedback humain (RLHF)
Les entreprises font appel à des humains pour évaluer les sorties des modèles. Ces feedbacks sont utilisés pour affiner les modèles et encourager des comportements désirables, comme le suivi d’instructions ou l’évitement de contenus inappropriés.
Données d’utilisation
ChatGPT, par exemple, génère environ 10 milliards de jetons de données par jour, même avant l’ouverture de son modèle GPT-4o aux utilisateurs gratuits. Ces données d’utilisation fournissent un énorme volume d’informations pour l’entraînement.
Acquisition de données non web
De nombreuses données ne sont pas disponibles sur le web, comme les e-mails, les journaux de discussion, les manuels internes, les enregistrements téléphoniques, etc. Les entreprises peuvent passer des accords pour inclure ces données dans leur ensemble d’entraînement, améliorant ainsi la diversité et la qualité des données.
Les LLM ont du mal avec les tâches non représentées dans les données d’entraînement
Les LLM rencontrent des difficultés dans certaines tâches, car les données d’entraînement web ne couvrent pas suffisamment ces cas. Par exemple, exprimer le doute ou l’incertitude, maintenir une conversation longue sans répétition, faire des plans à haut niveau, ou raisonner comme un ingénieur principal sur un code hérité complexe.
Données personnalisées
Microsoft a récemment publié un rapport sur son modèle Phi-3, qui, malgré sa petite taille, présente des performances impressionnantes grâce à l’utilisation de données synthétiques de haute qualité générées par des LLM plus grands. Ces données synthétiques aident à combler les lacunes des données web et améliorent les performances globales.
La création de données synthétiques de qualité est un défi, et il existe un risque que les modèles « mangent leur propre queue » en s’entraînant sur leur propre sortie.
Investissement dans la création de données par des humains
Des entreprises comme Scale.ai paient des humains, y compris des experts dans divers domaines, pour créer des données d’entraînement personnalisées. Ces données sont précieuses car elles comblent les lacunes des données web et peuvent être utilisées pour entraîner des modèles futurs. Par exemple, un ensemble de données contenant 50 000 exemples de PhD exprimant leur incertaine de manière réfléchie pourrait valoir bien plus que son coût de production.
Conclusion : Les LLM évoluent au-delà de la simple simulation Internet. Avec l’investissement massif dans la création de données personnalisées, ils deviendront de plus en plus compétents dans des tâches qui ne sont pas bien représentées sur le web.