 Apple Intelligence est un produit conjoint de l’EPFL

Le 4M d'Apple et de l'EPFL est une approche innovante pour entraîner des modèles IA multimodaux et polyvalents, avec de nombreuses applications potentielles dans le domaine de la vision par ordinateur et au-delà.
epfl + logo Apple pour 4M

Introduction au modèle 4M

Le modèle opensource4M (Massively Multimodal Masked Modeling) représente une avancée significative dans le domaine de la vision par ordinateur. Contrairement aux modèles actuels souvent limités à une seule modalité et tâche, 4M propose une approche unifiée et polyvalente.

Fonctionnement de 4M

4M utilise un schéma d’entraînement multimodal en formant un unique encodeur-décodeur Transformer avec un objectif de modélisation masquée. Ce modèle traite une large gamme de modalités d’entrée et de sortie, y compris le texte, les images, les modalités géométriques et sémantiques, ainsi que les cartes de caractéristiques des réseaux neuronaux.

Capacités du modèle 4M

Les modèles entraînés avec 4M présentent plusieurs capacités clés :

  • Ils peuvent effectuer diverses tâches de vision dès leur sortie de la « boîte ».
  • Ils excellent lorsqu’ils sont ajustés pour des tâches en aval non vues ou de nouvelles modalités d’entrée.
  • Ils peuvent fonctionner comme un modèle génératif conditionné sur des modalités arbitraires, permettant une grande variété de capacités d’édition multimodale expressives avec une flexibilité remarquable.

Conclusion

Les analyses expérimentales montrent le potentiel de 4M pour former des modèles de base polyvalents et évolutifs pour les tâches de vision, ouvrant la voie à une exploration plus approfondie de l’apprentissage multimodal pour la vision et d’autres domaines.

Plus d’infos : https://4m.epfl.ch