Google lance Gemini, “premier modèle d’IA à surpasser des experts humains”
Google va commencer mercredi à déployer Gemini, son nouveau modèle d’intelligence artificielle (IA) censé lui permettre de mieux rivaliser avec OpenAI (le créateur de ChatGPT) et Microsoft, des applications pour le grand public aux capacités informatiques pour les entreprises. Le géant américain de l’Internet espère, de la sorte, prendre la tête de la course à l’IA.
“C’est notre modèle d’IA le plus conséquent, le plus doué et aussi le plus général”, a assuré Eli Collins, un vice-président de Google DeepMind, le laboratoire de recherche en IA du groupe californien, lors d’une présentation à la presse.
Il a ensuite diffusé une vidéo où un utilisateur montre des objets, des dessins et des vidéos à Gemini. Le système d’IA commente à l’oral ce qu’il “voit”, identifie les objets, joue de la musique et répond à des questions requérant un certain degré d’analyse, en justifiant son “raisonnement”.
Par exemple, face à l’image d’un canard en plastique qui doit choisir entre deux chemins – celui de gauche menant vers un autre canard dessiné sur le papier et celui de droite vers un ours à l’air menaçant – Gemini suggère le chemin de gauche car “il vaut mieux se faire des amis plutôt que des ennemis”.
La vidéo démontre aussi que Gemini peut reconnaître des références avec très peu de contexte, comme une scène du film Matrix jouée par une personne qui fait semblant d’éviter des balles au ralenti.
Le nouveau modèle est “multimédia dès sa création, il a des capacités de raisonnement sophistiquées et il peut coder à un niveau avancé”, a détaillé Eli Collins.
Premier modèle d’IA à surpasser des experts humains
Selon lui, Gemini est le premier modèle d’IA à surpasser des experts humains à un test standard dans l’industrie, le “MMLU”, qui sert à évaluer les capacités de ces programmes informatiques à raisonner dans différents domaines, des mathématiques à l’histoire et au droit.
Google a qualifié ce lancement d'”étape majeure dans le développement de l’IA et le début d’une nouvelle ère pour nous”.
Gemini est disponible depuis ce mercredi. Il est notamment présent dans les derniers smartphones Pixel de Google. Les personnes qui réalisent des enregistrements audio avec l’appli Recorder du téléphone peuvent, par exemple, demander à l’intelligence artificielle d’écrire un résumé du texte prononcé. Dans les applications de chat, la technologie peut suggérer des réponses. Cela commencera par WhatsApp, mais d’autres apps devraient être ajoutées par la suite.
Gemini sera également intégré au robot conversationnel Bard de Google. L’IA ne maîtrise que l’anglais pour le moment mais il est prévu de pouvoir l’utiliser dans d’autres langues “dans un futur proche”.
L’intelligence artificielle sera en outre ajoutée “dans les prochains mois” au navigateur Chrome et au moteur de recherche de Google.
Depuis le lancement de ChatGPT il y a un an, les géants de la Silicon Valley se livrent une course effrenée à l’IA dite générative, qui permet d’obtenir des textes, images ou lignes de code d’un niveau équivalent à ceux produits par des humains, sur simple requête en langage courant.
Google, leader de l’IA pris de court par le succès phénoménal de ChatGPT, a répondu notamment avec son propre chatbot, Bard.
Discuter oralement avec ses utilisateurs
Mais tout se joue au niveau des modèles, les systèmes informatiques qui sous-tendent ces applications, d’abord gavés de textes récoltés en ligne, et désormais nourris avec toutes sortes de données pour traiter des requêtes contenant des images et discuter oralement avec ses utilisateurs.
OpenAI avait indiqué en septembre qu’elle avait doté ChatGPT de la parole et de la vision pour le rendre “plus intuitif”.
Gemini, “c’est une étape de plus vers notre vision: vous amener le meilleur collaborateur d’IA au monde”, a de son côté souligné mercredi Sissie Hsiao, vice-présidente de Google chargée de Bard.
Bard doit gagner en capacités dès mercredi, mais toujours avec des requêtes rédigées, et seulement en anglais.
Il faudra attendre 2024 pour les autres fonctions et formats, comme l’aide avancée à la résolution de problèmes de maths.
Moins connu que ChatGPT, Bard a l’occasion d’essayer de regagner du terrain sur son rival, victime de son succès: mi-novembre, débordé par la demande, OpenAI a en effet mis sur pause les abonnements à la version payante.
Google va aussi donner accès le 13 décembre à une première version de Gemini à ses clients dans le cloud (informatique à distance), dont les développeurs qui se servent de sa plateforme Vertex AI pour créer leurs propres applications d’IA.
Sur ce terrain, le géant d’internet est en concurrence directe avec Microsoft, principal investisseur d’OpenAI et numéro 2 mondial du cloud, derrière Amazon.
Les deux groupes américains ont passé l’année à ajouter des outils d’IA générative à leurs logiciels respectifs (moteur de recherche, logiciels de bureautique et productivité, plateforme de cloud, etc.)
“Cette nouvelle ère de modèles représente l’un des plus grands efforts scientifiques et techniques que nous ayons entrepris en tant que société”, a déclaré Sundar Pichai, le patron de Google, cité dans un communiqué.
Vous avez repéré une erreur ou disposez de plus d’infos? Signalez-le ici