Gemini ; l’arme fatale de Google
Le 6 décembre, peu après les rumeurs de la presse américaine sur un report de son projet, Google a dévoilé par communiqué de presse Gemini, son nouveau modèle de langage conçu pour renverser l’avance prise par OpenAI avec sa propre technologie, GPT-4.
Les prétentions de Google sont fortes : Gemini fait mieux que GPT-4 sur quasiment toutes les tâches, alors que son précédent modèle de langage (LLM) LaMDA était trop souvent imparfait. La route est encore longue, mais Gemini devrait être au cœur de la révolution technologie de l’intelligence artificielle en 2024. Les premières démos sont remarquables : elles montrent une IA capable de comprendre le monde et de réagir comme un être humain.
Gemini perçoit le monde : la démo de Google est fascinante
Développé par DeepMind, la filiale de Google spécialisée dans l’IA, le modèle de langage Gemini 1.0 a tout de la révolution espérée par Google depuis l’apparition de ChatGPT fin 2022.
« Le lancement de l’ère Gemini », comme Google l’appelle, est celui de modèles informatiques capables de comprendre le monde qui les entoure et de réagir sans avoir à être sollicités, de façon naturelle. Une des premières démos partagées par Google montre une IA digne de Jarvis (Iron Man), avec une capacité incroyable de compréhension de ce qu’on lui montre. Voir Gemini à l’action fait immédiatement penser à un futur dans lequel les lunettes connectées pourraient enfin trouver la place qui leur est promise.
Capable de reconnaître un dessin en temps réel, de deviner ce qui va se produire dans une image, de jouer à un jeu en répondant aux gestes de « son humain » ou de réagir à des situations par l’humour, Gemini entretient le fantasme de la super-IA susceptible de penser comme une vraie personne. Google DeepMind explique avoir conçu le premier « vrai modèle multimodal » au monde, avec la capacité d’intégrer du texte, de l’image ou du son à sa réflexion, là où ses concurrents additionnent ces savoir-faire.

Commentaires
Enregistrer un commentaire