Nous analysons en détail les nouveaux modèles d'IA d'Open AI et les technologies GPT-3
Commençons :
Quelles sont les technologies qui réussissent à analyser et à reproposer n'importe quel langage humain, qu'il soit naturel ou formel ?
Une réponse est la suivante : GPT-3
Dans le monde de l'Intelligence Artificielle, le modèle de langage GPT-3 (Generative Pre-trained Transformer 3) de l'entreprise OpenAI conquiert rapidement la curiosité du grand public. Nous sommes face à un modèle qui utilise le deep learning pour – par exemple – composer des poèmes, des récits, du code informatique et des chansons de manière rapide, si réalistes qu'ils font penser à des « produits » écrits par un être humain. Il lui suffit simplement d'un input humain pour compléter l'œuvre. Mais l'éloquence de GPT-3 est bien plus qu'un truc « de salon ». Les chercheurs pensent en effet que les techniques utilisées pour créer GPT-3 pourraient révéler le secret d'une Intelligence Artificielle plus avancée. Tout va bien, donc ? En réalité, la nouvelle que seule Microsoft aura accès au code de base de la GPT-3 a fait lever plus d'un sourcil. Voyons pourquoi.
GPT-3 utilise ses algorithmes pour générer du texte. Ces algorithmes ont été précédemment entraînés grâce à une énorme base de données.
Il évalue et traite toutes les données qu'il reçoit pour combler les lacunes informatives.
Il est capable de générer du texte à partir d'une seule phrase et de compléter le reste de l'écriture, en traitant plus de 175 milliards de paramètres. Ce chiffre est très important, car la version précédente, la GPT-2 présentée en 2019, ne traitait que 1,5 milliard de paramètres. Les progrès en un an ont été surprenants.
Il peut traduire des textes dans d'autres langues et les adapter à différents styles d'écriture, comme le journalisme, le roman, etc. Il peut également écrire des poèmes ou nous donner la meilleure réponse à la question que nous lui posons.
En quelques mots, la GPT-3 est capable de traiter tout ce qui est structuré comme un langage : elle peut répondre à des questions, écrire des essais, résumer des textes longs, traduire, prendre des notes et même écrire du code informatique.
Oui, vous avez lu correctement : la GPT-3 peut également programmer. Avec grande surprise, on a découvert qu'elle est capable d'utiliser un plug-in pour Figma, un outil logiciel couramment utilisé dans la conception d'applications et de sites web. Cette caractéristique pourrait avoir des implications épochales pour le développement du code et du logiciel à l'avenir.
La quantité de choses qu'elle est capable de faire peut sembler incroyable, mais ses capacités potentielles sont encore plus stupéfiantes
Qu'est-ce que le GPT-3 d'OpenAI, nouveau modèle d'intelligence artificielle
Le GPT-3 s'est formé sur une énorme quantité de données textuelles. Mais si on entraînait un tel modèle de langage non seulement sur des textes, mais également sur des images ? Une nouvelle recherche de l'Institut Allen pour l'Intelligence Artificielle (AI2) est en train de concrétiser cette idée. Les chercheurs ont développé un nouveau modèle « combiné » de texte et d'images – connu sous le nom de modèle de langage visuel – capable de générer des images avec une légende. Les images semblent détaillées comme les deepfake hyper-réalistes générés par les GAN (Réseaux Génératifs Adverses), et pourraient démontrer une nouvelle direction prometteuse pour obtenir une meilleure Intelligence Artificielle, apportant des nouveautés intéressantes également dans le domaine de la robotique. Le modèle GPT-3 en détail
La GPT-3 fait partie d'un groupe de modèles de langage connus sous le nom de « transformer », qui se sont diffusés pour la première fois avec le langage BERT de Google (Représentations d'encodeur bidirectionnelles à partir de transformateurs). Avant le BERT, les modèles linguistiques étaient plutôt médiocres ; en pratique, ils avaient suffisamment de pouvoir prédictif pour être utiles pour des applications comme l'autocomplétion, mais pas suffisamment de pouvoir pour générer une longue phrase qui suive les règles grammaticales et le sens logique. Le BERT a changé cette situation en introduisant une nouvelle technique appelée « masquage » : il s'agit de cacher des mots différents dans une phrase et de demander au modèle de remplir le vide. L'idée est que si le modèle de langage est contraint de faire ces exercices – souvent des millions de fois – il commence peu à peu à découvrir la manière dont les mots sont assemblés en phrases, ainsi que la manière dont les phrases sont assemblées en paragraphes. Par conséquent, le texte se rapproche de plus en plus du sens achevé. Après que le masquage s'est révélé très efficace, les chercheurs ont cherché à l'appliquer aux modèles de langage visuel en cachant les mots dans les légendes des images. Cette fois, le modèle pouvait regarder à la fois les mots environnants et le contenu de l'image pour remplir le vide. À travers des millions de répétitions, on découvre non seulement les modèles entre les mots, mais également les relations entre les mots et les éléments de chaque image. Le résultat est des modèles capables de relier les descriptions textuelles avec les références visuelles, exactement comme les enfants peuvent créer des connexions entre les mots qu'ils apprennent et les choses qu'ils voient. Les modèles peuvent regarder une photo et rédiger directement une légende, de manière tout à fait autonome. Ou ils peuvent répondre à des questions comme « Quel est la couleur de la balle ? » en reliant le mot « balle » à l'objet sphérique présent dans l'image. Mais les chercheurs d'AI2 voulaient savoir si ces modèles avaient effectivement développé une compréhension conceptuelle du monde visuel. Un enfant qui a appris