Nouvelles de l'IA : Exploration des progrès d'OpenAI vers l'AGI et derniers développements

Explorez la feuille de route d'OpenAI pour le développement de l'AGI, des chatbots aux organisations d'IA. Découvrez leur nouvelle technologie de raisonnement Strawberry et les dernières nouvelles et controverses autour d'OpenAI. Découvrez comment l'IA transforme l'éducation, la création vidéo et plus encore. Restez à jour sur le monde en constante évolution des nouvelles et des développements de l'IA.

13 janvier 2025

Découvrez les dernières avancées de l'intelligence artificielle, des progrès d'OpenAI vers l'AGI à la sortie de nouveaux modèles et outils d'IA qui peuvent révolutionner votre travail. Cet article de blog offre un aperçu complet des nouvelles et des développements les plus importants en IA que vous devez connaître.

Les cinq niveaux d'Open AI vers l'AGI
Fraise : la nouvelle technologie de raisonnement d'Open AI
Préoccupations concernant les pratiques d'Open AI
Mises à jour potentielles du modèle d'image Dolly
Nouvelles démonstrations de Sora
Les ressources de HubSpot pour utiliser ChatGPT au travail
La nouvelle entreprise éducative d'Andre Karpathy, Eureka Labs
Anthropic publie une licence CLA sur Android
Nouvelles fonctionnalités d'IA de Google : Gemini Answers, Google Vids et YouTube Music Sound Search
Controverse sur les données d'entraînement d'IA et les vidéos YouTube volées
Intégration de Microsoft Designer dans les applications
Mistol publie le modèle de langage Cod Stroll Mamba
Amazon lance l'assistant IA Rufus
Meta limite les modèles multimodaux dans l'UE
Contrôler Stable Diffusion avec un périphérique MIDI
Une application IA transforme les selfies en personnages imprimables en 3D
L'IA détermine avec précision le sexe à partir de radiographies dentaires
Open AI publie GPT-4 Mini
Nvidia et Mistol collaborent sur le modèle Mistol Nemo
L'IA de Google à l'honneur aux Jeux olympiques de 2024

Les cinq niveaux d'Open AI vers l'AGI

Open AI a décrit cinq niveaux de progrès vers l'Intelligence Artificielle Générale (AGI) :

Chatbots et IA avec un langage conversationnel : Ce niveau représente l'état actuel des chatbots et des modèles de langage comme ChatGPT, Claude et LLaMA.
Des raisonneurs capables de résoudre des problèmes au niveau humain : Open AI affirme qu'ils sont très proches d'atteindre ce niveau, qui implique des systèmes capables de raisonner et de résoudre des problèmes au niveau humain.
Des agents ou systèmes capables d'agir en notre nom : Ce niveau inclut des agents IA capables d'effectuer des tâches comme la réservation de vols, la réponse aux e-mails et d'autres actions en notre nom.
Une IA innovatrice capable d'aider à l'invention : Les systèmes IA à ce niveau peuvent créer des idées nouvelles et aider au processus d'invention.
Des organisations et une IA capables de faire le travail d'une organisation : Le niveau final implique des systèmes IA capables d'effectuer le travail d'une organisation entière.

Fraise : la nouvelle technologie de raisonnement d'Open AI

Open AI travaille sur une nouvelle technologie de raisonnement surnommée "Strawberry". Selon un document interne divulgué, des équipes au sein d'Open AI développent ce projet dans le but de créer un modèle capable non seulement de générer des réponses à des requêtes, mais aussi de planifier à l'avance et de naviguer sur Internet de manière autonome pour effectuer des "recherches approfondies".

Les principales capacités que Open AI vise avec Strawberry incluent :

Effectuer des tâches à long terme et des problèmes complexes nécessitant une planification et une série d'actions sur une période prolongée.
Utiliser ces capacités pour mener des recherches en naviguant sur le Web de manière autonome, avec l'aide d'un agent informatique capable d'agir en fonction de ses découvertes.

Préoccupations concernant les pratiques d'Open AI

Open AI a fait l'objet de critiques concernant ses pratiques commerciales, avec des lanceurs d'alerte affirmant que la société empêche illégalement les employés de parler aux régulateurs gouvernementaux des problèmes sur le lieu de travail et leur retire leurs droits de récompense pour avoir soufflé dans le sifflet.

Une lettre adressée au président de la SEC allègue qu'Open AI a une politique qui interdit aux employés de faire des divulgations protégées. Ce n'est pas la première fois que les politiques et les contrats d'Open AI sont remis en question, car la société a précédemment été accusée de forcer les gens à signer des accords de non-dénigrement qui pourraient entraîner la perte d'actions acquises s'ils parlaient mal de l'entreprise.

Mises à jour potentielles du modèle d'image Dolly

Il y a des spéculations selon lesquelles le modèle d'image Dolly d'OpenAI aurait récemment reçu une mise à jour. Cela se base sur des observations indiquant que la capacité du modèle à générer du texte dans les images s'est améliorée, le texte apparaissant plus lisible qu'auparavant.

Plus précisément, un message de l'utilisateur "angry penguin" sur X (anciennement Twitter) montre une image créée par Dolly qui affiche clairement le texte "evolve" - une amélioration significative par rapport aux difficultés précédentes du modèle à générer du texte lisible.

Nouvelles démonstrations de Sora

Nous avons reçu plus de vidéos de démonstration de Sora, ce qui ne fait qu'augmenter l'impatience de pouvoir réellement l'utiliser. Cependant, nous avons des outils comme Runway Gen 3 et Luma's Dream Machine qui peuvent créer de très bonnes vidéos générées par IA, ce qui a un peu atténué l'excitation pour Sora.

Malgré cela, le fait que Sora puisse créer des vidéos beaucoup plus longues et que Open AI ait tendance à fixer la barre pour presque tout ce qu'ils produisent, je suis toujours enthousiaste à ce sujet. Les nouvelles vidéos de démonstration partagées sur le compte X de Matthew Berman semblent assez impressionnantes, montrant des clips en noir et blanc et des scènes d'océan.

Les ressources de HubSpot pour utiliser ChatGPT au travail

Si vous êtes quelqu'un qui utilise l'IA au travail ou que vous envisagez d'utiliser l'IA au travail, vous devez consulter le pack gratuit de HubSpot intitulé "Cinq ressources essentielles pour utiliser ChatGPT au travail".

Cette ressource comprend :

Des organigrammes intéressants sur les moments où vous devriez ou ne devriez pas utiliser ChatGPT
Un modèle pour s'assurer que le contenu généré par ChatGPT respecte la voix de votre marque
Une liste de contrôle pour affiner le contenu généré par l'IA
Une liste de contrôle complète pour adopter l'IA sur le lieu de travail
Un guide sur la façon de booster votre journée avec ChatGPT, y compris 100 façons de l'essayer aujourd'hui

La nouvelle entreprise éducative d'Andre Karpathy, Eureka Labs

Andre Karpathy, qui a précédemment travaillé chez OpenAI et s'est récemment retiré, vient d'annoncer une nouvelle entreprise sur laquelle il travaille. Il a déclaré être "ravi d'annoncer que je commence une entreprise d'IA et d'éducation appelée Eureka Labs".

À Eureka Labs, ils construisent un nouveau type d'école "native de l'IA". Ils affirment que les experts en la matière qui sont passionnés, excellents dans l'enseignement, infiniment patients et maîtrisant toutes les langues du monde sont également très rares et ne peuvent pas personnellement tutorer les 8 milliards d'entre nous à la demande.

Anthropic publie une licence CLA sur Android

Si vous êtes un fan de l'assistant conversationnel d'Anthropic (CLA) et que vous n'avez pas d'iPhone, bonne nouvelle - ils viennent de le sortir sur Android. Il était disponible sur iOS depuis quelques mois et ils viennent de lancer la version Android.

Personnellement, je suis encore un peu plus fan de l'application ChatGPT, principalement parce que la partie de conversation vocale de cette application est vraiment impressionnante. Quand je suis sur mon ordinateur, j'utilise généralement soit le CLA, soit Perplexity. Mais quand je suis sur mon téléphone, j'ai tendance à utiliser l'application ChatGPT.

Nouvelles fonctionnalités d'IA de Google : Gemini Answers, Google Vids et YouTube Music Sound Search

Gemini, l'assistant IA de Google, répond maintenant aux questions générales lorsque votre téléphone Android est verrouillé. Cette fonctionnalité vous permet d'obtenir rapidement des informations sans avoir à déverrouiller votre appareil.

Google a également annoncé Google Vids, une application de création vidéo alimentée par l'IA, conçue pour le travail et profondément intégrée à la suite Google Workspace. Google Vids vous permet de créer des vidéos de style diaporama en fournissant une invite, en sélectionnant un style et en ajoutant un commentaire vocal et des images d'archives.

Controverse sur les données d'entraînement d'IA et les vidéos YouTube volées

Il y a eu une certaine controverse cette semaine sur la source des données d'entraînement pour divers modèles d'IA. Un article sur Proof News affirme qu'Apple, Nvidia et Anthropic ont utilisé des milliers de vidéos YouTube copiées pour entraîner leurs modèles d'IA.

Le problème vient d'une société appelée Uther AI, qui est un projet open source qui collecte un grand ensemble de données appelé "the Pile" à partir de données publiquement disponibles. Il s'avère qu'une part importante de ces données était des transcriptions copiées directement à partir de vidéos YouTube.

Intégration de Microsoft Designer dans les applications

Mistol, la société d'IA française qui développe des modèles de langage à grande échelle, a publié un nouveau modèle appelé Cod Stroll Mamba. Ce modèle est conçu spécifiquement pour la génération de code et est open source.

Les principales caractéristiques de Cod Stroll Mamba incluent :

Modèle de 7 milliards de paramètres
Gère des entrées allant jusqu'à 256 000 jetons (environ 192 000 mots)
Offre des temps de réponse rapides même avec des textes d'entrée plus longs
Open source et disponible pour que les développeurs l'utilisent

Mistol publie le modèle de langage Cod Stroll Mamba

Amazon a lancé un nouvel assistant d'achat alimenté par l'IA appelé Rufus. Rufus est un chatbot intégré directement dans l'application Amazon qui peut répondre à des questions sur les achats et même sur la politique.

Rufus est formé sur les données d'Amazon, ce qui lui permet de fournir des recommandations et des informations sur les produits disponibles sur la plateforme. Les utilisateurs peuvent poser à Rufus des questions comme "Quels sont les meilleurs jeux de plein air pour une fête d'anniversaire d'enfants ?" et il suggérera des produits pertinents et où les trouver sur Amazon.

Amazon lance l'assistant IA Rufus

Il semble que Meta ne proposera pas ses modèles multimodaux dans l'Union européenne. Ils vont sortir un modèle multimodal llama dans les prochains mois, mais il ne sera pas disponible pour les utilisateurs de l'UE.

La principale raison invoquée est "la nature imprévisible de l'environnement réglementaire européen". Plus précisément, le problème de Meta n'est pas avec l'AI Act encore en cours de finalisation, mais plutôt avec la façon dont ils peuvent former des modèles en utilisant les données des clients européens tout en se conformant au RGPD, la loi existante de l'UE sur la protection des données.

Meta limite les modèles multimodaux dans l'UE

1#
2
3Cette section traite d'un projet intéressant partagé sur X par l'utilisateur johanis_stelzer, où ils ont connecté un périphérique MIDI à leur ordinateur pour contrôler divers aspects de Stable Diffusion.
4
5L'utilisateur a branché un périphérique MIDI à leur ordinateur et utilise les boutons du périphérique pour modifier différents paramètres au sein de Stable Diffusion. Cela leur permet d'ajuster dynamiquement les éléments des images générées en temps réel, offrant une manière unique et interactive d'explorer les capacités du modèle de génération de texte à image.
6
7L'utilisateur a également partagé le code de ce projet sur GitHub, permettant à d'autres de reproduire la configuration et d'expérimenter le contrôle de Stable Diffusion via une interface MIDI. Cette intégration du matériel physique à la génération d'images alimentée par l'IA ouvre de nouvelles possibilités pour les artistes et les créateurs d'explorer le potentiel créatif de ces technologies.

Contrôler Stable Diffusion avec un périphérique MIDI

Selon l'article, une nouvelle application alimentée par l'IA de 10 Cents permet aux utilisateurs de transformer leurs selfies en personnages imprimables en 3D. L'application peut générer un modèle 3D à partir d'un seul selfie, avec suffisamment de détails pour être imprimé en 3D.

L'article indique que c'est une application fascinante de la technologie de l'IA, car elle permet de créer des personnages 3D personnalisés à partir d'un simple selfie. Bien que les détails sur l'application soient limités, la capacité de transformer une image 2D en un modèle imprimable en 3D démontre les impressionnantes capacités de la génération d'images alimentée par l'IA.

Une application IA transforme les selfies en personnages imprimables en 3D

Les systèmes d'IA ont atteint une précision de 96% pour déterminer le sexe d'individus à partir de leurs radiographies dentaires. Les chercheurs ont entraîné un modèle d'IA sur un grand ensemble de données d'images dentaires et ont constaté qu'il pouvait identifier avec précision le sexe des individus, à l'exception des enfants de moins de 6 ans qui n'avaient pas encore perdu leurs dents de lait.

L'IA détermine avec précision le sexe à partir de radiographies dentaires

Open AI vient de lancer un nouveau modèle appelé GPT-4 Mini, qui est une version plus petite et plus rentable de leur puissant modèle de langage GPT-4.

Les principales caractéristiques de GPT-4 Mini :

Il remplace l'ancien modèle GPT-3.5, offrant des capacités plus rapides et plus intelligentes.
Il prend en charge les entrées/sorties de texte et de vision, avec des plans pour ajouter la prise en charge de la vidéo et de l'audio à l'avenir.
Il a une fenêtre de contexte de 128 000 jetons, permettant de traiter de grandes quantités de texte d'entrée.
La sortie est limitée à 16 000 jetons.
Dans les évaluations de modèles, GPT-4 Mini se classe deuxième meilleur dans l'ensemble, derrière le modèle GPT-4 complet.

Open AI publie GPT-4 Mini

Nvidia et Mistol, la société d'IA française, ont collaboré pour créer Mistol Nemo, un modèle de langage à grande échelle de 12 milliards de paramètres. Ce modèle est conçu pour être efficace et capable d'un déploiement local, le rendant attrayant pour les entreprises ayant une connectivité Internet limitée ou des exigences strictes en matière de confidentialité des données.

Le modèle Mistol Nemo a une fenêtre de contexte de 128 000 jetons, similaire au récemment publié GPT-4 Mini d'OpenAI. Cette grande fenêtre de contexte permet au modèle de gérer des textes d'entrée et de sortie étendus.

Nvidia et Mistol collaborent sur le modèle Mistol Nemo

Google est le sponsor officiel de l'IA pour l'équipe américaine aux Jeux olympiques d'été de 2024. Le géant de la technologie prévoit d'avoir des publicités mettant en avant ses différents produits d'IA tout au long des diffusions olympiques. Les téléspectateurs peuvent s'attendre à voir une forte présence de la technologie d'IA de Google pendant la couverture des jeux.

FAQ

Quels sont les cinq niveaux de progrès vers l'AGI selon OpenAI ?

Quelle est la nouvelle technologie de raisonnement surnommée 'Strawberry' sur laquelle OpenAI travaille ?

Quelles sont les préoccupations soulevées concernant les politiques et les contrats d'OpenAI avec les employés ?

Qu'est-ce que la nouvelle fonctionnalité 'YouTube Music Sound Search' ?

Quelle est la controverse autour des données d'entraînement utilisées par certains modèles d'IA ?