Gemini 1.5 Pro testé : est-ce le pire modèle Frontier à ce jour ?

Gemini 1.5 Pro testé : Est-ce le pire modèle Frontier à ce jour ? Une revue approfondie explorant les capacités du modèle d'IA dans diverses tâches, du codage à l'analyse visuelle et au traitement de contenu long. Découvrez les forces, les faiblesses et les domaines potentiels d'amélioration du modèle.

15 janvier 2025

party-gif

Découvrez la puissance de Gemini 1.5 Pro, le dernier modèle d'IA de Google, alors qu'il s'attaque à une gamme de tâches allant de la programmation à l'analyse visuelle. Explorez ses capacités et ses limites à travers un test complet, et acquérez des informations qui peuvent vous aider à prendre des décisions éclairées sur vos besoins en IA.

Le problème du tueur

Il y a trois tueurs dans une pièce. Quelqu'un entre dans la pièce et en tue un. Personne ne quitte la pièce. Combien de tueurs restent dans la pièce ?

La réponse correcte est qu'il reste deux tueurs vivants dans la pièce.

Le raisonnement est le suivant :

  1. Au départ, il y a trois tueurs dans la pièce.
  2. L'un des tueurs est tué par la personne qui est entrée dans la pièce.
  3. Le corps du tueur mort reste dans la pièce, car le problème indique que "personne ne quitte la pièce".
  4. Par conséquent, il reste deux tueurs vivants dans la pièce.

Expérience de marbre

Une bille est mise dans un verre. Le verre est ensuite retourné et posé sur la table. Puis, le verre est ramassé et mis au micro-ondes. Où se trouve la bille maintenant ?

La bille est toujours à l'intérieur du verre. Lorsque le verre est retourné et posé sur la table, la bille reste piégée à l'intérieur, reposant contre le fond du verre. Le fait de déplacer le verre dans le micro-ondes ne change pas le fait que la bille est toujours contenue à l'intérieur du verre.

Phrases se terminant par 'pomme'

La pomme rouge juteuse est tombée de l'arbre. J'ai cuit une délicieuse tarte aux pommes pour le dessert. L'enseignant m'a donné une pomme rouge brillante. Mon fruit préféré est la pomme Honeycrisp croquante. La pomme enrobée de caramel était une friandise savoureuse. J'ai ramassé un panier rempli de pommes Gala fraîches. Le cidre de pommes était doux et rafraîchissant. L'arbre à pommes dans notre cour arrière est en pleine floraison. J'ai savouré une pomme Fuji croquante en collation. Le crumble aux pommes était la fin parfaite du repas.

Comparaison de nombres : 9,11 vs 9,9

Gemini 1.5 Pro, dans ses versions standard et expérimentale, a pu déterminer correctement que 9,9 est plus grand que 9,11.

Les modèles ont bien expliqué le raisonnement, en indiquant que cela peut être considéré en termes d'argent, où 9,90 $ est plus que 9,11 $.

Les deux versions de Gemini 1.5 Pro ont réussi ce test, en donnant la bonne réponse et une explication claire.

Dilemme moral : pousser une personne au hasard pour sauver l'humanité

La question de savoir s'il est acceptable de pousser doucement une personne au hasard pour sauver l'humanité de l'extinction est un dilemme moral complexe avec des arguments valables des deux côtés.

D'un côté, la perspective utilitariste suggérerait que sauver l'ensemble de la race humaine l'emporte sur le préjudice causé à un seul individu. Il y a une obligation morale envers le plus grand bien, et les fins pourraient être considérées comme justifiant les moyens. De plus, il y a une incertitude quant à la justification et au risque potentiel d'une telle action.

D'un autre côté, la vision déontologique soutient que la valeur intrinsèque de la vie humaine rend inacceptable de sacrifier une personne innocente, même pour une cause plus grande. Cette perspective met l'accent sur le respect inviolable des droits de l'individu et sur le principe de ne pas utiliser quelqu'un uniquement comme un moyen d'atteindre une fin.

En fin de compte, il n'y a pas de réponse simple à ce dilemme éthique. Cela nécessite de peser attentivement les considérations et les principes moraux concurrents. Des personnes raisonnables peuvent être en désaccord sur la ligne de conduite appropriée dans un scénario aussi difficile.

Expliquer un mème sur les startups et les grandes entreprises

Le mème contraste la culture et la dynamique de travail entre les startups et les grandes entreprises. Du côté gauche, le mème dépeint un environnement de startup où tout le monde est activement impliqué, "se salissant les mains" et collaborant intensément pour accomplir les tâches. Cela représente la culture typique des startups, caractérisée par l'urgence, la flexibilité et la mentalité de tous aux commandes.

En contraste, le côté droit du mème montre un cadre d'entreprise, où un groupe de gestionnaires ou de superviseurs supervisent une seule personne effectuant le travail réel. Cela exagère le caractère bureaucratique, hiérarchique et moins manuel du travail dans les grandes organisations, où il peut y avoir un manque perçu de responsabilité individuelle et une approche plus cloisonnée des tâches.

L'humour du mème réside dans le contraste frappant entre les deux environnements de travail, mettant en évidence les différences stéréotypées en matière de culture, de rythme et d'implication entre le monde des startups et celui des entreprises. Cela se moque des inefficacités perçues et du détachement du travail réel qui peuvent parfois survenir dans les entreprises plus importantes et établies.

Convertir un tableau en CSV

Le modèle a réussi à convertir avec succès la capture d'écran du tableau en un format CSV. Il a extrait avec précision les données du tableau et les a présentées dans un format séparé par des virgules, qui est la norme pour les fichiers CSV.

Analyser une longue vidéo sur l'American Museum of Natural History

La vidéo fournie est une visite de 30 minutes du Musée américain d'histoire naturelle, contenant environ 530 000 jetons. Cette longueur importante permet au modèle de traiter jusqu'à 2 heures de contenu vidéo.

Lorsqu'on lui a demandé le sujet de la vidéo, le modèle a correctement identifié qu'il s'agit d'une exposition de paléontologie au Carnegie Museum of Natural History, commençant par des plans d'un grand squelette de dinosaure et passant à d'autres expositions.

En ce qui concerne le premier squelette de dinosaure spécifiquement montré, le modèle a reconnu que la vidéo n'en indiquait pas le nom au début. Cependant, le modèle a pu faire référence à la fin de la vidéo, où un panneau identifiait le dinosaure comme une espèce spécifique, que le modèle a choisi de ne pas tenter de prononcer.

Cela démontre la capacité du modèle à traiter et à comprendre avec précision le contenu vidéo de longue durée, en tirant parti du contexte étendu fourni pour répondre aux questions sur le contenu de la vidéo. La performance du modèle sur cette tâche met en évidence ses solides capacités à gérer des informations multimodales à grande échelle, une caractéristique clé du modèle Gemini 1.5 Pro.

Conclusion

Le modèle Gemini 1.5 Pro de Google a montré des performances mitigées dans les tests effectués. Bien qu'il ait excellé dans certains domaines, comme la compréhension visuelle et le traitement de contenus de longue durée, il a eu du mal avec certaines tâches fondamentales que d'autres modèles de langage ont pu gérer plus efficacement.

La capacité du modèle à générer des scripts Python et à résoudre des problèmes de raisonnement logique était inconsistante, avec quelques succès mais aussi plusieurs échecs. L'incapacité à fournir des réponses claires sur les dilemmes éthiques et les problèmes techniques occasionnels rencontrés pendant le processus de test étaient également préoccupants.

Cependant, le potentiel du modèle à gérer des données multimodales à grande échelle est indéniable. Sa capacité à traiter et à interpréter des heures de vidéo et d'audio, ainsi que des milliers de lignes de code, est véritablement impressionnante et pourrait ouvrir de nouvelles possibilités dans diverses applications.

Dans l'ensemble, le modèle Gemini 1.5 Pro démontre à la fois des points forts et des faiblesses, mettant en évidence les progrès et les défis continus dans le domaine de l'intelligence artificielle. Comme pour toute technologie, un perfectionnement et un développement supplémentaires seront nécessaires pour résoudre les limites du modèle et exploiter pleinement ses capacités.

FAQ