On a testé le nouveau ChatGPT-o1

Diederick Legrain Formateur IA

Formateur IA 16-09-2024, 13:16 Mise à jour le: 28-10-2024, 14:45 Source: Trends-Tendances 2 min. de lecture

OpenAI vient de lancer ChatGPT-o1, sa dernière innovation en matière d’intelligence artificielle conversationnelle. Cette nouvelle version promet une approche plus méthodique du raisonnement. Mais que vaut-elle vraiment pour les professionnels ? Nous avons mis ChatGPT-o1 à l’épreuve face à son prédécesseur, ChatGPT-4o, sur des tâches complexes.

La principale nouveauté de ChatGPT-o1 réside dans sa méthode de travail. Contrairement à la version 4o qui fournit des réponses instantanées, o1 prend le temps d’analyser le problème en suivant une série d’étapes prédéfinies. Cette approche dite de « raisonnement » vise à répondre correctement aux demandes complexes. Nous avons donc mis ChatGPT-o1 en situation.

Le jeu des 3 balles de couleur

Le premier défi est un casse-tête. Quelle est la meilleure stratégie pour tirer exactement 3 boules de chaque couleur issues de deux vases opaques contenant chacun deux boules noires et deux boules blanches ?

Surprise : ni ChatGPT-o1, ni son prédécesseur n’arrivent à la solution optimale. Chat-GPTo1 propose une stratégie offrant 66% de chances de succès, tandis que 4o semble ne pas saisir pleinement le problème.

En fait, la meilleure stratégie selon les mathématiciens permet de pousser sa probabilité de gagner à 94%. À noter que d’autres IA renommées comme Claude 3.5, Gemini 1.5 ou Mistral Large échouent également face à ce casse-tête.

Premier défi raté, donc.

L’aide à la décision stratégique

Nous avons soumis aux deux versions de ChatGPT un scénario de décision stratégique pour une entreprise, avec 10 paramètres à prendre en compte. Il faut décider si l’entreprise mise tout sur une nouvelle technologie ou continue de proposer l’ensemble de ses services précédents sans tout investir dans la nouvelle technologie.

ChatGPT-4o fournit instantanément une analyse détaillée. Nous y reviendrons.

ChatGPT-o1, en revanche, prend… 20 secondes de réflexion, décomposant son raisonnement en étapes : évaluation des facteurs, analyse des scénarios, évaluation des options et des implications, anticipation des défis, deuxième évaluation des scénarios et décision.

Résultat : la réponse de o1 s’avère nettement plus riche et pertinente, tant selon notre analyse que selon l’analyse de Claude 3.5, une IA concurrente sollicitée pour arbitrage.

Avantage : ChatGPT-o1 !

Le simulateur d’entretien commercial

Dernier test : la rédaction d’instructions pour un simulateur d’entretien commercial.

ChatGPT-4o s’exécute instantanément, produisant un résultat directement exploitable. Franchement, cela nous a étonné. Il y a quelques semaines encore, le processus nécessitait beaucoup de corrections. Un simple-copier nous a permis d’activer ce simulateur que vous pouvez découvrir ici .

ChatGPT-o1, lui, s’égare d’abord dans une longue explication sur l’implémentation du simulateur dans l’entreprise. Il faut insister pour obtenir les instructions, qui, à l’usage, ont fourni un simulateur moins convaincant que celui de 4o. Vous pouvez le découvrir ici.

Avantage au ChatGPT-4o donc.

Quel intérêt pour les entreprises ?

ChatGPT-o1 pourrait se révéler précieux pour les utilisateurs confrontés à des tâches très complexes, mais peu familiers avec les techniques de “prompt engineering”. Sa méthode de décomposition automatique des problèmes dispense d’apprendre les subtilités du “prompt chaining” (subdivision manuelle des requêtes en une chaîne d’instructions).

Pour certaines catégories professionnelles en particulier, ChatGPT-o1 sera très utile : chercheurs, économistes, physiciens, mathématiciens, statisticiens…

Cependant, pour la majorité des utilisateurs professionnels de ChatGPT, cette nouvelle approche par “raisonnement” risque d’apporter peu de valeur ajoutée. Elle pourrait même s’avérer décevante dans certains cas, notamment pour les tâches de rédaction où ChatGPT-o1 s’avère moins performant que ses concurrents.