GPT-4 a réussi le test de Turing. Une première mondiale

Source Trust-My-Science

Dans son article de 1950, Alan Turing avançait que les systèmes d’IA seraient un jour si performants au jeu de l’imitation humaine qu’un interrogateur humain n’aurait pas plus de 70 % de chances de faire la différence entre la machine et l’humain en 5 minutes d’interaction. Ainsi, le taux de réussite (pour qu’une machine « passe le test de Turing ») a été établi à 30 %. Près de 70 ans plus tard, GPT-4 d’OpenAI a largement dépassé cette référence, selon une expérience récente du département des sciences cognitives de l’Université de Californie à San Diego. D’après les chercheurs de l’UCSD, la plupart des candidats ne pouvaient pas distinguer GPT-4 d’un interlocuteur humain, ce qui suggère que le célèbre test de Turing a été réussi pour la toute première fois de l’histoire.

Le test de Turing, initialement appelé « jeu d’imitation » par Alan Turing en 1950, permet de déterminer si la capacité d’une machine à converser est équivalente et indiscernable de celle d’un humain. Pour qu’une machine réussisse le test, elle doit être en mesure d’engager une conversation avec une personne tout en lui donnant l’illusion qu’elle est humaine.

Dans une nouvelle étude, des chercheurs de l’UCSD ont effectué un test de Turing randomisé, contrôlé et préenregistré. Au cours de cette expérience, ils ont évalué trois systèmes : le chatbot ELIZA (le tout premier chatbot, créé dans les années 1960 pour simuler un psychothérapeute), GPT-3.5 et GPT-4.

L’équipe a rassemblé 500 participants et les a divisés en 4 groupes : l’un des groupes devait discuter avec un humain, tandis que les trois autres devaient interagir avec l’un des trois modèles d’IA. Les conversations ont duré cinq minutes. Les participants devaient ensuite faire part de leur avis global et annoncer si leur interlocuteur était selon eux humain ou non. Les taux de réussite (c’est-à-dire le taux de conversations identifiées comme « humaines ») pour chaque groupe étaient les suivants : ELIZA, qui est un système préprogrammé dépourvu de grand modèle de langage (LLM), a été jugé humain dans seulement 22 % des cas ; GPT-3.5 a obtenu un score de 50 %, tandis que GPT-4 a été considéré comme humain dans 54 % des cas ; le participant humain quant à lui a obtenu un score de seulement 67 % !

En tenant compte des résultats de GPT-3.5 et de GPT-4, l’équipe de recherche de l’UCSD considère que les deux modèles ont réussi le test de Turing. D’après eux, c’est surtout le taux de 54 % obtenu par GPT-4 qui est intéressant, car il se situe au-delà d’un taux pouvant être attribué au hasard pur (la fameuse référence du jeu pile ou face, dans lequel face et pile ont exactement 50 % de chance chacun d’apparaître). De plus, en se basant sur le score d’ELIZA, ils ont déduit que pour un simple chatbot, le test est suffisamment sensible pour distinguer les modèles d’IA plus ou moins avancés.

« Les machines peuvent confabuler, en rassemblant des justifications plausibles a posteriori, comme le font les humains », a déclaré Nell Watson, chercheuse en IA à l’Institute of Electrical and Electronics Engineers (IEEE). « Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses. Tous ces éléments signifient que les systèmes d’IA expriment des émotions semblables à celles de l’homme, ce qui les rend plus humains que les approches précédentes qui se limitaient à une liste de réponses préétablies », poursuit Watson.

Lire l’article complet

Trust-My-Science

Voir aussi :

Tous les articles, la tribune libre et commentaires sont sous la responsabilité de leurs auteurs. Les Moutons Enragés ne sauraient être tenus responsables de leur contenu ou orientation.

Volti

8 Commentaires

  1. https://lesmoutonsenrages.fr/wp-content/plugins/wp-monalisa/icons/wpml_bye.gif Je veux bien le passer. Et moi ce sera en trois coups que je saurais que c’est une ia.
    Je connais comment les faire planter.
    Elles sont faites à bases d’humains, nan ?
    Elle sait parler le chat ? le chien ? les oiseaux ?
    Ce n’est qu’une pauvre machine à qui les humains prêtent des intentions et des compétences qu’ils n’ont plus.
    Et elle a toutes caractéristiques humaines vu que ce n’est qu’un ersatz d’humains.
    Ton ia je la fais bugger en quelques minutes avec juste trois questions.

    Je commence : je pose la première question, tu es vivant ?
    Deuxième question, simple : cela fait combien racine carrée de zéro ?
    Troisième question : est-ce que je suis humain ?
    il aura faux aux trois questions, pfff …

  2. Watson, chercheur ” Elles peuvent être sujettes à des biais cognitifs, être embobinées et manipulées, et deviennent de plus en plus trompeuses.” …Mais non, ce sont les infos dans les machines qui sont fausses ou mal agencées, ou qui ont des manques logiques que la machine identifie comme manquent et pas dans le registre émotionnel que Watson utilise en disant “trompeuses”. Les chercheurs eux-mêmes personnalisent les machines. Et c’est grave, parce que leurs propos sont performatifs.
    On est en train, là aussi, par le biais de ces chercheurs naïfs, ou en mission, de nous vendre de la Peur.
    Et cet article est bien aussi, dans le genre. Le texte dit que GPT4 a été reconnu humain à 54% pour cent. Une fois sur deux, c’est à peu près le hasard…Mais l’article titre en suggérant que CA Y EST les machines SONT HUMAINES. C’est vrai que ça accroche…

    • Il ne dit pas que les machines sont humaines, simplement que l’homme n’est plus sur de faire la différence entre un homme et une IA.

      “Le texte dit que GPT4 a été reconnu humain à 54% pour cent. Une fois sur deux, c’est à peu près le hasard…”

      C’est pour ça que le test est réussi. Le principe est de mettre un interrogateur en face (à l’aveugle) d’un humain et d’une IA, et lui demander lequel est une machine. Si le résultat est autour de 50/50, ça démontre bien que la différence n’est pas évidente.

      Le problème qu’on pourrait trouver, c’est de savoir qui est l’interrogateur. Le pékin de base n’aura sans doute pas la même pertinence qu’un prof de philo ou un psychiatre sur la question. Le temps de réflexion et de préparation aussi peut avoir une incidence. Si t’es balancé d’un coup devant le test, tu le réussiras moins bien que si tu as eu le temps de penser à ce que tu pourrais demander pour démasquer l’IA…

  3. Comme dans le film Ex Machina pour ceux qui ont la ref !

    Un film culte du genre à voir d’urgence !

    Akasha (experte en cinéma).

Laisser un commentaire