L’intelligence artificielle va-t-elle tuer ou sauver les médias ?
Published: November 16, 2023 6.26pm CET
Author
Laurence Devillers
Professeur en Intelligence Artificielle, Sorbonne Université
Laurence Devillers est présidente de la Fondation Blaise Pascal de médiation en mathématiques et en informatique. Elle a également une chaire en IA au CNRS HUMAAINE : Human-Machine Affective Interaction & Ethics. Elle est membre du CNPEN : Comité National Pilote d’Éthique du Numérique.
Recherche d’informations, production de contenu, traduction, détection de propos haineux… l’intelligence artificielle (IA) générative promet d’importants gains de productivité dans l’univers des médias.
Les médias nous accompagnent au quotidien et sont un support à la démocratie : ils ont la liberté de montrer différents points de vue et idées, de dénoncer la corruption et les discriminations, mais également de montrer la cohésion sociale et culturelle.
Alors que le public se tourne vers les médias pour s’informer, se cultiver et se divertir, les médias n’échappent pas aux soucis économiques et à la rentabilité d’une industrie mesurée en termes d’audimat et de vente. Dans ce contexte, l’IA générative amène de nouveaux outils puissants et sera de plus en plus utilisée.
Mais il faut crucialement rappeler que les IA génératives n’ont pas d’idées, et qu’elles reprennent des propos qui peuvent être agencés de façon aussi intéressante qu’absurde (on parle alors d’« hallucinations » des systèmes d’IA). Ces IA génératives ne savent pas ce qui est possible ou impossible, vrai ou faux, moral ou immoral.
Ainsi, le métier de journaliste doit rester central pour enquêter et raisonner sur les situations complexes de société et de géopolitique. Alors, comment les médias peuvent-ils exploiter les outils d’IA tout en évitant leurs écueils ?
Le Comité national pilote d’éthique du numérique (CNPEN) a rendu en juillet un avis général sur les enjeux d’éthique des IA génératives, que j’ai co-coordonné, au ministre chargé de la Transition numérique. Il précise notamment les risques de ces systèmes.
Des outils puissants au service des journalistes
Les médias peuvent utiliser l’IA pour améliorer la qualité de l’information, lutter contre les fausses nouvelles, identifier le harcèlement et les incitations à la haine, mais aussi parce qu’elle peut permettre de faire avancer la connaissance et mieux comprendre des réalités complexes, comme le développement durable ou encore les flux migratoires.
Les IA génératives sont des outils fabuleux qui peuvent faire émerger des résultats que nous ne pourrions pas obtenir sans elles car elles calculent à des niveaux de représentation qui ne sont pas les nôtres, sur une quantité gigantesque de données et avec une rapidité qu’un cerveau ne sait pas traiter. Si on sait se doter de garde-fous, ce sont des systèmes qui vont nous faire gagner du temps de recherche d’information, de lecture et de production et qui vont nous permettre de lutter contre les stéréotypes et d’optimiser des processus.
Ces outils n’arrivent pas maintenant par hasard. Alors que nous sommes effectivement noyés sous un flot d’informations diffusées en continu par les chaînes classiques ou contenus accessibles sur Internet, des outils comme ChatGPT nous permettent de consulter et de produire des synthèses, programmes, poèmes, etc., à partir d’un ensemble d’informations gigantesques inaccessibles à un cerveau humain en temps humain. Ils peuvent donc être extrêmement utiles pour de nombreuses tâches mais aussi contribuer à un flux d’informations non sourcées. Il faut donc les apprivoiser et en comprendre le fonctionnement et les risques.
L’apprentissage des IA génératives
Les performances des IA génératives tiennent à la capacité d’apprentissage auto-supervisée (c’est-à-dire sans être guidée par une main humaine, ce qui est un concept différent de l’adaptation en temps réel) de leurs modèles internes, appelés « modèles de fondation », qui sont entraînés à partir d’énormes corpus de données constitués de milliards d’images, de textes ou de sons très souvent dans les cultures dominantes sur Internet, par exemple GPT3.5 de ChatGPT est nourri majoritairement de données en anglais. Les deux autres types d’apprentissage ont également été utilisés : avant sa mise à disposition fin 2022, ChatGPT a été optimisé grâce à un apprentissage supervisé puis grâce à un apprentissage par renforcement par des humains de façon à affiner les résultats et à éliminer les propos non souhaitables.
Cette optimisation par des humains a d’ailleurs été très critiquée. Comment sont-ils formés ? Qui sont ces « hommes du clic » sous-payés ? Ces propos « non souhaitables », en outre, ne sont pas décidés par un comité d’éthique ou le législateur, mais par l’entreprise seule.
Un apprentissage qui oublie les sources
Durant l’apprentissage des modèles de fondation sur des textes, le système apprend ce que l’on appelle des « vecteurs de plongements lexicaux » (de taille 512 dans GPT 3.5). C’est le système « transformers ». Le principe d’entraînement du modèle de fondation est fondé par l’hypothèse distributionnelle proposée par le linguiste américain John Ruppert Fith en 1957 : on ne peut connaître le sens d’un mot que par ses fréquentations (« You shall know a word by the company it keeps »).
Ces entités (« token » en anglais) font en moyenne quatre caractères dans GPT3.5. Elles peuvent n’être constituées que d’un seul et d’un blanc. Elles peuvent donc être des parties de mots ou des mots avec l’avantage de pouvoir combiner agilement ces entités pour recréer des mots et des phrases sans aucune connaissance linguistique (hormis celle implicite à l’enchaînement des mots), le désavantage étant évidemment d’être moins interprétable. Chaque entité est codée par un vecteur qui contient des informations sur tous les contextes où cette entité a été vue grâce à des mécanismes d’attention. Ainsi deux entités ayant le même voisinage seront considérées comme proches par le système d’IA.
Le système d’IA générative sur des textes apprend ainsi un modèle de production avec des mécanismes qui n’ont rien à voir avec la production humaine située avec un corps, pour autant elle est capable de l’imiter à partir des textes de l’apprentissage. Ce fonctionnement a pour conséquence directe de perdre les sources d’où sont extraits les voisinages repérés, ce qui pose un problème de fond pour la vérification du contenu produit. Aucune vérification de la véracité des propos n’est produite facilement. Il faut retrouver les sources et quand on demande au système de le faire, il peut les inventer !
Lorsque vous proposez une invite à ChatGPT, il va prédire l’entité suivante, puis la suivante et ainsi de suite. Un paramètre clé est celui de la « température » qui exprime le degré d’aléatoire dans le choix des entités. À une température élevée, le modèle est plus « créatif » car il peut générer des sorties plus diversifiées, tandis qu’à une température basse, le modèle tend à choisir les sorties les plus probables, ce qui rend le texte généré plus prévisible. Trois options de température sont proposées dans l’outil conversationnel Bing (GPT4) de Microsoft (plus précis, plus équilibré, plus créatif). Souvent, les hyperparamètres des systèmes ne sont pas dévoilés pour des raisons de cybersécurité ou de confidentialité comme c’est le cas dans ChatGPT… mais la température permet d’avoir des réponses différentes à la même question.
« Hallucinations » et autres risques
Il est ainsi facile d’imaginer certains des risques de l’IA générative pour les médias. D’autres apparaîtront certainement au fur et à mesure de leurs utilisations.
Il paraît urgent de trouver comment les minimiser en attendant la promulgation pour l’Union européenne d’un IA Act en se dotant de guides de bonnes pratiques. L’avis du CNPEN sur les IA génératives et les enjeux d’éthique comprend, lui, 10 préconisations pour la recherche et 12 pour la gouvernance. Voici quelques-uns des risques identifiés pour les médias :
- Faire trop confiance aux dires de la machine sans recouper avec d’autres sources. Le croisement de plusieurs sources de données et la nécessité d’enquêter deviennent fondamentaux pour toutes les professions : journalistes, scientifiques, professeurs et autres. Il semble d’ailleurs fondamental d’enseigner la façon d’utiliser ces systèmes à l’école et à l’université et de cultiver l’art de débattre pour élaborer ses idées.
- Comprendre que ChatGPT est construit avec des données majoritairement en anglais et que son influence culturelle peut-être importante.
- Utiliser massivement ChatGPT de façon paresseuse dans les médias, en produisant énormément de nouvelles données artificielles non vérifiées sur Internet qui pourraient servir à entraîner de nouvelles IA. Ce serait dramatique qu’il n’y ait plus aucune garantie de vérité sur ces données reconstituées par la machine. Deux avocats américains se sont par exemple fait piéger en faisant référence au cours d’une procédure, sur les conseils de l’algorithme, à des jurisprudences qui n’existaient pas.
- Remplacer certaines tâches dans de nombreux métiers autour des médias par des systèmes d’IA. Certains métiers vont disparaître, d’autres vont apparaître. Il faut créer des interfaces avec des mesures de confiance pour aider la coopération entre les humains et les systèmes d’IA.
- Utiliser les systèmes d’IA et les démystifier devient une nécessité absolue tout en faisant attention de ne pas désapprendre et de pouvoir s’en passer.
- Il est nécessaire de comprendre que ChatGPT fait de nombreuses erreurs, par exemple il n’a pas de notion d’histoire ni de compréhension de l’espace. Le diable est dans les détails mais également dans le choix des données utilisées pour créer le modèle. La loi sur l’IA réclame plus de transparence sur ces systèmes d’IA pour vérifier leur robustesse, leur non-manipulation et leur consommation énergétique.
- Il faut vérifier que les données produites n’empiètent pas sur le droit d’auteur et que les données utilisées par le système sont correctement utilisées. Si des données « synthétiques » remplacent demain nos connaissances dans d’entraînement des futurs modèles de fondation, il sera de plus en plus difficile de démêler le vrai du faux.
- Donner accès à des systèmes d’IA (par exemple Dall-E ou Stable Diffusion) qui peuvent être utilisés pour créer de l’hypertrucage (deepfake en anglais) pour produire des images. Le phénomène rappelle l’importance de vérifier non seulement la fiabilité des sources des articles, mais aussi des images et vidéos. Il est question de mettre des filigranes (ou watermarks) dans les textes, images ou vidéos produites pour savoir si elles ont été faites par des IA ou de labelliser les données « bio » (ou produites par des humains).
Laboratoire de l’IA sur les émergences et limites des IA génératives
L’arrivée de ChatGPT a été un tsunami pour tout le monde. Il a bluffé experts comme non-experts par ses capacités de production de texte, de traduction et même de programmation informatique.
L’explication scientifique précise du phénomène d’« étincelle d’émergences » dans les modèles de fondation est un sujet de recherche actuel et dépend des données et des hyperparamètres des modèles. Il est important de développer massivement la recherche pluridisciplinaire sur les émergences et limites des IA génératives et sur les mesures à déployer pour les contrôler.
Enfin, if faut éduquer à l’école sur les risques et l’éthique tout autant que sur la programmation, et également former et démystifier les systèmes d’IA pour utiliser et innover de façon responsable en ayant conscience des conséquences éthiques, économiques, sociétales et du coût environnemental.
La France pourrait jouer un rôle majeur au sein de l’Europe avec l’ambition d’être un laboratoire de l’IA pour les médias en étudiant les enjeux éthiques et économiques au service du bien commun et des démocraties.
Cette contribution à The Conversation France prolonge une intervention de l’auteur aux Jéco 2023 qui se sont tenues à Lyon du 14 au 16 novembre 2023.
Comment fonctionne ChatGPT ? Décrypter son nom pour comprendre les modèles de langage
Published: June 4, 2023 6.05pm CEST
Author
Frédéric Alexandre
Directeur de recherche en neurosciences computationnelles, Université de Bordeaux, Inria
Disclosure statement
Frédéric Alexandre does not work for, consult, own shares in or receive funding from any company or organisation that would benefit from this article, and has disclosed no relevant affiliations beyond their academic appointment.
On voit passer beaucoup d’avis sur ChatGPT, mais finalement, qu’en sait-on ? Juste que c’est un réseau de neurones artificiels avec des milliards de paramètres, capable de tenir une discussion de haut niveau, mais aussi de tomber dans des pièges grossiers tendus par des internautes facétieux. On nous parle beaucoup de lui mais on en sait finalement très peu sur son fonctionnement.
Je vous propose donc de présenter les mécanismes principaux sur lesquels ChatGPT repose et de montrer ainsi que, si le résultat est parfois impressionnant, ses mécanismes élémentaires sont astucieux mais pas vraiment nouveaux. Pour ce faire, passons en revue les différents termes du sigle « ChatGPT ».
T comme transformer
Un « transformer » est un réseau de neurones qui bénéficie du même algorithme d’apprentissage que les réseaux profonds (deep networks), qui a déjà fait ses preuves pour l’entraînement de grosses architectures. Il bénéficie également de deux caractéristiques éprouvées : d’une part, des techniques de « plongement lexical » pour coder les mots ; d’autre part, des techniques attentionnelles pour prendre en compte le fait que les mots sont séquentiels.
Ce second point est majeur pour interpréter le sens de chaque mot dans le contexte de la phrase entière. La technique proposée par les transformers privilégie une approche numérique et statistique, simple à calculer massivement et très efficace. Cette approche consiste à apprendre, pour chaque mot et à partir de l’observation de nombreux textes, à quels autres mots de la phrase il faut faire « attention » pour identifier le contexte qui peut modifier le sens de ce mot. Ceci permet d’accorder un mot ou de remplacer un pronom par les mots de la phrase qu’il représente.
G comme génératif
ChatGPT est capable de générer du langage : on lui expose un problème et il nous répond avec du langage – c’est un « modèle de langage ».
La possibilité d’apprendre un modèle génératif avec un réseau de neurones date de plus de trente ans : dans un modèle d’auto-encodeur, la sortie du réseau est entraînée pour reproduire le plus fidèlement possible son entrée (par exemple une image de visage), en passant par une couche de neurones intermédiaire, choisie de petite taille : si on peut reproduire l’entrée en passant par une représentation aussi compacte, c’est que les aspects les plus importants de cette entrée (le nez, les yeux) sont conservés dans le codage de cette couche intermédiaire (mais les détails doivent être négligés car il y a moins de place pour représenter l’information). Ils sont ensuite décodés pour reconstruire un visage similaire en sortie.
Utilisé en mode génératif, on choisit une activité au hasard pour la couche intermédiaire et on obtient en sortie, à travers le décodeur, quelque chose qui ressemblera à un visage avec un nez et des yeux mais qui sera un exemplaire inédit du phénomène considéré.
Les couches de neurones d’un modèle auto-encodeur : la première couche accueille les entrées, une couche intermédiaire les code de façon plus compacte et la dernière les décode pour retrouver le format original. Frédéric Alexandre, Fourni par l’auteur
C’est par exemple en suivant ce procédé (avec des réseaux de grande taille) que l’on est capable de créer des deepfakes, c’est-à-dire des trucages très réalistes.
Si on souhaite maintenant générer des phénomènes séquentiels (des vidéos ou des phrases), il faut prendre en compte l’aspect séquentiel du flux d’entrée. Ceci peut être obtenu avec le mécanisme attentionnel décrit plus haut, utilisé sous une forme prédictive. En pratique, si l’on masque un mot ou si on cherche le mot suivant, on peut prédire ce mot manquant à partir de l’analyse statistique des autres textes. À titre d’illustration, voyez à quel point vous êtes capables de lire une BD des Schtroumpfs et de remplacer chaque « schtroumpf » par un mot issu de l’analyse attentionnelle des autres mots.
L’efficacité d’un simple mécanisme attentionnel (qui considère les autres mots importants du contexte mais pas explicitement leur ordre) pour traiter l’aspect séquentiel des entrées a été un constat majeur dans la mise au point des transformers (« Vous n’avez besoin que d’attention » titrait la publication correspondante : « Attention is all you need »), car auparavant les méthodes privilégiées utilisaient des réseaux plus complexes, dits récurrents, dont l’apprentissage est comparativement bien plus lent et moins efficace ; de plus ce mécanisme attentionnel se parallélise très bien, ce qui accélère d’autant plus cette approche.
P comme pretrained
L’efficacité des transformers n’est pas seulement due à la puissance de ces méthodes, mais aussi (et surtout) à la taille des réseaux et des connaissances qu’ils ingurgitent pour s’entrainer.
Les détails chiffrés sont difficiles à obtenir, mais on entend parler pour des transformers de milliards de paramètres (de poids dans les réseaux de neurones) ; pour être plus efficaces, plusieurs mécanismes attentionnels (jusqu’à cent) sont construits en parallèle pour mieux explorer les possibles (on parle d’attention « multi-tête »), on peut avoir une succession d’une dizaine d’encodeurs et de décodeurs, etc.
Rappelons que l’algorithme d’apprentissage des deep networks est générique et s’applique quelle que soit la profondeur (et la largeur) des réseaux ; il suffit juste d’avoir assez d’exemples pour entraîner tous ces poids, ce qui renvoie à une autre caractéristique démesurée de ces réseaux : la quantité de données utilisée dans la phase d’apprentissage.
Ici aussi, peu d’informations officielles, mais il semble que des pans entiers d’internet soient aspirés pour participer à l’entrainement de ces modèles de langages, en particulier l’ensemble de Wikipedia, les quelques millions de livres que l’on trouve sur Internet (dont des versions traduites par des humains sont très utiles pour préparer des transformers de traduction), mais aussi très probablement les textes que l’on peut trouver sur nos réseaux sociaux favoris.
Cet entrainement massif se déroule hors ligne, peut durer des semaines et utiliser des ressources calculatoires et énergétiques démesurées (chiffrées à plusieurs millions de dollars, sans parler des aspects environnementaux d’émission de CO₂, associés à ces calculs).
Chat comme bavarder
Nous sommes maintenant en meilleure position pour présenter ChatGPT : il s’agit d’un agent conversationnel, bâti sur un modèle de langage qui est un transformer génératif pré-entraîné (GPT).
Les analyses statistiques (avec approches attentionnelles) des très grands corpus utilisés permettent de créer des séquences de mots ayant une syntaxe de très bonne qualité. Les techniques de plongement lexical offrent des propriétés de proximité sémantique qui donnent des phrases dont le sens est souvent satisfaisant.
Outre cette capacité à savoir générer du langage de bonne qualité, un agent conversationnel doit aussi savoir converser, c’est-à-dire analyser les questions qu’on lui pose et y apporter des réponses pertinentes (ou détecter les pièges pour les éviter). C’est ce qui a été entrepris par une autre phase d’apprentissage hors-ligne, avec un modèle appelé « InstructGPT », qui a nécessité la participation d’humains qui jouaient à faire l’agent conversationnel ou à pointer des sujets à éviter. Il s’agit dans ce cas d’un « apprentissage par renforcement » : celui-ci permet de sélectionner des réponses selon les valeurs qu’on leur donne ; c’est une sorte de semi-supervision où les humains disent ce qu’ils auraient aimé entendre (ou pas).
ChatGPT fait ce pour quoi il a été programmé
Les caractéristiques énoncées ici permettent de comprendre que la principale fonction de ChatGPT est de prédire le mot suivant le plus probable à partir des nombreux textes qu’il a déjà vus et, parmi les différentes suites probables, de sélectionner celles qu’en général les humains préfèrent.
Cette suite de traitements peut comporter des approximations, quand on évalue des statistiques ou dans les phases de décodage du modèle génératif quand on construit de nouveaux exemples.
Ceci explique aussi des phénomènes d’hallucinations rapportées, quand on lui demande la biographie de quelqu’un ou des détails sur une entreprise et qu’il invente des chiffres et des faits. Ce qu’on lui a appris à faire c’est de construire des phrases plausibles et cohérentes, pas des phrases véridiques. Ce n’est pas la peine de comprendre un sujet pour savoir en parler avec éloquence, sans donner forcément de garantie sur la qualité de ses réponses (mais des humains aussi savent faire ça…)