La recherche en IA est très énergivore. Voici pourquoi
Kate Saenko, Boston University
Ce mois-ci, Google a licencié une éminente chercheuse en éthique de l’intelligence artificielle après que celle-ci a exprimé sa frustration à l’égard de l’entreprise pour lui avoir fait retirer un rapport de recherche. Ce document soulignait les risques liés aux modèles d’intelligence artificielle de traitement du langage, comme celui utilisé par Google Search et d’autres produits d’analyse de texte.
L’empreinte carbone importante de l’élaboration de ce type de technologie d’IA constitue un de ces risques. Selon certaines estimations, l’entraînement d’un modèle d’IA génère autant d’émissions de carbone que cinq voitures pendant toute leur durée de vie, fabrication comprise.
Je suis une scientifique qui étudie et développe des modèles d’IA, et je suis très consciente de la montée en flèche des coûts énergétiques et financiers de la recherche en intelligence artificielle. Pourquoi les modèles d’IA sont-ils devenus si énergivores, et en quoi leur fonctionnement diffère-t-il de celui des centres de données classiques ?
À lire aussi :
L’empreinte environnementale de l’économie numérique menace la planète
L’entraînement actuel est inefficace
Les tâches traditionnelles de traitement de données effectuées dans les centres de données incluent la diffusion vidéo en continu, le courrier électronique et les médias sociaux. L’IA nécessite énormément de calculs, car elle doit lire une grande quantité de données pour apprendre à les comprendre, autrement dit, pour s’entraîner.
Cet entraînement est très inefficace si on le compare à l’apprentissage chez les humains. L’IA moderne utilise des réseaux neuronaux artificiels, qui sont des calculs mathématiques imitant les neurones du cerveau humain. La force de connexion de chaque neurone avec son voisin est un paramètre du réseau appelé « poids ». Pour comprendre une langue, le réseau commence avec des poids aléatoires qu’il ajuste jusqu’à ce que les données de sortie correspondent à la bonne réponse.
Une façon courante d’entraîner un modèle linguistique consiste à lui fournir beaucoup de textes provenant de sites Web comme ceux des médias ou de Wikipédia en lui demandant de deviner des mots masqués. Ainsi, on peut prendre « mon chien est mignon » et masquer le mot « mignon ». Au départ, le modèle se trompe toujours, mais après de nombreux cycles d’ajustements, les poids de connexion commencent à changer et à relever des schémas dans les données. Le réseau finit par devenir précis.
Un modèle récent appelé Bidirectional Encoder Representations from Transformers (BERT, ou FlauBERT en français) a utilisé 3,3 milliards de mots tirés de livres anglais et de pages Wikipédia. Pendant l’entraînement de BERT, on lui a fait lire ces données non pas une fois, mais 40 fois. À titre de comparaison, un enfant qui apprend à parler a entendu en moyenne 45 millions de mots à l’âge de cinq ans, soit 3 000 fois moins que BERT.
À la recherche de la bonne structure
Ce qui rend les modèles linguistiques encore plus coûteux à construire, c’est qu’il faut effectuer le processus d’entraînement plusieurs fois au cours de son développement. Cela tient au fait que les scientifiques veulent trouver la meilleure structure pour le réseau — quantité de neurones, de connexions entre celles-ci, à quelle vitesse les paramètres devraient changer pendant l’apprentissage, etc. Plus ils essaient de combinaisons, plus le réseau a de chances d’atteindre une grande précision. Le cerveau humain, pour sa part, n’a pas besoin de chercher de structure optimale, car il est doté d’une structure qui a été perfectionnée par l’évolution.
Les entreprises et les universitaires étant en concurrence dans le domaine de l’IA, la pression est forte pour perfectionner la technologie de pointe. Une amélioration de seulement 1 % de la précision pour des tâches difficiles telles que la traduction automatique est considérée comme importante et offre une grande visibilité et de meilleurs produits. Mais pour arriver à cette amélioration de 1 %, un chercheur pourrait entraîner le modèle des milliers de fois, chaque fois avec une structure différente, jusqu’à l’obtention d’un modèle optimal.
Des chercheurs de l’Université du Massachusetts à Amherst ont estimé le coût énergétique du développement de modèles de langage d’IA en mesurant la consommation énergétique du matériel informatique utilisé pendant l’entraînement. Ils ont découvert qu’un entraînement de BERT a la même empreinte carbone qu’un passager effectuant un aller-retour entre New York et San Francisco en avion. Cependant, si on évalue différentes structures, ce qui demande d’entraîner l’algorithme plusieurs fois sur les mêmes données en modifiant légèrement le nombre de neurones, de connexions et d’autres paramètres, on obtient l’empreinte de 315 passagers, soit tout un Boeing 747.
De plus en plus gros
Les modèles d’IA sont généralement beaucoup plus gros que nécessaire, et ils continuent de grossir au fil des ans. Un modèle récent, qui se compare à BERT, compte 1,5 milliard de poids dans son réseau. GPT-3, qui a fait sensation cette année en raison de sa grande précision, compte 175 milliards de poids.
Des chercheurs ont découvert que le fait d’avoir des réseaux plus importants permet une meilleure précision, même si on finit par n’utiliser qu’une infime partie du réseau. Un phénomène similaire se produit dans le cerveau des enfants lorsqu’il augmente le nombre de connexions neuronales, avant d’en supprimer une partie, mais le cerveau humain est beaucoup plus efficace sur le plan énergétique que les ordinateurs.
Les modèles d’IA sont entraînés avec des ordinateurs spécialisés comme des unités de traitement graphique, qui consomment plus d’énergie que les unités centrales classiques. Si vous possédez un ordinateur portable de jeu, il contient sans doute une de ces unités de traitement afin de créer des graphiques avancés pour jouer à des jeux comme Minecraft RTX. Vous avez probablement remarqué que cela génère beaucoup plus de chaleur que les ordinateurs portables courants.
C’est ce qui explique que le développement de modèles d’IA avancés se traduit par une empreinte carbone importante. Si on ne passe pas à des sources d’énergie 100 % renouvelables, les progrès de l’IA risquent d’aller à l’encontre des objectifs de réduction des gaz à effet de serre et de lutte contre les changements climatiques. Le coût financier du développement devient également si élevé que seuls quelques laboratoires pourront se le permettre, et ce sont eux qui fixeront les types de modèles d’IA qui seront développés.
En faire plus avec moins
Qu’est-ce que cela signifie pour l’avenir de la recherche sur l’IA ? La situation n’est peut-être pas aussi noire qu’elle le paraît. Le coût de l’entraînement pourrait baisser à mesure qu’on invente des méthodes plus efficaces. De même, alors que l’on prévoyait une explosion de la consommation d’énergie des centres de données ces dernières années, cela ne s’est pas produit en raison de l’amélioration du rendement de ces centres, de la performance des ordinateurs et du refroidissement.
Il y a également un équilibre qui s’établit entre le coût de l’entraînement des modèles et celui de leur utilisation, de sorte qu’en dépensant davantage d’énergie pour l’entraînement, on peut mettre au point un modèle plus petit dont l’utilisation sera moins coûteuse. Comme un modèle servira de nombreuses fois au cours de sa vie, cela peut se traduire par d’importantes économies d’énergie.
Dans le cadre des recherches menées par mon laboratoire, nous avons cherché à réduire la taille des modèles d’IA en partageant les poids ou en utilisant les mêmes poids dans diverses parties du réseau. Nous les avons appelés des réseaux polymorphes parce qu’un petit groupe de poids peut être reconfiguré en un réseau plus grand de n’importe quelle forme ou structure. D’autres chercheurs ont montré que le partage des poids améliorait la performance pour une même durée d’entraînement.
À l’avenir, la communauté de l’IA devrait investir davantage dans le développement de programmes d’entraînement à haut rendement énergétique. Sinon, elle risque d’être dominée par quelques privilégiés qui peuvent se permettre d’établir l’ordre du jour, notamment en ce qui concerne les types de modèles développés, les types de données exploitées pour leur entraînement et l’utilisation qu’on en fait.
Kate Saenko, Associate Professor of Computer Science, Boston University
Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.
Ecrire un commentaire