Google GLaM le GPT-3 Killer ?

Google a annoncé un nouvel outil dans son arsenal de machine learning. Il s’appelle GLaM. Quelles sont les avantages par rapport à GPT3 ?

Google a annoncé sur son blog traitant de L’AI de l’apprentissage de contexte plus efficace avec Glam. Ils sont parti du constat que GPT-3 était capable d’écrire du contenu avec quelques informations, en comprenant même en ayant peu ou pas d’indication.

Voici la traduction de l’article officiel

https://ai.googleblog.com/2021/12/more-efficient-in-context-learning-with.html

Les modèles de langage de grande taille (par exemple, GPT-3) ont de nombreuses capacités importantes, telles que l’apprentissage en quelques coups dans un large éventail de tâches, y compris la compréhension de la lecture et la réponse à des questions avec très peu ou pas d’exemples d’entraînement. Bien que ces modèles puissent être plus performants en utilisant simplement plus de paramètres, l’entraînement et l’utilisation de ces grands modèles peuvent être très intensifs en termes de calcul. Est-il possible de former et d’utiliser ces modèles plus efficacement ?

Pour répondre à cette question, nous présentons aujourd’hui le modèle de langage généraliste (GLaM), un modèle à trillion de poids qui peut être formé et utilisé efficacement (en termes de calcul et d’utilisation de l’énergie) grâce à la sparsité, et qui atteint des performances compétitives sur de multiples tâches d’apprentissage en quelques coups. Les performances de GLaM se comparent favorablement à celles d’un modèle de langage dense, GPT-3 (175B), dont l’efficacité d’apprentissage a été considérablement améliorée dans 29 tests publics de TAL dans sept catégories, allant de la complétion de langage à la réponse à des questions dans un domaine ouvert, en passant par des tâches d’inférence en langage naturel.

Ensemble de données
Pour construire GLaM, nous avons commencé par créer un ensemble de données de haute qualité de 1,6 trillion de jetons contenant une utilisation du langage représentative d’un large éventail de cas d’utilisation en aval pour le modèle. Les pages Web constituent la grande quantité de données de ce corpus non étiqueté, mais leur qualité varie de l’écriture professionnelle aux pages de commentaires et de forums de faible qualité. Nous avons ensuite développé un filtre de qualité de texte qui a été entraîné sur une collection de textes provenant de Wikipedia et de livres (qui sont généralement des sources de meilleure qualité) afin de déterminer la qualité du contenu d’une page Web. Enfin, nous avons appliqué ce filtre pour générer le sous-ensemble final de pages Web et l’avons combiné avec des livres et Wikipédia pour créer l’ensemble de données d’entraînement final.

Modèle et architecture
GLaM est un modèle de mélange d’experts (MoE), un type de modèle qui peut être considéré comme ayant différents sous-modèles (ou experts) qui sont chacun spécialisés pour différentes entrées. Les experts de chaque couche sont contrôlés par un réseau de déclenchement qui active les experts en fonction des données d’entrée. Pour chaque jeton (généralement un mot ou une partie de mot), le réseau de déclenchement sélectionne les deux experts les plus appropriés pour traiter les données. La version complète de GLaM possède 1,2T de paramètres au total, répartis sur 64 experts par couche MoE et 32 couches MoE au total, mais n’active qu’un sous-réseau de 97B (8% de 1,2T) paramètres par prédiction de token pendant l’inférence.

Comme pour le GShard MoE Transformer, nous remplaçons le simple réseau feedforward (la couche la plus simple d’un réseau neuronal artificiel, « Feedforward ou FFN » dans les cases bleues) de chaque autre couche du transformateur par une couche MoE. Cette couche MoE possède plusieurs experts, chacun étant un réseau à action directe avec une architecture identique mais des paramètres de poids différents. Bien que cette couche MoE ait beaucoup plus de paramètres, les experts sont activés de manière éparse, ce qui signifie que pour un jeton d’entrée donné, seuls deux experts sont utilisés, ce qui donne au modèle une plus grande capacité tout en limitant le calcul. Pendant la formation, le réseau de déclenchement de chaque couche MoE est entraîné à utiliser son entrée pour activer les deux meilleurs experts pour chaque jeton, qui sont ensuite utilisés pour l’inférence. Pour une couche MoE de E experts, cela fournit essentiellement une collection de E×(E-1) combinaisons différentes de réseaux feedforward (au lieu d’une seule comme dans l’architecture Transformer classique), ce qui conduit à une plus grande flexibilité de calcul.

La représentation finale apprise d’un jeton sera la combinaison pondérée des sorties des deux experts. Cela permet à différents experts de s’activer sur différents types d’entrées. Pour permettre la mise à l’échelle de modèles plus importants, chaque expert de l’architecture GLaM peut couvrir plusieurs dispositifs de calcul. Nous utilisons le backend du compilateur GSPMD pour résoudre les défis liés à la mise à l’échelle des experts et entraînons plusieurs variantes (basées sur la taille et le nombre d’experts) de cette architecture afin de comprendre les effets de la mise à l’échelle des modèles de langage activés de manière éparse.

Évaluation
Nous utilisons un paramètre de zéro et de un coup où les tâches ne sont jamais vues pendant la formation. Les repères pour l’évaluation comprennent (1) des tâches de cloze et de complétion [1,2,3] ; (2) des réponses à des questions dans un domaine ouvert [4,5,6] ; (3) des tâches de style Winograd [7,8] ; (4) le raisonnement de sens commun [9,10,11] ; (5) la compréhension de lecture en contexte [12,13,14,15,16] ; (6) les tâches SuperGLUE ; et (7) l’inférence en langage naturel [17]. Au total, il y a huit tâches de génération de langage naturel (NLG) où les phrases générées sont évaluées par rapport aux cibles de la vérité du sol via la précision de la correspondance exacte (EM) et la mesure F1, et 21 tâches de compréhension du langage (NLU) où la prédiction parmi plusieurs options est choisie via la log-vraisemblance conditionnelle. Certaines tâches ont des variantes et SuperGLUE se compose de plusieurs tâches. La précision EM et F1 sont mises à l’échelle de 0 à 100 pour tous nos résultats et la moyenne est calculée pour le score NLG ci-dessous. Le score NLU est une moyenne des scores de précision et de F1.

Résultats
GLaM se réduit à une architecture de base de modèle de langage basé sur un transformateur dense lorsque chaque couche de MoE ne possède qu’un seul expert. Dans toutes les expériences, nous adoptons la notation de (taille du modèle dense de base) / (nombre d’experts par couche MoE) pour décrire le modèle GLaM. Par exemple, 1B/64E représente l’architecture d’un modèle dense à 1B paramètres avec une couche sur deux remplacée par une couche MoE à 64 experts. Dans les sections suivantes, nous explorons les performances et les propriétés de mise à l’échelle de GLaM, y compris les modèles denses de base entraînés sur les mêmes ensembles de données. Comparé au modèle Megatron-Turing récemment annoncé, GLaM est à égalité sur les sept tâches respectives si l’on utilise une marge de 5%, tout en utilisant 5 fois moins de calcul pendant l’inférence.

Ci-dessous, nous montrons que le modèle peu activé de 1,2T paramètres (GLaM) a obtenu de meilleurs résultats en moyenne et sur plus de tâches que le modèle dense GPT-3 de 175B paramètres, tout en utilisant moins de calcul pendant l’inférence.

Nous présentons ci-dessous un résumé des performances sur 29 benchmarks par rapport au modèle dense (GPT-3, 175B). GLaM est supérieur ou égal à la performance du modèle dense sur presque 80% des tâches zero-shot et presque 90% des tâches one-shot.

Évaluation Supérieure (>+5%) Équivalente (dans les 5%) Inférieure (<-5%)
Tâche zéro 13 11 5
One-shot 14 10 5
De plus, alors que la version complète de GLaM possède 1,2T de paramètres au total, elle n’active qu’un sous-réseau de 97B paramètres (8% de 1,2T) par token pendant l’inférence.

GLaM (64B/64E) GPT-3 (175B)
Paramètres totaux 1.162T 0.175T
Paramètres activés 0,097T 0,175T
Comportement de mise à l’échelle
GLaM a deux façons de changer d’échelle : 1) mettre à l’échelle le nombre d’experts par couche, où chaque expert est hébergé dans un dispositif de calcul, ou 2) mettre à l’échelle la taille de chaque expert pour dépasser la limite d’un seul dispositif. Pour évaluer les propriétés de mise à l’échelle, nous comparons le modèle dense respectif (couches FFN au lieu de couches MoE) de FLOPS similaires par jeton au moment de l’inférence.

Comme indiqué ci-dessus, les performances pour l’ensemble des tâches varient en fonction de la taille des experts. Les modèles GLaM faiblement activés sont également plus performants que les modèles denses pour des FLOPs similaires pendant l’inférence pour les tâches de génération. Pour les tâches de compréhension, nous avons observé que les performances sont similaires à des échelles plus petites, mais que les modèles peu activés sont plus performants à des échelles plus grandes.

Efficacité des données
L’apprentissage de modèles de langage de grande taille est gourmand en ressources informatiques. Il est donc utile d’améliorer l’efficacité pour réduire la consommation d’énergie.

Nous montrons ci-dessous les coûts de calcul pour la version complète de GLaM.

Les résultats ci-dessus montrent que les modèles activés de manière éparse doivent s’entraîner avec beaucoup moins de données que les modèles denses pour atteindre des performances similaires à zéro et à un coup, et si la même quantité de données est utilisée, les modèles activés de manière éparse ont des performances nettement supérieures.

Enfin, nous avons évalué l’efficacité énergétique de GLaM.

Bien que GLaM utilise plus de calculs pendant l’apprentissage, grâce à l’implémentation logicielle plus efficace de GSPMD et à l’avantage de TPUv4, il utilise moins d’énergie pour s’entraîner que les autres modèles.

Conclusions
Notre modèle de langage activé de manière éparse à grande échelle, GLaM, obtient des résultats compétitifs pour l’apprentissage à zéro et à un coup et constitue un modèle plus efficace que les modèles monolithiques denses précédents. Nous montrons également de manière quantitative qu’un ensemble de données de haute qualité est essentiel pour les modèles de langage à grande échelle. Nous espérons que notre travail suscitera d’autres recherches sur les modèles de langage efficaces en termes de calcul.

Remerciements
Nous souhaitons remercier Claire Cui, Zhifeng Chen, Yonghui Wu, Quoc Le, Macduff Hughes, Fernando Pereira, Zoubin Ghahramani et Jeff Dean pour leur soutien et leurs précieuses contributions. Nous remercions tout particulièrement nos collaborateurs : Yanping Huang, Simon Tong, Yanqi Zhou, Yuanzhong Xu, Dmitry Lepikhin, Orhan Firat, Maxim Krikun, Tao Wang, Noam Shazeer, Barret Zoph, Liam Fedus, Maarten Bosma, Kun Zhang, Emma Wang, David Patterson, Zongwei Zhou, Naveen Kumar, Adams Yu, Laurent Shafey, Jonathan Shen, Ben Lee, Anmol Gulati, David So, Marie Pellat, Kellie Webster, Kevin Robinson, Kathy Meier-Hellstern, Toju Duke, Lucas Disxon, Aakanksha Chowdhery, Sharan Narang, Erica Moreira et Eric Ni pour leurs discussions et inspirations utiles ; et l’ensemble de l’équipe de Google Research. Nous tenons également à remercier Tom Small pour la figure animée utilisée dans ce billet.

Devis GRATUIT

Laisser un commentaire Annuler la réponse