Modèles d’IA
Les chercheurs du MIT présentent « SEAL » : une révolution dans l’évolution de l’IA auto-améliorante
Des chercheurs du MIT ont dévoilé SEAL (Self-Adapting Language Models), un cadre qui permet aux grands modèles de langage de générer leurs propres données d’entraînement et de mettre à jour leurs propres poids grâce à des auto-modifications auto-apprises par renforcement. Le papier, publié cette semaine, s’inscrit dans une vague plus large de recherches sur l’IA auto-améliorante et un débat intense sur les systèmes récursifs. Il offre une méthodologie concrète et des résultats mesurés plutôt que des spéculations.
Pressé ? Voici l’essentiel :
| Point clé 🔑 | Pourquoi c’est important 📌 |
|---|---|
| SEAL s’entraîne sur ses propres modifications ✍️ | Les modèles peuvent s’améliorer sans nouvelles annotations humaines, réduisant les coûts d’itération. |
| L’apprentissage par renforcement guide les mises à jour 🎯 | Les auto-modifications sont récompensées uniquement lorsque la performance en aval augmente. |
| Fonctionne sur deux domaines aujourd’hui 🧪 | L’intégration des connaissances et le few-shot learning montrent des gains mesurables. |
| Recette d’entraînement pratique 🛠️ | Utilise ReST^EM pour un apprentissage stable ; le code et le papier sont publics. |
- 🚀 Essayez SEAL sur une tâche spécifique à fort signal avant de passer à l’échelle.
- 🧭 Suivez les métriques en aval pour les récompenses, pas les scores proxy.
- 🧱 Isolez les mises à jour avec un versioning pour éviter les régressions.
- 🛡️ Ajoutez des garde-fous pour la qualité des données et le oubli catastrophique.
Comment fonctionne SEAL du MIT : des auto-modifications apprises par renforcement pour une IA auto-améliorante
Le principe central de SEAL est simple à énoncer et non trivial à exécuter : laisser un modèle de langage produire des « auto-modifications » (SE) structurées — exemples d’entraînement synthétiques et directives de mise à jour — appliquer ces modifications via un ajustement fin, et utiliser l’apprentissage par renforcement pour améliorer la politique qui génère les modifications. L’efficacité d’une auto-modification est jugée par la performance en aval du modèle sur une tâche d’évaluation spécifiée, reliant directement l’apprentissage aux résultats plutôt qu’à des mesures proxy.
SEAL peut être compris comme deux boucles. La boucle externe est une politique RL qui propose des auto-modifications candidates conditionnées à une instance de tâche (contexte C, évaluation τ). La boucle interne effectue une petite mise à jour par ajustement fin supervisé, produisant θ′ à partir de θ en utilisant l’auto-modification générée. Après évaluation sur τ, la récompense observée met à jour la politique externe. Cette structure s’aligne sur le meta-learning, car le système apprend une stratégie pour créer ses propres données d’entraînement qui produisent des améliorations fiables.
L’équipe rapporte que les méthodes standard d’apprentissage par renforcement en ligne — comme GRPO et PPO — étaient instables pour ce problème. À la place, ils adoptent ReST^EM, une approche basée sur un filtrage inspiré par des travaux antérieurs de DeepMind. Conceptuellement, l’étape E génère des modifications candidates à partir de la politique actuelle ; l’étape M effectue des mises à jour supervisées uniquement sur les modifications qui dépassent un seuil de performance. Cette recette « récolter les bons échantillons » évite oscillations et effondrements, tout en restant relativement facile à implémenter.
Pourquoi la conception à deux boucles de SEAL change la donne des mises à jour
Les chaînes classiques post-entraînement reposent sur des données sélectionnées et une supervision manuelle. SEAL remplace une partie de cette chaîne par des données auto-générées, à l’échelle de la tâche qui sont validées par la tâche elle-même. Les bénéfices sont les plus forts lorsque la tâche fournit des signaux de rétroaction fréquents et fiables — par exemple, répondre à des questions sur un nouvel article ou résoudre un problème étroitement défini. En ancrant les récompenses à la performance du modèle mis à jour, SEAL décourage les modifications superficielles et incite à des modifications qui se généralisent.
- 🧠 Effet de meta-learning : le modèle apprend quels types d’exemples d’entraînement l’aident à s’améliorer.
- 🔁 Adaptation rapide : des mises à jour petites et fréquentes sur des données pertinentes maintiennent l’élan.
- 🧪 Validation intégrée : seules les modifications qui augmentent les scores sont renforcées.
- 🧯 Stabilité via ReST^EM : le filtrage évite les mises à jour risquées de la politique.
Du point de vue des systèmes, SEAL s’intègre bien aussi dans un écosystème d’outils IA. Le matériel de NVIDIA accélère les mises à jour fréquentes de la boucle interne. Les plateformes de suivi des expériences peuvent enregistrer la qualité des modifications et les trajectoires de récompense. Et bien que le papier utilise un modèle unique à la fois pour générer et consommer les modifications, une séparation enseignant–étudiant est faisable : un modèle propose les modifications, un modèle plus petit les applique, et un troisième composant contrôle les résultats.
| Composant ⚙️ | Rôle 🧭 | Signal 🎯 |
|---|---|---|
| Politique RL externe | Génère les auto-modifications depuis le contexte C | Récompense basée sur la performance sur τ ✅ |
| Mise à jour interne | Applique SE via SFT (θ → θ′) | Gradient depuis les exemples SE 📈 |
| Filtre ReST^EM | Renforce uniquement les modifications utiles | Échantillons à récompense positive seulement 🧪 |
| Enseignant–étudiant (optionnel) | Sépare la proposition et l’application | Audit par modèle évaluateur 🔍 |
Parce que les modifications sont mesurées selon des résultats ancrés à la tâche, SEAL concentre l’apprentissage là où il compte et le fait de manière répétée, rendant la revendication « auto-améliorante » concrète plutôt que spéculative.
Bénéfices et cas d’usage : SEAL pour l’intégration des connaissances et le few-shot learning
SEAL a été déployé dans deux domaines : l’intégration des connaissances (intégrer des faits récents dans les poids) et le few-shot learning (s’adapter rapidement à partir de quelques exemples). Bien que cela semble académique, les implications sont entièrement pratiques. Considérez une plateforme de support en milieu de marché — appelons-la NovaSupport — qui doit maintenir les réponses d’aide alignées avec chaque changement produit quotidien. Fournir de longs contextes peut être fragile et coûteux ; réentraîner de zéro est lent. SEAL offre une troisième voie : générer de petites auto-modifications ciblées à partir de la nouvelle documentation, appliquer une mise à jour rapide, et valider avec des requêtes spécifiques à la tâche.
L’intégration des connaissances importe chaque fois que de nouvelles informations arrivent plus vite que les cycles de publication. Une salle de rédaction peut ingérer des dossiers de fond avant des interviews ; les équipes de conformité peuvent intégrer de nouvelles politiques ; un prestataire de soins peut encoder de nouvelles directives de triage. Chaque cas repose sur une assimilation fiable de l’information dans la représentation interne du modèle, et pas seulement sur sa récupération au moment de l’inférence. SEAL fournit cet ajustement au niveau des poids tout en liant l’acceptation à des gains mesurables sur des questions d’évaluation.
L’adaptation few-shot s’applique nettement aux flux de travail où des nouveaux formats ou schémas apparaissent continuellement. Une entreprise edtech qui pilote en continu des matières de niche peut utiliser SEAL pour lancer des styles de tutorat avec de minuscules extraits d’instruction, validant l’adaptation avec des quiz courts. Un assistant de codage peut s’accorder aux particularités d’un projet — messages d’erreur, style de journalisation, conventions de tests unitaires — avec de petites modifications qui améliorent les tâches spécifiques au dépôt.
- 📰 Contenu dynamique : intégrer de nouveaux articles, FAQ et notes de politique en heures, pas en semaines.
- 🧩 Dérive de schéma : maintenir classification, extraction ou génération SQL alignés avec des schémas évolutifs.
- 🧑⚕️ Changements de protocole : encoder de nouvelles checklists ou flux de triage avec des jeux de questions validés.
- 🧑💻 Adaptation du code : enseigner les idiomes de dépôt via des exemples auto-générés ciblés.
Le contexte industriel plus large soutient ces directions. Des groupes chez Google AI et Microsoft Research ont exploré séparément des stratégies d’adaptation continue ; IBM Watson a été pionnier en intégration des connaissances en entreprise ; Anthropic met l’accent sur des signaux constitutionnels pour un affinage sûr ; OpenAI a popularisé l’apprentissage par renforcement et préférences à grande échelle. La contribution de SEAL est une recette opérationnelle qui greffe la génération d’auto-modifications pilotée par RL sur cette lignée et la démontre avec des baselines comparatives directes.
| Scénario 🧭 | Mouvement SEAL 🛠️ | Bénéfice 💡 |
|---|---|---|
| Mise à jour docs support 📚 | Générer des auto-modifications à partir des notes de version | Moins d’hallucinations ; actualisation plus rapide des réponses ✅ |
| Changement de règle conformité 🏛️ | Modifications ciblées sur les deltas politiques | Mises à jour traçables liées aux questions d’audit 🔍 |
| Module edtech 🎓 | Exemplaires few-shot comme auto-modifications | Adaptation rapide du style avec récompenses basées sur quiz 🧪 |
| Outils dev 🧑💻 | Extraits taillés pour dépôts comme modifications | Précision spécifique au projet ; moins de revue 🧰 |
Qu’en est-il de la robotique ou des agents incarnés ? Bien que SEAL soit présenté pour les modèles de langage, la conception du signal de renforcement s’aligne sur la manière dont les équipes chez Tesla et d’autres formulent les mises à jour on-policy pour la perception et le contrôle. Dans des chaînes multimodales, une génération d’auto-modifications à la SEAL pourrait proposer des paires langage-vision synthétiques ancrées aux récompenses des tâches en aval, complétant les politiques étudiées par DeepMind dans le RL avec feedback humain et les curriculums auto-générés.
Le thème unificateur est la responsabilité. En forçant chaque mise à jour à prouver sa valeur sur les métriques de la tâche, les équipes disposent d’une voie défendable vers une itération rapide sans sacrifier le contrôle de qualité.
Ce que montrent les expériences : chiffres, baselines et amélioration rapide
L’évaluation de SEAL couvre deux bancs d’essai — few-shot learning sur un modèle plus petit ajusté par instruction et intégration des connaissances sur un modèle de base plus grand. En few-shot avec Llama‑3.2‑1B‑Instruct, SEAL a porté le succès d’adaptation à 72,5%, contre 20% pour une baseline naïve d’auto-modification sans renforcement et 0% sans adaptation. Les nombres absolus varient selon la tâche, mais le delta relatif est l’essentiel : la génération récompensée d’auto-modifications découvre des extraits d’entraînement qui font réellement bouger l’aiguille.
Pour l’intégration des connaissances, l’équipe a utilisé Qwen2.5‑7B pour absorber de nouveaux faits issus de passages de type SQuAD. Même les données synthétiques générées par le modèle de base ont amélioré la précision ; appliquer la boucle d’entraînement ReST^EM l’a encore boostée. Notamment, la performance a rapidement augmenté au fil des itérations RL externes, dépassant souvent les pipelines qui s’appuyaient sur des données produites en externe (par exemple, sorties GPT‑4.1) après seulement quelques tours. Les exemples qualitatifs montrent les brouillons de modification devenant plus spécifiques et mieux alignés aux exigences de l’évaluateur à mesure de l’entraînement.
Pourquoi SEAL accélère-t-il ? Le modèle ne s’ajuste pas à n’importe quelles données — il s’ajuste à des données qu’il croit utiles, et cette croyance est testée par une récompense. Cela ferme une boucle entre hypothèse et feedback. En revanche, les approches statiques basées sur des données synthétiques reposent sur des heuristiques fixes ou des modèles amont qui ne capturent pas toujours pleinement les particularités de la tâche cible. Le générateur piloté par RL internalise ces particularités en voyant la récompense.
- 📈 Gains relatifs importants sur les tâches few-shot soulignent la valeur de politiques d’édition apprises.
- ⏱️ Amélioration rapide au fil des itérations RL suggère des retours composés grâce à de meilleures modifications.
- 🧪 Alignement qualitatif des modifications avec les exigences de la tâche augmente avec le temps.
- 🧯 Stabilité via ReST^EM évite la volatilité observée avec des méthodes comme PPO.
| Environnement 🔬 | Méthode 🧪 | Résultat 📊 | Conclusion 💬 |
|---|---|---|---|
| Few-shot (Llama‑3.2‑1B) | Pas d’adaptation | 0% ✅ | La capacité de base est faible sans mises à jour |
| Few-shot | Auto-modifications sans RL | 20% 📉 | La génération d’auto-modifications non apprise est incohérente |
| Few-shot | SEAL (RL + ReST^EM) | 72,5% 🚀 | Les modifications récompensées conduisent à une vraie adaptation |
| Intégration des connaissances (Qwen2.5‑7B) | Données synthétiques de base | Amélioration par rapport à la baseline 📈 | Même les données synthétiques naïves aident |
| Intégration des connaissances | Itérations RL SEAL | Gains rapides ; souvent > données GPT‑4.1 après 2 tours 🥇 | Le RL affine la qualité des modifications au fil des tours |
Les limites sont évoquées franchement. L’oubli catastrophique peut survenir si de nombreuses modifications ciblent une tranche étroite de connaissances ; cela nécessite des contrôles périodiques de rétention. Le coût computationnel augmente avec les ajustements fins en boucle interne, recommandant un batching soigné et l’utilisation d’accélérateurs NVIDIA. Et comme les récompenses sont dépendantes du contexte, une dérive d’évaluation peut fausser l’apprentissage si τ n’est pas stable. Les mitigations incluent des buffers de relecture mixtes, des ancres figées et des audits inter-splits.
SEAL dans l’écosystème 2025 : comment il se compare aux autres efforts d’IA auto-améliorante
Le calendrier de SEAL coïncide avec une série de travaux explorant une IA qui apprend à s’améliorer elle-même. Des exemples récents incluent Sakana AI et la « Darwin‑Gödel Machine » de l’Université de la Colombie-Britannique, le « Self‑Rewarding Training (SRT) » de CMU, le « MM‑UPT » pour l’apprentissage continu multimodal de Shanghai Jiao Tong University, et le « UI‑Genie » de CUHK/vivo. Parallèlement, des intervenants comme OpenAI ont popularisé les idées sur les systèmes d’auto-amélioration récursive dans le débat public, avec des visions vastes pour des chaînes d’approvisionnement et usines automatisées.
La niche de SEAL est pragmatique. Il ne revendique pas une autonomie large de modification de code ou auto-modification. Au contraire, il cible les données qui mettent à jour le modèle, apprenant à composer des modifications qui tiennent et aident. En ce sens, il s’harmonise avec les préoccupations en entreprise connues des équipes de Microsoft Research, Google AI, IBM Watson et Anthropic : la performance doit être liée aux résultats, la sécurité doit comporter des gardes-mesures mesurables, et les mises à jour doivent être contrôlées et réversibles. Le cœur ReST^EM rend aussi hommage à la stabilité, rappelant les leçons de DeepMind sur les dangers de gradients de politique agressifs.
Le cadre comparatif clarifie où se situe SEAL aujourd’hui. DGM explore l’amélioration récursive théorique, SRT supprime certaines annotations humaines en bootstrapant les récompenses, MM‑UPT opère à travers les modalités avec des mises à jour continues, et UI‑Genie se concentre sur l’auto-amélioration ancrée à l’interface. SEAL trace une voie avec une recette compacte : génération d’auto-modifications + ajustement fin en boucle interne + filtrage RL.
- 🧭 Portée : SEAL est ancré à la tâche et au niveau des poids, pas un agent libre.
- 🧱 Garde-fous : récompenses et filtrage limitent l’apprentissage aux gains vérifiés.
- 🧰 Portabilité : compatible avec les stacks de fine-tuning LLM standards.
- 🔍 Auditabilité : chaque modification acceptée correspond à une amélioration mesurable.
| Framework 🧪 | Idée clé 💡 | Source de données 🗂️ | Méthode politique 🧭 | Domaines d’excellence ✨ |
|---|---|---|---|---|
| SEAL (MIT) | Auto-modifications apprises par RL | Généré par le modèle ✍️ | Filtre ReST^EM ✅ | Intégration des connaissances, few-shot 📚 |
| DGM | Auto-évolution récursive | Mélangé | Variable | Exploration théorique 🧠 |
| SRT | Entraînement auto-récompensé | Auto-étiqueté | Bootstrap | Réduction des annotations humaines 🤝 |
| MM‑UPT | Mises à jour continues multimodales | Multimodal | Spécifique à la tâche | Chaînes vision-langage 🖼️ |
| UI‑Genie | Auto-amélioration ancrée à l’interface | Journaux d’interaction | Politique + heuristiques | Utilisation d’outils et flux UI 🧩 |
Une raison pour laquelle le papier SEAL a suscité des discussions est qu’il parle du « comment » derrière l’auto-amélioration plutôt que du « si ». Il montre des deltas positifs concrets, offre une boucle implémentable, et reconnaît des limites. Un mécanisme mesuré et testable est ce dont le domaine a besoin à mesure que les idées d’autonomie deviennent plus ambitieuses.
Par conséquent, les audiences peuvent se concentrer sur le pratique : où l’auto-édition aide, quels signaux sont dignes de confiance, et comment scaler avec sécurité et responsabilité intégrées.
Du laboratoire au stack : étapes pratiques pour piloter SEAL dans une équipe
Les équipes souhaitant essayer SEAL devraient commencer par un problème étroit et évaluable. Les ressources officielles — le papier, la page du projet et le répertoire GitHub — décrivent clairement la boucle d’entraînement. Un pilote minimal peut fonctionner sur un modèle modeste ajusté par instruction, avec des GPU NVIDIA accélérant les mises à jour internes. Si une équipe a des frontières de données strictes, un déploiement enseignant–étudiant isole la génération d’édition des mises à jour de poids et permet à un auditeur de vérifier indépendamment les gains.
Commencez par définir l’instance de tâche (C, τ) : le contexte C peut être des notes de version récentes, un document politique, ou une poignée d’exemples ; l’évaluation τ doit être un ensemble de requêtes ou invites retenues dont les réponses révèlent la compétence réelle. Configurez ensuite la politique de la boucle externe pour produire des modifications candidates, la boucle interne pour appliquer de petites étapes SFT, et un filtre de type ReST^EM pour accepter uniquement les modifications qui augmentent les scores.
Le versioning et l’observabilité sont vitaux. Chaque modification acceptée doit être enregistrée avec des métadonnées — prompt, justification, valeur de récompense, et métriques résultantes — pour faciliter les retours en arrière. Pour gérer l’oubli catastrophique, introduisez des contrôles de rétention sur des benchmarks représentatifs et maintenez un buffer de relecture des connaissances antérieures. Combinez SEAL avec la récupération pour limiter la quantité à mémoriser ; dans de nombreux systèmes d’entreprise, un hybride génération augmentée par récupération (RAG) et réglage au niveau des poids est robuste et efficace.
- 🧪 Commencez petit : un domaine, une métrique, une taille de modèle.
- 📊 Rendez les récompenses fiables : utilisez des questions ancrées à la tâche, pas des scores proxy.
- 🧯 Prévenez les régressions : tests de rétention et déploiements en ombre.
- 🔐 Gouvernance : consignez la provenance des modifications pour audits et contrôles de sécurité.
| Étape du pipeline 🧱 | Choix 🛠️ | Notes 📎 |
|---|---|---|
| Base du modèle | Llama, Qwen, Mistral, ou API via wrappers OpenAI/Anthropic | Les poids locaux facilitent le versioning ; les API demandent une application d’édition soigneuse 🔐 |
| Génération d’édition | Modèle unique ou enseignant–étudiant | L’enseignant propose ; l’étudiant applique ; l’auditeur valide ✅ |
| Optimisation | Filtrage ReST^EM | Stable, simple ; évite l’instabilité de PPO 🛟 |
| Matériel | GPU NVIDIA ; précision mixte | Regroupez les mises à jour internes pour le débit ⚡ |
| Sécurité & évaluation | Vérifications politiques ; prompts red-team | Empruntez les playbooks de Google AI, Microsoft Research, IBM Watson 🛡️ |
Les schémas d’intégration varient. Un produit à forte recherche peut planifier les mises à jour SEAL chaque nuit à partir d’un résumé de documents modifiés. Un outil de développement peut les déclencher sur des pull requests fusionnées, en utilisant les tests du dépôt comme τ. Un assistant orienté client peut exécuter des mises à jour en mode ombre d’abord, ne promouvant que lorsque les seuils de récompense sont atteints. Pour les organisations avec des profils de sécurité stricts, un modèle politique externe (ou ensemble de règles similaire à l’approche constitutionnelle d’Anthropic) peut rejeter les modifications qui altèrent des comportements protégés.
Quant à l’échelle, le chemin est incrémental. Commencez avec un modèle de 1B–7B, démontrez un gain sur une tâche mesurable, puis étendez sélectivement. On peut imaginer des intégrations futures où des points de terminaison OpenAI ou Anthropic offrent des API d’auto-modifications structurées ; où le matériel NVIDIA automatise la planification interne ; et où des plateformes d’agent de Google AI ou Microsoft Research intègrent des politiques dans le style SEAL pour adaptation continue. L’étoile polaire reste la même : des modifications qui méritent leur place en faisant bouger de vraies métriques, pas seulement en passant des heuristiques.
La leçon pratique est conservatrice mais optimiste : construisez une boucle de confiance, puis laissez-la tourner.
{« @context »: »https://schema.org », »@type »: »FAQPage », »mainEntity »:[{« @type »: »Question », »name »: »Qu’est-ce qu’une auto-modification dans SEAL ? », »acceptedAnswer »:{« @type »: »Answer », »text »: »Une auto-modification est un extrait d’entraînement structuré, généré par le modèle (et les instructions associées) que le modèle utilise pour s’auto-ajuster. SEAL ne récompense que les modifications qui améliorent la performance en aval des tâches, garantissant que les modifications acceptées apportent un réel bénéfice. »}},{« @type »: »Question », »name »: »En quoi SEAL diffère-t-il du fine-tuning standard ? », »acceptedAnswer »:{« @type »: »Answer », »text »: »Le fine-tuning standard repose sur des jeux de données externes sélectionnés. SEAL génère des données candidates à la volée et utilise l’apprentissage par renforcement (via ReST^EM) pour filtrer et renforcer uniquement les modifications qui améliorent les métriques de la tâche, créant une boucle fermée entre hypothèse et récompense. »}},{« @type »: »Question », »name »: »SEAL augmente-t-il le risque d’oubli catastrophique ? », »acceptedAnswer »:{« @type »: »Answer », »text »: »Cela peut arriver si les mises à jour se concentrent trop sur une tranche étroite de connaissances. Il faut contrer cela en effectuant des tests de rétention, utilisant des buffers de relecture, mélangeant anciennes et nouvelles données, et en combinant SEAL avec la récupération pour ne pas devoir mémoriser toutes les connaissances. »}},{« @type »: »Question », »name »: »SEAL peut-il être utilisé avec des modèles uniquement API comme OpenAI ou Anthropic ? », »acceptedAnswer »:{« @type »: »Answer », »text »: »Les mises à jour directes des poids nécessitent des modèles locaux. Cependant, les équipes peuvent imiter la boucle en faisant proposer des modifications par un modèle API et les appliquer sur un modèle étudiant local, ou utiliser des endpoints API supportant le fine-tuning paramétrique lorsque disponible. »}},{« @type »: »Question », »name »: »Quels sont les ressources nécessaires pour essayer SEAL ? », »acceptedAnswer »:{« @type »: »Answer », »text »: »Un setup GPU modeste (par exemple avec des accélérateurs NVIDIA), un petit modèle de base ajusté par instruction, des requêtes d’évaluation ancrées à la tâche (τ), et la boucle d’entraînement SEAL disponible sur le dépôt GitHub public suffisent pour un pilote. »}}]}Qu’est-ce qu’une auto-modification dans SEAL ?
Une auto-modification est un extrait d’entraînement structuré, généré par le modèle (et les instructions associées) que le modèle utilise pour s’auto-ajuster. SEAL ne récompense que les modifications qui améliorent la performance en aval des tâches, garantissant que les modifications acceptées apportent un réel bénéfice.
En quoi SEAL diffère-t-il du fine-tuning standard ?
Le fine-tuning standard repose sur des jeux de données externes sélectionnés. SEAL génère des données candidates à la volée et utilise l’apprentissage par renforcement (via ReST^EM) pour filtrer et renforcer uniquement les modifications qui améliorent les métriques de la tâche, créant une boucle fermée entre hypothèse et récompense.
SEAL augmente-t-il le risque d’oubli catastrophique ?
Cela peut arriver si les mises à jour se concentrent trop sur une tranche étroite de connaissances. Il faut contrer cela en effectuant des tests de rétention, utilisant des buffers de relecture, mélangeant anciennes et nouvelles données, et en combinant SEAL avec la récupération pour ne pas devoir mémoriser toutes les connaissances.
SEAL peut-il être utilisé avec des modèles uniquement API comme OpenAI ou Anthropic ?
Les mises à jour directes des poids nécessitent des modèles locaux. Cependant, les équipes peuvent imiter la boucle en faisant proposer des modifications par un modèle API et les appliquer sur un modèle étudiant local, ou utiliser des endpoints API supportant le fine-tuning paramétrique lorsque disponible.
Quels sont les ressources nécessaires pour essayer SEAL ?
Un setup GPU modeste (par exemple avec des accélérateurs NVIDIA), un petit modèle de base ajusté par instruction, des requêtes d’évaluation ancrées à la tâche (τ), et la boucle d’entraînement SEAL disponible sur le dépôt GitHub public suffisent pour un pilote.
-
Open Ai7 jours agoLibérer la puissance des Plugins ChatGPT : améliorez votre expérience en 2025
-
Open Ai6 jours agoMaîtriser l’ajustement fin de GPT : un guide pour personnaliser efficacement vos modèles en 2025
-
Open Ai6 jours agoComparer ChatGPT d’OpenAI, Claude d’Anthropic et Bard de Google : quel outil d’IA générative dominera en 2025 ?
-
Open Ai6 jours agoTarification de ChatGPT en 2025 : Tout ce que vous devez savoir sur les tarifs et abonnements
-
Open Ai6 jours agoLa suppression progressive des modèles GPT : à quoi les utilisateurs peuvent s’attendre en 2025
-
Modèles d’IA6 jours agoModèles GPT-4 : Comment l’intelligence artificielle transforme 2025