24.1 C
Ouagadougou
20 août 2025
A la Une Actualités IA & Tech Innovation

Sortie des modèles open-source gpt-oss par OpenAI

image

OpenAI a annoncé le 5 août 2025 la sortie de deux nouveaux modèles open-source, gpt-oss-120b et gpt-oss-20b, marquant son retour aux modèles open-weight depuis la sortie de GPT-2 en 2019. Ces modèles, disponibles sous licence Apache 2.0, sont conçus pour des tâches de raisonnement avancé, des applications agentiques et des cas d’utilisation polyvalents pour les développeurs. Voici les détails techniques:

Caractéristiques techniques

gpt-oss-120b compte 117 milliards de paramètres, avec 5,1 milliards de paramètres actifs par token, et peut être exécuté sur une seule GPU de 80 Go, comme le Nvidia H100.

gpt-oss-20b, avec 21 milliards de paramètres et 3,6 milliards actifs, est optimisé pour des appareils avec seulement 16 Go de mémoire, idéal pour les applications locales ou sur edge devices.

Les deux modèles utilisent une architecture mixture-of-experts (MoE) avec une quantification à 4 bits (MXFP4) pour réduire l’empreinte mémoire, facilitant une inférence rapide et efficace.

Fonctionnalités

Ils offrent des capacités de raisonnement ajustables (faible, moyen, élevé), un suivi de la chaîne de pensée (CoT), et prennent en charge l’utilisation d’outils comme la recherche web, l’exécution de code Python, et les sorties structurées (JSON, YAML). Ces modèles sont compatibles avec des frameworks comme LangGraph, Autogen, et LangChain, facilitant l’intégration dans des workflows existants.

Impact open-source

Disponibles sur Hugging Face, ces modèles ont été rapidement adoptés par la communauté, avec des implémentations sur des outils comme Transformers, vLLM, llama.cpp, et ollama. OpenAI a également publié un article de recherche et une fiche de modèle détaillant les performances, les mesures de sécurité et les méthodologies, renforçant leur utilité pour les chercheurs et développeurs.

Pourquoi c’est important

Cette sortie démocratise l’accès à des modèles d’IA de pointe, permettant aux entreprises et aux individus de personnaliser et d’exécuter des modèles localement, ce qui est crucial pour les applications nécessitant une confidentialité élevée ou une faible latence. Cela pourrait stimuler l’innovation dans l’écosystème open-source, bien que des préoccupations subsistent sur la sécurité, car les modèles open-weight peuvent être affinés pour des usages malveillants.

Sources :

ARTICLES SIMILAIRES

Laisser un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient. Accepter En savoir plus