A la Une Actualités IA & Tech

Mise à jour du modèle Qwen3 de Alibaba

Alibaba Cloud, via son équipe Qwen, a annoncé la sortie de Qwen3-235B-A22B-Instruct-2507, une mise à jour de son modèle d’IA existant, le 21 juillet 2025. Ce modèle est un modèle de type Mixture of Experts (MoE) avec 235 milliards de paramètres totaux, dont 22 milliards activés, et une longueur de contexte de 128K, sous licence Apache 2.0. Il est disponible sur plusieurs plateformes, notamment Hugging Face, ModelScope et Kaggle, avec des recommandations pour des frameworks comme SGLang et vLLM pour le déploiement, et des outils comme Ollama pour une utilisation locale.

Les revendications de performance incluent une supériorité sur des modèles concurrents comme Kimi-K2, Claude-4 Opus et DeepSeek V3 dans des benchmarks tels que GPQA, AIME, LiveCodeBench et BFCL-v3, selon des discussions sur X. Par exemple, un post de @scaling01 sur X, daté du 21 juillet 2025, affirme que le modèle bat Kimi-K2 avec un score de 73,3 sur GPQA contre 71,7, et 79,2 sur AIME contre 51,6 pour Kimi-K2. Cependant, la carte officielle du modèle sur Hugging Face, consultée le 22 juillet 2025, présente des scores légèrement différents.

ARTICLES SIMILAIRES

Laisser un Commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur la façon dont les données de vos commentaires sont traitées.

Ce site utilise des cookies pour améliorer votre expérience. Nous supposerons que cela vous convient. Accepter En savoir plus