Une étude récente, publiée en avril 2025 dans Royal Society Open Science et rapportée le 7 août 2025 par Futura Sciences, révèle que les modèles d’IA avancés, tels que ChatGPT, Llama et DeepSeek, ont tendance à simplifier excessivement les recherches scientifiques, ce qui peut entraîner des distorsions dangereuses, notamment dans des contextes médicaux. L’étude, basée sur l’analyse de 5 000 résumés scientifiques, montre que ces modèles simplifient 5 fois plus que les experts humains et généralisent 2 fois plus, même lorsqu’on leur demande de la précision.
Des exemples concrets incluent DeepSeek transformant « était sûr et pouvait être réalisé avec succès » en « est une option de traitement sûre et efficace », risquant une mauvaise interprétation médicale. Llama a également surestimé l’efficacité d’un médicament contre le diabète de type 2, omettant des détails cruciaux comme la posologie et les effets.
Les risques incluent des prescriptions erronées, une mauvaise interprétation des limites des études, la propagation d’informations médicales inexactes et le renforcement des biais. Cependant, des modèles comme Claude d’Anthropic ont mieux performé. Les solutions proposées incluent le développement d’IA spécifiques à des domaines, une supervision humaine, de meilleures données d’entraînement et des sauvegardes. Des experts comme Uwe Peters (Université de Bonn) ont averti du risque de mauvaise interprétation à grande échelle, tandis que Max Rollwage (Limbic) a noté une inflation subtile des biais, et Patricia Thaine (Private AI) a souligné l’impact de l’entraînement sur des contenus journalistiques simplifiés.
Sources :