DeepSeek sur le mHC : les premiers résultats suscitent déjà le scepticisme avant même la validation par les pairs

DeepSeek frappe encore - mais cette fois, c'est le mHC qui est dans le collimateur. Les premiers résultats fuient, et la communauté scientifique retient son souffle.
Le buzz avant la preuve
Les données préliminaires circulent sur les forums spécialisés depuis 48 heures. Des chiffres impressionnants, des courbes qui montent en flèche - trop belles pour être vraies ? Les experts pointent du doigt l'absence totale de validation par les pairs. « C'est comme acheter un token avant le whitepaper », ironise un quant sur X.
La méthode qui divise
L'approche mHC de DeepSeek contourne les protocoles établis. Pas d'essais randomisés, pas de double aveugle - juste des algorithmes qui promettent la lune. La communauté médicale crie au scandale, tandis que les startups biotech ajustent déjà leurs roadmaps.
Le test décisif arrive
Les serveurs de prépublication croulent sous les requêtes. Chaque laboratoire veut vérifier, reproduire, démolir peut-être. Les enjeux sont colossaux : des milliards en jeu, des carrières qui se jouent sur un intervalle de confiance.
DeepSeek joue son va-tout sur le mHC - et toute l'industrie regarde, moitié fascinée, moitié sceptique. Après tout, en science comme en finance, les rendements trop beaux cachent souvent des risques disproportionnés.
DeepSeek repense la conception des réseaux pour faire évoluer l'IA
L'un des principaux volets de ce travail consiste en une réévaluation de la manière dont l'information est transférée entre les différentes couches d'un réseau neuronal multicouche.
Chaque couche d'un réseau neuronal transmet une forme d'information traitée à la couche suivante du modèle, créant ainsi ce que l'on appelle un « réseau d'apprentissage résiduel » ( ResNet ). Développés il y a une dizaine d'années par Kaiming He de Microsoft Research et ses collaborateurs, les ResNets ont fourni la base fondamentale de nombreux systèmes d'IA parmi les plus avancés d'aujourd'hui.
Un concept développé par DeepSeek a été créé après l'introduction des Hyper-Connections en 2024. Les Hyper-Connections permettent à l'information de circuler par plusieurs chemins à travers un réseau, plutôt que par un seul chemin principal, ce qui peut accélérer l'apprentissage et enrichir l'expérience.
Cependant, bien qu'elles puissent être bénéfiques, elles peuvent également conduire à desmatic d'entraînement, où les modèles subissent une instabilité d'entraînement ou un échec complet.
Selon Song Linqi (Université de la ville de Hong Kong), les recherches de DeepSeek s'inscrivent dans la continuité d'une idée existante, dans le prolongement de la manière dont DeepSeek analyse le travail d'autres entreprises, au lieu d'inventer quelque chose à partir de zéro.
ResNet est comparé à une autoroute à une seule voie, tandis que les hyperconnexions ressemblent à une autoroute à plusieurs voies ; cependant, Song a averti que la présence de plusieurs voies sans règles appropriées pourrait entraîner davantage de collisions.
Le professeur Guo Song de l'Université des sciences et technologies de Hong Kong estime que cet article de recherche pourrait annoncer une évolution des pratiques de recherche en intelligence artificielle . Plutôt que de se contenter de modifications mineures des modèles existants, il pense que la recherche pourrait s'orienter vers le développement de nouveaux modèles fondés sur des concepts théoriques.
Des chercheurs testent le complexe majeur d'histocompatibilité (CMH) mais soulèvent des problèmes pratiques
Bien que l'étape récemment franchie dans les tests de mHC pour l'apprentissage profond suscite l'enthousiasme, les experts soulignent que la recherche est loin d'être terminée. Les tests effectués par DeepSeek n'ont utilisé que quatre ensembles de données pour tester des modèles comportant 27 milliards de paramètres .
« Les expériences ont validé des modèles comportant jusqu'à 27 milliards de paramètres, mais comment se comporteraient-ils sur les modèles de pointe actuels, qui sont d'un ordre de grandeur supérieur ? »
Professeur Guo Song.
Les modèles d'IA disponibles aujourd'hui sont plus volumineux et comportent généralement des centaines de milliards de paramètres, contre 30 milliards il y a quelques années seulement.
Guo a partagé ce point de vue et a déclaré qu'il est encore trop tôt pour affirmer que mHC sera capable de mener des recherches à la pointe de l'intelligence artificielle. Il a également indiqué que l'infrastructure nécessaire au fonctionnement de mHC pourrait être trop complexe pour être utilisée par les petits instituts de recherche ou par les entreprises sur des appareils mobiles.
Selon Cryptopolitan , la popularité de DeepSeek est due à la sortie de leur modèle de langage étendu DeepSeek V3, et à la sortie ultérieure de leur modèle de raisonnement DeepSeek-R1 seulement quelques semaines plus tard.
Lors de tests de référence comparant les résultats des modèles à ceux de leurs concurrents, les deux modèles ont pu atteindre ou dépasser les résultats de leurs concurrents, bien qu'ils n'aient utilisé qu'une fraction des données d'entraînement utilisées pour les autres modèles de langage concurrents.
Obtenez 50 $ gratuits pour trader des crypto-monnaies lorsque vous vous inscrivez sur Bybit maintenant