Le PDG de Nvidia, Jensen Huang, estime que les investisseurs ont mal compris les avancées de DeepSeek en matière d'IA, ce qui a entraîné une liquidation des actions technologiques, y compris Nvidia.
En janvier, la startup chinoise DeepSeek a lancé son modèle d'inférence open source R1. La société affirme que le grand modèle de langage derrière R1 a été développé avec des puces moins puissantes et à un coût bien inférieur à celui des modèles d'IA occidentaux.
Les investisseurs ont réagi à la nouvelle en se débarrassant des actions de Nvidia et d’autres sociétés technologiques, faisant perdre à Nvidia 600 milliards de dollars de capitalisation boursière en une seule journée. Cependant, la plus grande entreprise de semi-conducteurs au monde a désormais récupéré la majeure partie de ce qu’elle avait perdu.
Dans sa dernière vidéo, Jensen Huang soutient que la réaction extrême du marché provient du fait que les investisseurs interprètent mal les progrès de DeepSeek.
Ils se demandent si les milliers de milliards de dollars que Big Tech dépense dans l’infrastructure de l’IA sont nécessaires si moins de puissance de calcul est nécessaire pour former les modèles.
Cependant, M. Huang a déclaré que l'industrie a encore besoin de puissance de calcul pour les méthodes de post-formation, qui permettent aux modèles d'IA de tirer des conclusions ou des prédictions après avoir été formés.
À mesure que les méthodes de post-formation deviennent plus diverses et plus avancées, la demande pour la puissance de calcul fournie par les puces Nvidia augmente également.
Selon le PDG de Nvidia, les investisseurs pensent que le monde ne dispose que de pré-formation et d’inférence (poser une question à l’IA et obtenir une réponse immédiatement), mais la post-formation est la partie la plus importante de l’IA. C'est là qu'il apprend à résoudre des problèmes spécialisés.
Pourtant, M. Huang ne nie pas que DeepSeek a « injecté » plus d’énergie dans le monde de l’IA. La PDG d'AMD, Lisa Su, a également déclaré que DeepSeek est à l'origine d'innovations « bonnes pour les applications d'IA » dans une interview plus tôt ce mois-ci.
Le terme pré-formation fait référence à l'étape initiale de la formation d'un grand modèle de langage (LLM), où le modèle apprend à partir d'un ensemble de données volumineux et diversifié, généralement jusqu'à plusieurs milliers de milliards de jetons.
L’objectif ici est d’aider le modèle à acquérir une compréhension générale de la langue, du contexte et des types de connaissances courants. Cette étape nécessite souvent une puissance de calcul et des données considérables, coûtant des centaines de millions de dollars.
Le terme post-formation ou réglage fin désigne le fait de prendre un modèle précédemment formé, puis de le former à nouveau avec un ensemble de données plus spécifique. Ces ensembles de données sont généralement plus petits et axés sur un domaine ou une tâche particulière.
Son objectif est d’ajuster le modèle pour qu’il soit plus performant dans des scénarios et des tâches spécifiques, qui ne sont pas abordés en profondeur lors de la pré-formation. Les nouvelles connaissances ajoutées après la formation amélioreront les performances du modèle plus que l’élargissement des connaissances générales.
(Selon Insider, Reddit)
Source : https://vietnamnet.vn/jensen-huang-nha-dau-tu-sai-lam-khi-ban-thao-co-phieu-nvidia-vi-deepseek-2373687.html
Comment (0)