Deepseek, l’AI cinese che cambia le regole del gioco

Mentre i giganti della tecnologia USA investono miliardi nello sviluppo dell’intelligenza artificiale, la startup cinese DeepSeek ottiene risultati comparabili con risorse minime, sfidando i presupposti fondamentali sull’economia e sulla struttura del mercato AI.

Arriva il cinese Deepseek e cambia tutto il clima sull’intelligenza artificiale globale. Tanto che oggi Nvidia ha perso 600 miliardi in borsa.

Eppure era il 21 gennaio pomeriggio quando il neo-insediato presidente Trump annunciava alla Casa Bianca il lancio dello “Stargate project”, di una iniziativa di OpenAI – insieme con SoftBank, Oracle e il fondo emiratino Mgx – per creare una enorme infrastruttura di “AI data center” a uso esclusivo della stessa OpenAI per promuoverne la crescita:

  • una crescita finalizzata, nelle parole di Donald Trump e di Sam Altman, a garantire la leadership americana nell’Intelligenza Artificiale (AI nel seguito) e a creare a breve termine 100mila nuovi posti di lavoro;
  • con un impegno finanziario di 100 miliardi di dollari per l’anno in corso, destinato a crescere sino a 500 miliardi nel quadriennio (con dubbi però non solo di Elon Musk sulla capacità di reperire la cifra).

 

Cos’è DeepSeek e come funziona

DeepSeek è una startup cinese che ha attirato l’attenzione nel settore dell’intelligenza artificiale grazie allo sviluppo di modelli avanzati, tra cui il DeepSeek V3, un Large Language Model (LLM) con 671 miliardi di parametri.

Architettura e prestazioni
  • DeepSeek V3 è progettato per competere con modelli all’avanguardia, mostrando prestazioni paragonabili in vari compiti di comprensione e generazione del testo, programmazione e risoluzione di problemi matematici.
  • Utilizza un’architettura chiamata Mixture-of-Experts (MoE), che attiva solo una parte della rete neurale per ogni compito specifico, migliorando l’efficienza e riducendo i costi hardware.
  • Ottimizzazione del training: Il modello è stato addestrato utilizzando solo 2,78 milioni di ore GPU, rispetto ai 30,8 milioni richiesti da modelli simili come Llama 3. Questa riduzione è stata possibile grazie a tecnologie come il FP8 (floating point 8), che migliorano l’efficienza del calcolo.
  • Utilizzo di GPU H800: DeepSeek ha impiegato chip Nvidia H800, progettati per il mercato cinese, che pur essendo meno avanzati delle H100, sono stati ottimizzati per ottenere prestazioni elevate a costi inferiori. Questo ha permesso alla startup di superare in efficienza modelli sviluppati con hardware più potente.
  • Costi di inferenza competitivi: I costi operativi per l’inferenza sono estremamente competitivi, con tariffe di 0,27 dollari per milione di token in input e 1,10 dollari in output. Questi prezzi sono circa un decimo rispetto a quelli praticati da aziende come OpenAI.
Tecniche avanzate
  • Il modello incorpora la Multi-head Latent Attention (MLA), che migliora la capacità di estrarre informazioni chiave da un testo, aumentando l’accuratezza.
  • Un’altra innovazione è la Multi-Token Prediction, che consente al modello di generare più token simultaneamente, accelerando il processo di inferenza e migliorando l’efficienza complessiva.

fonte: AgendaDigitale.eu

Arrampicate sugli specchi e altre cose leggendarie

Homepage

News droni

Fotografia

Chi sono

Guide fpv

Sport

Contatti

La mia flotta

Hi-Tech

Privacy Policy

Q&A

Musica

Gestione Cookie

DVR fantastici

Moda

Cookie Policy

Analisi crash fpv