Per la maggior parte delle persone, l’intelligenza artificiale non sembra ancora avere cambiato davvero il mondo. Eppure, come sottolinea Ilya Sutskever, questa impressione è ingannevole. Il divario tra ciò che i modelli sanno fare nei benchmark e l’impatto percepito nella vita quotidiana non è un segnale di stagnazione. È il contrario: è il segnale che siamo nel punto cieco prima dell’accelerazione.
Sutskever mette in chiaro una cosa: gli effetti economici e sociali arriveranno molto prima della AGI, e quando arriveranno saranno visibili, forti e rapidi. Non servirà arrivare alla “singolarità” per vedere il mondo cambiare. Succederà prima, molto prima.
1. La percezione ingannevole dell’AI: perché sembra tutto “normale”
Oggi l’utente comune non avverte un cambiamento radicale. Le ragioni, secondo Sutskever, sono semplici:
-
gli annunci miliardari non hanno conseguenze immediate percepibili;
-
i modelli fanno cose straordinarie su carta, ma gli errori “banali” confondono;
-
l’impatto economico degli LLM è più lento dei progressi nei benchmark.
Eppure questi tre elementi non indicano un limite. Indicano un mismatch tra capacità potenziale e adattamento del sistema economico.
La domanda di Sutskever è tagliente:
Come è possibile che un modello ottenga risultati superumani nei coding benchmark, ma poi fallisca su un bug semplice?
La sua risposta è ancora più interessante:
perché l’RL oggi è addestrato in modo troppo “ristretto” e troppo vicino agli eval stessi.
Questo apre il tema centrale dell’intervista.
2. Perché l’impatto sociale arriverà prima dell’AGI
Sutskever lo dice in modo diretto: l’AI si diffonderà nell’economia molto prima che diventi “umana” o “superumana”. Bastano tre ingredienti:
-
Automazione parziale, non totale: già sufficiente a ridurre tempi, costi, personale.
-
Agenti sempre più capaci, non necessariamente perfetti.
-
Integrazione crescente del lavoro umano con sistemi a supporto cognitivo.
Non serve la AGI per cambiare la produttività. Serve qualcosa di molto più semplice: una curva che non smette di crescere.
E quella curva oggi si chiama Reinforcement Learning.
3. L’era del Reinforcement Learning: perché secondo Sutskever è la nuova frontiera
Per Sutskever, la fase “solo pretraining” è finita. Pretraining ha una forza:
non devi scegliere i dati, prendi tutto.
Ma ha un limite:
generalizza peggio di quanto pensiamo.
Qui entra in gioco l'RL.
Cos’è cambiato
Fino al 2022 l’RL era quasi un fine-tuning elegante: RLHF, reward semplice, istruzioni.
Oggi è un ecosistema nuovo:
– catene generatore ↔ verificatore
– modelli che si correggono reciprocamente
– segnali di rinforzo che arrivano prima della soluzione
Il caso DeepSeek-Math-V2 è emblematico:
modello e verificatore migliorano l’un l’altro in un loop progressivo. Non è più fine-tuning: è creazione di nuovo potenziale cognitivo.
Perché l’RL conta più del pretraining
Sutskever lo dice esplicitamente:
“Il limite non è la potenza del modello. Il limite è la sua capacità di generalizzare.”
Quando l’RL impara a:
-
interrompere un ragionamento inutile,
-
valutare una traiettoria di pensiero,
-
dare reward intermedi,
diventa un passo verso un’intelligenza che ragiona in modo più simile a un umano, e molto più utile per il mondo reale.
4. La chiave nascosta: le funzioni di valutazione
Sutskever collega una parte cruciale del progresso alle value functions.
Come negli scacchi sai di aver sbagliato prima che la partita finisca, così i modelli devono capire che una traiettoria è sterile prima di spendere migliaia di token.
L’impatto è doppio:
-
efficienza: meno compute sprecato;
-
cognizione: più segnali utili = più capacità di ragionamento.
E soprattutto:
una value function è un "proto-emozione".
Sutskever lo dice esplicitamente: nelle persone le emozioni funzionano come segnali di valore incorporati dall’evoluzione.
Un modello dotato di una value function efficace impara come imparare.
5. Dalla scala alla ricerca: l’era di Sutskever
Il passaggio concettuale più importante dell’intervista è questo:
“Siamo usciti dall’era dello scaling. Siamo tornati nell’era della ricerca.”
Lo scaling ha dato risultati perché era un "metodo sicuro": più dati + più compute → miglioramento.
Ma i dati sono finiti. E il ritorno marginale cala.
La nuova fase richiede:
-
nuove forme di RL,
-
nuove value functions,
-
nuova ricerca sulla generalizzazione.
E soprattutto modelli che imparano continuamente, come un adolescente dotato di un cervello potentissimo ma ancora vuoto, pronto a diventare esperto in qualunque campo.
6. Cosa succede alla società prima della AGI
Sutskever è chiaro: non serve la singolarità perché la vita reale cambi.
I primi segnali arriveranno da:
-
economia più veloce, grazie a lavoratori-IA in ogni settore;
-
specializzazione delle aziende guidata da agenti intelligenti;
-
cambiamenti nel comportamento umano, già osservabili quando l’AI diventerà “visibilmente potente”;
-
nuove collaborazioni tra concorrenti, spinte dal rischio comune.
Il pubblico oggi non percepisce il cambiamento perché l’AI è ancora “strana”, inconsistente. Ma non lo sarà per molto.
Appena i modelli inizieranno a “sentirsi potenti” — ovvero a sbagliare molto meno — la società reagirà, e lo farà in fretta.
FAQ (5)
1. Perché secondo Sutskever il pubblico non percepisce il cambiamento?
Perché i progressi nei benchmark non si riflettono ancora in un impatto economico visibile, e gli errori dei modelli li fanno sembrare ancora “deboli”.
2. Perché l’AI avrà effetti sociali prima della AGI?
Perché anche una parziale automazione cognitiva può cambiare produttività, lavoro e servizi a una scala enorme.
3. Che ruolo ha il Reinforcement Learning?
L’RL è la nuova fase: permette ai modelli di ragionare meglio, esplorare, correggersi, valutare e generalizzare più efficacemente del pretraining.
4. Perché Sutskever parla di “age of research”?
Perché scaling e pretraining hanno raggiunto i limiti pratici. Ora servono nuove idee, nuovi algoritmi e nuovi paradigmi di apprendimento.
5. Cosa significa “value function” nei modelli AI?
È un meccanismo che permette al modello di valutare in anticipo se una traiettoria di pensiero è utile o inutile, riducendo errori e spreco di computazione: un passo verso forme di “meta-cognizione”.
