Il segreto sporco degli LLM: un dado pesato
Aprite ChatGPT 5.2, Claude 4.6 Opus o Gemini 3.1 Pro. Chiedete di spiegarvi il teorema di Pitagora come a un bambino, di risolvere un bug di programmazione complesso, o di stendere un’email formale al vostro capo. In pochi secondi – o magari dopo una calcolata pausa di elaborazione – la macchina restituisce una risposta fluida, strutturata, lucida. Sembra magia.
Dietro l’interfaccia opera un Large Language Model, un modello linguistico di grandi dimensioni. Ormai noto anche al grande pubblico con l’acronimo LLM. Il suo segreto è meno nobile di quel che sembra.
Uso un’immagine che devo a Signal Pirate, un Security engineer che ha smontato la macchina pezzo per pezzo con Ollama in locale, nel suo eccellente articolo Come Pensa la Macchina: un LLM non ragiona, non capisce, non sa. Un LLM lancia un dado pesato. Ripetutamente.
Immaginate un dado con 128.256 facce, tante quante sono le parole e i pezzi di parola che il modello conosce. In ogni istante, il modello lancia questo dado, non un dado equo. Le sue facce hanno pesi diversi, calcolati in base a tutto quanto il modello ha letto durante l’addestramento. Se la frase finora è “Il gatto si è seduto sul…”, la faccia divano è pesata di più, atomo è pesata quasi zero. Esce divano. Il modello lo aggiunge alla frase. Poi lancia di nuovo per la parola successiva. E così via, un lancio alla volta, fino a comporre l’intera risposta.
Questo meccanismo si chiama generazione autoregressiva: ogni parola generata dipende da tutte le precedenti. Non c’è alcuna comprensione del discorso nella sua interezza da parte del modello. C’è un dado “pesato”, lanciato un numero impressionante di volte, con pesi calibrati così bene da produrre testi che sembrano scritti da qualcuno che capisce. Ma capire e sembrare di capire sono due cose molto diverse.
Come si pesano i dadi: l’addestramento
Come fa il dado ad avere i pesi giusti? Ha letto. Ha fagocitato un volume di testi che nessun essere umano coprirebbe in mille esistenze: migliaia di miliardi di parole estratte da libri, articoli scientifici, pagine web, forum, codice sorgente, archivi storici. Per Llama 3.1, il modello che Signal Pirate smonta nel suo articolo, parliamo di 15 trilioni di token. Se leggeste un token al secondo senza fermarvi mai, ci mettereste 475.000 anni.
Durante la fase di addestramento (training), la macchina non memorizza le frasi. Ne assimila i pattern, gli schemi ricorrenti. Il processo concreto:
① Frase mostrata
Al modello viene mostrata una frase con l’ultima parola nascosta.
② Modello prevede
Lancia il dado pesato: calcola la parola più probabile.
③ Corretto se sbaglia
I pesi del dado vengono aggiustati per essere più precisi la prossima volta.
④ Ripeti miliardi di volte
Alla fine, il modello ha un’intuizione statistica millimetrica sul linguaggio.
⚠️ Attenzione critica
L’addestramento non ottimizza la correttezza fattuale. Ottimizza la plausibilità statistica. Se nel corpus ci sono testi sbagliati, il modello impara anche quelli: Garbage in, garbage out, ma pesato statisticamente.
LLM un mondo a pezzi: i Token (e il Bias Italiano)
La macchina non legge le parole come le leggiamo noi. Le spezza in pezzi chiamati token. Un token può essere una parola intera (casa = 1 token), un pezzo di parola (incredi + bile = 2 token) o un singolo carattere. L’algoritmo che fa questo lavoro si chiama Byte Pair Encoding: parte dai singoli caratteri e fonde iterativamente le coppie più frequenti.
Il bias che nessuno vi spiega
Il vocabolario del tokenizzatore è stato costruito prevalentemente su testo inglese. Come mostra Signal Pirate nel suo articolo, l’italiano paga il conto:
| Frase | Token | Lingua |
|---|---|---|
| “The queen bee lays eggs” | 5 | 🇬🇧 Inglese |
| “L’ape regina depone uova” | 9 | 🇮🇹 Italiano |
| “artificial intelligence” | 3 | 🇬🇧 Inglese |
| “intelligenza artificiale” | 7 | 🇮🇹 Italiano |
Le conseguenze sono concrete: un testo italiano consuma più token di uno inglese, riempie prima la finestra di contesto, costa di più quando usate le API, e il modello ha meno spazio per “ragionare”. E’ un bias architetturale, il modello pensa in token e i token sono disegnati per l’inglese.
Embedding: numeri che catturano significato
Ogni token è un numero intero, dunque, ma un numero intero non porta informazione semantica: il numero 1239 non è “vicino” al numero 1240 in nessun senso linguistico. Serve allora una rappresentazione che catturi il significato: servono gli embeddings, potremo definirli gli “inclusori”.
Ogni token viene trasformato in un vettore: una lunga lista di numeri – pensatela come una coordinata nello spazio. Una coordinata GPS ha due numeri (latitudine, longitudine); un vettore di un LLM ne ha migliaia, ad esempio 4.096 in Llama 3.1. Questa lista numerica rappresenta il significato della parola in un contesto matematico. Parole con significato simile hanno vettori vicini: cane e gatto saranno vicini; cane e derivata saranno lontanissimi.
🔑 Insight chiave
Gli embedding non capiscono il significato. Catturano co-occorrenza statistica. “Regina” è vicino a “ape” perché appaiono spesso insieme nel testo di addestramento, non perché il modello sa cos’è un’ape. Questa differenza è fondamentale.
L’attenzione: la parola che guarda le altre
Ora abbiamo una sequenza di vettori, ma ogni vettore è isolato: scheggia non sa che prima c’è la e dopo c’è impazzita. Serve un meccanismo che permetta a ogni parola di guardare tutte le altre e decidere a chi prestare attenzione. Questo meccanismo è la self-attention, l’innovazione centrale del Transformer, l’architettura inventata da Google nel 2017 con il celebre articolo “Attention Is All You Need”. Prima dei Transformer, le RNN/LSTM processavano le parole una alla volta in ordine sequenziale → “regina” non vedeva direttamente “api” se era lontana, e il gradiente svaniva su frasi lunghe.
Query, Key, Value: le tre domande
Per ogni parola, il modello ora calcola tre cose:
Query
“ricerca informazioni rilevanti per il contesto.
Key
“il valore che ogni token rappresenta per gli altri, incluso il proprio (serve solo per calcolare la similarità con la Query)
Value
“l’informazione effettivamente da pesare e sommare. Il modello moltiplica le query per le key, ottiene un punteggio di attenzione, e usa i punteggi per pesare i value.
Esempio: nella frase “Maria ha detto a Luca che lei sarebbe andata al cinema”, quando il modello arriva a “lei”, il punteggio di attenzione sarà alto per “Maria” e basso per “Luca”. In pratica: il token “lei” genera una Query che ha alta similarità con la Key di “Maria” → il Value di “Maria” contribuisce pesantemente all’output di “lei”. E’ in realtà meno netto di così: non abbiamo 0.99 per Maria e 0.01 per Luca: spesso abbiamo 0.6 per Maria, 0.2 per “ha detto”, 0.1 per “cinema”, ecc. Il modello impara distribuzioni sfumate.
Il Transformer usa decine di teste di attenzione in parallelo: la specializzazione non è sempre netta e moltissime teste risultano ridondanti, sovrabbondanti ed eliminabili, ma semplificando, una si concentra sulla grammatica, un’altra sulla semantica, un’altra sui nessi temporali. Come centinaia di occhi che analizzano lo stesso testo da prospettive diverse.
Strato dopo strato: la fabbrica del significato
Il Transformer non è fatto di un singolo strato. È una torre di strati impilati: Llama 3.1 ne ha 32, i modelli più avanzati oltre cento. Ogni strato è come un piano di una fabbrica:
Strati iniziali
Grammatica, struttura delle frasi. Si taglia la materia prima.
Strati intermedi
Significati complessi, metafore, relazioni logiche tra concetti distanti.
Strati finali
Controllo qualità e previsione: il prossimo lancio di dado. Ma la profondità non garantisce la correttezza. Coglie l’ironia, il sarcasmo, i legami tra paragrafi distanti – ma non verifica i fatti.
Da testo grezzo ad assistente: Fine-tuning e RLHF
Se il modello si fermasse all’addestramento, sarebbe un ottimo completatore di frasi ma un pessimo assistente. Scriverebbe nello stile di una pagina Wikipedia mescolata con un forum. Per trasformarlo servono due passaggi.
Fine-tuning
Migliaia di conversazioni esemplari (domanda → risposta). Senza fine-tuning, il modello è un autocomplete impazzito. Con il fine-tuning impara a fare l’assistente.
RLHF
Reinforcement Learning from Human Feedback. Il modello genera due risposte, un valutatore umano sceglie la migliore, il modello viene corretto. Insegna sfumature: conciso ma non brusco, onesto ma non inutile, prudente ma non paternalistico.
La finestra di contesto: la scrivania del modello
Un LLM non ha memoria permanente. Ciò che possiede è una finestra di contesto: pensatela come la scrivania su cui lavora il modello. Tutto ciò che sta sulla scrivania, lo vede e lo usa; tutto ciò che cade, lo dimentica. Quando chiudete la conversazione, la scrivania viene svuotata.
| Modello | Anno | Finestra | Equivalente |
|---|---|---|---|
| GPT-2 | 2019 | 2K token | ~1.500 parole |
| GPT-4 | 2023 | 128K token | ~un romanzo |
| Claude 4.6 Opus | 2025 | 200K token | ~un libro intero |
| Gemini 3.1 Pro | 2026 | 1M+ token | ~diversi libri |
La temperatura: quanto è pesato il dado
Il parametro temperatura controlla quanto il dado è pesato.
🧊 Temperatura bassa
La faccia più pesante vince quasi sempre. Risposte precise, prevedibili, ripetitive. Ideale per: contratti, codice, analisi dati.
🔥 Temperatura alta
Le facce leggere hanno più chance. Risposte creative, sorprendenti, ma più soggette a errori. Ideale per: poesia, brainstorming, narrativa.
È la manopola tra “rigoroso” e “fantasioso”. Per un parere legale vorrete temperatura bassa; per un testo creativo, temperatura alta.
Le allucinazioni: quando il dado mente
Arriviamo al punto che crea più problemi. Signal Pirate racconta di aver chiesto a Llama 3.1 informazioni sulle api: il modello ha scritto che la regina “esce dall’alveare per fondare una nuova colonia” e che le operaie “si addormentano” in inverno. Fluente, sicuro, sbagliato. La sua compagna, che le api le tiene davvero, ha intercettato gli errori in mezzo secondo. Il modello li ha scritti senza battere ciglio.
Perché succede? Perché il nucleo del modello resta un dado pesato. Non consulta un database di fatti, non verifica le sue affermazioni. Genera la sequenza più plausibile, e plausibile non significa corretto.
Conoscenza grounded vs ungrounded
C’è una distinzione potente nell’articolo di Signal Pirate:
Conoscenza UNGROUNDED
Il modello: pattern statistici estratti da testo scritto da altri. Quando il testo è sbagliato, lo ripete con la stessa sicurezza. = leggere 1.000 ricette di torta.
Conoscenza GROUNDED
L’esperto umano: esperienza verificata con le mani. Sa distinguere il vero dal falso perché l’ha fatto davvero. = aver fatto una torta.
🔴 Regola d’oro
Un LLM non è una fonte. È uno strumento di elaborazione. Le informazioni fattuali vanno sempre verificate su fonti primarie. La fluenza non è intelligenza. La probabilità non è verità.
Il salto del 2025: dal lancio impulsivo al “ragionamento”
Fino al 2024, il modello era un giocatore di scacchi impulsivo: muoveva la prima mossa che gli veniva in mente. I modelli del 2026 – Claude 4.6 Opus, Gemini 3.1 Pro, GPT-5.2 – hanno imparato a fermarsi.
Di fronte a un problema complesso, generano token interni e invisibili all’utente per scomporre il problema, formulare ipotesi, testare percorsi logici, individuare le proprie falle. Hanno imparato a riflettere prima di lanciare il dado. Il risultato è un salto qualitativo enorme, soprattutto per problemi che richiedono ragionamento logico, matematico o strategico.
Modello 2024
Giocatore di scacchi impulsivo: muove la prima mossa che gli viene in mente. Dado lanciato d’istinto. Solo previsione istantanea.
Modello 2026
Si ferma. Analizza 3-4 varianti. Valuta le conseguenze. Corregge le falle. Poi risponde. Pensiero esteso (extended thinking).
Il pappagallo con le mani: Agenti, RAG e System Prompt
Signal Pirate usa un’immagine perfetta: un LLM da solo è un pappagallo in gabbia che ripete quello che ha sentito. Un LLM con strumenti è un pappagallo con le mani: può cercare su internet, leggere file, eseguire codice, scaricare PDF, incrociare dati. Non è più solo previsione statistica: è previsione assistita da verifica operativa.
RAG – Retrieval Augmented Generation
Invece di affidarsi alla memoria statistica, il modello cerca prima nei documenti che gli avete fornito e genera basandosi su quelli. Il dado viene ripesato sui dati che contano, non sulla media di internet.
Agenti Autonomi
GPT-5.2 Codex scrive ed esegue codice Python. Gemini 3.1 Pro decodifica PDF scannerizzati. Claude 4.6 Opus effettua ricerche web e cita le fonti. Non è più un dado isolato.
🛡️ System Prompt: la prima linea di difesa
Sono regole esplicite che date al modello prima di ogni conversazione. Non sono suggerimenti: sono vincoli che condizionano il peso del dado ad ogni lancio.
- “Usa solo queste fonti” – limita le allucinazioni ancorando a documenti reali
- “Non inventare dati” – vincola il modello a dichiarare l’incertezza
- “Se non sai, dillo” – preferisce il silenzio alla fabbricazione
- “Rispondi solo in italiano” – ottimizza l’uso dei token disponibili
Il viaggio di una domanda nel 2026
Voi scrivete: “Quanti sono 17 alla quarta potenza?” Cosa succede?
Token
Testo → pezzi → vettori numerici (embedding)
Transformer
100+ strati, Q/K/V attention multi-head
Pensiero
Token interni invisibili, ragionamento esteso
Strumenti
Codice, web, RAG, calcolo → verifica
Risposta
Integra tutto. Dado ripesato. Verificata.
Il nucleo è lo stesso: il dado pesato. Ma l’impalcatura che lo circonda nel 2026 è incomparabilmente più sofisticata. Non è più un pappagallo in gabbia: è un pappagallo con le mani, con il ragionamento, e con la possibilità di verificare prima di parlare.
L’Utente Consapevole nel 2026
L’intelligenza artificiale generativa rimane lo strumento più potente che la maggior parte di noi abbia mai avuto a disposizione. Ma come dice Signal Pirate: la differenza non è nel modello, è in come lo usate. Il dado pesato resta un dado. Se lo vincolate con le regole giuste, gli mettete davanti i documenti giusti, e verificate quello che dice, diventa utile. Non intelligente. Utile. Che è molto meglio.
- Prompt chiaro = pesi migliori sul dado = risposte migliori
- System prompt: vincoli espliciti, prima linea di difesa contro le allucinazioni
- RAG: ripesate il dado sui vostri documenti, non sulla media di internet
- Temperatura bassa per le cose serie, alta per la creatività
- Le allucinazioni non sono scomparse: verifica umana sempre
- Lasciate tempo al pensiero esteso per problemi complessi
Non vi è richiesto di diventare sviluppatori. Dovete trasformarvi in utenti lucidi.
📚 Crediti e Approfondimenti
L’approccio “niente fuffa” di questo articolo, le analogie del dado pesato e del pappagallo con le mani, e diversi concetti tecnici (bias del tokenizzatore, conoscenza grounded vs ungrounded) sono merito dell’articolo Come Pensa la Macchina di Signal Pirate. Un lavoro eccezionale che consiglio a chiunque voglia approfondire con Ollama in locale – smontando davvero i byte, senza metafore colorate.





