Frontier Equivalent Token: un'unità di misura per il consumo AI multi-modello

Un milione di token su DeepSeek V4-Flash costa 0,28 dollari. Un milione di token su Claude Opus 4.8 ne costa 25. È lo stesso "milione"? Per il bilancio sì, per la capacità no — e oggi non esiste un'unità che permetta di sommarli.
Al 8 giugno 2026, sulle pagine pricing ufficiali di OpenAI, Anthropic, Google, Mistral e DeepSeek il prezzo di un milione di token di output varia tra 0,28 e 30 dollari: un fattore di oltre 100×. La stessa parola "token" identifica unità con valore di mercato che differiscono di due ordini di grandezza.
Per la PMI italiana con fatturato €5-50M che ha messo in produzione tre o quattro modelli — un frontier per i ragionamenti complessi, un mid-tier per il drafting, un modello economico per le pipeline batch — questo non è un dettaglio teorico. È il motivo per cui la voce "AI / LLM" sul P&L diventa illeggibile: i token consumati a fine mese non sono sommabili se non in dollari, e i dollari non raccontano cosa hai effettivamente comprato. Serve un'unità intermedia: la proposta è chiamarla Frontier Equivalent Token (FET).
Il problema: il token non è una valuta
La metrica "numero di token consumati" è oggi il default in qualsiasi dashboard provider. Funziona finché si sta su un solo modello. Diventa fuorviante quando un'organizzazione ne usa più di uno in parallelo.
Tre conseguenze pratiche:
- Budget non comparabili. Il team che consuma 500M token al mese su un modello budget e il team che ne consuma 20M su un modello frontier sembrano due mondi diversi; in valore economico possono essere molto più vicini di quanto sembri.
- Decisioni di mix-modello "a sensazione". Senza una metrica unica, la scelta su quale modello assegnare a quale task viene presa per intuizione del lead engineer, non per analisi del costo-valore.
- Reportistica AI difficilmente difendibile. Un AI Governance Officer che presenta al CFO "ho consumato X token" non sta dicendo nulla: la grandezza non ha contenuto economico né di capacità.
La proposta: Frontier Equivalent Token (FET)
L'idea è semplice. Si sceglie un modello di frontiera come benchmark. Per definizione:
1 token del modello benchmark = 1 FET
Per ogni altro modello, il numero di FET si ottiene moltiplicando i token effettivamente consumati per il rapporto tra il prezzo di output del modello e il prezzo di output del benchmark:
FET = Token × ( Prezzo_modello / Prezzo_benchmark )Il prezzo si intende per milione di token di output, sulla tariffa pubblica del provider.
L'assunzione di fondo è che il prezzo di mercato di un token rifletta il valore che il provider attribuisce a quel token. Non è una verità assoluta — torneremo sui limiti — ma è una proxy ragionevole, perché il prezzo incorpora qualità percepita, costo computazionale, domanda di mercato e scarsità delle risorse.
In questo articolo si usa GPT-5.4 come benchmark ($15/M token output). La scelta è arbitraria: ogni organizzazione può scegliere come benchmark il modello frontier che effettivamente usa come "first choice", purché poi mantenga la scelta nel tempo per garantire la confrontabilità mensile.
La tabella di normalizzazione al 8 giugno 2026
Tutti i prezzi sono stati verificati 1:1 sulle pagine pricing ufficiali dei provider (link in fondo all'articolo). Coefficienti calcolati con GPT-5.4 = 1 FET.
| Modello | Output $/M | FET per token |
|---|---|---|
| GPT-5.5 | 30,00 | 2,0000 |
| Claude Opus 4.8 | 25,00 | 1,6667 |
| GPT-5.4 (benchmark) | 15,00 | 1,0000 |
| Claude Sonnet 4.6 | 15,00 | 1,0000 |
| Gemini 2.5 Pro ¹ | 10,00 | 0,6667 |
| Claude Haiku 4.5 | 5,00 | 0,3333 |
| GPT-5.4-Mini | 4,50 | 0,3000 |
| Mistral Large 3 | 1,50 | 0,1000 |
| DeepSeek V4-Flash | 0,28 | 0,0187 |
¹ Per prompt sopra i 200k token, Gemini 2.5 Pro passa a $15/M output: il coefficiente diventa 1,0000. La metrica va applicata per fascia di utilizzo effettivo.
La lettura è immediata. Sopra 1 FET stanno i modelli che il mercato valuta più del benchmark (GPT-5.5, Opus 4.8). Sotto 1 FET tutti gli altri, fino a un fattore 50× verso il basso (V4-Flash). Un token DeepSeek V4-Flash vale 0,0187 FET: per ottenere l'equivalente economico di un milione di token GPT-5.4 ne servono circa 53,5 milioni.
Cosa cambia in pratica: l'esempio multi-modello
Una PMI che usa LLM in produzione potrebbe avere a fine mese un consumo come questo:
| Modello | Token consumati | FET equivalenti |
|---|---|---|
| GPT-5.5 | 20M | 40M |
| Claude Sonnet 4.6 | 50M | 50M |
| DeepSeek V4-Flash | 500M | 9,3M |
| Totale | 570M | ~99,3M |
In token grezzi, DeepSeek è di gran lunga il maggior consumatore (88% del totale). In FET, conta meno del 10%. Il sistema ha consumato l'equivalente economico di circa 100 milioni di token GPT-5.4, e da quella grandezza si possono ricavare il costo mensile, il trend, la previsione, indipendentemente dal mix.
È la stessa logica per cui in finanza si convertono valute estere in una valuta di riferimento prima di sommarle: nessuno tenterebbe di addizionare yen, dollari e franchi svizzeri senza un cambio.
I limiti: quando il prezzo non è il valore
L'assunzione "prezzo = valore" non regge sempre. Le situazioni in cui FET sotto- o sovra-stima il valore reale sono prevedibili:
- Dumping competitivo. Un provider che vende sottocosto per acquisire utenti distorce verso il basso il coefficiente del proprio modello. In questo caso il valore reale del token è superiore a quello indicato dalla normalizzazione.
- Modelli proprietari self-hosted. Senza un prezzo di mercato esposto, manca il numeratore della formula. Possibile soluzione: stimare un prezzo equivalente costruendo il TCO sul costo di inferenza interna.
- Drift di prezzo. I prezzi cambiano con frequenza trimestrale (in media). La tabella di normalizzazione va ricalcolata almeno ogni trimestre, e i coefficienti storici vanno congelati nei report passati per non riscrivere la storia.
Soprattutto: FET misura il valore economico implicito secondo il mercato, non l'intelligenza del modello né la sua performance sul tuo specifico task. Per quello servono benchmark interni, e nessuna metrica unitaria li sostituisce.
Prior art: cosa esiste già
Due lavori vicini, entrambi distinti da FET:
- Frontier Equivalent Compute di Epoch AI normalizza il compute, non i token: definisce 1 H100e come la potenza di picco di una NVIDIA H100 e misura la capacità dei data center frontier in H100 equivalenti (metodologia Epoch AI). FET applica la stessa idea — un benchmark esplicito, conversione per rapporto — al prezzo per token output anziché ai FLOPs.
- Blended price di Artificial Analysis calcola un prezzo unitario per LLM come media pesata 7:2:1 di cache_hit:input:output, espressa in OpenAI tokens (metodologia). L'obiettivo è il benchmarking comparativo; FET è invece un'unità transazionale per aggregazione interna del consumo aziendale, basata sul solo output e con benchmark esplicitamente scelto dall'utente.
Cosa fare adesso
Cinque mosse concrete per chi vuole sperimentare la metrica.
- Censire il mix mensile. Estrai dalle dashboard provider il consumo token output per modello degli ultimi 30 giorni. Senza dato di base, qualsiasi metrica è esercizio teorico.
- Scegliere il benchmark. Il modello di frontiera che effettivamente usi come "first choice" è la scelta naturale. Documenta la scelta e congelala: cambiarla rompe la confrontabilità storica.
- Convertire e sommare. Applica il coefficiente prezzo-modello / prezzo-benchmark a ciascun consumo. Il totale è il consumo mensile in FET.
- Riesprimere il budget in FET. Porta in board, report AI e P&L il consumo in FET invece che in token grezzi o in euro. Forza la conversazione sul valore equivalente, non sul provider.
- Ricontrollare la tabella ogni trimestre. Aggiorna i coefficienti, ricalcola i totali correnti, congela quelli storici. Il drift dei coefficienti racconta come si muove il mercato — e a volte vale più del numero finale.
Conclusione
Il dibattito sulla AI cost governance è agli inizi: la maggior parte delle aziende che oggi usa LLM in produzione si trova senza una grammatica condivisa per parlare di consumo, e i tre numeri che ha — token, euro, modelli — non sono fungibili.
FET è una proposta minimale: un benchmark, un rapporto di prezzi, una somma. Non risolve il problema della qualità del modello, non sostituisce i benchmark di accuratezza, non garantisce che il mercato abbia ragione. Fa una cosa sola: permette di sommare consumi eterogenei in un'unità leggibile. Se la tua organizzazione usa più modelli, prova a esprimere il budget mensile in FET per i prossimi 60 giorni e vedi se le decisioni di mix cambiano.
Fonti
Pagine pricing ufficiali (verificate 8 giugno 2026):
- OpenAI — Developer Docs Pricing
- Anthropic — Pricing
- Google AI for Developers — Gemini API Pricing
- Mistral — Pricing
- DeepSeek — API Pricing
Prior art: