Ricostruzione artistica abbastanza fedele dell’automobilista medio italiano alle 7:30 del mattino. (Credits: Disney, obviously)
Il clacson mi prende come un pugno nello stomaco. Sono a metà dell’inserimento, tutto calcolato: velocità, spazio, tempistiche. Quindici metri di abbrivio, freccia sinistra lampeggiante, nessun disturbo al traffico. Eppure qualcuno sta suonando come se stessi commettendo un crimine contro l’umanità.
Torniamo indietro di venti secondi. Uscita tangenziale nord direzione Limena, poco prima dell’autostrada. Orario anticipato rispetto al solito – il traffico scorre fluido come raramente capita. Scendo dalla rampa, freccia a sinistra, una macchina mi passa. Guardo lo specchietto: la successiva è ancora distante, stessa velocità della precedente.
Accelero. Prendo la velocità del flusso, inizio a spostarmi verso sinistra. Nessuna manovra azzardata, nessun azzardo da guidatore della domenica. Solo fisica applicata e buon senso al volante.
Poi arriva il clacson.
L’auto che mi seguiva dalla tangenziale non sta più mantenendo la velocità. Sta accelerando. A tavoletta. Il clacson continua imperterrito, si aggiungono i fari abbaglianti in modalità strobo. Mi sposto sulla destra, rallento – più che altro per capire cosa diavolo stia succedendo.
Mi sorpassa a velocità folle. Giro la testa. Il tizio mi sta urlando contro. Faccia rossa, gesti rabbiosi, espressione da guerriero della strada. Un flash, un lampo, un attimo.
Con la coda dell’occhio – mentre sono ancora girato con l’espressione probabilmente ebete di chi assiste all’assurdo – vedo un bagliore rosso.
Stop. La macchina davanti sta frenando.
Nella mia mente vedo già lo schianto. Il suono della lamiera, il vetro, l’airbag che esplode. Il povero malcapitato che si ritroverà questo pazzo dentro l’abitacolo.
Ma le macchine moderne sono più intelligenti di noi. Qualche sensore governato da un’intelligenza artificiale ad auto-apprendimento capisce che il suo idiota proprietario sta per fare “boom”.
Frenata d’emergenza. Così violenta che vedo l’incauto automobilastro sbalzarsi in avanti, trattenuto dalla cintura. (Peccato, penso. Una bella frattura del setto nasale sulla corona del volante forse gli sarebbe servita).
Ma la fisica ha le sue regole. Per quanto potenti fossero i freni di quel SUV nero con l’elica davanti, l’inerzia esige il suo tributo. Un “tunk” secco di plastiche che si toccano. Stop di entrambe le auto. Io sfilo sulla sinistra, ancora nella corsia di immissione, testimone involontario.
Cinque secondi. Non è durato più di cinque. Tanto basta a un turbodiesel sotto un piede collegato a un cervello privo di giudizio per guadagnare qualche decina di chilometri all’ora e provocare un tamponamento evitabile.
Tanto basta per farmi dubitare, ancora una volta, del genere umano.
Mi chiedo: quanto ci vorrà prima che inventiamo sensori di giudizio da impiantare nel cervello? Perché evidentemente i sensori dell’auto funzionano meglio del cervello del guidatore. L’algoritmo batte l’istinto. Il silicio salva la carne.
E io, che passo il tempo a diffidare degli algoritmi e a cercare l’autenticità umana, mi ritrovo a fare il tifo per una macchina che frena al posto del suo padrone.
Ovvero: come ho scoperto che 10 intelligenze artificiali su 10 hanno problemi seri con l’italiano e il mio viso
A volte le cose nascono per caso. Le ispirazioni arrivano all’improvviso e non puoi fare altro che seguirle. E io, genio de noaltri, ho pensato: “Ehi! Trasformiamoci in un carcerato della mediocrità usando l’IA!”. Spoiler: la maggior parte di queste presunte “intelligenze” artificiali si sono rivelate più artificiali che intelligenti.
Dal Crimine della Mediocrità al Disastro del Riconoscimento Facciale
Stavo scrivendo un articolo sulla mediocrità online. Poi mi è venuta l’idea folle: creare un mugshot di me stesso come “criminale della creatività”, accusato di aver violato gli standard di mediocrità. Ho preso una mia foto (bruttissima tralatro), ho scritto un prompt dettagliatissimo, e l’ho dato in pasto a 9 diversi modelli AI usando lmarena.ai. Il risultato? Un festival dell’errore che merita un’analisi spietata
La Carneficina: Analisi Brutale Modello per Modello
Flux-1 Kontext Dev – BOCCIATO
Il crimine: Ha appeso il cartello AL MURO invece che darlo in mano. MA CHE SENSO HA?! È un mugshot, non una mostra d’arte contemporanea! Oltre a questo, la somiglianza c’è ma l’interpretazione del prompt è da scuola elementare.
Flux-1 Kontext Pro – DISASTRO TOTALE
Il crimine: Ha scritto “VNOULAZIONE MIOLLISOINIA ‘DL FAIE” e altre cazzate incomprensibili. Caro Flux Pro (che tra l’altro è la versione A PAGAMENTO), se non sai scrivere in italiano, almeno dillo. Costa pure di più e non sa fare lo spelling. Roba da denuncia al Codacons.
Flux-2 Pro – CHI È QUESTO SCONOSCIUTO?
Il crimine: Ha trasformato COMPLETAMENTE il mio viso. Potrebbe essere chiunque. Potrebbe essere mio cugino, il panettiere sotto casa, Brad Pitt invecchiato male. Ma non sono io. Zero somiglianza con l’immagine originale. Fail totale.
Flux-2 Flex – REALISMO SOTTOZERO
Il crimine: Sembra tutto meno che realistica. L’immagine ha quell’effetto plastificato stile action figure degli anni ’90. Se l’obiettivo era “hyper-realistic”, qualcuno dovrebbe spiegare a Flux cosa significa “realistic”.
Gemini 2.5 Flash (Nano Banana) – QUASI, MA…
Il crimine: Ha scritto “VIOLATIONE” invece di “VIOLAZIONE”. Caro Google, siamo nel 2025, l’italiano esiste da un po’ di secoli. Un errore ortografico su una parola così importante rovina tutto. Peccato, perché la somiglianza e l’atmosfera erano buone.
GPT-Image-1 (OpenAI) – MA CHI È ‘STO TIPO?
Il crimine: Ha travisato completamente l’immagine. Non è il mio volto. Punto. ChatGPT/OpenAI ha creato un’immagine bellissima, cinematografica, da Oscar… ma di un’altra persona. È come ordinare una pizza margherita e ricevere un sushi.
E I Vincitori Sono…
Nano Banana Pro (Gemini 3 Pro) – IL CAMPIONE
Finalmente! Mantiene la somiglianza, scrive correttamente “VIOLAZIONE DEGLI STANDARD DI MEDIOCRITÀ”, gestione luci e ombre perfetta, texture credibile. Costa qualcosa in più ma FUNZIONA. È come confrontare un chirurgo e un macellaio: entrambi tagliano, ma solo uno sa dove tagliare.
Qwen-Image-Edit (Alibaba) – IL VERO VINCITORE NASCOSTO
Qwen-Image-Edit, il modello di Alibaba da 20 miliardi di parametri, ha fatto quello che gli altri hanno solo sognato. È costruito su architettura dual-path: usa il Qwen 2.5-VL encoder per la comprensione semantica e un VAE (Variational Autoencoder) per la fedeltà dell’aspetto. Questa divisione gli permette di fare sia modifiche semantiche ampie che editing preciso pixel-per-pixel. Supporta editing semantico (rotazioni oggetti, cambio stile) E appearance editing (modifiche a livello di pixel con integrazione perfetta di luci e ombre). Ha capacità di text rendering bilingue (inglese E cinese) ed è rilasciato con licenza Apache 2.0 – completamente open source e commercial-friendly, più permissiva di Flux.
Reve-v1 – LA SORPRESA CINESE
Il modello cinese mantiene buona coerenza con il mio volto originale, scrittura quasi corretta, atmosfera credibile. Non sarà perfetto ma ha fatto il compito correttamente. Perchè sul podio? Costa un decimo della concorrenza… Ranking #5 su LMArena per l’editing e si vede il perché.
SeeDream-4 High Res – ALTRO COLPO CINESE
Altro modello cinese che tiene botta. Risoluzione quadrata, somiglianza convincente, testo leggibile. Costo ridotto rispetto ai blasoni occidentali e risultato superiore alla maggior parte dei competitor. I draghi stanno divorando il mercato.
Il Prompt Perfetto Sprecato
Per chi volesse capire dove hanno fallito, ecco l’immagine di partenza e il prompt DETTAGLIATISSIMO che ho usato: specifiche fotografiche (Nikon D5300, 50mm f/1.2L, ISO 400), descrizione dell’ambientazione, del soggetto, dell’illuminazione, del testo da scrivere:
“A hyper-realistic, cinematic mug shot portrait of a man (Critical Identity Lock: attached image) standing against a gritty, stylised police booking wall. The background is a textured concrete wall with faint scuff marks, smudged fingerprints, height lines (imperial measurements), and faded graffiti layered over institutional grey. The subject is framed dead centre, holding a black signboard that reads in bold white letters:
‘VIOLAZIONE DEGLI STANDARD DI MEDIOCRITÀ’
He wears a modern black-and-white prison-style outfit: slim-fit striped top or monochrome jumpsuit, edgy and fashion-forward rather than costume-like. The neckline and sleeves have subtle fraying. Clothes are dirty and consumed. Accessories like silver hoops or a worn leather wrist cuff give it a rebellious aesthetic. His expression is confident and unbothered, with a slight smirk — bold, clever, and unashamed. He is bald his head is perfectly shaved. The lighting is stark and moody: single light source from above casting soft shadows under her jaw and behind her, creating depth and mood.
Camera specs for realism and tension: • Nikon D5300, 50mm f/1.2L lens • ISO 400, f/2.0 for soft background blur and crisp facial detail • Studio-style flash with slight overhead diffusion • Sharpened textures on skin, hair, concrete, and fabric • Colour-graded for cinematic realism, subtle desaturation for gritty tone“
Tutto chiaro, preciso, impossibile da fraintendere.
E invece…
Riflessioni di un Criminale Deluso
La verità è questa: la maggioranza dei modelli AI ha fallito clamorosamente. Hanno fallito nella somiglianza facciale, nell’interpretazione del prompt, nella scrittura del testo italiano. Alcuni hanno sbagliato TUTTO.
E questo, paradossalmente, dimostra esattamente il punto che volevo fare nel mio articolo originale sulla mediocrità: non possiamo affidarci ciecamente agli algoritmi. Non basta usare l’IA più famosa o più costosa. Serve spirito critico, serve testare, serve VEDERE con i propri occhi.
I modelli cinesi meno conosciuti (Qwen 2.5, Reve-v1, SeeDream-4) hanno fatto meglio di Flux Pro e GPT-Image. Google Gemini 2.5 ha quasi centrato il bersaglio ma ha cannato l’ortografia. Solo la versione Pro di Nano Banana ha dimostrato di valere l’investimento e di essere quello qualitativamente migliore.
La Vera Morale della Storia
Il miglior modello per questo task non è stato né Google Premium né OpenAI. È stato Qwen-Image-Edit di Alibaba: open source, licenza commerciale permissiva, e risultati superiori.
Mentre Flux Pro costa molto e scrive “miollisoinia”, mentre GPT creava immagini magnifiche di sconosciuti, Qwen ha semplicemente fatto il lavoro. Perfettamente.
La Cina non sta arrivando nel mondo dell’IA. È già qui. E sta vincendo.
VIOLAZIONE DEGLI STANDARD DI MEDIOCRITÀ: COLPEVOLE E ORGOGLIOSO.
(E impressionato da Alibaba)
P.S.: Qwen, se mi leggi, siete i migliori. Punto.
P.P.S.: Flux, GPT… avete visto? QUESTO è come si fa.
P.P.P.S.: Alibaba ha rilasciato questo mostro con licenza Apache 2.0. Open source. Gratis. E batte tutti i competitor a pagamento. Meditiamo.
P.P.P.P.S.: tutto questo è stato fatto per divertimento, per strappare un sorriso e prendere in giro un po’ questa tecnologia che può veramente essere utile in tantissimi campi… non sta a me descrivere le implicazioni di tutto ciò quando va nelle mani della parte più oscura dell’animo umano… Meditiamo x 2