
Ovvero: come ho scoperto che 10 intelligenze artificiali su 10 hanno problemi seri con l’italiano e il mio viso
A volte le cose nascono per caso. Le ispirazioni arrivano all’improvviso e non puoi fare altro che seguirle. E io, genio de noaltri, ho pensato: “Ehi! Trasformiamoci in un carcerato della mediocrità usando l’IA!”. Spoiler: la maggior parte di queste presunte “intelligenze” artificiali si sono rivelate più artificiali che intelligenti.
Dal Crimine della Mediocrità al Disastro del Riconoscimento Facciale
Stavo scrivendo un articolo sulla mediocrità online. Poi mi è venuta l’idea folle: creare un mugshot di me stesso come “criminale della creatività”, accusato di aver violato gli standard di mediocrità. Ho preso una mia foto (bruttissima tralatro), ho scritto un prompt dettagliatissimo, e l’ho dato in pasto a 9 diversi modelli AI usando lmarena.ai. Il risultato? Un festival dell’errore che merita un’analisi spietata
La Carneficina: Analisi Brutale Modello per Modello
Flux-1 Kontext Dev – BOCCIATO

Il crimine: Ha appeso il cartello AL MURO invece che darlo in mano. MA CHE SENSO HA?! È un mugshot, non una mostra d’arte contemporanea! Oltre a questo, la somiglianza c’è ma l’interpretazione del prompt è da scuola elementare.
Flux-1 Kontext Pro – DISASTRO TOTALE

Il crimine: Ha scritto “VNOULAZIONE MIOLLISOINIA ‘DL FAIE” e altre cazzate incomprensibili. Caro Flux Pro (che tra l’altro è la versione A PAGAMENTO), se non sai scrivere in italiano, almeno dillo. Costa pure di più e non sa fare lo spelling. Roba da denuncia al Codacons.
Flux-2 Pro – CHI È QUESTO SCONOSCIUTO?

Il crimine: Ha trasformato COMPLETAMENTE il mio viso. Potrebbe essere chiunque. Potrebbe essere mio cugino, il panettiere sotto casa, Brad Pitt invecchiato male. Ma non sono io. Zero somiglianza con l’immagine originale. Fail totale.
Flux-2 Flex – REALISMO SOTTOZERO

Il crimine: Sembra tutto meno che realistica. L’immagine ha quell’effetto plastificato stile action figure degli anni ’90. Se l’obiettivo era “hyper-realistic”, qualcuno dovrebbe spiegare a Flux cosa significa “realistic”.
Gemini 2.5 Flash (Nano Banana) – QUASI, MA…

Il crimine: Ha scritto “VIOLATIONE” invece di “VIOLAZIONE”. Caro Google, siamo nel 2025, l’italiano esiste da un po’ di secoli. Un errore ortografico su una parola così importante rovina tutto. Peccato, perché la somiglianza e l’atmosfera erano buone.
GPT-Image-1 (OpenAI) – MA CHI È ‘STO TIPO?

Il crimine: Ha travisato completamente l’immagine. Non è il mio volto. Punto. ChatGPT/OpenAI ha creato un’immagine bellissima, cinematografica, da Oscar… ma di un’altra persona. È come ordinare una pizza margherita e ricevere un sushi.
E I Vincitori Sono…
Nano Banana Pro (Gemini 3 Pro) – IL CAMPIONE

Finalmente! Mantiene la somiglianza, scrive correttamente “VIOLAZIONE DEGLI STANDARD DI MEDIOCRITÀ”, gestione luci e ombre perfetta, texture credibile. Costa qualcosa in più ma FUNZIONA. È come confrontare un chirurgo e un macellaio: entrambi tagliano, ma solo uno sa dove tagliare.
Qwen-Image-Edit (Alibaba) – IL VERO VINCITORE NASCOSTO

Qwen-Image-Edit, il modello di Alibaba da 20 miliardi di parametri, ha fatto quello che gli altri hanno solo sognato. È costruito su architettura dual-path: usa il Qwen 2.5-VL encoder per la comprensione semantica e un VAE (Variational Autoencoder) per la fedeltà dell’aspetto. Questa divisione gli permette di fare sia modifiche semantiche ampie che editing preciso pixel-per-pixel. Supporta editing semantico (rotazioni oggetti, cambio stile) E appearance editing (modifiche a livello di pixel con integrazione perfetta di luci e ombre). Ha capacità di text rendering bilingue (inglese E cinese) ed è rilasciato con licenza Apache 2.0 – completamente open source e commercial-friendly, più permissiva di Flux.
Reve-v1 – LA SORPRESA CINESE

Il modello cinese mantiene buona coerenza con il mio volto originale, scrittura quasi corretta, atmosfera credibile. Non sarà perfetto ma ha fatto il compito correttamente. Perchè sul podio? Costa un decimo della concorrenza… Ranking #5 su LMArena per l’editing e si vede il perché.
SeeDream-4 High Res – ALTRO COLPO CINESE

Altro modello cinese che tiene botta. Risoluzione quadrata, somiglianza convincente, testo leggibile. Costo ridotto rispetto ai blasoni occidentali e risultato superiore alla maggior parte dei competitor. I draghi stanno divorando il mercato.
Il Prompt Perfetto Sprecato

Per chi volesse capire dove hanno fallito, ecco l’immagine di partenza e il prompt DETTAGLIATISSIMO che ho usato: specifiche fotografiche (Nikon D5300, 50mm f/1.2L, ISO 400), descrizione dell’ambientazione, del soggetto, dell’illuminazione, del testo da scrivere:
“A hyper-realistic, cinematic mug shot portrait of a man (Critical Identity Lock: attached image) standing against a gritty, stylised police booking wall. The background is a textured concrete wall with faint scuff marks, smudged fingerprints, height lines (imperial measurements), and faded graffiti layered over institutional grey. The subject is framed dead centre, holding a black signboard that reads in bold white letters:
‘VIOLAZIONE DEGLI STANDARD DI MEDIOCRITÀ’
He wears a modern black-and-white prison-style outfit: slim-fit striped top or monochrome jumpsuit, edgy and fashion-forward rather than costume-like. The neckline and sleeves have subtle fraying. Clothes are dirty and consumed. Accessories like silver hoops or a worn leather wrist cuff give it a rebellious aesthetic. His expression is confident and unbothered, with a slight smirk — bold, clever, and unashamed. He is bald his head is perfectly shaved. The lighting is stark and moody: single light source from above casting soft shadows under her jaw and behind her, creating depth and mood.
Camera specs for realism and tension:
• Nikon D5300, 50mm f/1.2L lens
• ISO 400, f/2.0 for soft background blur and crisp facial detail
• Studio-style flash with slight overhead diffusion
• Sharpened textures on skin, hair, concrete, and fabric
• Colour-graded for cinematic realism, subtle desaturation for gritty tone“
Tutto chiaro, preciso, impossibile da fraintendere.
E invece…
Riflessioni di un Criminale Deluso
La verità è questa: la maggioranza dei modelli AI ha fallito clamorosamente. Hanno fallito nella somiglianza facciale, nell’interpretazione del prompt, nella scrittura del testo italiano. Alcuni hanno sbagliato TUTTO.
E questo, paradossalmente, dimostra esattamente il punto che volevo fare nel mio articolo originale sulla mediocrità: non possiamo affidarci ciecamente agli algoritmi. Non basta usare l’IA più famosa o più costosa. Serve spirito critico, serve testare, serve VEDERE con i propri occhi.
I modelli cinesi meno conosciuti (Qwen 2.5, Reve-v1, SeeDream-4) hanno fatto meglio di Flux Pro e GPT-Image. Google Gemini 2.5 ha quasi centrato il bersaglio ma ha cannato l’ortografia. Solo la versione Pro di Nano Banana ha dimostrato di valere l’investimento e di essere quello qualitativamente migliore.
La Vera Morale della Storia
Il miglior modello per questo task non è stato né Google Premium né OpenAI. È stato Qwen-Image-Edit di Alibaba: open source, licenza commerciale permissiva, e risultati superiori.
Mentre Flux Pro costa molto e scrive “miollisoinia”, mentre GPT creava immagini magnifiche di sconosciuti, Qwen ha semplicemente fatto il lavoro. Perfettamente.
La Cina non sta arrivando nel mondo dell’IA. È già qui. E sta vincendo.
VIOLAZIONE DEGLI STANDARD DI MEDIOCRITÀ: COLPEVOLE E ORGOGLIOSO.
(E impressionato da Alibaba)
P.S.: Qwen, se mi leggi, siete i migliori. Punto.
P.P.S.: Flux, GPT… avete visto? QUESTO è come si fa.
P.P.P.S.: Alibaba ha rilasciato questo mostro con licenza Apache 2.0. Open source. Gratis. E batte tutti i competitor a pagamento. Meditiamo.
P.P.P.P.S.: tutto questo è stato fatto per divertimento, per strappare un sorriso e prendere in giro un po’ questa tecnologia che può veramente essere utile in tantissimi campi… non sta a me descrivere le implicazioni di tutto ciò quando va nelle mani della parte più oscura dell’animo umano… Meditiamo x 2