Con il progredire dei Large Language Model, come GPT, Gemini, o LLAMa, la loro tendenza a diventare Multimodali, cioè generalisti, trattando oltre al testo anche le immagini, e poi i video, è andata diffondendosi. Sono nate delle immagini generate di grande qualità, e tutti noi ci siamo sbizzarriti a crearle. L’effetto negativo è la creazione di Deep Fake, che spesso contribuiscono alla disinformazione, e alla manipolazione delle persone. Ma questa è un’altra storia.
Sono così comparsi molti sistemi di intelligenza artificiale capaci di generare immagini partendo da una semplice descrizione (prompt): oltre a quelli citati anche DALL-E, Stable Diffusion, Firefly, Ideogram, e altri ancora. Eppure, uno di questi continua a spiccare in modo evidente: Midjourney. Chiunque l’abbia provato lo sa bene, perchè le immagini che produce sembrano spesso uscite da una rivista, o da un sogno. Ma cosa lo rende così speciale?
La differenza nasce da un insieme di scelte intelligenti e da una visione artistica molto precisa. Midjourney non impara da immagini casuali prese dal web, ma da collezioni selezionate con cura, privilegiate per la loro qualità estetica (altissima qualità dei dataset di addestramento). È come se il modello avesse frequentato una scuola d’arte, imparando dai migliori esempi di fotografia, illustrazione e design.
Anche la sua struttura tecnica è progettata per cogliere ogni minimo dettaglio: luce, profondità, texture, composizione. Per questo le immagini di Midjourney appaiono sempre equilibrate e piene di sfumature, mentre altri modelli di intelligenza artificiale, pur precisi, spesso sembrano più “meccanici”.
C’è poi un elemento unico: la community. Ogni giorno milioni di persone creano, votano e reinterpretano immagini, e il sistema utilizza questo flusso continuo di feedback per migliorarsi. Midjourney evolve insieme ai suoi utenti, seguendo i gusti, le tendenze e persino le mode visive che emergono online.
E’ quello che tecnicamente si chiama “Reinforcement Learning” utilizzato anche da altri LLM ma non a livello di comunità, quanto piuttosto di pregettisti.
Un altro punto di forza è la comprensione dei prompt, le descrizioni testuali da cui tutto parte. Con Midjourney non serve usare codici complicati o termini tecnici: basta scrivere come si parlerebbe a un artista, in linguaggio naturale (preferisce l’inglese). Il modello interpreta il tono, lo stile e perfino l’intenzione estetica di chi scrive, restituendo immagini coerenti con l’idea di partenza.
Ogni creazione, inoltre, viene rifinita automaticamente: il sistema migliora i dettagli, aumenta la nitidezza e rende l’immagine pronta per la pubblicazione senza bisogno di fotoritocchi esterni (non ci serve Photoshop).
A dirigere tutto questo c’è David Holz, già cofondatore di Leap Motion, che ha voluto fare di Midjourney non solo un progetto tecnologico, ma un’esperienza creativa. Il suo obiettivo non è semplicemente riprodurre la realtà, ma creare bellezza. È per questo che le immagini di Midjourney non colpiscono solo per la loro precisione, ma anche per la loro forza evocativa.
In fondo, Midjourney è qualcosa di più di un generatore di immagini: è un laboratorio collettivo dove la tecnologia incontra la sensibilità umana, e dove ogni prompt diventa un piccolo atto di immaginazione condivisa.
L’ Intelligenza Artificiale, con cui facciamo i conti ogni giorno, continua a sorprenderci, e compie dei passi in avanti con cadenza quasi quotidiana. A partire dal marzo di due anni, con il rilascio di ChatGPT da parte di OpenAI, tutto il mondo ha imparato a conoscere e a iniziato a parlarne, i Large Language Model come GPT, e come altri che ne sono seguiti, da Gemini a Grok, a LLAMA. Anche il mondo del design, dell’arte, della fotografia, ha iniziato a usare questi strumenti, man mano che dal testo e dal dialogo si passava a generare immagini, sulla base di istruzioni fornite dall’utente. I LLM sono così diventati “generalisti“, passando dal testo alle immagini, ai filmati. Alcuni, come Midjourney e diverse altre app, si sono specializzati sulla generazione di immagini, con caratteristiche diverse dai LLM. Il risultato di questa evoluzione è stato straordinario. Da un lato siamo venuti in possesso di strumenti formidabili, per lo studio, il lavoro, l’arte, la grafica, dall’altro il modo dell’informazione è stato invaso da foto e filmati generati da prodotti di AI, molto spesso non dichiarandone l’origine, e quindi inquinando il mercato dell’informazione.
Le regolamentazioni come l’ AI Act, in vigore dall’agosto 2024, impongono di dichiarare in modo chiaro e riconoscibile che un testo o immagine è stata prodotta utilizzando strumenti di AI. L’art. 50-2 del Regolamento (UE 2024/1689 – AI Act) così recita:
“I fornitori di sistemi di IA, compresi i sistemi di IA per finalità generali, che generano contenuti audio, immagine, video o testuali sintetici, garantiscono che gli output del sistema di IA siano marcati in un formato leggibile meccanicamente e rilevabili come generati o manipolati artificialmente.”
Naturalmente una cosa è il regolamento, altro è quello che succede su un mercato vastissimo e multinazionale, e anche se le sanzioni sono pesantissime, questa indicazione molto spesso non è seguita, in particolare se questi prodotti vengono generati in paesi dove l’AI Act, e altre regolamentazioni simili, non sono in vigore. Abbiamo assistito quindi ad un proliferare di immagini AI Generated, con effetti a volte divertenti, ma in generale deleteri, perchè il settore dell’informazione è stato gravemente inquinato, al punto che non si riesce a distinguere, molto spesso, quali immagini siano reali e quali invece siano generate dall’AI. Stesso discorso per i testi, generati da LLM come Chat-GPT e suoi simili, che vengono spesso utilizzati senza chiarirne la fonte, a volte con risultati molto negativi, vista la frequente approssimazione e le cosiddette “Allucinazioni” di cui soffrono ancora questi sistemi.
Tornando alle immagini, nei giorni scorsi in rete ci sono state molte polemiche sulle immagini provenienti da Gaza, che mostravano alcune della atrocità che questa guerra sta generando. Questo ha dato spazio ad accese polemiche, anche di famosi giornalisti e politologi. Il problema è che a volte si riesce a chiarire cosa sia vero e cosa no, ma più spesso occorre fare analisi molto approfondite per stabilire l’origine. Naturalmente è possibile rilevare errori marchiani, commessi dal modello generativo, tipo mani a sei dita, immagini dei volti palesemente distorte, illuminazione incoerente con le ombre, e così via, ma altre volte il risultato prodotto raggiunge quasi la perfezione.
Sono così nati dei prodotti che analizzano le immagini, con un metodo tecnicamente inverso a quello della generazione, per riuscire ad identificare quelle tracce che dimostrino la realtà o meno dell’immagine. Ci sono alcuni strumenti sul mercato che, con buona approssimazione, riescono a darci una diagnosi: AI or Not, HuggingFace AI detectors, e FotoForensics sono i più diffusi. E ultimamente è nata anche una startup italiana, fondata a Milano da Marco Ramilli e Marco Castaldo, che ha raccolto dei finanziamenti e ha prodotto uno strumento che si sta rivelando tra i migliori disponibili. Si tratta di IdentifAI (https://web.identifai.net/), che può essere usato, anche se con molte limitazioni, in modo gratuito, tramite interfaccia web.
Ho fatto qualche test per provarlo, usando tre immagini diverse: una reale, una prodotta con l’ Intelligenza Artificiale e l’altra ricavata da uno screenshot di un Avatar in Second Life. I risultati sono stati molto interessanti: mentre per la foto reale e per quella generata dall’AI il responso è stato molto chiaro, vicino al 100% di attendibilità, per l’avatar di Second Life il risultato è stato inaspettato. Vi riporto i report forniti per ognuna delle tre immagini.
Analisi effettuata sulla foto reale.
Analisi su foto generata da AI
Analisi sulla foto di un Avatar scattata in Second Life
La foto dell’Avatar è stata classificata come “Umana” al 99,97%, in un tool,, e al 59,05% in un altro tool. Sarebbe interessante accedere agli altri due tool, ancora più potenti, per vedere se il risultato cambia, ma non ho voglia per ora di pagare l’ennesimo abbonamento. Chi vuole, può tranquillamente farlo, e farci magari conoscere il risultato!
Per ora, l’Avatar viene classificato come “Umano”. Ma questo … lo sapevamo già.
Abbiamo oggi a disposizione un numero quasi illimitato di prodotti, alcuni classici (word processor, fogli elettronici, editor di immagini, ecc.) altri del tutto nuovi, realizzati con modelli di Intelligenza Artificiale. Nessuno è in grado di padroneggiarli tutti, ma è possibile selezionarne alcuni e cercare di sfruttarli al meglio per ottenere dei risultati soddisfacenti.
Ho voluto creare un “caso di studio” partendo da una delle immagini che mi piace scattare in Second Life, uno dei Mondi Virtuali più adatti alle foto, per la ricchezza dei dettagli di molte ambientazioni e la versatilità dei viewer, che permettono di ottenere un lavoro abbastanza professionale.
Primo Step: scatto di una immagine in Second Life – Tool utilizzato: Viewer Firestorm 7.1.11 – Immagine ad alta definizione, dimensione 25 MB:
Immagine da Second Life
Secondo Step: modifica e adattamento delle dimensioni dell’immagine. Tool utilizzato: Photoshop 26.6.0
Immagine modificata con Photoshop
Terzo Step: a partire dalla mia immagine modificata con Photoshop voglio procedere alla generazione di una immagine utilizzando un sistema di Intelligenza Artificiale, MidjourneyV7. Dopo diversi tentativi (è l’approccio normale nell’utilizzo di questi strumenti) che non mi hanno convinto del tutto, ho chiesto ad un altro strumento di Intelligenza Artificiale, Chat-GPT 4o, di propormi un prompt (sequenza di istruzioni) da dare in pasto a Minjourney. Anche qui, come al solito, ho fatto diversi tentativi, fino ad ottenere un prompt che mi soddisfacesse. Nel prompt è inserito anche l’URL dell’immagine, caricata in precedenza sul mio sito. Tool utilizzati: WordPress, Chat-GPT 4o, Midjourney V7 e Discord.
Prompt proposto da Chat-GPT 4o per MidjourneyV7
Quarto Step: con il prompt ottenuto sono passato alla generazione dell’immagine con MidjourneyV7, con vari tentativi fino ad ottenere un risultato soddisfacente. Tool utilizzati: Midjourney, Discord.
Immagine generata da Midjourney su porompt suggerito da Chat-GPT 4o
Quinto Step: con le nuove funzionalità messe a disposizione da Midjourney, nella sua Versione 7 da qualche giorno, Animate Image, ho generato un video, a partire dall’immagine precedentemente ottenuta. Tool utilizzato: MidjourneyV7 – Animate Image
Filmato senza audio generato da Midjournay-Animate pubblicato su YouTube, come demo.
Sesto Step: ultimo passaggio, aggiungiunta una clip musicale utilizzando il tool di Microsoft, incluso in Office 365, Clipchamp, al video ottenuto da Midjourney. La clip è stata ottenuta dalla libreria free Audio Library di Google. Il video ottenuto è stato pubblicato su Flickr e Youtube. Tool utilizzati: Google Audio Library, Microsoft Clipchamp, Flickr, Youtube.
Filmato finale con audio pubblicato su YouTube.
Conclusioni: Sicuramente è un procedimento laborioso, ma ho voluto sfruttare i diversi strumenti, ognuno con le proprie funzionalità. Sarebbe possibile ottenere un risultato simile usando unicamente tool di AI, ma non avrei ottenuto il risultato che volevo, guidando passo passo la trasformazione. Ed è stato divertente …
Sono quasi due anni che non sentiamo parlare d’altro, tutti i giorni, che di Intelligenza Artificiale (AI). La causa scatenante è stata la pubblicazione in rete del Chet-Bot Chat-GPT di Open AI, (https://openai.com/) una chat “intelligente” che dà risposte a qualsiasi nostra domanda, simulando l’interazione con un essere umano “esperto”, su qualsiasi problematica. Naturalmente, le risposte che fornisce Chat-GPT sono basate sull’enorme mole di materiale raccolto in rete, dalle pubblicazioni scientifiche ai libri di testo, agli articoli di giornale e persino dai social network.
Sulla base di queste informazioni, aggiornate a fine 2023, è stata addestrata con la supervisione di esseri umani, per eliminare eventuali schemi di ragionamento derivanti da preconcetti o errori dovuti ad errata interpretazione. Il risultato è quello che vediamo, nulla di “intelligente” ma estremamente efficace. E abbiamo anche imparato che a volte la chat ci dà risposte errate, quando non ha abbastanza indicazioni su come formulare la risposta, semplicemente inventa le cose e “riempie i buchi”, a volte a casaccio. Quindi, da un lato occorre sempre verificare gli output ottenuti con fonti attendibili, dall’altro bisogna imparare a formulare delle richieste molto precise, per delimitare al massimo il margine di errore.
E’ nata così la professione del “Prompt Engineer“, l’abilità tecnica di formulare richieste molto precise, per ottenere risposte affidabili. I cosiddetti “Prompt”. Compilare un prompt è diventata una caratteristica indispensabile per chi vuole utilizzare una AI per lavoro, per studio, per attività professionali, e questa nuova scienza ha già iniziato ad essere strutturata, con precisi “Framework” di riferimento, su come formulare le richieste, come comporre i prompt. Le modalità possono variare da semplici frasi in linguaggio naturale, come le domande che tutti noi abbiamo fatto a Chat-GPT in questi mesi, a dei modelli schematici precisi, per organizzare le richieste in un modo, per così dire, “scientifico”.
Ad esempio, utilizzando Midjourney o Copilot, applicazioni AI di elaborazione di immagini, possiamo dire semplicemente:
“Dammi una immagine di un cavaliere crociato di fronte ad un drago in una foresta”.
E l’immagine che otteniamo è la seguente (da Copilot di Microsoft):
Oppure fornire come input una immagine di partenza da elaborare, a Midjourney, come la seguente:
accompagnandola con precise istruzioni su cosa vogliamo che produca, con tanto di istruzioni tecniche, di parole chiave e anche di descrizioni in linguaggio naturale, con indicazioni molto precise su cosa si vuole ottenere:
“donna bionda, volto serio illuminato dal sole che filtra dall’alto, sguardo profondo, alta definizione, 8K, sfondo scuro –ar 4:3 –q 5″.
Il risultato può essere il seguente:
Sono esempi semplici, basati su chat e immagini, ma per poter utilizzare le applicazioni di AI in modo professionale è indispensabile utilizzare i Framework che dicevamo prima, perchè il risultato che vogliamo ottenere serve per il nostro lavoro, di sviluppatori software, o di medici, o di giuristi.
Si sono così sviluppati due modelli di Framework, uno relativo a richieste abbastanza semplici, denominato Modello RTF, l’altro invece denominato Modello CREATE, che serve per richieste o obiettivi molto complessi, e richiede quindi una molteplicità di indicazioni precise su tutti gli aspetti del lavoro da fare.
Il Modello RTF è l’acronimo di Role (l’obiettivo dettagliato che vogliamo ottenere e il ruolo di chi lo richiede), Task (descrizione dettagliata del lavoro da fare), e Format (il formato con cui presentarci il risultato del lavoro.
Ad esempio posso formulare la seguente rischiesta a Chat-GPT:
“Sono un programmatore Python e ho bisogno di un programma che calcoli il valore minimo tra due numeri interi da acquisire in input. Il risultato dev’essere il codice Python eseguibile.”
La richiesta è precisa e descrive esattamente il risultato che voglio ottenere. Infatti, Chat-GPT mi fornisce la risposta adeguata:
“inizio”
Certo! Ecco un semplice programma in Python che calcola il valore minimo tra due numeri interi inseriti dall’utente:
——————————————————————————————————-
# Funzione per trovare il minimo tra due numeri
def trova_minimo(num1, num2):
if num1 < num2:
return num1
else:
return num2
# Acquisizione input dall'utente
numero1 = int(input("Inserisci il primo numero intero: "))
numero2 = int(input("Inserisci il secondo numero intero: "))
# Calcolo del minimo
minimo = trova_minimo(numero1, numero2)
# Stampa del risultato
print(f"Il valore minimo tra {numero1} e {numero2} è: {minimo}")
----------------------------------------------------------------------------
Puoi copiare e incollare questo codice in un file Python (.py) ed eseguirlo. Il programma richiederà all’utente di inserire due numeri interi e poi stamperà il valore minimo tra di essi.
“fine”
Il Modello CREATE invece, è l’acronimo di Character (il ruolo che assumiamo nel creare il risultato), Request (l’esposizione dettagliata della richiesta che facciamo), Examples (esempi precisi del risultato che vogliamo ottenere), Adjustment (i vincoli di cui tener conto nel creare il risultato), Type of output (descrizione precisa del tipo di risultato che vogliamo), ed Evaluation (indicazioine di precisi indicatori con cui misurare la qualità del risultato ottenuto). Richiederebbe molto tempo darvi un esempio preciso, ma questo è il lavoro da fare.
Come si vede, per poter ottenere risultati di qualità occorre lavorare molto sulle indicazioni da fornire, ci penserà poi l’AI ad utilizzare tali indicazioni per creare la risposta più adeguata, avendo anche ottenuto da noi opportuni parametri per valutare il risultato, prima di fornirlo.
Questa del Prompt Engineer è quindi una figura molto importante, per le aziende, gli enti e gli studi professionali. Altre professioni riguardano poi l’abilità di creare le AI con gli algoritmi e le strategie di ricerca più adeguate agli scopi che vogliamo ottenere, o anche i controlli di qualità da inserire nelle fasi di addestramento delle AI, e così via. Sono queste professioni necessarie alle aziende che producono i sistemi di AI. Insomma, sono tanti, e molto diversificati, i nuovi “mestieri” che stanno nascendo. Ed altri ne nasceranno, perchè l’AI sta dando un’accelerata straordinaria a tutta la nostra civiltà, alla tecnologia e all’industria.
Abbiamo già parlato, in altri articoli su questo Magazine, anche dei rischi connessi all’utilizzo delle applicazioni di AI, in particolare nelle infrastrutture critiche e per gli utilizzi militari, e non a caso è appena entrato in vigore l’AI-Act dell’Unione Europea, e anche altri paesi, come gli USA, si sono dotati di analoghi strumenti di controllo. Ma la strada è aperta per un utilizzo sempre più esteso di queste applicazioni e gestirne i rischi è compito dei governi e degli enti regolatori, e le opportunità di crescita che stiamo creando sono davvero enormi.
Utilizziamo i cookie per essere sicuri che tu possa avere la migliore esperienza sul nostro sito. Non sono installati cookies di profilazione ma solo quelli tecnici di Google Analytics e i bottoni per i social networks. Se continui ad utilizzare questo sito noi assumiamo che tu ne sia felice.