Le nuove frontiere dell’intelligenza artificiale che inganna
Dai deepfake audio alle immagini create artificialmente, passando dal chiacchierato ChatGpt. Gli esseri umani cederanno il posto ai software?
Pubblicato il 16 marzo 2023 da Valentina Bernocco

Deepfake audio sempre più sofisticati, video manipolati con “sguardi artificiali”, testi scritti da programmi chatbot, immagini e addirittura segmenti di brani musicali creati all’instante, in base a semplici comandi. Sono alcune delle ultime frontiere dell’intelligenza artificiale che cerca di imitare o alterare la realtà, e sempre meglio ci riesce. Tecnologie non del tutto nuove, a dire il vero, ma che hanno ormai raggiunto livelli di sofisticazione ammirevoli e allo stesso tempo inquietanti.
Distinguere realtà e artificio è sempre più difficile e i deepfake ne sono l’esempio più noto, da anni sfruttato per fini di disinformazione, clickbaiting, propaganda e diffamazione. Una recente evoluzione nella “imitazione” delle voci è Vall-E, un software per la sintesi vocale e il text-to-speech sviluppato da Microsoft e allenato su una libreria audio di oltre settemila voci. Tecnicamente si tratta di un modello di Neural Codec Language, gratuito e open source, che Microsoft ha reso disponibile tramite GitHub. Programmi simili sono in circolazione da anni, ma la particolarità di Vall-E è quella di saper imitare accuratamente le voci con un training-lampo: basta un campione audio di appena tre secondi per poter riprodurre il timbro e l’inflessione della persona che sta parlando. Addirittura, è possibile conservare l’ambiente sonoro di sottofondo.
A differenza di altri software di sintesi vocale, Vall-E genera dei codec audio discreti a partire dai fonemi e dall’acustica del contenuto di partenza. La tecnologia si presta a essere usata in varie applicazioni di sintesi vocale, come la trasformazione di testi in parlato “zero-shot” (una modalità di apprendimento automatico in cui il programma sa comprendere all’istante elementi nuovi, non inclusi nel training), l’editing di tracce audio e la creazione di contenuti.
Dall’audio alle immagini video
Non di parlato ma di cantato si occupa MusicLm, un programma di AI generativa text-to-audio, sviluppato da ricercatori di Google. Il software, che può creare segmenti di brani musicali a partire da una descrizione testuale, dove si indichino per esempio gli strumenti da riprodurre, il timbro vocale, lo stile, elementi ritmici e via dicendo. Programmi simili già esistevano, ma a detta dei ricercatori di Google il loro software è superiore sia nella qualità dell’audio creato (a 24 kHz) sia nell’aderenza alla descrizione testuale. I risultati? I musicisti potrebbero inorridire, ma queste invenzioni estemporanee non sono peggio di tanta produzione commerciale in circolazione oggi.
Altro caso intelligenza generativa “musicale” è SingSong, un programma che crea accompagnamenti musicali per tracce vocali registrate, aggiungendo una traccia ritmica e un po’ di armonizzazione. Tecnologie come MusicLm, SingSong e il già citato Vall-E, quando perfezionate, saranno una risorsa per chi lavora nella creazione di contenuti, nel marketing, nello spettacolo, nell’organizzazione di eventi e in qualsiasi altro ambito sia utile (o economico) superare i vincoli di copyright.
Chi, invece, di proprietà intellettuale vive potrà contare sul fatto che l’intelligenza artificiale crea, sì, ma non ha una vera creatività. Un esempio di manipolazione delle immagini è invece Nvidia Broadcast, software open source per la trasmissione di video in streaming. Il programma usa l’AI per migliorare i contenuti trasmessi in diretta su piattaforme social, siti Web o sistemi di videoconferenza, con funzioni di riduzione del rumore dell’audio e del video, aggiunta di sfondi virtuali, inquadratura automatica. Nella versione 1.4 è comparsa una nuova capacità, attualmente ancora in beta: si può alterare la direzione dello sguardo della persona inquadrata per farlo apparire puntato verso la telecamera o webcam. In sostanza, il contatto visivo viene creato artificialmente. Ancora non perfetta ma già molto realistica, la funzione Eye Contact conserva le condizioni di luce originarie, il colore dell’iride (scegliendo tra i milioni di varianti in catalogo) e anche i battiti di ciglia della persona.
Nvidia ha spiegato che questa novità “è ideale per i content creator che vogliono registrarsi mentre leggono appunti o uno scritto, o che non vogliono dover guardare direttamente in camera. I presentatori di una conferenza video guarderanno negli occhi la persona con cui stanno parlando, migliorando il coinvolgimento con la propria audience”. Se da un lato questa capacità di intelligenza artificiale crea stupore, dall’altro lascia la sensazione sgradevole di non poter più distinguere tra vero e falso, specie considerando quanto il contatto visivo è importante ai fini della comunicazione, delle relazioni e dell’empatia, ovunque e da sempre.
L’AI scrittrice che preoccupa
Negli ultimi tempi la tecnologia di intelligenza artificiale più chiacchierata (è il caso di dirlo) è stata ChatGpt, programma conversazionale basato sulla tecnologia open-source di OpenAI, società di San Francisco che ha tra i suoi principali finanziatori niente meno che Microsoft. L’azienda dichiara di lavorare affinché “l'intelligenza artificiale generale porti vantaggi a tutta l'umanità", ma il suo codice software, messo a disposizione degli sviluppatori tramite GitHub, è già stato usato per fini ben meno nobili, da criminali informatici per attività di phishing così come da studenti svogliati che hanno chiesto aiuto all’AI per scrivere relazioni scolastiche al loro posto. Anche l’autorevole testata Cnet sta sperimentando l’uso di programmi di AI generativa per la scrittura di articoli, dichiaratamente per sgravare lo staff dei giornalisti dal lavoro a basso valore aggiunto e per verificare da vicino se davvero l’AI possa essere una risorsa valida per l’editoria online. In realtà i primi responsi non sono stati positivi, tra accuse di plagio e di scarsa trasparenza, e Cnet ha interrotto l’esperimento. Verosimilmente, tuttavia, applicazioni come ChatGpt miglioreranno sempre di più, mettendo in crisi le nostre (umane) capacità di giudizio.
Bisognerà forse combattere gli inganni della tecnologia con altra tecnologia, come proposto da uno studio della Cornell University, che descrive il possibile utilizzo di watermark all’interno di testi scritti dall’AI. O meglio, propone un framework per l’impiego di watermark, cioè di “filigrane elettroniche”, segni non visibili all’occhio umano che possono essere integrati all’interno dei testi senza impatti sulla qualità del linguaggio. Si tratta certamente di utili risorse, che però forse non rappresentano una vera risposta al problema. Si prefigura un futuro in cui software “ingannevoli” si scontreranno con software di debunking. Si è sempre detto, tessendo le lodi dell’innovazione, che Internet e più in generale il digitale hanno democratizzato l’accesso alle informazioni e ai contenuti. Ora però c’è in gioco un altro valore, quello della verità, che in un futuro non lontano potrebbe dipendere sempre meno dagli esseri umani.
INTELLIGENZA ARTIFICIALE