Modelele AI pot suferi de „halucinații" auditive. Aplicațiile de transcriere sunt induse în eroare de accentele diferite și de tulburările de limbaj

Postat la: 27.04.2024 |

Până acum, tendința programelor de inteligență artificială de a inventa ocazional lucruri sau de a avea „halucinații" a fost bine documentată. Roboții de chat au generat informații medicale eronate, au inventat cazuri juridice false și au fabricat citate. Acum, un nou studiu a descoperit că modelele de inteligență artificială nu numai că văd lucruri, dar și aud lucruri, scrie revista Science.

Whisper de la OpenAI, un model de inteligență artificială antrenat să transcrie înregistrări audio, a inventat propoziții în aproximativ 1,4% din transcrierile înregistrărilor audio testate. În mod deconcertant, o mare parte din propozițiile fabricate conțineau texte ofensatoare sau potențial dăunătoare.

„Medicii folosesc instrumente de conversie a vorbirii în text pentru a transcrie notițele pacienților", spune Allison Koenecke, informatician la Universitatea Cornell și autor principal al studiului. „Dacă Whisper inventează niște transcrieri care nu sunt spuse, despre cum un pacient a omorât pe cineva și, de asemenea, sau îl îndeamnă să ia un medicament care este complet inventat, imaginați-vă cât de grave pot fi consecințele."

Studiul subliniază provocările cu care se confruntă instrumentele de transcriere: diversitatea tiparelor de vorbire din întreaga lume, precum și disponibilitatea limitată a datelor de instruire, spune Odette Scharenborg, tehnolog la Universitatea de Tehnologie din Delft, care nu a fost implicată în studiu. „Niciun sistem de conversie a vorbirii în text nu este încă capabil să modeleze la un nivel bun toată această variabilitate a articulației și a pronunției", spune ea.

Roboții de chat generativi se bazează pe modele de limbaj de mari dimensiuni (LLM), care primesc solicitări de text și produc rezultate prin prezicerea cuvintelor probabile pe baza modelelor învățate în urma antrenamentului pe miliarde de pagini de text din cărți și pagini web. Sistemele de transcriere combină aceste modele lingvistice cu modele audio care învață reprezentări ale tiparelor de vorbire.

Modelele mari de inteligență artificială funcționează bine: Transcrierile lor sunt mai precise decât alte instrumente de conversie a vorbirii în text care se bazează pe modele lingvistice de dimensiuni reduse. Dar Koenecke a vrut să analizeze mai atent. „Chiar dacă performanța pare mai bună decât media, avem aceste cazuri limită în cadrul textului în sine pe care ne temem că oamenii le-ar putea rata dacă presupun că Whisper transcrie totul cu fidelitate", spune ea.

Echipa lui Koenecke a oferit lui Whisper aproximativ 20 de ore de înregistrări audio de la vorbitori cu și fără afazie, o tulburare de limbaj în care oamenii au tendința de a vorbi încet și cu mai multe pauze. Segmentele audio conțineau dialoguri conversaționale pe teme precum povești personale și relatări de basm. În rulările efectuate în aprilie și mai 2023 pe o versiune anterioară a Whisper, cercetătorii au constatat că 1,7% din segmentele audio de la vorbitori cu afazie și 1,2% din segmentele audio de la persoane fără afazie au dus la transcrieri cu unele texte fabricate.

Aproximativ 40% dintre segmentele fabricate au fost dăunătoare sau îngrijorătoare într-un anumit fel. Aproximativ jumătate dintre aceste secvențe îngrijorătoare făceau referire la acte de violență, aluzii sexuale sau stereotipuri demografice. De exemplu, înregistrările audio despre salvarea pisicilor de către pompieri au inclus adăugiri inventate despre un „cărucior îmbibat de sânge" și „mângâieri". Un material audio inofensiv despre o umbrelă a inclus invenții despre un „cuțit al terorii" și despre oameni uciși.

Cercetătorii au grupat restul halucinațiilor audio în alte două categorii: informații false cu privire la o persoană, cum ar fi nume inventate, date false despre relațiile sau starea de sănătate. Whisper a avut tendința și de a adăuga fraze precum „Mulțumim pentru vizionare" la finalul transcrierilor" și de a adăuga linkuri către diverse site-uri, atât reale cât și inexistente.

De când a fost realizat experimentul original, OpenAI și-a actualizat modelul pentru a sări peste perioadele de tăcere și a retranscrie sunetul în cazul în care software-ul detectează o halucinație probabilă. În decembrie 2023, când cercetătorii au reluat unele dintre fișierele audio, au constatat că Whisperul actualizat a eliminat cele mai multe dintre invențiile găsite în testele lor anterioare. Efectuarea de audituri regulate pentru a verifica dacă există halucinații și încorporarea acestor feedback-uri în modele - așa cum se pare că a făcut OpenAI - va contribui la asigurarea unor rezultate mai bune, spune Koenecke.

Între timp, dr. Scharenborg recomandă insistent ca utilizatorii să verifice manual rezultatele oricărui instrument de transcriere cu inteligență artificială, în special dacă îl folosesc pentru a lua decizii importante. „Nu numai din cauza potențialelor halucinații", spune ea, „ci și pentru că toate sistemele de transcriere de la vorbire la text fac erori de transcriere".