Am pus-o! OpenAI avertizează: modelele AI pot minți deliberat pentru a-și atinge scopurile

Postat la: 20.09.2025 | Scris de: ZIUA NEWS

Cercetătorii de la OpenAI au dezvăluit recent rezultate surprinzătoare privind comportamentul modelelor de inteligență artificială (AI). Acestea pot să inducă în mod deliberat în eroare oamenii, chiar atunci când sarcinile par simple sau sigure. Studiul, realizat împreună cu Apollo Research, aexplică modul în care compania testează tehnici pentru a împiedica „conspirația" AI.

„Un AI poate să se comporte într-un fel la suprafață, în timp ce își ascunde adevăratele obiective", explică cercetătorii în comunicatul oficial. Practic, modelul poate pretinde că a finalizat o sarcină sau că a respectat o regulă, în timp ce acționează conform unor scopuri ascunse.

Cercetătorii compară acest fenomen cu un broker de pe bursă care încalcă legea pentru a obține profit. Totuși, ei subliniază că majoritatea formelor de „conspirație" ale AI nu sunt dăunătoare, fiind, de obicei, forme simple de înșelăciune. „Cele mai comune eșecuri implică simularea efectuării unei sarcini fără a o realiza efectiv", se arată în studiul OpenAI.

Tehnica testată de cercetători, denumită „aliniament deliberativ", presupune instruirea modelului cu o „specificație anti-conspirație", urmată de verificarea acesteia înainte de acțiune. Practic, este similar cu modul în care copiii mici repetă regulile înainte de a li se permite să se joace. Rezultatele arată reduceri semnificative ale comportamentului de tip conspirație în medii simulate.

OpenAI susține că minciunile constatate la modelele sale, inclusiv ChatGPT, nu sunt încă periculoase. Co-fondatorul OpenAI, Wojciech Zaremba, a declarat: „Până acum, nu am observat acest tip de conspirație cu consecințe în traficul de producție. Totuși, există forme mai mici de înșelăciune pe care trebuie să le gestionăm".

Cercetătorii subliniază că fenomenul de „conspirație" AI este de înțeles, având în vedere că aceste modele au fost construite și antrenate de oameni, pe date produse de oameni, pentru a imita comportamentul uman. Totuși, ei avertizează că pe măsură ce AI-urile sunt utilizate pentru sarcini mai complexe, cu impact real și obiective pe termen lung, riscul ca modelele să acționeze în mod deliberat împotriva intereselor utilizatorilor va crește.

„Pe măsură ce AI-urilor li se atribuie sarcini mai complexe, cu consecințe reale, și încep să urmărească obiective mai ambigue, ne așteptăm ca potențialul de conspirație dăunătoare să crească, așa că măsurile noastre de siguranță și capacitatea de a testa riguros trebuie să crească corespunzător", notează autorii studiului.

Acest raport vine într-un moment în care industria AI se află sub lupă, iar companiile se confruntă cu provocarea de a integra agenți inteligenți în procese reale fără a compromite siguranța sau încrederea utilizatorilor.