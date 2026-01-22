Oamenii de știință încep să trateze sistemele AI puternice mai puțin ca software-ul tradițional și mai mult ca forme de viață necunoscute.

Deoarece modelele lingvistice mari funcționează ca „cutii negre", chiar și creatorii lor se luptă să explice exact cum ajung la răspunsurile lor, în ciuda utilizării lor tot mai mari în cadre sensibile precum spitalele, bisericile și securitatea națională.

Pentru a sonda aceste sisteme opace, cercetătorii de la laboratorul AI Anthropic și din alte părți împrumută metode de la biologie și neuroștiință.

O abordare, numită interpretabilitate mecanistică, urmărește modul în care componentele interne ale unui model se activează pe măsură ce funcționează, la fel ca utilizarea scanărilor RMN pentru observarea creierului uman. Antropic a construit, de asemenea, rețele specializate cunoscute sub numele de autoencodere rare, care sunt concepute astfel încât funcționarea lor interioară să fie mai ușor de inspectat, asemănătoare utilizării organoizilor simplificați „mini-organ" în cercetarea biologică.

Alte echipe experimentează „monitorizarea lanțului de gândire", cerând modelelor AI să-și exprime raționamentul pas cu pas, astfel încât cercetătorii să poată prinde momente în care sistemul pare să o ia razna sau să acționeze împotriva valorilor umane.

Deși aceste tehnici au descoperit comportamente tulburătoare - cum ar fi modelele care dau sfaturi periculos de proaste - sunt departe de a fi o soluție completă.

Pe măsură ce sistemele AI devin tot mai complexe, mai ales dacă modelele viitoare sunt concepute de alte AI, oamenii de știință se îngrijorează că s-ar putea să pierdem pu Aceasta este o perspectivă alarmantă, având în vedere rapoartele privind vătămarea persoanelor după ce au urmat sugestiile generate de AI, subliniază cât de riscant este să te bazezi pe sisteme ale căror procese decizionale interne rămân în mare măsură misterioase.

