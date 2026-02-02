Din perspectiva științei, ChatGPT este deja depășit. Și nu doar ChatGPT, ci toate aplicațiile de tip Large Language Model (LLM) care funcționează ca prezicătoare de cuvinte și cărora le încredințăm tot mai mult din viețile noastre înfricoșate. Motivul e următorul: doar prin asimilare și producere de text, aceste modele nu au cum să se apropie de obiectivul suprem al cercetării din domeniul A.I. - construirea unei minți digitale.

Chiar dacă presupunem că LLM-urile înțeleg ceea ce prelucrează - așa cum susține, de pildă, "nașul A.I.", Geoffrey Hinton (al cărui argument este că a înțelege înseamnă consolidarea conexiunilor dintr-o rețea neuronală) -, această performanță cognitivă, oricât ar fi de uimitoare, nu este îndeajuns pentru ca un model A.I. să interpreteze cât de cât corect realitatea fizică, darămite să se și orienteze în mediul înconjurător.

LLM-urile știu o sumedenie de informații și sunt entități capabile să creeze texte cu sens, dar, dacă ar fi "aruncate" în lume, dacă ar fi instalate, să zicem, în sistemul de operare al unui robot, nu s-ar putea descurca nici la nivelul unui copil care abia deprinde mersul biped. (Textul e discontinuu, în timp ce perceperea omenească a lumii e continuă, deci e mult mai ușor să prezici următorul cuvânt dintr-o frază decât ceea ce ți se va întâmpla în viață.)

O parte a comunității de cercetători a priceput această limitare și a luat-o în altă direcție. În loc să tot perfecționeze LLM-uri, acești oameni au decis să dezvolte modele care imită percepția omenească, adică întreaga noastră situare în spațiu, bazată mai ales pe simțul văzului. Această categorie de modele a fost denumită "World Models", expresie pe care aș traduce-o astfel: modele lumești. Ceea ce sunt antrenate să învețe aceste WM-uri este priza la realitate.

Să rezumăm, pentru exemplificare, cum funcționează modelele denumite JEPA (Joint Embedding Predictive Architecture). Un asemenea model primește ca input, de pildă, o parte dintr-o imagine și i se cere să prezică (intuiască?) felul în care arată cealaltă parte din acea imagine. De exemplu, i se arată o zonă dintr-o sală cu oameni așezați pe scaune și i se cere să-și "imagineze" restul sălii.

Ceea ce face modelul JEPA este să construiască predicții sub formă de reprezentări interne (embeddings), pe care și le adaptează ulterior, după ce i se arată și secțiunea mascată (ceea ce nu "văzuse"). Deci, inteligența artificială învață să prezică esențialul din ceea ce "percepe", să caute înțelesul în lucruri, să diferențieze semnalele relevante de "zgomotul de fond". Exact ca un om. Fiindcă orice om prezice inconștient ceea ce urmează să perceapă și adaptează continuu aceste predicții în funcție de ceea ce trăiește cu adevărat.

(E ceea ce a intuit Husserl în urmă cu mai bine de 100 de ani, când propunea conceptul de protenție pentru conștiința momentului imediat următor, pentru anticiparea clipei de după această clipă.)

Mihnea Măruță

(text din revista Apostrof)