'V-JEPA 2' 발표…LLM 아닌 '디지털 트윈' 방식
관찰하지 않아도 스스로 규칙 추론해 시뮬레이션
코드 공개로 로봇·자율주행차 기술 개발·활용 기대
[이데일리 김범준 기자] 페이스북 모회사 메타플랫폼(이하 메타)가 3D 환경과 물리적 객체의 움직임을 더 잘 이해할 수 있는 새로운 인공지능(AI) ‘월드 모델’을 출시한다.
(사진=메타)
메타는 지난 11일(현지 시각) 프랑스 파리에서 열린 ‘비바 테크(VivaTech)’ 콘퍼런스에 새 월드 모델 ‘브이제파2(V-JEPA 2)’를 공개했다. 앞서 2022년 발표한 예측 모델 제파를 기반으로 한 모델로 12억개의 매개변수로 구성했다.
브이제파2는 로봇과 AI 에이전트가 물리적 세계의 규칙을 추론하고 스스로 시뮬레이션할 수 있도록 만든 시스템이다. 거대 언어 모델(LLM)이 아닌 자체 월드 모델이 물리적 세계를 이해하고 예측하고 계획할 수 있다.
LLM은 방대한 텍스트 데이터를 기반으로 다음에 올 단어나 문장을 예측하지만, 월드 모델은 AI가 세상의 구조와 규칙을 내면화해 실제 관찰하지 않은 상황도 시뮬레이션을 통해 예측할 수 있도록 설계된다.
얀 르쿤 메타 수석 AI 과학자는 “기계가 물리적 세계를 이해하게 하는 것은 언어를 이해하게 하는 것과는 매우 다르다”며 “월드 모델은 AI가 세상을 이해하고 자신의 행동 결과를 예측하기 위한 현실의 추상적인 ‘디지털 트윈’으로, AI가 주어진 목표를 달성하기 위한 행동 계획을 세울 수 있다”고 설명했다.
메타에 따르면 브이제파2가 물리적 세계의 논리를 토대로 AI가 실제 행동을 하기 전에 미리 시뮬레이션을 구축, AI가 더 인간과 유사한 방식으로 학습하고 계획하고 결정을 내릴 수 있게 도움을 줄 수 있다.
예를 들어 공이 테이블에서 굴러떨어지면 낙하한다는 것을 이해하거나, 시야에서 물체가 사라지더라도 잠깐 어딘가에 가려졌을 뿐 완전히 없어진 게 아니라는 물리적 세계의 원리를 AI가 이해하도록 돕는다는 것이다.
메타가 공개한 새 월드 모델 ‘브이제파2(V-JEPA 2)’ 모식도.(자료=메타)
메타는 브이제파2를 로봇 실험실에 적용해 로봇이 물체를 집고 옮기는 등의 물리 작업을 성공적으로 수행했다고 밝혔다. 특히 특정 물체를 옮기기 등 단기 목표를 수행할 때 목표 이미지를 주고, 다양한 후보 행동에 대한 결과를 예측한 뒤 최적의 경로를 선택해 실시간으로 재계획하며 움직인다.
새로운 환경에서 물체를 적절한 위치에 놓기와 같은 장기 작업의 경우, 중간 목표를 이미지 시퀀스로 설정해 시각적 모방 학습 방식으로 수행하며 65~80%의 성공률을 기록했다.
메타는 브이제파2의 코드와 모델 체크포인트를 각각 깃허브와 허깅페이스에 연구 및 상업용으로 공개했다. 메타는 이 모델이 물리적 환경을 실시간으로 이해하고 움직이는 배달 로봇이나 자율주행 차량 등의 기술 개발에 큰 이점을 제공할 수 있을 것으로 보고 있다.
르쿤 수석은 “월드 모델은 자율주행차와 로봇 등 현실 세계에서 작동하는 AI에 필수”라며 “앞으로는 거대한 데이터 없이도 AI가 물리적 세계에서 유연하게 사고하고 행동할 수 있는 새로운 로봇 시대가 열릴 것”이라고 말했다.
김범준 (yolo@edaily.co.kr)
Copyright © 이데일리. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.