인공지능(AI) 기반 로봇 파지 모델 ‘GraspSAM’을 개발한 광주과학기술원(GIST) 연구진. 이규빈 AI융합학과 교수, 노상준 박사과정생, 김종원·강래영·남동우 석박사통합과정(박사과정), 백승혁 한국기계연구원 선임연구원. 광주과학기술원(GIST) 제공
국내 연구진이 다양한 형태의 프롬프트(명령어) 입력 지원으로 작업자의 의도에 따라 복잡한 환경에서 학습하지 않은 물체도 정확하게 파지하는 기술을 개발했다. 작업자 시선을 추적해 파지하는 기능까지 갖췄다. 가정용 로봇 등 다양한 분야에 활용될 것으로 기대된다.
광주과학기술원(GIST)은 이규빈 AI융합학과 교수 연구팀이 작업자와의 협업을 고려한 로봇 파지 모델 ‘GraspSAM’을 개발했다고 29일 밝혔다.
산업 현장에서 로봇이 물체를 정확하고 안정적으로 잡기 위해서는 정교한 파지 기술이 필수적이다. 기존 파지 기술은 물체의 종류나 환경 변화에 따라 새로운 모델 학습이 필요하며 제한된 데이터세트에 의존하는 한계가 있다.
이번에 개발된 인공지능(AI) 기반 로봇 파지 모델 GraspSAM은 점, 박스, 텍스트 등 다양한 형태의 프롬프트 입력을 지원한다. 한 번의 추론만으로 물체의 파지점을 정확히 예측할 수 있도록 설계됐다. 학습되지 않은 물체라도 복잡한 환경에서 안정적으로 파지할 수 있는 능력을 갖췄다.
연구팀은 페이스북 모회사 메타가 개발한 범용 이미지 분할 모델인 ‘SAM(Segment Anything Model)’을 최초로 로봇 파지 출력에 도입했다. GraspSAM은 SAM의 강력한 객체 분할 능력을 활용해 최소한의 미세 조정만으로 물체의 파지점을 예측한다.
연구팀은 SAM을 파지점 추론에 최적화할 수 있게 ‘어댑터(Adapter) 기법’과 ‘학습 가능한 토큰(Learnable Tokens) 기법’을 적용했다. 어댑터 기법과 학습 가능한 토큰 기법은 최대한 적은 자원으로 성능을 높이는 대형 모델 조정 방법이다.
이렇게 개발된 GraspSAM은 프롬프트 기반 입력을 지원하며 사용자가 제공하는 간단한 점, 박스, 텍스트 입력을 통해 다양한 환경·물체·상황에 즉각적으로 적응할 수 있도록 설계됐다.
GraspSAM을 적용한 로봇은 보다 다양한 물체를 손쉽게 잡을 수 있다. 단 한 번의 연산만으로 파지점을 예측해 산업 현장에서의 적용 범위를 획기적으로 확장했다.
우수한 성능도 입증됐다. 파지 벤치마크 데이터세트인 ‘Grasp-anything’과 ‘Jacquard’에서 최고 수준(SOTA)*의 성능을 달성했다. 실험 결과 복잡한 실제 환경에서도 로봇이 안정적으로 파지 작업을 수행할 수 있다는 것이 확인됐다. 특히 눈동자 추적 기술과 결합해 작업자의 시선에 맞춰 파지 작업을 수행하는 기능까지 성공적으로 구현했다.
연구를 이끈 이규빈 교수는 “GraspSAM 모델은 로봇과 사용자의 직관적인 상호작용을 가능하게 한다”며 “복잡한 환경에서도 탁월한 파지 능력을 발휘해 산업 현장뿐만 아니라 가정용 로봇, 서비스 로봇 등 다양한 분야에 폭넓게 활용될 것으로 기대한다”고 밝혔다. 연구 결과는 5월 국제로봇 자동화 학술대회(IEEE ICRA)에서 발표될 예정이다. 자세한 관련 정보는 GraspSAM 공식 웹사이트에서 확인할 수 있다.
<참고 자료>
- doi.org/10.48550/arXiv.2409.12521
[박정연 기자 hesse@donga.com]
Copyright © 동아사이언스. 무단전재 및 재배포 금지.
매주 일요일 밤 0시에 랭킹을 초기화합니다.