로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
임지연→수지, 송혜교 예쁜 친구들 다 모였다..‘검은 수녀들’ 지원사격[Oh!쎈 이슈]
N
[연예뉴스]
'정치인과 친분 과시' 이혁재 "尹, 구속될 일 아냐"
N
[연예뉴스]
‘중증외상센터’ 추영우, 의사 가운 입었다
N
[연예뉴스]
‘슈돌’ 박수홍, 딸 옷 쇼핑하다 카드 한도 초과
N
[연예뉴스]
도경수 "엑소 완전체 가능? 그럼요…걱정 안해도 된다"[인터뷰]③
N
커뮤니티
더보기
[자유게시판]
양치오래했더니
N
[자유게시판]
오늘도 먼지가
N
[자유게시판]
잠시 동안의 휴식!!
N
[자유게시판]
낮에는 포근
N
[자유게시판]
날씨가 오늘은
N
제휴문의 @spostar
목록
글쓰기
[IT뉴스]KAIST, 멀티모달 대형언어모델 '깃허브' 공개…GPT-4V 시각성능 "제꼈다"
온카뱅크관리자
조회:
46
2024-06-20 14:27:03
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">콜라보·모아이, 최대 10% 더 우수…"학위 뒤 창업 고민할 것"</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="8CFapQWA3Q"> <p dmcf-pid="6F4lPczT7P" dmcf-ptype="general">(지디넷코리아=박희범 기자)국내 연구진이 오픈AI의 GPT-4V와 구글 제미나이-프로(Gemini-Pro)의 시각 성능을 능가하는 멀티모달 대형언어모델을 개발, 오픈소스 커뮤니티 깃허브(Github)에 공개했다.</p> <p dmcf-pid="PKi5oh6Fu6" dmcf-ptype="general">최근 주목받는 생성형 AI 트랜드가 멀티모달화로 진화 중이어서 귀추가 주목됐다.</p> <p dmcf-pid="QTukqdZwF8" dmcf-ptype="general">KAIST는 전기및전자공학부 노용만 교수 연구팀이 GPT-4V 등 비공개 상업 모델의 시각 성능을 넘어서는 공개형 멀티모달 대형언어모델을 선보였다고 20일 밝혔다.</p> <p dmcf-pid="xHbm2o3I04" dmcf-ptype="general">연구팀은 멀티모달 대형언어모델 시각 성능을 개선하기 위해 '콜라보(CoLLaVO)'와 '모아이(MoAI)' 2가지 기술을 자체 개발했다.</p> <figure class="figure_frm origin_fig" dmcf-pid="yMEqrZLKzf" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST 노용만 교수, 이병관 박사과정, 박범찬 석박사통합과정, 김채원 박사과정.(왼쪽부터)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/20/ZDNetKorea/20240620142705925nlca.jpg" data-org-width="640" dmcf-mid="2cRZLC8tue" dmcf-mtype="image" height="auto" src="https://img4.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/20/ZDNetKorea/20240620142705925nlca.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST 노용만 교수, 이병관 박사과정, 박범찬 석박사통합과정, 김채원 박사과정.(왼쪽부터) </figcaption> </figure> <p dmcf-pid="Wis2C3j4FV" dmcf-ptype="general">이병관 연구원(박사과정,제1저자)은 "GPT-4V나 제미나이-프로 등과 시각성능 만을 비교하면 점수나 정확도 면에서 최대 10% 더 우수하다"고 말했다.</p> <p dmcf-pid="Y06vxEBW32" dmcf-ptype="general">인지추론성도 함께 따져봐야 하지만, 이는 이번 연구 주제에서 벗어나 나중에 생각할 부분이라는 것이 이 연구원 얘기다. 사실 인지추론성도 개별 검토한 결과 오픈AI나 구글 모델 대비 결코 뒤지진 않는다는 것이 이 연구원의 귀뜸이다.</p> <p dmcf-pid="Gs5LF8vau9" dmcf-ptype="general">연구팀은 ‘콜라보’를 개발하기 전 기존 공개형 멀티모달 대형언어모델 성능이 비공개형에 비해 떨어지는 이유를 1차적으로 물체 수준에 대한 이미지 이해 능력 저하에서 찾았다.</p> <p dmcf-pid="HqeHiOf53K" dmcf-ptype="general">연구팀은 이를 개선하기 위해 이미지 내 정보를 배경과 물체 단위로 분할하고 각 배경 및 물체에 대한 정보를 멀티모달 대형언어모델에 직접 넣어주는 ‘크레용 프롬프트(Crayon Prompt)’라는 시각적 프롬프트를 새로 설계했다.</p> <p dmcf-pid="X1VC8juSpb" dmcf-ptype="general">또 시각적 지시 조정 단계에서 크레용 프롬프트로 학습한 정보를 잃어버리지 않기 위해 물체 수준 이미지 이해 능력과 시각-언어 태스크 처리 능력을 서로 다른 파라미터로 학습시키는 획기적인 학습전략인 ‘듀얼 큐로라(Dual QLoRA)’를 제안했다.</p> <figure class="figure_frm origin_fig" dmcf-pid="Z1VC8juSFB" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST '콜라보'의 멀티모달 대형언어모델 성능을 기존 모델과 비교했다." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/20/ZDNetKorea/20240620142707136gups.jpg" data-org-width="639" dmcf-mid="VTs4SUkP3R" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/20/ZDNetKorea/20240620142707136gups.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST '콜라보'의 멀티모달 대형언어모델 성능을 기존 모델과 비교했다. </figcaption> </figure> <p dmcf-pid="5y7EBJ5rpq" dmcf-ptype="general">이병관 연구원은 "이로 인해 이미지 내에서 배경 및 물체를 1차원적으로 구분하는 능력이 크게 향상됐다"고 덧붙였다.</p> <p dmcf-pid="1zRGJsVZzz" dmcf-ptype="general">대형언어모델인 모아이(MoAI)’도 개발했다. 인간이 사물을 판단하는 인지과학적 요소(물체 존재나 상태, 상호작용, 배경, 텍스트 등)에서 영감을 얻었다는 것이 연구팀 설명이다.</p> <p dmcf-pid="tewbs1g2F7" dmcf-ptype="general">연구팀은 "기존 멀티모달 대형언어모델은 텍스트에 의미적으로 정렬된 시각 인코더(vision encoder)만을 사용하기 때문에, 이미지 픽셀 수준에서의 상세하고 종합적인 실세계 장면에 대한 이해가 모자란다고 판단했다"고 말했다.</p> <p dmcf-pid="FuxWer9HUu" dmcf-ptype="general">연구팀은 △전체적 분할 △한계가 없는 물체 검출기 △상황 그래프 생성 △글자 인식 등 4가지 컴퓨터 비전 모델을 언어로 변환한 뒤 멀티모달 대형언어모델에 입력했다.</p> <p dmcf-pid="32LtaSQ0zU" dmcf-ptype="general">이를 연구팀이 실제 검증한 결과 '콜라보'는 Math Vista(대학수준 수학 및 물리문제)나 MM-벤치(영어 객관식 문제), MMB-CN(중국어 객관식 문제), AI2D(어학문제) 등의 풀이에서 기존 모델 대비 최대 10%까지 점수와 정확도가 우수했다.</p> <p dmcf-pid="08NpcWe70p" dmcf-ptype="general">또 '모아이'는 기존 공개형 및 비공개형 LLVMs(멀티모달 대형언어)와 비교한 결과 각 질문에 따라 점수가 20포인트 이상 우수하게 답변한 경우도 나타났다.</p> <figure class="figure_frm origin_fig" dmcf-pid="pLIflpc6p0" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST '모아이' 멀티모달 대형언어모델 성능비교. 공개형 및" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/20/ZDNetKorea/20240620142708560hzyv.jpg" data-org-width="638" dmcf-mid="fgydZ2CnUM" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/20/ZDNetKorea/20240620142708560hzyv.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST '모아이' 멀티모달 대형언어모델 성능비교. 공개형 및 </figcaption> </figure> <p dmcf-pid="Uewbs1g2z3" dmcf-ptype="general">이병관 연구원은 "3개월전 깃허브에 올려놓은 '콜라보'(https://github.com/ByungKwanLee/CoLLaVO)와 '모아이'(https://github.com/ByungKwanLee/MoAI)에 관심을 가져달라"며 "박사학위가 마무리되면 멀티모달 대형언어를 아이템으로 창업할 생각도 있다"고 말했다.</p> <p dmcf-pid="uKi5oh6FUF" dmcf-ptype="general">박사과정 5년차인 이 연구원은 또 "개인적으로 향후 기회가 닿는다면, 핸드폰에 들어가는 사이즈로 현재 성능을 유지하는 멀티모달 대형언어모델을 만들어 볼 것"이라고 덧붙였다.</p> <p dmcf-pid="7SpA7RHE0t" dmcf-ptype="general">노용만 교수는 “연구팀에서 개발한 공개형 멀티모달 대형언어모델이 허깅페이스 일간 화제의 논문(Huggingface Daily Papers)에 추천됐다"며 "SNS 등을 통해 전세계에 점차 알려지는 등 관련분야 발전에 기여할 것"으로 기대했다.</p> <p dmcf-pid="zGBr9LFOu1" dmcf-ptype="general">연구에는 논문 제1저자 이병관 박사과정 연구원 외에도 박범찬 석박사통합과정, 김채원 박사과정이 공동 저자로 참여했다.</p> <p dmcf-pid="qis2C3j4p5" dmcf-ptype="general">연구결과는 '콜라보'의 경우 자연어 처리(NLP) 분야 국제 학회 'ACL Findings 2024’(5월16일자)에 게재됐다. '모아이(MoAI)'는 컴퓨터 비전 국제 학회인 ‘ECCV 2024’에 논문을 제출하고 결과를 기다리고 있다.</p> <p dmcf-pid="BoC4SUkPzZ" dmcf-ptype="general">한편 이 연구는 KAIST 미래국방 인공지능 특화연구센터 및 전기및전자공학부 지원을 받아 수행했다.</p> <figure class="figure_frm origin_fig" dmcf-pid="bSpA7RHE0X" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST '콜라보' 데모 영상 장면. (사진=KAIST)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/20/ZDNetKorea/20240620142709858tcmb.jpg" data-org-width="638" dmcf-mid="4ktg0Pyj3x" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/20/ZDNetKorea/20240620142709858tcmb.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST '콜라보' 데모 영상 장면. (사진=KAIST) </figcaption> </figure> <p dmcf-pid="KHbm2o3IUH" dmcf-ptype="general">박희범 기자(hbpark@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
1
블리자드직원
1200
2
소셜워커
1100
3
올나잇스머프
1100
4
정배만거는데왜
1100
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
N
N
N
N
N
N
채팅하기