로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
문화산업 30년 CJ ENM 대표작은… 기생충·눈물의여왕·유퀴즈
N
[연예뉴스]
봉준호 신작 ‘미키 17’… “불쌍한 노동자의 발냄새 나는 SF”
N
[연예뉴스]
"얼굴은 용서해 달라"…이유비, 민낯으로 첫 요가 도전
N
[연예뉴스]
고현정, 이정재와 다정했던 30년 전 '모래시계' 소환…"이랬었는데"
N
[연예뉴스]
송혜교, 자연스러운 흡연 연기 이유 있었다…"6개월 전부터 연습" ('검은 수녀들')
N
커뮤니티
더보기
[자유게시판]
다들 퇴근준비하시나요?
N
[자유게시판]
즐퇴합시다~
N
[자유게시판]
집가즈앙
N
[자유게시판]
마렵네요
N
[자유게시판]
오피스콘 도착했네요!!
N
제휴문의 @spostar
목록
글쓰기
[IT뉴스]MS, 멀티모달 AI '플로렌스-2' 출시...음성·비전 통합 처리
온카뱅크관리자
조회:
36
2024-06-21 10:37:11
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">이미지 캡션 생성·객체 감지·이미지 분석 등 복잡한 이미지 처리 한 번에 수행</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="4Azg6r9Hpg"> <p dmcf-pid="8HnyDFNfpo" dmcf-ptype="general">(지디넷코리아=남혁우 기자)마이크로소프트가 객체감지, 이미지 분석 등 다양한 비전 작업을 한 번에 처리할 수 있는 새로운 비전기반 인공지능(AI)모델을 공개했다.</p> <p dmcf-pid="63A5CzwM7L" dmcf-ptype="general">20일(현지시간) 벤처비트 등 외신에 따르면 마이크로소프트의 애저AI 팀이 새로운 비전 기반 모델 ‘플로렌스-2’를 허깅페이스를 통해 출시했다고 밝혔다.</p> <p dmcf-pid="PhPsoWe77n" dmcf-ptype="general">플로렌스-2는 시각과 언어를 융합하는 새로운 방식의 기술이 적용된 AI 모델이다. 이를 통해 이미지 캡션 생성, 객체 감지, 이미지 분석 등 다양한 이미지 관련 작업을 통합 수행할 수 있으며 성능도 향상됐다.</p> <figure class="figure_frm origin_fig" dmcf-pid="QEbjxOf5ui" dmcf-ptype="figure"> <p class="link_figure"><img alt="이미지 속 객체를 모두 분석해 설명하는 플로렌스-2(이미지=마이크로소프트)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/21/ZDNetKorea/20240621103713666mqri.jpg" data-org-width="640" dmcf-mid="VayDJSQ0zN" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/21/ZDNetKorea/20240621103713666mqri.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 이미지 속 객체를 모두 분석해 설명하는 플로렌스-2(이미지=마이크로소프트) </figcaption> </figure> <p dmcf-pid="xQY4pJ5rzJ" dmcf-ptype="general">이 AI모델은 이미지나 사진 속 내용을 설명하는 문장을 그대로 생성할 수 있으며, 이미지 속에서 특정 객체를 찾아내고, 그 위치를 특정할 수 있다.</p> <p dmcf-pid="yQY4pJ5rzd" dmcf-ptype="general">예를 들어, 이미지 속에 자동차와 사람, 나무 등이 있다면 각 객체의 위치를 정확하게 파악하는 것이 가능하다.</p> <p dmcf-pid="WEbjxOf5Ue" dmcf-ptype="general">또한, 이미지와 관련된 질문을 받을 경우 적합한 답변을 제공하는 시각적 질문 응답 (VQA) 기능도 지원한다. 만약 책을 읽고 있는 사람의 사진을 입력한 후 행동을 묻는다면 "책을 읽고 있다"라는 답변을 얻을 수 있다.</p> <p dmcf-pid="YoWf0dZwuR" dmcf-ptype="general">이를 활용해 대량의 이미지 콘텐츠에 자동으로 설명을 추가하거나, 전자상거래 플랫폼에서 제품 이미지를 분석하고, 그 특성을 기반으로 한 자세한 설명을 생성할 수 있다.</p> <p dmcf-pid="GCzg6r9HFM" dmcf-ptype="general">또한 공공 장소에서 의심스러운 행동을 자동으로 감지하는 등 보안 목적으로 활용하거나, 로봇에 적용해 인간과 자연스럽게 상호작용할 수 있도록 행동을 지원할 수도 있다.</p> <p dmcf-pid="HAZQzo3Izx" dmcf-ptype="general">마이크로소프트 측은 플로렌스-2는 복잡한 이미지 관련 작업을 하나의 통합된 시스템 내에서 처리할 수 있도록 설계되어, 이러한 효율적이고 지능적인 이미지 분석이 가능하다고 밝혔다.</p> <p dmcf-pid="XT9cRC8tpQ" dmcf-ptype="general">성능면에서도 상당부분 개선됐다. 제로샷 성능의 경우 이미지 캡션 생성 모델의 성능을 평가하기 위한 지표인 CIDEr에서 135.6점을 기록하며, 84.3점을 기록한 딥마인드의 플라밍고와 비교해 상당한 차이를 벌렸다.</p> <p dmcf-pid="ZNH6untszP" dmcf-ptype="general">파인튜닝 성능 역시 대규모 데이터셋 RefCOCO 기반 벤치마크에서 동일 범주 내 다른 경쟁 모델들을 상회하는 성능을 기록했다.</p> <figure class="figure_frm origin_fig" dmcf-pid="5G4wivxp06" dmcf-ptype="figure"> <p class="link_figure"><img alt="플로렌스-2는 이미지 속 특정 객체의 위치를 정확히 파악할 수 있다(이미지=마이크로소프트)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/21/ZDNetKorea/20240621103715496bddn.jpg" data-org-width="603" dmcf-mid="fJ5xqg0Cua" dmcf-mtype="image" height="auto" src="https://img1.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/21/ZDNetKorea/20240621103715496bddn.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 플로렌스-2는 이미지 속 특정 객체의 위치를 정확히 파악할 수 있다(이미지=마이크로소프트) </figcaption> </figure> <p dmcf-pid="1OuL4DbYz8" dmcf-ptype="general">마이크로소프트 측은 언어와 비전이라는 서로 다른 양식(모달리티)을 융합하는 과정에서 몇 가지 어려움이 있었다고 밝혔다.</p> <p dmcf-pid="tH8rnTMU34" dmcf-ptype="general">두 모달리티 간의 복잡한 상호 작용을 처리하기 위해 기존 다양하고 광범위한 데이터를 보유한 데이터셋이 요구됐다.</p> <p dmcf-pid="Fy2keh6Fzf" dmcf-ptype="general">이에 FLD-5B라는 대규모 데이터셋을 새롭게 구축했다. 이 데이터셋은 5.4억 개의 시각적 주석을 포함하고 있으며, 다양한 시각적 상황과 세부적인 언어적 설명을 결합한 1억2천600만 이미지로 구성되어 있다. 이를 통해 보다 풍부하고 다양한 시나리오에서 비전과 언어의 상호 작용을 학습하는 것이 가능했다.</p> <p dmcf-pid="3VktlBme3V" dmcf-ptype="general">더불어 비전 데이터와 언어 데이터를 통합하는 과정에서 그 관계와 상황을 이해하기 위해 고도의 언어 이해 능력과 시각적 맥락 분석 기술이 필요했다.</p> <p dmcf-pid="0T9cRC8tu2" dmcf-ptype="general">이를 위해 마이크로소프트는 텍스트 프롬프트를 작업 지시로 사용하는 시퀀스-투-시퀀스 아키텍처를 적용했다.</p> <p dmcf-pid="piv9tMGku9" dmcf-ptype="general">이 구조는 이미지 인코더와 다중 모달리티 인코더-디코더를 통해 비전 토큰과 텍스트 토큰을 통합하여 처리한다. 해당 기술을 적용하면서 플로렌스-2는 이미지 내 객체들의 관계를 비롯해 이미지 속 상황에 대한 세밀한 설명을 생성하는 것이 가능해졌다.</p> <p dmcf-pid="UQsuYflouK" dmcf-ptype="general">더불어 마이크로소프트는 대규모 이미지와 텍스트 데이터를 처리하는 과정에서 발생하는 막대한 계산비용을 줄이기 위해 최적화된 학습 전략과 하드웨어 효율화 기술을 적용했다.</p> <p dmcf-pid="uI7o8wKG3b" dmcf-ptype="general">마이크로소프트 연구팀은 “오늘날 AI 기술 발전에 있어 중요한 것은 다양한 모달리티 간의 경계를 허무는 것”이라며 “플로렌스-2는 이미지와 텍스트 간의 상호 작용을 이해하고 이를 기반으로 새로운 정보를 생성하는 능력을 보유하고 있다”고 설명했다.</p> <p dmcf-pid="7DFeKjuS0B" dmcf-ptype="general">이어서 “마이크로소프트는 플로렌스-2를 기반으로 더욱 발전된 모델을 개발해 다양한 AI 응용 분야에 기여할 계획”이라며 “플로렌스-2의 공개는 연구자들과 개발자들에게 새로운 가능성을 제공하며 전 세계적으로 AI 기술의 발전을 지원할 것”이라고 강조했다.</p> <p dmcf-pid="zr0J2czTUq" dmcf-ptype="general">남혁우 기자(firstblood@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
1
블리자드직원
800
2
비가오는날
800
3
올나잇스머프
700
4
논현동똥식이
600
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
N
N
N
N
N
N
채팅하기