로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
[단독]'SNL 코리아6' CP, '정년이' 논란 사과.."민감한 점 신경쓰지 못해 부족했다"[직격인터뷰]
N
[연예뉴스]
김남길, 5년 만에 돌아온 '열혈사제2'... "시즌1과 다른 빌런들 등장, 기대해도 좋아"
N
[실시간뉴스]
배우 신애, 선글라스 쓰고 방긋..."서프라이즈 성공"
N
[실시간뉴스]
백종원 "오너 리스크요? 제가 사고 칠 일은 없습니다" [현장+]
N
[실시간뉴스]
K배터리 내년까지 어렵다...LG엔솔 "투자 줄이고 제품 다변화"
N
커뮤니티
더보기
[자유게시판]
오 20분 이른 퇴근이닷
N
[자유게시판]
집으로~
N
[자유게시판]
이런 말이 생각납니다.
N
[자유게시판]
헬요일도 끝나가네
N
[자유게시판]
4시 13분
N
제휴문의 @spostar
제휴문의 @spostar
목록
글쓰기
[IT뉴스]마이크로소프트-오픈AI "GPT-4, 한국어 토큰 효율화 달성"
온카뱅크관리자
조회:
41
2024-04-30 13:55:18
<div id="layerTranslateNotice" style="display:none;"></div> <strong class="summary_view" data-translation="true">영어보다 2.36배 많이 들던 한국어 토큰수→이젠 1.1배로 '뚝'</strong> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="QsAv4Edzpi"> <p dmcf-pid="VOfwZ6uSpd" dmcf-ptype="general">(지디넷코리아=김미정 기자)"국내 고객은 한국어로도 부담 없이 코파일럿 내 GPT-4로 개발할 수 있다. 마이크로소프트팀은 오픈AI와 손잡고 토큰 수 효율화를 이뤘다. 한국어 특성상 영어보다 평균 2배 더 많은 토큰 수가 필요했지만, 이젠 1.1배로 줄었다."</p> <p dmcf-pid="y5TUaYrRUd" dmcf-ptype="general">마이크로소프트 스콧 한셀만 개발자 커뮤니티 부사장은 30일 양재 aT센터에서 열린 '마이크로소프트 AI 투어 인 서울'에서 코파일럿 제품 내 탑재된 오픈AI의 GPT-4 토크나이저 효율화를 강조했다.</p> <p dmcf-pid="WWI1JlA8ze" dmcf-ptype="general">보통 토큰 수는 생성형 AI로 개발에 필수 요소다. 토큰 수에 따라 지불해야 하는 비용도 상이하다. 토큰 수가 많으면 사용자는 높은 비용을 지불해야 한다. 모델마다 한번에 입력할 수 있는 토큰 수도 정해졌다.</p> <figure class="figure_frm origin_fig" dmcf-pid="YpXbE1hLFR" dmcf-ptype="figure"> <p class="link_figure"><img alt="마이크로소프트 스콧 한셀만 개발자 커뮤니티 부사장." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202404/30/ZDNetKorea/20240430135520341psis.jpg" data-org-width="640" dmcf-mid="0s4nH4phFI" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202404/30/ZDNetKorea/20240430135520341psis.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 마이크로소프트 스콧 한셀만 개발자 커뮤니티 부사장. </figcaption> </figure> <p dmcf-pid="GfzMvb5rUM" dmcf-ptype="general">스콧 한셀만 부사장은 "보통 같은 질문을 모델에 입력할 때, 한국어는 영어보다 약 2배 더 많은 토큰 수가 필요하다"고 설명했다. 그는 이에 대한 근거도 제시했다. 마이크로소프트 아시아팀 분석 결과에 따르면, 한국어는 GPT-4에서 영어보다 평균 2.36배 많은 토큰 수가 들었다.</p> <p dmcf-pid="HWI1JlA8zx" dmcf-ptype="general">한셀만 부사장은 "토큰 효율화를 위해 마이크로소프트팀과 오픈AI가 손잡고 연구했다"며 "똑같은 질문에 언어마다 토큰 수 차이가 없도록 하기 위함"이라고 설명했다.</p> <p dmcf-pid="XGhFnvkP7Q" dmcf-ptype="general">오픈AI 멀티모달 모델 GPT-4에 토큰 수 개선이 이뤄졌다고 했다. 그는 모델이 토큰 수 나누는 방식을 설명했다. 현재 GPT-4의 토크나이저는 BPE 기반으로 작동한다. 바이트 기반으로 토큰을 나눈다. 이는 한국어를 텍스트 처리할 때 자음과 모음의 결합으로 본다거나 형태소 단위로 수치화하지 않는다. </p> <figure class="figure_frm origin_fig" dmcf-pid="Z5TUaYrRuP" dmcf-ptype="figure"> <p class="link_figure"><img alt="오픈AI의 토큰 효율화 전략을 설명하는 화면." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202404/30/ZDNetKorea/20240430135521723jkbk.jpg" data-org-width="640" dmcf-mid="U632r3vaps" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202404/30/ZDNetKorea/20240430135521723jkbk.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 오픈AI의 토큰 효율화 전략을 설명하는 화면. </figcaption> </figure> <p dmcf-pid="5e4g5P7vp6" dmcf-ptype="general">대신 특정 음절의 빈도수나 문장 복잡성에 기반해 토큰 수를 측정한다. 기존보다 토큰 수를 줄이는 방식이다. 시맨틱 커널 방식을 비롯한, 스플리팅 전략도 활용한다.</p> <p dmcf-pid="1iPjFMBW78" dmcf-ptype="general">한셀만 부사장은 "오픈AI 모델은 시맨틱 커널 등으로 토큰 수를 측정하고 있다"며 "이에 따라 한국어는 영어보다 약 1.1배 더 많이 드는 수준"이라고 했다. 기존보다 토큰 효율화를 50% 이상 올린 셈이다. 해당 기능은 지난달 처음 공개한 바 있다.</p> <p dmcf-pid="tsAv4Edzz4" dmcf-ptype="general">그는 "현재 애저 오픈AI 서비스 등 다양한 제품에서 한국어 토큰 수 효율화를 경험할 수 있을 것"이라며 "한국어 처리 AI 미래에 큰 도움 될 것"이라고 했다.</p> <p dmcf-pid="FYCtiSc6Ff" dmcf-ptype="general"><strong>"한국어 AI 모델에 집착할 필요 없다"</strong></p> <p dmcf-pid="3aeDuiVZFV" dmcf-ptype="general">업계에서는 애저 오픈AI 서비스 등 마이크로소프트 솔루션 내에서 한국어 토큰 효율화를 경험할 수 있을 것으로 내다봤다. </p> <figure class="figure_frm origin_fig" dmcf-pid="0jJrzL41u2" dmcf-ptype="figure"> <p class="link_figure"><img alt="마이크로소프트 AI 투어 인 서울 부스." class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202404/30/ZDNetKorea/20240430135523918wkci.jpg" data-org-width="638" dmcf-mid="PwzMvb5rFn" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202404/30/ZDNetKorea/20240430135523918wkci.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 마이크로소프트 AI 투어 인 서울 부스. </figcaption> </figure> <p dmcf-pid="pDgC9jxpp9" dmcf-ptype="general">그동안 국내 AI 기업들은 GPT-4 토큰 비용을 언급한 바 있다. 국내 사용자가 한국어 기반 작업에 GPT-4를 이용하면 비싼 비용을 지불해야 한다고 지적했다. </p> <p dmcf-pid="UV7xSBZw0K" dmcf-ptype="general">이번 마이크로소프트와 오픈AI의 토큰 효율화 후 이같은 주장은 잠잠해질 것이라는 의견이 나오고 있다. 이날 부스를 지키던 마이크로소프트 관계자도 GPT-4의 한국어 토큰 효율성에 대해 재차 강조했다. </p> <p dmcf-pid="uGhFnvkP3b" dmcf-ptype="general">그는 "국내 사용자가 네이버 '하이퍼클로바X' 등 한국어 기반 모델을 굳이 활용하지 않아도 되는 시대"라며 "비슷한 비용으로 GPT-4를 통한 개발 작업을 한국어로 할 수 있을 것"이라고 강조했다.</p> <p dmcf-pid="7Q9iGf0C3B" dmcf-ptype="general">김미정 기자(notyetkim@zdnet.co.kr)</p> </section> </div> <p class="" data-translation="true">Copyright © 지디넷코리아. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
1
우로스써보세요
400
2
태산희님
300
3
그랑프리옥황상제
300
4
미국하키원툴
300
업체홍보/구인
더보기
[구인]
자택 알바 구합니다.(투잡/장기 가능)
[구인]
자택 알바 구합니다.(투잡/장기 가능)
[구인]
[100만유튜브PD출신] 기획&편집&디자인이 가능한 인력이 사장님을 구합니다!
[구인]
한번은 읽어봐주시길 부탁드립니다
[구인]
폰만있으면ok 채팅알바 모집합니다 (하루 10~20사이)
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
N
N
N
N
N
N
채팅하기