로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[실시간뉴스]
韓가족이 尹부부 저격글을?···친한-친윤 충돌 불씨되나
N
[실시간뉴스]
‘나혼산’ ‘금쪽이’ 이 나라에서 방송하면 벌금 7000만원 낸다
N
[연예뉴스]
데프콘X장도연X은지원 뭉쳤다… ‘동물은 훌륭하다’ 16일 첫방
N
[연예뉴스]
'34세' 고경표, 지독한 ♥사랑꾼이었네…데뷔 8년 만에 겹경사 터졌다
N
[연예뉴스]
'윤보미♥︎' 라도, 미간 찌푸리게 하는 발언..장도연마저 외면 (짠남자)
N
커뮤니티
더보기
[자유게시판]
다들 6시 칼퇴하시나여?
N
[자유게시판]
밥먹으러 갈게요
N
[자유게시판]
와 코인시장 불바다네
N
[자유게시판]
밤되니깐 춥네요
N
[자유게시판]
슬슬 준비해보겠습니다
N
제휴문의 @spostar
제휴문의 @spostar
목록
글쓰기
[IT뉴스]AI의 놀라운 학습 비결은 진짜보다 더 진짜 같은 합성데이터 덕분
온카뱅크관리자
조회:
24
2024-06-17 16:57:01
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="BadoPkf5ne"> <figure class="figure_frm origin_fig" dmcf-pid="bVz93P5rJR" dmcf-ptype="figure"> <p class="link_figure"><img alt="가상의 인공지능(AI) 학습모델이 방대한 합성 데이터를 적극 활용해 자율자동차 사고 위험 분석에 집중하고 있는 모습을 생성성 인공지능을 활용해 그렸다. 챗GPT" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/17/mk/20240617165702716ikgb.jpg" data-org-width="581" dmcf-mid="XUS93P5rnE" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/17/mk/20240617165702716ikgb.jpg" width="658"></p> <figcaption class="txt_caption default_figure"> 가상의 인공지능(AI) 학습모델이 방대한 합성 데이터를 적극 활용해 자율자동차 사고 위험 분석에 집중하고 있는 모습을 생성성 인공지능을 활용해 그렸다. 챗GPT </figcaption> </figure> <p dmcf-pid="KFG1SuIinM" dmcf-ptype="general">오픈AI가 차세대 대형언어모델(LLM) GPT-5 개발을 앞두고 데이터 확보에 비상이 걸렸다. 인공지능(AI) 모델의 성능을 높이기 위해서는 방대한 양의 고품질 데이터가 필요하다. 문제는 LLM 규모가 워낙 빠르게 커지다 보니 AI 학습에 필요한 양질의 데이터가 고갈되고 있는 것이다.</p> <p dmcf-pid="99ubt8XDLx" dmcf-ptype="general">정보기술(IT) 업계에선 향후 2년 내 고품질 텍스트 데이터에 대한 수요가 공급을 넘어설 것으로 예상한다. 이 같은 데이터 초과 수요 탓에 지금껏 폭발적으로 발전했던 AI 성장세가 꺾일 수 있다는 우려도 나온다. </p> <p dmcf-pid="2AnNMw6FeQ" dmcf-ptype="general">최근 월스트리트저널(WSJ)은 "오픈AI가 개발 중인 'GPT-5'의 경우 지금의 성장 추세를 따른다면 60조~100조개의 데이터 토큰(문장 최소 단위)이 필요하다"며 "이는 현재 활용 가능한 모든 고품질 텍스트 데이터를 10조~20조개 넘어서는 수준"이라고 설명했다. 지난해 출시된 GPT-4가 최대 12조개의 데이터 토큰을 학습한 것으로 알려졌는데 GPT-5의 경우 이보다 8배가 많은 데이터가 필요하다는 계산이다.</p> <p dmcf-pid="VKUB14HEnP" dmcf-ptype="general">이 같은 데이터 부족 문제를 해결하기 위한 방안으로 '합성데이터(Synthetic data)'가 부상하고 있다. 합성데이터는 실제 데이터를 모방해 인공적으로 만든 가상 데이터다. 유럽데이터보호감독기구(EDPS)는 합성데이터를 '원래 데이터 소스를 가져와 유사한 통계 속성을 가진 새로운 인공 데이터를 생성하는 것'으로 정의한다.</p> <p dmcf-pid="f27KF6Zwn6" dmcf-ptype="general">합성데이터의 장점은 실제 데이터의 단점에서 엿볼 수 있다. 인간이 만들어내는 실제 데이터는 AI 학습용으로 이용하기엔 현실적인 제약이 있다. </p> <figure class="figure_frm origin_fig" dmcf-pid="48bfUMFOn8" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/17/mk/20240617165704096vbxy.jpg" data-org-width="277" dmcf-mid="zI4xbn7vdJ" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/17/mk/20240617165704096vbxy.jpg" width="658"></p> </figure> <p dmcf-pid="8OkmgSiBi4" dmcf-ptype="general">김민진 정보통신정책연구원(KISDI) 연구원은 "실제 데이터는 개인정보 보호 이슈에 직면하기 때문에 온전히 활용하기엔 한계가 있다"며 "아울러 AI 성능을 높이기 위해 '데이터 정제'를 하는 과정에서 시간과 비용이 많이 들어가는 데다 정확성·일관성·적시성 측면에서 고품질 데이터 수집이 쉽지 않다"고 설명했다. </p> <p dmcf-pid="6hwIjyo9Jf" dmcf-ptype="general">반면 합성데이터는 이런 제약 조건에서 상대적으로 자유롭다. 가상 데이터이기 때문에 개인정보 노출 위험이 낮다. 또 다양한 상황을 가정해 수많은 데이터를 생성할 수 있어 데이터 부족으로 인한 AI 모델의 성능 저하 문제도 극복할 수 있다. 컴퓨터 알고리즘이 실제 데이터의 특징을 반영해 무한대로 생성한다. 텍스트, 이미지, 비디오, 음성 등 다양한 형태의 데이터로 만들 수 있다. 2022년 MIT 테크놀로지 리뷰는 합성데이터를 '10대 혁신 기술'로 선정하기도 했다.</p> <p dmcf-pid="P3Htv7CnnV" dmcf-ptype="general">합성데이터 생성 방식은 크게 실제 데이터 없이 합성하는 방법과 실제 데이터를 이용해 합성하는 방법으로 구분된다. 통계·설문조사를 활용하거나 데이터를 설명하는 생성 모델을 사용해 합성데이터를 만들어낸다. 생성 모델은 생성적 적대 신경망(GAN·Generative Adversarial Network)이나 가변 자동 인코더(VAE·Variational Autoencoder)와 같은 머신러닝 기술을 활용해 실제 데이터를 학습하고, 이를 바탕으로 학습데이터를 만드는 방식을 따른다.</p> <figure class="figure_frm origin_fig" dmcf-pid="Q9ubt8XDn2" dmcf-ptype="figure"> <p class="link_figure"><img class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202406/17/mk/20240617165705329ltyg.jpg" data-org-width="1000" dmcf-mid="qNcrolJqid" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202406/17/mk/20240617165705329ltyg.jpg" width="658"></p> </figure> <p dmcf-pid="xyIvDXA8L9" dmcf-ptype="general">합성데이터는 다양한 산업에서 활발히 활용되고 있다. 대표적인 예로 자율주행 분야가 있다. 자율주행차의 안전성은 AI가 학습하는 데이터의 양과 질에 크게 의존한다. 도로에서 발생할 수 있는 여러 상황을 학습하기 위해선 많은 데이터가 필요하다. 테슬라는 사고 사례를 중심으로 합성데이터를 생성해 AI를 훈련시키고 있다. 예컨대 깊은 밤 지방 국도를 운전하던 중 천둥·번개를 동반한 폭우 속에서 야생 고라니가 도로로 뛰어드는 상황을 합성데이터로 만들어 다양한 경우의 수를 대비하는 식이다.</p> <p dmcf-pid="yxVPqJUlRK" dmcf-ptype="general">의료 분야에서도 합성데이터는 중요한 역할을 한다. 예를 들어 내시경 영상을 분석해 위암을 진단하는 AI 모델에 합성데이터를 활용하면 병변의 위치와 형태가 다양하고 의료 정보 확보가 어려운 상황에서도 AI의 진단 성능을 향상시킬 수 있다. 국내 스타트업 씨앤에이아이는 이러한 합성데이터 기술을 통해 의료 AI의 정확성을 높이고 있다.</p> <p dmcf-pid="WR4xbn7vJb" dmcf-ptype="general">금융 분야에서는 사기 패턴과 고객 성향을 분석하는 데 합성데이터가 이용되고 있다. 실제 사기 데이터는 민감한 정보를 포함하고 있어 사용에 제한이 있지만, 합성데이터를 통해 이 같은 문제를 해결하고 사기 탐지 모델의 성능을 향상시키고 있다. 보험사들은 사고 기록을 토대로 합성데이터를 만든 뒤 맞춤형 보험 상품을 설계하고 있다.</p> <p dmcf-pid="Ye8MKLzTRB" dmcf-ptype="general">소매업에서도 합성데이터는 중요한 도구로 자리 잡았다. 월마트는 실제 고객 데이터를 기반으로 합성데이터를 생성해 고객의 이동 패턴을 시뮬레이션하고, 이를 통해 매장 레이아웃과 상품 배치를 최적화하고 있다.</p> <p dmcf-pid="GLMi4j9HJq" dmcf-ptype="general">합성데이터를 제공하는 스타트업도 주목받고 있다. 신세시스AI는 데이터의 다양성에 초점을 맞춰 주문형 합성데이터 서비스를 하고 있다. 데이터젠은 합성데이터 생성 플랫폼을 개발해 컴퓨터 비전 모델의 훈련을 지원하고 있다. 인수·합병(M&A) 사례도 늘고 있다. 2021년 메타는 미국의 합성데이터 스타트업인 'AI.레버리(AI.Reverie)'를 인수했다. 같은 해 북미 대표 식료품 배달 업체인 인스타카트는 3억5000만달러(약 4800억원)를 들여 '캐퍼'를 사들였다. 캐퍼는 합성데이터를 활용해 스마트카트 셀프 결제 서비스를 선보인 회사다.</p> <p dmcf-pid="HU50WBSgMz" dmcf-ptype="general">합성데이터가 AI 모델을 훈련시키는 데 활용되면서 관련 시장은 비약적으로 커지고 있다. 글로벌 시장조사기관 가트너에 따르면 합성데이터 시장 규모는 2020년 20억달러(약 2조7500억원) 수준에 그쳤으나 올해 261억달러(약 35조8400억원)를 돌파할 전망이다. 불과 4년 만에 10배 이상 성장하는 셈이다. 가트너는 "지난해 말 기준으로 AI 학습용 데이터의 60% 이상을 합성데이터가 차지하고 있다"며 "2030년에 이르면 AI 학습에 합성데이터를 사용하는 비율이 실제 데이터 사용 규모를 넘어설 것"이라고 내다봤다. 국내 합성데이터 생성 시장은 2018년 1629억원 규모에서 연평균 23.4% 성장해 2024년에는 5752억원 규모로 확대될 전망이다. </p> <p dmcf-pid="XIEsavnbM7" dmcf-ptype="general">합성데이터</p> <p dmcf-pid="ZtY5lUOJnu" dmcf-ptype="general">합성데이터(Synthetic Data) : 실제 데이터를 활용하거나 특정 알고리즘을 통해 인위적으로 생성한 가상 데이터다. 현실 세계의 다양한 특성을 반영하면서도 실제 데이터를 포함하지 않아 개인정보 보호 측면에서 유리하다.</p> <p dmcf-pid="5yIvDXA8RU" dmcf-ptype="general">[김대기 기자]</p> </section> </div> <p class="" data-translation="true">Copyright © 매일경제 & mk.co.kr. 무단 전재, 재배포 및 AI학습 이용 금지</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
1
유리조나탄
900
2
미국거주펨붕
900
3
태산희님
700
4
구마이노베이션
700
업체홍보/구인
더보기
[구인]
자택 알바 구합니다.(투잡/장기 가능)
[구인]
자택 알바 구합니다.(투잡/장기 가능)
[구인]
[100만유튜브PD출신] 기획&편집&디자인이 가능한 인력이 사장님을 구합니다!
[구인]
한번은 읽어봐주시길 부탁드립니다
[구인]
폰만있으면ok 채팅알바 모집합니다 (하루 10~20사이)
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
N
N
N
N
N
N
채팅하기