로그인
보증업체
스포츠중계
스포츠분석
먹튀사이트
지식/노하우
판매의뢰
업체홍보/구인
뉴스
커뮤니티
포토
포인트
보증카지노
보증토토
보증홀덤
스포츠 중계
기타
축구
야구
농구
배구
하키
미식축구
카지노 먹튀
토토 먹튀
먹튀제보
카지노 노하우
토토 노하우
홀덤 노하우
기타 지식/노하우
유용한 사이트
제작판매
제작의뢰
게임
구인
구직
총판
제작업체홍보
실시간뉴스
스포츠뉴스
연예뉴스
IT뉴스
자유게시판
유머★이슈
동영상
연예인
섹시bj
안구정화
출석하기
포인트 랭킹
포인트 마켓
로그인
자동로그인
회원가입
정보찾기
뉴스
더보기
[연예뉴스]
‘뮤직뱅크’ 측 “오늘(23일) 자막 오류, 깊은 사과” [공식]
N
[연예뉴스]
'흑백2' 손종원 셰프 "이상형? 상냥하고 예의바른 사람에게 호감 느껴" [RE:뷰]
N
[연예뉴스]
정유미, 유튜브 올렸다가 '저작권 삭제' 멘붕…"내 얼굴인데 왜 안돼"
N
[연예뉴스]
BTS 월드투어 전세계가 티켓팅 전쟁... 100만 명 대기에 서버 다운되기도[K-EYES]
N
[스포츠뉴스]
임효준에서 린샤오쥔으로…오성홍기 달고 8년 만에 올림픽 복귀
N
커뮤니티
더보기
[자유게시판]
드디어 금요일이군요
[자유게시판]
오늘 다저스 어떻게 생각하시나요
[자유게시판]
하아 댓노
[자유게시판]
식곤증지립니다요
[자유게시판]
벌써 불금이네요
목록
글쓰기
[IT뉴스]KAIST, 24시간 AI비서 가능성 열 '스피치SSM' 개발
온카뱅크관리자
조회:
60
2025-07-03 10:57:32
<div id="layerTranslateNotice" style="display:none;"></div> <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> <section dmcf-sid="KGrMcMph1P"> <p contents-hash="05894ee4c0932aa3225e1f3757418d03a7e5b8dbd848246e7decaea0d97d71b0" dmcf-pid="9HmRkRUl56" dmcf-ptype="general">음성 언어 모델(SLM)이 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서는 한계가 두드러지는 가운데, 우리 연구진이 시간 제약 없이 자연스러운 음성 생성을 실현한 '스피치SSM'을 개발했다.</p> <p contents-hash="d3b2d867bc91aabdf9d0de850d3dc9a2e4a889e3f7029d70f35e30b6aadc328a" dmcf-pid="2XseEeuS58" dmcf-ptype="general">한국과학기술원(KAIST·총장 이광형)은 노용만 전기 및 전자공학부 교수팀의 박세진 연구원(박사과정)이 장시간 음성 생성이 가능한 음성 언어 모델 '스피치SSM'을 개발했다고 3일 밝혔다.</p> <p contents-hash="5ffbd9ff0ce6c535212149ae693bfbb8ec47a98694a81c41f0fd4fb2fe25d190" dmcf-pid="VZOdDd7vH4" dmcf-ptype="general">이번 연구는 국제 최고 권위 머신러닝 학회인 ICML 2025에 제출된 전체 논문 중 약 1%만 선정되는 구두 논문 발표에 확정, 연구 역량을 입증했다.</p> <p contents-hash="08b1fd32f7e337e2d8b3cfd7d708090c1b11aa8c95b14baf0aa7e4e8f6d35d03" dmcf-pid="f5IJwJzTGf" dmcf-ptype="general">SLM은 음성을 텍스트로 변환하지 않고 직접 처리함으로써, 인간 화자 고유의 음향적 특성을 활용할 수 있어 대규모 모델에서도 고품질 음성을 빠르게 생성할 수 있다. 그러나 기존 모델은 음성을 잘게 쪼개 아주 자세한 정보까지 담는 경우, '음성 토큰 해상도'가 높아지고 사용 메모리 소비도 증가해 장시간 음성의 의미·화자적 일관성을 유지하기 어려웠다.<br></p> <figure class="figure_frm origin_fig" contents-hash="6cd3bb12cfa06e3270f83bb571bfe7abfa1f3d9c4910b5b7e2e1c73f7200b957" dmcf-pid="4qHkTk6FtV" dmcf-ptype="figure"> <p class="link_figure"><img alt="KAIST가 개발한 '스피치SSM' 개요" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202507/03/etimesi/20250703105106961aitu.png" data-org-width="700" dmcf-mid="bZUhthnb1Q" dmcf-mtype="image" height="auto" src="https://img3.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202507/03/etimesi/20250703105106961aitu.png" width="658"></p> <figcaption class="txt_caption default_figure"> KAIST가 개발한 '스피치SSM' 개요 </figcaption> </figure> <p contents-hash="74a69df426445daaf6f1e63a17b5187c80d8fcd05c702c2194f53b3b529de151" dmcf-pid="8BXEyEP3X2" dmcf-ptype="general">연구팀은 문제를 해결하기 위해 하이브리드 상태공간 모델을 사용한 스피치SSM을 개발해 긴 음성 시퀀스를 효율적으로 처리하고 생성할 수 있게 했다.</p> <p contents-hash="d37ea02ab20d431a1cc8c641c596b2a887a547d468cb79b1d9694430310b3463" dmcf-pid="6bZDWDQ059" dmcf-ptype="general">이 모델은 최근 정보에 집중하는 '어텐션 레이어'와 전체 이야기 흐름(장기적인 맥락)을 오래 기억하는 '순환 레이어'를 교차 배치한 '하이브리드 구조'를 통해 긴 시간 음성을 생성해도 흐름을 잃지 않고 이야기를 잘 이어간다.</p> <p contents-hash="7e1ca4c9e4047d57f0409677d244ce8e206737b3c19cc517a8480356d7b33001" dmcf-pid="PK5wYwxpGK" dmcf-ptype="general">또 메모리 사용량과 연산량이 입력 길이에 따라 급격히 증가하지 않아, 장시간 음성을 안정적이고 효율적으로 학습·생성할 수 있다.</p> <p contents-hash="2efb7bc47f34d49f5a8dab0974a33edb8a33b06f852948a04fad9b0089461d1d" dmcf-pid="Q91rGrMUtb" dmcf-ptype="general">스피치SSM은 음성 데이터를 짧은 고정된 단위(윈도우)로 나눠 각 단위별로 독립적으로 처리하고, 전체 긴 음성을 만들 경우에는 다시 붙이는 방식을 활용해 쉽게 긴 음성을 만들 수 있어 무한한 길이의 음성 시퀀스를 효과적으로 처리할 수 있게 했다.</p> <p contents-hash="5b3bac52c0eb67eb8ed63e00fd89d1ba492ba1e00cc3eccd0b7c97ba301683cc" dmcf-pid="x2tmHmRu1B" dmcf-ptype="general">또 음성 생성 단계에서는 한 글자, 한 단어 차례대로 천천히 만들어내지 않고, 여러 부분을 한꺼번에 빠르게 만들어내는 '비자기회귀' 방식 오디오 합성 모델을 사용해, 고품질 음성을 빠르게 생성할 수 있게 했다.</p> <p contents-hash="b6813f2a83fbf4154259bbf51ee151f3edc0f06efbdb4d9ff6f6a55164404269" dmcf-pid="yOoKdKYcYq" dmcf-ptype="general">기존은 10초 정도 짧은 음성 모델을 평가했지만, 연구팀은 16분까지 생성할 수 있도록 자체 구축한 새로운 벤치마크 데이터셋인 'LibriSpeech-Long'을 기반으로 음성을 생성하는 평가 태스크를 새롭게 만들었다.</p> <p contents-hash="01fd9ab7f3dce512dee1ebe2d83e0a180a1e4ae422475cf6c3febb131f4d19d6" dmcf-pid="WMqTpTaVtz" dmcf-ptype="general">박세진 박사과정생은 “기존 음성 언어 모델은 장시간 생성에 한계가 있어, 실제 인간이 사용하도록 장시간 음성 생성이 가능한 음성 언어 모델을 개발하는 것이 목표였다”며 “이번 연구 성과를 통해 긴 문맥에서도 일관된 내용을 유지하면서, 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어, 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야에 크게 기여할 것으로 기대한다”고 밝혔다.</p> <p contents-hash="5b5cabaa1d4d3c3de596a98ea704bbe303156150a20d4f538f537d8a6493e3a9" dmcf-pid="YRByUyNfG7" dmcf-ptype="general">한편 박세진 박사과정생은 비전, 음성, 언어를 통합하는 연구를 수행하며 CVPR 2024 하이라이트 논문 발표, 2024년 ACL에서 우수논문상 수상 등을 통해 우수한 연구 역량을 입증한 바 있다.</p> <p contents-hash="949f685cba33a2eb5e64a66415a90ef19858c4d8841115de99ad4f609ee79f61" dmcf-pid="GebWuWj41u" dmcf-ptype="general">김영준 기자 kyj85@etnews.com</p> </section> </div> <p class="" data-translation="true">Copyright © 전자신문. 무단전재 및 재배포 금지.</p>
댓글등록
댓글 총
0
개
맨위로
이번주
포인트
랭킹
매주 일요일 밤 0시에 랭킹을 초기화합니다.
1
4,000
상품권
2
3,000
상품권
3
2,000
상품권
업체홍보/구인
더보기
[구인]
유투브 BJ 구인중이자나!완전 럭키비키자나!
[구인]
에카벳에서 최대 조건으로 부본사 및 회원님들 모집합니다
[구인]
카지노 1번 총판 코드 내립니다.
[구인]
어느날 부본사 총판 파트너 모집합니다.
[구인]
고액전용 카지노 / 헬렌카지노 파트너 개인 팀 단위 모집중 최고우대
지식/노하우
더보기
[카지노 노하우]
혜택 트렌드 변화 위험성 다시 가늠해 보기
[카지노 노하우]
호기심이 부른 화 종목 선택의 중요성
[카지노 노하우]
카지노 블랙잭 카드 조합으로 히트와 스탠드를 결정하는 방법
[카지노 노하우]
흥부가 놀부될때까지 7
[카지노 노하우]
5월 마틴하면서 느낀점
판매의뢰
더보기
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
[제작판매]
html5웹미니게임제작 해시게임제작 카드포커게임제작 스포츠토토 카지노 슬롯 에볼루션 토지노 솔루션분양임대재작
포토
더보기
채팅하기