【드래곤 스포츠】 보증업체놀이터추천홍보 : 프로그램제작판매제작의뢰 : 스포츠분석 : 무료스포츠중계tv : 섹시bj움짤 : 뉴스 : 안구정화

로그인

글쓰기

[IT뉴스]화웨이, 차이나모바일 후베이와 ‘AI 추론 가속 솔루션’ 상용망 검증

온카뱅크관리자

2026-06-30 17:47:30

<div id="layerTranslateNotice" style="display:none;"></div> 토큰 처리량 최대 3.7배 향상...중국 통신 업계 최초 
 <div class="article_view" data-translation-body="true" data-tiara-layer="article_body" data-tiara-action-name="본문이미지확대_클릭"> 
 <section dmcf-sid="5P1cx3Rfg3">
 (지디넷코리아=홍지후 기자)화웨이가 장문 AI 추론의 토큰 처리량을 최대 3.7배 끌어올리는 AI 추론 가속 솔루션을 중국 통신 업계 최초로 상용망에서 검증하는 데 성공했다.
 화웨이는 지난 24일부터 26일까지 중국 상하이에서 열린 MWC 상하이 2026에서 차이나모바일 후베이와 이같은 성과를 공개했다고 30일 밝혔다.
 솔루션은 화웨이 오션스토(OceanStor) A800 스토리지와 어센드 A3 슈퍼팟, 통합 캐시 관리자(UCM)가 기반이다. 이를 통해 통신사가 AI 컴퓨팅 서비스를 배포할 수 있는 토대를 마련했다.
 화웨이는 지난해 UCM을 선보였다. 기존 온칩 메모리와 D램의 제한적 용량이 KV 캐시 적중률을 떨어뜨려 AI에이전트 전체 성능을 저하시키는 문제를 해결하기 위해서다.
 <figure class="figure_frm origin_fig" contents-hash="0eade2871b552b9542a97c80fc696977bab9b9b43b1cb8ac2a618f7eea3993f2" dmcf-pid="0tw43spXAZ" dmcf-ptype="figure">
 <img alt="화웨이는 지난 24일부터 26일까지 중국 상하이에서 열린 MWC 상하이 2026에서 장문 AI 추론의 토큰 처리량을 최대 3.7배 끌어올리는 AI 추론 가속 솔루션을 중국 통신 업계 최초로 상용망에서 검증하는 데 성공했다. (사진=화웨이)" class="thumb_g_article" data-org-src="https://t1.daumcdn.net/news/202606/30/ZDNetKorea/20260630174352960mooo.jpg" data-org-width="640" dmcf-mid="Zvr80OUZo0" dmcf-mtype="image" height="auto" src="https://img2.daumcdn.net/thumb/R658x0.q70/?fname=https://t1.daumcdn.net/news/202606/30/ZDNetKorea/20260630174352960mooo.jpg" width="658">
 <figcaption class="txt_caption default_figure">
 화웨이는 지난 24일부터 26일까지 중국 상하이에서 열린 MWC 상하이 2026에서 장문 AI 추론의 토큰 처리량을 최대 3.7배 끌어올리는 AI 추론 가속 솔루션을 중국 통신 업계 최초로 상용망에서 검증하는 데 성공했다. (사진=화웨이)
 </figcaption>
 </figure>
 UCM은 외부 고성능 스토리지를 활용해 온칩 메모리와 D램의 용량 한계를 넘어선 페타바이트(PB)급 KV 캐시를 구현한다. KV 캐시를 전 주기에 걸쳐 계층적으로 관리·스케줄링함으로써 단일 대화의 컨텍스트 창을 크게 넓힌다. 멀티턴 대화에선 과거 KV 캐시를 재사용해 중복 연산을 없애 더 낮은 비용으로 최적화된 추론 경험을 제공한다.
 검증은 차이나모바일 후베이의 상용망 환경에 'vLLM-Ascend' 프레임워크를 배포하고, '미니맥스 M2.5'와 'GLM-5.1' 등 주요 모델에 8K부터 190K 토큰에 이르는 장문 입력을 시뮬레이션하는 방식으로 이뤄졌다.
 결과적으로 미니맥스 M2.5는 UCM 적용 시 첫 토큰 생성 시간(TTFT)이 26%에서 62%까지 개선되고 NPU당 초당 토큰 수(TPS)가 크게 향상됐다. 시퀀스 길이별로는 64K에서 TPS가 58%, 128K 장문 환경에서 78% 높아졌다.
 GLM-5.1은 TTFT가 51%에서 93%까지 개선되고 TPS가 56%에서 372%까지 향상됐으며, 64K에서 313%, 128K 장문 환경에서 372% 상승했다.
 이 결과는 컨텍스트 길이가 길어질수록 AI 추론 가속 솔루션의 강점이 더욱 뚜렷해진다는 점을 보여준다. 솔루션은 장문 추론에서 KV 캐시 용량 병목을 해소한다.
 화웨이는 검증이 통신사의 AI 컴퓨팅 인프라 최적화에서 의미 있는 진전으로, 글로벌 AI 산업에 복제 가능한 기술 모델을 제시했다고 설명했다.
 차이나모바일 후베이 관계자는 “AI 에이전트 상호작용과 코드 생성 같은 시나리오에서 AI 추론 가속 솔루션은 처리량을 50% 이상 높일 수 있어, 차이나모바일 후베이 AI 서비스의 대규모 배포를 위한 견고한 기반을 마련했다”고 밝혔다.
 마이클추 화웨이 글로벌 데이터 스토리지 마케팅·솔루션 세일즈 부문 사장은 “AI 추론 가속 솔루션은 TTFT를 크게 줄일 뿐 아니라 토큰 비용 절감에도 기여해, 통신사가 효율적이고 친환경적인 AI 컴퓨팅 인프라를 구축하도록 지원한다”고 말했다.
 홍지후 기자(hoo@zdnet.co.kr)
 </section> 
 </div> 
 Copyright © 지디넷코리아. 무단전재 및 재배포 금지.

댓글 총 0개

이번주 포인트랭킹

매주 일요일 밤 0시에 랭킹을 초기화합니다.

14,000상품권
23,000상품권
32,000상품권

업체홍보/구인 더보기

지식/노하우 더보기

판매의뢰 더보기

포토 더보기