3조 개. 중국 최대 정보기술(IT) 기업인 텐센트가 개발한 인공지능(AI) 대규모언어모델(LLM) 훈위안이 최근까지 학습한 토큰(말뭉치) 수다. 지난해 9월 첫 공개 때 밝힌 토큰 규모가 2조 개인 만큼 7개월 동안 50%나 늘린 셈이다. 네이버가 2021년 선보인 한국 최초 LLM이 5600억 토큰을 학습한 것을 감안하면 파격적인 수준이다. ‘챗GPT의 아버지’로 불리는 샘 올트먼의 오픈AI도 2020년 3000억 개의 토큰을 투입해 GPT3를 출범시켰고, 최근 들어서야 조 단위로 끌어올렸다.
텐센트의 빠른 추격에 세계 빅테크들이 경계의 목소리를 내는 이유가 여기에 있다.
지난 18일 방문한 중국 광저우 위챗·웨이신 사무동에선 실시간 이용자 현황판에 ‘14억4700만 명’이란 수치가 빨간색으로 선명하게 찍혀 있었다. 이 중 중국인은 13억5900만 명. 거의 모든 중국인이 쓴다는 얘기다. 외국인 이용자도 1억 명에 육박했다.
텐센트 관계자는 “대다수 AI기업은 토큰에 쓸 데이터의 기근 현상을 겪고 있지만 텐센트는 걱정할 필요가 없다”고 말했다. 위챗이 은행 등 금융 거래는 물론 진료 예약, 처방전 발송, 식당 결제, 택시 콜, 공유자전거 이용 등 거의 모든 일상에 활용되는 ‘생활 리모컨’인 덕분에 AI 학습에 쓰이는 토큰을 대량 확보할 수 있어서다.
AI 성능을 개선하는 데 토큰은 가장 확실한 수단이다. 부족한 토큰으로 최첨단 AI칩을 사용하는 것보다 칩 성능은 떨어져도 엄청난 데이터를 학습하는 것이 낫다는 말이 나오는 이유다. 네이버 관계자는 “오프라인의 실시간 데이터를 대규모로 확보하는 곳은 중국 빅테크뿐”이라고 말했다.
훈위안은 이미지 생성, 텍스트 인식, 카피라이팅 등 다양한 기능을 지원한다. SNS, 금융, 공공 서비스, 전자상거래, 물류 운송, 게임 등 주요 산업에서 활용도가 높다고 회사 측은 설명했다. 다우슨 퉁 텐센트 수석부사장은 “금융 교육 물류 게임 등 20개 산업군에 걸쳐 50여 개 솔루션을 보유한 기업용 훈위안 서비스를 중국 기업에 제공하고 있다”며 “각 기업에 최적화된 지능형 서비스를 선보일 것”이라고 말했다.
기업AI는 중국의 최대 약점으로 꼽히던 분야다. 소비 영역과 달리 중국 기업이 자체 축적한 ‘정형화된 데이터’가 부족해서다. 텐센트의 AI 클라우드로 주요 산업 데이터를 끌어모아 이런 약점을 극복하겠다는 게 마 회장의 전략이다. 구글, 아마존, 마이크로소프트가 주도하는 초거대 AI 생태계와는 완전히 다른 별개 ‘AI 행성’을 만들겠다는 얘기다.
17일 방문한 중국 선전 텐센트 본사에선 텐센트AI랩이 지난달 개발한 생성형 AI 게임엔진 지넥스를 설명하는데 공들였다. 생성형 AI를 활용해 콘텐츠 제작 시간을 줄이고 풍성한 게임 스토리를 만들 수 있는 획기적인 도구다. 텐센트는 훈위안의 기업AI를 자체 사업 및 서비스에 적용하고 있는데, 그 분야만 400개에 달한다.
자오젠난 텐센트 클라우드인터내셔널 부사장은 “클라우드, AI, 빅데이터, 보안 등 주요 기술을 통합해 맞춤형 디지털 솔루션을 구축해주는 형태의 글로벌 사업을 키워나갈 것”이라고 말했다.
텐센트는 지난해 640억위안(약 12조원)을 연구개발(R&D)에 쏟아부었다. 역대 최대 규모다. 올해는 R&D 투자금에서 AI 관련 비중을 더 높일 것으로 알려졌다.
선전·광저우=정지은 기자 jeong@hankyung.com
관련뉴스