GPT-4o는 멀티모달을 적용해 텍스트·이미지 정보를 음성으로 빠르게 변환한다. 멀티모달은 텍스트·이미지·영상·음성 등 여러 유형의 데이터를 인지하고 변환해 활용할 수 있도록 뒷받침한다.
오픈AI의 신규 모델은 멀티모달 토대로 텍스트·이미지 데이터를 활용해 음성을 생성할 수 있다. 음성으로 명령을 해도 AI가 내용을 추론하고 결과를 도출한다. 목소리에서 느껴지는 감정을 인지할 수 있는 기능도 갖췄다. 대화를 통해 AI 서비스를 간편하게 이용할 수 있게 된 셈이다.
지난 4일(현지시간)엔 메타가 유명 배우·인플루언소 목소리를 자사 AI 모델에 탑재하기 위한 협상을 진행 중이라는 소식이 알려졌다. 이들의 목소리를 메타 AI 모델인 '메타 AI'에 활용한다는 계획이다.
메타 AI는 지난해 7월 메타가 처음 선보인 'AI 비서'다. 페이스북, 인스타그램, 왓츠 등에 탑재됐다. 메타 AI는 텍스트 기반이지만 음성 기능을 더해 사용자 질문에 답할 수 있는 대화형 서비스로 변화할 전망이다. 대화형 서비스로 사용자 편의성과 상호작용 경험을 한층 끌어올리겠다는 구상이다. 이 기능은 이르면 다음 달 중 공개될 수 있다.
메타는 지난해 6월 영어·프랑스어·스페인어·독일어·폴란드어·포르투갈어 등 6개국 언어를 음성으로 생성하는 '보이스박스'를 개발하기도 했다.
오픈AI와 마찬가지로 감정도 인식한다. 사용자가 슬픈 이야기를 하면 부드럽고 서글픈 음성을 생성하는 식이다.
네이버는 스피치X의 실시간 음성 번역 기능도 예고했다. 사용자가 말하는 즉시 다른 언어로 번역해 음성을 생성하는 방식으로 실시간 통역 서비스를 제공하겠다는 계획이다. 또 심리 상담부터 대화형 AI 등 가상 비서, 법률·의료 자문에 이르기까지 다양한 용도로 활용할 예정이라고 설명했다.
네이버는 대화형 AI 서비스 '클로바X'에 시각 정보 처리 능력을 추가하는 업데이트를 예고하면서 스피치X를 위한 발판도 마련해 놓은 상태다.
전문가들 사이에선 LMM 중심의 생성형 AI 서비스를 기반으로 사업 모델이 재편될 것이란 관측이 나온다.
정명석 아주대 과학기술정책대학원 교수는 정보통신기획평가원을 통해 "수천억개 이상의 파라미터를 기반으로 한 LLM 중심의 시장은 텍스트·이미지·음악·영상 등 여러 형태의 데이터를 처리하는 LMM으로 진화할 것"이라며 "LMM을 통해 보다 풍부하고 생생한 콘텐츠를 제작할 수 있도록 발전하고 이는 증강현실(AR), 가상현실(VR), 혼합현실(MR) 등의 분야에서 새로운 가능성을 열 것"이라고 내다봤다.
김대영 한경닷컴 기자 kdy@hankyung.com
관련뉴스