빅테크 '멀티모달 AI' 주도권 경쟁

입력 2024-02-26 16:24 수정 2024-02-26 16:25

빅테크 '멀티모달 AI' 주도권 경쟁

‘두 척의 해적선이 커피 한 잔 안에서 항해하면서 서로 싸우는 모습을 사실적으로 클로즈업한 영상.’

이 같은 내용을 텍스트로 입력하자 거친 파도를 일으키는 커피잔 속에서 대결을 벌이는 검은 해적선 영상이 만들어졌다. ‘여러 마리의 거대한 털북숭이 매머드가 눈 덮인 초원을 밟고 다가온다’라고 명령하자 매머드가 하얀 눈밭을 성큼성큼 걸어오는 영상이 등장했다. ‘빨간색 모직 니트 오토바이 헬멧을 쓴 30세 우주인의 모험을 담은 영화 예고편’이라고 입력하자 우주선 타고 떠나려는 젊은 우주인의 모습이 역동적인 영상으로 잡혔다.

챗GPT 개발사인 오픈AI가 문자 명령어를 영상으로 변환해주는 새로운 인공지능 AI 모델 ‘소라’에서 만든 것들이다. 오픈AI는 지난 15일 웹사이트를 통해 소라의 영상물을 소개하며 “서비스에 앞서 피드백을 얻기 위해 다수의 시각 예술가, 디자이너, 영화제작자에게도 접근권을 부여했다”고 밝혔다.

AI 기술이 빠른 속도로 고도화하면서 빅테크 간 멀티모달 AI 경쟁이 본격화하고 있다. 멀티모달은 문서 이외에 이미지와 영상, 음성 등 다양한 데이터를 분석하고 추론할 수 있는 기술을 말한다. 생성AI 문서와 이미지에 이어 영상을 생성하는 분야에서도 기술 주도권 경쟁이 벌어지고 있다는 평가가 나온다.

오픈AI에 따르면 소라는 최대 1분 길이의 영상을 제작할 수 있다. 피카 등 기존 비디오 생성 AI가 4초 단위의 영상을 제작했던 것에 비해 생성 능력이 크게 향상됐다. 오픈AI는 “소라는 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 묘사를 통해 복잡한 장면을 생성할 수 있다”며 “소라가 범용 인공지능(AGI) 달성을 위한 중요한 이정표가 될 것”이라고 강조했다. 다만 오픈AI는 소라가 공간적 세부사항을 혼동할 수 있고, 특정 카메라 궤적을 따라가는 데 어려움을 겪을 수 있다고 덧붙였다. 이 회사는 영상이 소라에 의해 생성됐는지 식별할 수 있는 도구도 개발 중이다. 가짜 영상 유포 등으로 인한 부작용 등을 방지하기 위해서다.

같은 날 구글도 차세대 AI 모델 ‘제미나이1.0 프로’의 업데이트 버전인 ‘제미나이1.5 프로’를 공개하며 맞불을 놨다. 제미나이는 학습 규모에 따라 울트라·프로·나노로 나뉘는데, 이날 공개한 제미나이1.5 프로는 구글의 최신 AI 모델인 제미나이1.0 울트라와 비슷한 수준으로 텍스트·이미지·음성·영상을 생성하는 중형 멀티모달 모델이다. 구글에 따르면 제미나이1.5 프로는 최대 100만 개의 토큰 처리 능력을 갖췄다. 이는 기존 1.0프로(3만200개)의 토큰 처리 규모를 30배 이상 확대한 것이다.

구글은 “제미나이1.5 프로는 1시간 분량의 동영상과 11시간 분량의 음성 파일, 3만 줄 이상의 코드, 70만 단어 이상의 텍스트에 해당하는 방대한 정보를 한 번에 처리할 수 있다”고 설명했다. 데모 영상에서 구글은 미국 배우 버스터 키튼의 44분 분량의 영화 줄거리를 요약하는 모습을 보여줬다. 제미나이1.5 프로는 영상을 분석한 뒤 영화 구성과 사건 등을 설명하고 놓치기 쉬운 세부 내용까지도 파악했다.

이들 외에 메타도 작년에 이미지 생성 모델인 ‘에뮤’의 기능을 개선해 텍스트로 영상을 편집하고 생성할 수 있는 기능을 추가했다. 메타는 올해 엔비디아의 고성능 그래픽처리장치(GPU) 등을 수십만 개 구입해 자사 컴퓨팅 파워를 강화, 지금보다 더 강력한 AI 모델을 개발할 방침이다.

실리콘밸리=최진석 특파원 iskra@hankyung.com