영상을 이해하는 AI 원천기술로 글로벌 시장 공략: 트웰브랩스 [긱스]

입력 2024-10-28 11:54 수정 2024-10-28 13:52

영상을 이해하는 AI 원천기술로 글로벌 시장 공략: 트웰브랩스 [긱스]

이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스에 게재된 기사입니다.

트웰브랩스의 창업은 다소 특별한 곳에서 시작되었다. 2019년 트웰브랩스의 이재성 대표는 국군 사이버작전사령부에서 김성준 개발총괄이사와 이승준 기술총괄이사를 만났다. UC 버클리, 브라운 등 미국 명문대학에서 공부한 경험을 공유하던 이들은 국방부군 생활 동안 함께 일을 하며 서로의 역량을 확인하고, AI 기술에 대한 공통의 관심을 발견했다. 이들은 업무 상 텍스트 분석을 하는 툴을 많이 다루게 되던 중 영상에 대한 툴은 매우 부족하다는 점을 느끼게 되었다. AI 논문을 같이 읽으며 공부하던 이들은 박사과정을 진학할지, 산업계에 뛰어들지 고민하다 빠르게 성장하던 AI 사업기회를 잡기 위해 함께 창업하기로 마음을 먹게 되었다.

군대에서 만난 창업 팀

입대 시기가 서로 달라 한 명씩 전역하면서 국방부 면회처인 ‘스타카페’에서 창업 계획을 세웠다. 모두가 민간인이 된 2021년 3월, 군대 월급 등 200만 원을 모아 트웰브랩스를 창립했다. 거대언어모델(LLM) 등 생성 AI가 공개되면서 그들은 영상 데이터 분석에 대한 가능성을 보고 함께 사업을 시작하기로 결심하게 되었다. 초기 연구 환경 구축을 위해 이승준 CTO는 KTX로 개인 GPU(그래픽 카드)를 직접 공수해왔다. 이 GPU 2080 TI는 '몬스터'라는 별명으로 불리며, 투자유치 전까지 회사의 유일한 GPU로 활용되었다.

글로벌 무대에서 인정받고 싶었던 트웰브랩스 팀은 국내에 안주하지 않고 미국으로 눈을 돌렸다. 2021년 7월 컴퓨터 비전 분야 최고 권위의 학회인 국제컴퓨터비전학회(ICCV)에서 트웰브랩스는 첫 성과를 냈다. 밸류 챌린지 2021의 영상 검색 트랙에서 우승을 한 것이다. 이 대회는 7만 4천 개의 다양한 동영상에 담긴 시각 및 음성 정보를 분석하여, 주어진 문장에 해당하는 영상 내 구간을 가장 정확하고 빠르게 찾아내는 것이 목표였다. 트웰브랩스는 시각 정보뿐만 아니라 음성과 시간의 흐름 등 다양한 정보까지 인식할 수 있는 AI 모델을 개발하여, 텐센트, 카카오브레인, 컬럼비아 대학 등 유수의 기업과 연구기관을 제치고 우승을 차지했다. 트웰브랩스의 기술은 해당 제목의 영상을 찾아주는 수준이 아니라 영상 내 특정 구간까지 구체화해 검색 결과를 제시해준다. 예컨대 ‘흰 셔츠를 입고 춤추는 여자가 나오는 영화’라고 검색하면 영화 ‘펄프 픽션’의 해당 장면이 뜬다.

글로벌 성장과 투자 유치

트웰브랩스는 곧바로 글로벌 엑설러레이터인 테크스타즈(Techstars)의 시애틀 프로그램에 참가하면서 미국 내 네트워크를 늘렸다. 이 대표는 이 프로그램을 통해 “AI 연구, B2B 서비스형 소프트웨어(SaaS), 혁신적 창업 영역의 전문가들을 집중적으로 만나고자 했다.”고 참여 의도를 강조했다.

세계적인 AI 석학으로 꼽히는 페이페이 리 스탠퍼드대 교수를 비롯한 현지 전문가들이 관심을 가지며 자문단으로 합류했다. 2022년 3월 시드 투자로 인덱스벤처스, 엑스파벤처스 등 미국 유명 벤처캐피털(VC)의 투자를 받았다. 이 대표는 VC들을 직접 찾아가 영상 내의 시각적, 청각적 정보와 의미를 인간의 언어와 연계할 수 있는 초거대 AI 모델 개발이 필요하다는 점을 어필했다. 군 경험을 바탕으로 뭉친 초기 팀은 투자자들에게 신선한 매력으로 다가왔다. 특히, 이스라엘 스타트업들의 성공 사례를 통해 군 경험이 스타트업의 성공에 미치는 긍정적인 영향이 입증된 만큼, 투자자들은 이 팀의 성장 가능성을 높게 평가했다.

2023년에 들어서는 미국 엔비디아의 투자도 유치했다. 엔비디아는 국내 AI 스타트업에 직접 투자한 적이 없었다. 130억 원 규모의 프리 시리즈A 투자 유치에 엔비디아 외에도 인텔, 삼성전자의 기업형 벤처캐피털(CVC) 삼성넥스트, 한국투자파트너스 등도 참여했다.

동영상을 이해하는 AI

오늘날 매 순간 수백만 개의 비디오가 생성되고 소비되고 있다. 소셜 미디어를 중심으로 확산된 비디오는 이제 단순한 엔터테인먼트를 넘어 교육, 소통, 보안 등 다양한 분야에서 필수적인 도구가 되었다. 하지만 방대한 양의 영상 데이터를 효과적으로 이해하고 분석하는 것은 여전히 어려운 일이다.

먼저 영상 데이터를 처리하기 위해서는 컴퓨팅 부담이 매우 크다. 영상 데이터는 텍스트나 이미지에 비해 시간적 정보까지 담고 있어 처리해야 할 데이터의 양이 훨씬 많다. 예를 들어, 1초짜리 영상을 1초에 30 프레임으로 처리한다고 가정하면, 1분짜리 영상은 1,800개의 프레임을 처리해야 한다. 여기에 생성 AI의 트랜스포머 모델의 계산 복잡도까지 더해지면, 영상 데이터 처리에 드는 시간과 비용은 기하급수적으로 증가하게 된다.

트랜스포머 모델에서 각 단어는 다른 모든 단어와의 관계를 고려해야 한다. 만일 10개의 단어로 이루어진 문장이 있다면, 셀프 어텐션은 10 x 10 = 100번의 계산을 수행해야 한다. 만약 문장의 길이가 100개로 늘어나면, 계산 횟수는 무려 10,000번으로 급격하게 증가하게 된다. 이처럼 트랜스포머 모델의 셀프 어텐션은 시퀀스 길이가 길어질수록 계산량이 기하급수적으로 증가하는 특징을 가지고 있다.

동영상은 연속적인 이미지의 집합이므로, 각 프레임 간의 시간적 관계를 파악하는 것이 중요하다. 가령 사람이 걷는 동작을 인식하기 위해서는 각 프레임에서의 자세 변화를 시간적으로 연결하여 분석해야 한다. 이처럼 영상을 이해하기 위해서는 시간 정보를 모델링하는 것이 핵심이며, 이를 위해 일반적인 이미지 인식 모델과는 다른, 시간 정보에 특화된 기술이 필요한 것이다. 더욱이 동영상은 시각 정보와 동기화된 오디오 신호를 함께 제공하여, 시청자에게 더욱 풍부한 정보를 전달한다. 따라서 영상 분석 시에는 시각 정보와 더불어 시간에 맞춰 변화하는 오디오 신호를 함께 분석해야 한다.

트웰브랩스의 기술이 비전-언어 초거대 모델이라고 할 수 있다. 이는 기존의 컴퓨터 비전 모델과는 다른 것이다. 전통적인 비전 기술은 디지털 이미지를 이해하기 위해 뉴럴 네트워크와 머신러닝을 사용하다 보니, 객체, 사물, 행동 등은 잘 식별하지만, 영상 속의 상황을 이해하기 어려웠다. 사물과 행동 간의 관계를 식별하는 데 에는 한계가 있었던 것이다.

트웰브랩스의 파운딩 솔루션 아키텍트인 '트래비스 쿠튀르(Travis Couture)'는 기존 영상 분석 방식의 한계를 '콘텐츠 vs 컨텍스트'라는 개념으로 설명한다. 즉, 영상을 작은 단위로 나누어 분석하는 기존 방식은 영상이 가진 전체적인 맥락을 놓칠 수 있으므로, 트웰브랩스는 영상을 통째로 이해하고 처리하는 새로운 접근 방식을 제시한 것이다.

인간의 뇌가 끊임없이 방대한 양의 정보를 받고, 해석하고, 정리하는 것처럼 트웰브랩스의 멀티모달 AI는 인간의 뇌처럼 다양한 정보를 통합하여 의미를 파악한다. 영상 속 시간, 객체, 음성, 텍스트 등 다양한 요소를 벡터로 변환하여 수학적으로 모델링하고, 이를 통해 행동 인식, 패턴 인식 등 다양한 작업을 수행한다.

올해 트웰브랩스는 arXiv에 ‘비디오 파운데이션 모델 평가(Analysis and Insights from Holistic Evaluation on Video Foundation Models)’ 논문을 출판했다. 이 논문에는 영상 이해의 핵심 능력인 외관 및 동작 이해를 측정할 수 있는 평가 프레임워크를 제시되어 있다. 기존의 영상 분석 모델들은 외관 또는 동작 이해 중 하나에 한계가 있으며, 이러한 문제를 해결하기 위해 트웰브랩스는 TWLV-I라는 새로운 영상 기반 모델을 제안했다. TWLV-I는 영상의 핵심 정보를 효과적으로 포착하여 고품질의 시각적 표현을 생성하며, 이는 마치 사람이 영상을 보며 얻는 직관적인 이해와 유사하다.

출처: Lee, H., Kim, J. Y., Baek, K., Kim, J., Go, H., Ha, S., ... & Lee, A. (2024). TWLV-I: Analysis and Insights from Holistic Evaluation on Video Foundation Models. arXiv preprint arXiv:2408.11318.

솔루션 도입 사례

캐나다의 스포츠엔터 회사 MLSE(Maple Leaf Sports & Entertainment)는 방대한 영상 데이터를 효율적으로 관리 및 활용하기 위해 트웰브랩스를 이용하고 있다. 경기 후, 짧은 시간 안에 하이라이트 영상 제작 및 배포하고 소셜 미디어를 통해 팬들의 참여를 유도한다. MLSE는 트웰브랩스의 영상 분석 솔루션을 도입하여 팬들에게 더욱 풍성한 콘텐츠를 제공하고, 새로운 수익 모델을 만들어낸다. 이를 통해 MLSE는 팬 참여를 높이고, 브랜드 가치를 향상시키는 효과를 얻고 있다.

한편, 세종시는 트웰브랩스의 영상 분석 기술을 스마트 시티 구축에 활용하고 있다. 트웰브랩스의 솔루션은 세종시의 방대한 CCTV 영상 데이터를 실시간으로 분석하여 이상 징후를 탐지하고, 범죄 예방에 기여한다. 특히, 사람의 움직임, 사물의 변화 등을 정확하게 인식하여 위험 상황 발생 시 신속하게 대응할 수 있도록 지원한다.

서울-샌프란시스코 이원 운영

트웰브랩스는 서울과 샌프란시스코라는 글로벌 핵심 거점을 통해 효율적인 이원 운영 체제를 구축하고 있다. 서울은 뛰어난 기술 인력을 기반으로 한 연구개발의 중심지 역할을 수행하며, 샌프란시스코는 글로벌 시장 진출을 위한 전략적 거점으로서 투자 유치와 파트너십 구축에 집중하고 있다.

서울과 샌프란시스코 도시의 특성을 살려 최고 수준의 AI 인재를 확보하여 글로벌 시장에 대한 접근성을 높이고, 투자 유치를 통해 성장을 가속하며, 서로 다른 문화와 기술 배경을 가진 구성원들의 협업을 통해 혁신적인 아이디어를 만들어가고 있다는 점에서 한국의 새로운 글로벌 스타트업 모델을 제시하고 있다고 볼 수 있겠다.

하지만 이러한 이원 운영 체제는 시차, 문화적 차이, 조직 관리의 복잡성 등 다양한 어려움이 있다. 특히, 시차로 인한 실시간 협업의 어려움은 생산성 저하로 이어질 수 있으며, 서로 다른 문화적 배경은 의사소통 오해와 협업의 장벽으로 작용할 수 있다. 또한, 두 개의 거점을 다양한 이력을 가진 인재들을 효율적으로 관리하고 통합하기 위해서는 복잡한 조직 관리 능력이 필요하다.

트웰브랩스는 이러한 어려움을 극복하기 위해 다양한 노력을 기울이고 있다. 업무를 위해 영어를 공식 언어로 채택하고, 실시간 커뮤니케이션 도구를 활용하여 원활한 소통 체계를 구축했다. 특히, 서울 시간으로 오전 8시부터 11시까지를 ‘골든 타임’으로 정하여 양쪽 팀이 함께 일하는 시간을 확보함으로써 실시간 협업을 최대화하고 있다. 1년에 네 번 글로벌 워크숍을 통해 두 도시의 팀원들이 직접 만나 협업하고, 회사의 비전을 공유하며 팀워크를 강화하고 있다. 새로 입사한 직원들은 한국 사무소에 방문하여 2주 동안 한국 직원들과 함께 생활하며, 회사의 가치관과 문화를 직접 체험하는 ‘온보딩 프로그램’에 참여한다.

트웰브랩스는 영상 AI 분야의 혁신을 이끌며 글로벌 무대에서 메이저리거로서 빠른 성장을 이루고 있다. 서울과 샌프란시스코라는 두 개의 핵심 거점을 기반으로 글로벌 네트워크를 구축하고, 끊임없는 연구 개발을 통해 새로운 가능성을 열어가고 있다. 구성원들의 열정과 혁신적인 아이디어를 바탕으로 트웰브랩스가 더욱 성장하여 글로벌 최정상의 AI 기업으로 발돋움하기를 기대해 본다.

전성민 가천대 경영학부 교수<hr style="display:block !important; border:1px solid #c3c3c3" />
[한경 공동기획 글로벌 AI스타트업 사례연구]

0. 오프닝
1. 마키나락스
2. Claythis
3. 네이션A
4. 플립션
5. 환경 분야
6. 라이너
7. 핏스탑커넥트
8. 올거나이즈
9. 트웰브랩스