‘데이터 중심 접근법’은 인공지능(AI) 업계에 던져진 새로운 물음입니다. 글로벌 AI 4대 구루로 불리는 앤드류 응 랜딩AI 최고경영자(CEO)가 최근 자신의 회사를 운영하며 강조하는 개념이기도 합니다. 그는 10년 내 AI 학습의 근간이 되는 ‘데이터셋’ 구축과 관련한 패러다임 시프트가 일어날 것으로 예상하고 있습니다. 구글 브레인 프로젝트의 창시자이자, 미 스탠퍼드대 교수로도 활약한 그는 어떤 미래를 내다보고 있을까요? 15년 전 ‘딥러닝의 부흥’을 예측했던 응 CEO의 새로운 전망을 소개합니다.
응 CEO는 최근 미국 정보기술(IT) 전문매체 벤처비트를 만나 자신의 창업은 산업 생태계를 위해서였다고 말했습니다. 그는 특히 제조업을 “모든 삶에 큰 영향을 미치지만, 많은 사람들이 잘 볼 수 없는 위대한 산업”이라고 강조했습니다. 이어 “인터넷 산업을 변화시킨 AI 기술을 가져다, 제조업 종사자들을 돕는 데 활용하고 싶다”고 설명했습니다.
응 CEO가 랜딩AI를 창업한 것은 지금으로부터 5년 전인 2017년입니다. 당시 랜딩AI는 카메라 이미지를 사용해 제품의 결함을 찾는 AI 기반 시각 검사 시스템을 만들었습니다. 공장 조립라인에 설치해 근로자들의 역할을 대신하는 기기였습니다. 다만 현장에서 잘 쓰이지는 못했다고 합니다. 응 CEO는 “창업 직후엔 주로 컨설팅 업무에 집중했다”고 털어놨습니다. “소비자 대상 소프트웨어(SW)는 1억 명 또는 10억 명 사용자에게 일체형 AI 시스템을 제공할 수 있지만, 제조업은 모든 공장마다 맞춤형 AI 시스템이 필요했다”는 이유 때문입니다.
이는 랜딩AI가 데이터 중심 접근법을 강조하게 된 이유와 같습니다. 응 CEO가 내세우는 랜딩AI의 핵심 기술은 5장정도의 이미지 데이터만 갖고 있어도 불량품 점검 시스템을 만들 수 있다는 점이었습니다. 대량의 데이터를 강조하던 지금까지의 AI 설계 방식과는 배치된 형태였습니다. 시간이 지나고 랜딩AI의 고객 프로젝트가 쌓일수록, 응 CEO는 자신의 생각에 확신을 얻었다고 합니다. 그는 “데이터 중심 AI에 대해 말하기 시작한 후 받은 반응은 내가 약 15년 전 딥러닝에 대해 연구하기 시작했을 때를 떠올리게 한다”며 “‘절대 안 될 것이다’ ‘새로운 게 없다’는 반응이 많지만, 방대한 데이터가 필요 없다는 것에 이미 공감하는 사람들도 나타나고 있다”고 말했습니다.
그는 데이터 중심 접근법이 성공하기 위해 ‘일관성’을 갖춰야 했다고 말했습니다. “한 전문가에게 결함으로 간주될 수 있는 데이터가 다른 전문가에 의해 허가된다면, 제대로 된 데이터가 아니다”는 것이 그의 설명입니다. 실제로 산업 현장에서 방대한 데이터를 오류 없이 취합해 내는 것은 불가능에 가깝습니다. 결국 결함 모델을 훈련시키는 것보다, 정확한 이미지 라벨을 두고 결함을 찾아내는 것이 더 효율적이라고 결론을 내린 것입니다.
오픈AI의 ‘GPT-3’, 구글 ‘BERT’와 같은 초거대 언어모델, 그리고 방대해지는 컴퓨터 비전 관련 모델들도 산업계에 완전한 효용을 가져다주는 것은 아니라고 지적했습니다. 데이터셋이 방대해지면, 상대적으로 응용 분야의 지식이 개입될 여지가 적어지기 때문이란 설명입니다. 하드웨어 측면에서도 엔비디아와 인텔 등이 만드는 AI칩이 반드시 AI의 성능과 연결되진 않는다고 꼬집었습니다. 결국 응 CEO는 AI 업계에서 앞으로의 10년은 소수의 제대로 된 데이터가 만드는 응용 분야의 확장이라고 강조했습니다. 그는 “지난 10년 동안 AI는 빅데이터에 집중돼 왔다”며 “AI에 대한 관심이 ‘작은 데이터’로 옮겨간다면 더 많은 AI 애플리케이션이 가능해질 것이다”고 말했습니다.
이시은 스타트업·부 기자
관련뉴스