이 기사는 프리미엄 스타트업 미디어 플랫폼 한경 긱스에 게재된 기사입니다.
최근 인공지능(AI)을 효과적으로 사용하기 위해 다양한 솔루션이 주목받고 있다. ML옵스(MLOps, Machine Learning Operations)는 AI 모델 개발, 관련 데이터 활용, 해당 서비스 배포와 운영 등 AI을 활용하는 기업의 모든 관련 업무를 해결해주는 방법이다. 거대언어모델(LLM)은 챗GPT 등 생성형 AI의 핵심 기술이다. AI를 활용하려는 기업들은 최근 ML옵스를 활용해 맞춤형 AI 서비스를 구축하거나, 기존 LLM을 안전하고 효율적으로 사용하는 방식을 택하고 있다. 국방 분야에서도 마찬가지다. 한국국방연구원(KIDA) 국방데이터연구단과 '바른 과학기술사회 실현을 위한 국민연합'(과실연) AI미래포럼이 지난 24일이 주최한 ‘9차 국방 데이터 혁신 네트워크’에선 'AI 획득(개발) 프로세스' 관련 최신 동향을 공유하고 관련 논의의 자리를 가졌다. 안재만 베슬AI 대표와 신기빈 올거나이즈 최고인공지능책임자(CAIO)가 관련 내용을 발표했다. 이번 행사는 한국IT서비스학회와 마음AI가 후원했다.
"AI 모델 관리 자동화의 핵심 ML옵스"
안재만 베슬AI 대표는 “AI가 화두가 된 건 2019~2020년부터”라며 “AI를 어떻게 비즈니스에 적용할 것인가, 적용한 다음에 성능 떨어지면 어떻게 할 것인가, 실제 프로덕션에 갔을 때 어려운 점 등대해 고민하기 시작했다”고 설명했다. 이어 "AI 모델을 한번 개발하고 끝나는 게 아니라 이 모델을 계속 모니터링하고 성능이 떨어지면 업데이트하고 이런 주기를 만드는 것이 MLOps의 전반적인 과정"이라고 설명했다.베슬AI는 고객사의 AI 모델과 관련 서비스 도입을 돕는 스타트업이다. AI 모델 개발, 데이터 학습, 관련 서비스 운영 등 AI을 활용하는 기업의 모든 관련 업무를 해결해 준다. 베슬에이아이는 최근 1200만 달러(약 158억 원) 규모의 시리즈 A 투자를 유치하기도 했다. 국내에서는 현대자동차, LG전자, 티맵 모빌리티 등과 협업 중이다. 해외에서는 구글 클라우드, 오라클 등과 파트너십 관계다.
안 대표는 "ML옵스는 모델을 한번 만들었으면 계속 리플레이에서 재현 가능해야 한다"며 "자동으로 모델이 학습하고 업데이트하는 개발 방법을 만드는 프로세스나 방법론이 ML옵스"라고 말했다. 그는 "국방 분야는 외부 API를 사용할 수 있는 환경이 아니기 때문에 자체 모델을 개발해서 폐쇄망에서 계속 해당 모델을 개발해 한다"며 "이렇게 자체 데이터를 자체 모델을 구축할 때 어떻게 컴퓨팅을 구성하고 어떻게 데이터를 구축하고 데이터와 컴퓨팅을 어떻게 엮어서 계속 모델을 만드는 데 ML옵스의 필요성을 얘기할 수 있다"고 설명했다.
안 대표는 ML옵스 도입에 크게 다섯 단계가 있다고 강조했다. 그는 "AI를 하기 위해 연구자를 데려오고 조직을 세팅하고 데이터로 모델을 만드는 것이 레벨-1"이라고 설명했다. 이어 "이 단계의 문제는 해당 직원이 퇴사하면 다시 같은 업무를 해야 한다는 것"이라며 "모든 걸 다 수작업을 했고 재연도 안 되고 1년 전에 만든 모델을 어떻게 만들었지, 무슨 데이터로 만들었지, 기록이 안 남아 다시 해야 되는데 대부분의 회사들이 이 단계에 머물러 있다"고 지적했다.
레벨-1 다음인 레벨0은 실험의 데이터, 코드, 스크립트 등을 재현 가능하게 관리하는 단계다. 레벨1은 코드와 데이터의 업데이트가 모델에 자동 반영되고, 레벨1.5는 실제 서비스 중인 모델의 지표 변화를 추적하고 재학습한다. 마지막 레벨2는 파이프라인을 머신러닝 조직의 수요에 따라 자유롭게 삭제, 수정, 추가할 수 있는 자동화된 시스템이다.
안 대표는 "국방 분야에서 ML옵스를 도입할 때 예를 들면 드론이 정찰을 계속하면서 정찰된 데이터를 바탕으로 모델을 학습하고 이런 자동화된 파이프라인을 만들고 싶은데 국방에서는 어려운 점이 많다"고 말했다. 그는 "첫 번째로 굉장히 보안의 수준이 높아서 망들이 분리돼 있고 그 안에서 효율적인 시스템을 구축해야 한다"고 설명했다. 이어 "효율적인 시스템은 다 바깥에 있어서 안에 구축하는 거에 대해 고민하게 된다"고 덧붙였다.
안 대표는 "민간 클라우드도 사용하기 어렵고 제한된 환경에서 뛰어난 엔지니어나 개발자가 손발 없이 일하는 것 같은 그런 상황"이라며 "연구의 자유도를 보장하면서 프로세스를 표준화하고 보안이나 효율적인 면에서 관리를 해야 하는 것이 ML옵스의 국방 연구 분야에 도입되기 어려운 이유"라고 말했다.
안 대표는 "국방부에서 민간 클라우드 사용이 불가능하기 때문에 컨테이너 기반으로 업무 실행 환경을 표준화하는 작업들을 많이 하게 된다"며 "물리 서버 환경을 쭉 묶어서 민간 클라우드를 사용하지 못하는 문제점을 해결한다"고 설명했다. 그는 "사실 민간이나 국방 분의 ML옵스의 과정이 큰 차이점은 없지만 국방에선 민간 클라우드을 사용하기 어렵고 폐쇄망에서 보안이나 효율성을 챙기는 솔루션이나 플랫폼을 도입하면서 접근한다"고 말했다.
안 대표는 "AI의 역사를 보면 앞으로 3년에서 5년 안에 모든 회사의 의사 결정이나 오퍼레이션이 전무 AI로 이루어질 것"이라며 "법원도 AI로 판결문을 대신 쓰고 국회에서는 법을 AI로 만들 수 있다"고 말했다. 이어 "국방에서는 자동으로 영상을 인식해서 위험을 파악할 것"이라며 "이런 종류의 AI 시스템을 만들기 위해서는 하나의 큰 모델로 만들어지는 것이 아니라 수십 개의 모델들이 서로 커뮤니케이션하면서 만들어질 것이라는 것이 제가 보는 AGI의 비전"이라고 덧붙였다.
"LLM에선 맞춤형 데이터 관리 필수"
신기빈 올거나이즈 CAIO는 "금융, 공공 등의 고객사는 폐쇄망에서 거대언어모델(LLM)을 쓰길 원하는데 이런 부분에서 어려운 점이 있다"고 말했다. 이어 "LLM에선 데이터 관리, 학습, 성능 측정, 배포 등 1년의 과정이 전부 포함돼 있다"며 "실제 고객의 말을 들어보면 '그냥 문서만 올리면 되는 거 아닌가요'라고 얘기하지만 학습 데이터도 중요하다"고 덧붙였다.올거나이즈 LLM 올인원 솔루션 기업이다. 지난 6월 한국어 실무에 강한 LLM인 '알파-인스트럭트’을 출시했다. 올거나이즈의 알파-인스트럭트 모델은 메타의 오픈소스 LLM인 '라마3'를 기반으로 제작된 파라미터(매개변수) 8B(80억) 규모의 경량 LLM이다. 한국어를 잘 이해할 수 있도록 라마3를 개량한 모델과 지시 사항을 따르는데 특화된 라마3의 인스트럭트 모델을 병합하는 방식으로 제작됐다.
신 CAIO는 "최근에는 챗GPT 방법론을 따르고 있고 대부분 LLM도 해당 방식을 따르고 있다"며 "처음엔 굉장히 많은 텍스트를 집어넣고 이 과정에서 시간이 오래 걸린다"고 말했다. 그는 "여러 연구로 알려지기로 LLM가 보유한 지식은 이 단계에서 학습되는 것 같다"고 덧붙였다.
그는 "다음은 '인스트럭 튠' 단계로 챗GPT의 경우에는 이용자의 지시나 질문을 잘 알아서 대응하는데 이 단계에서 '사람이 이렇게 시키면 저렇게 행동해라'라는 지식을 따르는 능력을 획득하는 단계"라고 설명했다. 그는 "이 단계도 데이터가 많이 필요하지만 '프리 트레인' 단계만큼 많이 필요한 건 아니다"라며 "데이터의 수준도 점점 중요해진다"고 지적했다. 신 CAIO는 "마지막 단계는 얼라인먼트(Alignment)에선 '하지 말 것'들을 금지시키고 폭언 등을 못하게 하는 것"이라고 말했다.
신 CAIO는 "LLM 개발이 '프리 트레인' 단계만 있다는 오해도 있지만 '프리 트레인' 단계도 쉽지는 않다"고 말했다. 그는 "기업이 보유한 문서가 대부분 PDF, docx처럼 사람 독해를 위한 문서이고 기계(컴퓨터)가 읽으라고 만든 문서는 아니기 때문"이라고 설명했다. 이어 "기계가 잘 이해할 수 있도록 하는 단계도 굉장히 중요하다"고 말했다.
신 CAIO는 LLM 개발에서 데이터 중요성을 다시 강조했다. 그는 "LLM을 학습시킬 때 불안정한 부분이 있는데 이질적인 데이터 한 개만 섞여 있어도 갑자기 모델 학습이 잘 되지 않을 수 있다"고 말했다. 그는 "자동화를 해도 LLM에선 아직 사람의 손길이 필요해고 완전 자동화는 좀 멀었다고 생각한다"고 덧붙였다.
신 CAIO는 "데이터 전 처리 작업도 필요하고 PDF에서 텍스트를 추출하면서도 문장이 어색하게 잘려 있다면 말이 되게 말들어야 한다"며 "표 같은 것도 따로 복원해야 한다"고 지적했다. 그는 "데이터가 어느 정도 양이 되지 않으면 이미 엄청난 데이터로 학습 LLM이 꿈쩍도 하지 않는다"라며 "학습할 데이터를 추가로 만드는 경우도 있다"고 말했다. 신 CAIO는 "AI 모델을 계속 학습시키면 과거 데이터를 기억 못 하기도 한다"며 "특화된 데이터를 학습하면서 이전의 보편적인 데이터와 지시 등을 잊어버리면 고객사는 이런 모델을 원하지 않을 것"이라고 말했다.
신 CAIO는 "LLM을 제공할 때 인프라 선택도 중요하다"며 "인프라 기술도 빠르게 발전하기 때문에 이용자과 제공자가 원하는 LLM 성능을 확보하기 위해 최신 기술과 트렌드도 계속 확인해야 한다"고 강조했다. 그는 "효과적인 LLM 제공을 위해선 이용자 규모, 처리 속도, 한국어 실력 등도 따져야 한다"고 말했다.
김주완 기자 kjwan@hankyung.com
관련뉴스