AI 알고리즘 연구 기업 하인텔은 AI 학습 시간과 전력 사용량을 줄이는 방법을 담은 논문을 사전 공개 사이트 아카이브(arxiv.org)에 발표했다고 12일 밝혔다. 생성 AI 핵심 기술인 ‘주의 기반 트랜스포머’를 양자역학적으로 재해석했다.
트랜스포머는 문장 속 단어가 쓰인 맥락을 학습하는 신경망 기술이다. 오픈AI의 챗GPT, 네이버의 하이퍼클로바X 등이 이 기술로 작동한다. 획기적인 기술이지만 서버 사용량이 많고 학습 시간이 길다는 점이 한계로 꼽혔다.
하인텔은 복잡한 트랜스포머 동작을 물리학적 계산으로 환원했다. 생성 AI에 사용되는 트랜스포머는 입력된 사건(단어)으로부터 수백억 개 매개 변수로 이뤄진 계산 단계를 거쳐 다음에 일어날 사건을 예측한다. 하인텔 관계자는 “양자역학에서 미세 입자가 다른 상태로 넘어갈 때 예측에 사용되는 ‘파인먼 경로적분’ 단계와 트랜스포머 동작이 거의 같다는 점을 관찰했다”고 말했다. 긴 사건 정보를 소수의 상태 벡터로 압축할 수 있고, 많은 메모리를 쓰지 않고도 문맥 정보의 손실을 최소화할 수 있다는 설명이다.
일정 수준 이상의 생성 AI를 만들려면 막대한 학습 시간과 전력이 필요하다. 자본력을 갖춘 기업이 아니면 개발에 나서기 어렵다. 글로벌 빅테크(대형 기술기업)들은 데이터센터 가동에 필요한 전력을 확보하는 데 몰두하고 있다. 이코노미스트에 따르면 알파벳(구글), 아마존, 마이크로소프트(MS) 등 클라우드 컴퓨팅기업은 지난 1분기 400억달러(약 55조원)를 투자했는데 이 중 대부분이 AI 구동을 위한 데이터센터 관련 투자였다. 국제에너지기구는 전 세계 데이터센터가 사용하는 전력량이 2022년 460TWh에서 2026년 1050TWh로 급증할 것이라고 내다봤다.
권대석 하인텔 대표는 “난해한 트랜스포머 동작 원리에 대해 새로운 접근 방법을 제시한 만큼 구글, 오픈AI 등 세계적 AI 기업과 비교해도 앞선 성과”라고 자평했다. 김동현 충북대 물리학과 교수는 “논문이 제안한 모델이 입증되면 파급력이 작지 않을 것”이라고 말했다.
고은이 기자 koko@hankyung.com
관련뉴스