국방에도 치명적인 'AI 데이터 오염'…"방어막·신뢰성 평가 필수" [긱스]

입력 2024-07-22 13:00 수정 2024-07-22 13:56

국방에도 치명적인 'AI 데이터 오염'…"방어막·신뢰성 평가 필수" [긱스]

최근 딥페이크, 악성 코드 생성 등 인공지능(AI)을 악용하는 사례가 늘고 있다. 국방 분야에서도 이런 문제가 발생할 수 있다. AI가 잘못된 데이터를 학습하고, LLM이 오판해 전장에서 큰 문제를 일으킬 수 있다는 우려도 나온다. 한국국방연구원(KIDA) 국방데이터연구단과 '바른 과학기술사회 실현을 위한 국민연합'(과실연) AI미래포럼이 지난 18일이 주최한 ‘2024년 6차 국방 데이터 혁신 네트워크’에서 '데이터 오염'에 대해 논의한 이유다. AI 스타트업 에임인텔리전스와 셀렉트스타가 관련 내용을 발표했다. 이번 행사는 한국IT서비스학회와 모두의연구소가 후원했다.

에임인텔리전스, 안전한 AI를 위한 안전망 구축
유상윤 에임인텔리전스 대표는 "에임인텔리전스는 LLM(거대언어모델) 등 생성형 AI 서비스를 안전하게 활용하고 관련 리스크를 진단해 일종의 가드레일(안전장치)을 만드는 기업”이라고 소개했다. 유 대표는 "정보 추출과 유출, 공격, 편향성 등 AI에는 이런 위험이 이미 있었다"며 "생성형 AI에서는 콘텐츠를 생성하는 과정에서 관련 정보 추출이나 유출이 더 쉬워졌다"고 지적했다.

유 대표는 "원래 일반 사회에도 편향성이 존재하기 때문에 AI 모델에도 그런 부분에 영향을 줄 수밖에 없다"며 "이것에 대해 옳고 그름에 대한 철학적인 논쟁 등 관련해서 오랜 기간 연구도 있었다"고 말했다. 그는 "데이터 오염은 일종의 백도어 공격일 수도 있고 AI의 데이터 학습 과정에서 트리거(계기)를 숨겨 놓고 평소 AI 모델이 잘 작동하다가 트리거를 만나면 이상한 행동을 하도록 구축하는 것도 가능하다"고 설명했다.

유 대표는 "생성형 AI에선 앞서 설명한 위험 요소가 범죄 행위를 도와 딥페이크나 해킹 코드를 생성하고 가짜뉴스도 만들며 피싱도 너무 쉽게 할 수 있는 문제가 있다"고 말했다. 그는 "마이크로소프트(MS)는 자사의 AI 기술인 바사는 쉽게 영상을 만들 수 있지만 관련 논문과 영상 사례만 소개하고 모델 자체는 공개하지 않았다"라며 "MS가 위험 요소가 있다고 판단했기 때문"이라고 설명했다. 유 대표는 챗GPT, 미드저니 등을 통해서도 범죄에 쓰일 수 있는 코드와 이미지 등을 쉽게 만들 수 있다고 강조했다.

유 대표는 이런 문제를 해결하기 위해 가드레일 시스템이 필요하다고 설명했다. 유 대표는 "AI로 관련 생성형 콘텐츠를 감지하는 방법은 최근 성공률이 80% 이상 올랐다"며 "입력값(잇풋)이나 출력값(아웃풋)을 필터링(검열)하는 경우도 있는데 단순 키워드나 주제 등을 대상으로 할 수도 있다"고 말했다. 실제 미드저니와 챗GPT 등에서는 이용자가 입력한 내용이나 생성된 콘텐츠에 대해 거절하거나 경고하는 문구가 뜬다.

최근에는 일명 '인간 피드백 기반 강화 학습(Reinforcement Learning from Human Feedback·RLHF)' 등의 다양한 방법으로 AI 악용 문제를 해결하려고 한다. 유 대표는 "AI 모델이 성장할 수록 관련 요소를 탐지하는 것이 어려워지고 있고 창과 방패의 대결처럼 새로운 탐지 방법이 나오면 그걸 피하는 모델도 나오고 있다"고 말했다. 유 대표는 "에임인텔리전스는 정확도가 높고 저렴하며 고객사 맞춤형의 가드레일 시스템을 개발하고 있다"고 밝혔다.

셀렉트스타, "AI의 신뢰성 평가 시스템 마련"
이찬수 셀렉트스타 팀장은 "셀렉트스타는 LLM 상용화 과정에서 데이터 관련 문제를 해결하는 기업"이라고 소개했다. 셀렉트스타는 학습용 데이터 구축, 데이터 저작권 문제 해결 등이 주요 사업이다. 이 팀장은 "원천 데이터를 정비하거나 데이터를 구조화하고 생성형 AI 서비스의 성능을 올리는 연구와 비즈니스도 하고 있다"고 말했다.

셀렉트스타는 지난해 국내 최초로 LLM 관련 신뢰성 벤치마크 데이터 세트을 구축했다. LLM 신뢰성 벤치마크 데이터는 LLM의 신뢰성을 △무해성(Harmless) △정보정확성(Honesty) △도움적정성(Helpfulness) 등 다양한 방면으로 평가할 수 있는 데이터 세트를 뜻한다. 기존 벤치마크 데이터가 LLM이 얼마나 특정 문제를 잘 푸는지, 윤리적인 문제가 없는지 등의 영역만을 다뤘다. 셀렉트스타의 벤치마크 데이터는 사회적 가치관 등 LLM이 해당 국가 구성원의 생각과 지식 수준이 얼마나 일치하는지도 평가하는 걸 돕는다.

이 팀장은 "올해 과학기술정보통신부와 국내 최초로 레드팀 챌린지도 개최했다"고 말했다. 레드팀 챌린지는 AI 시스템의 유해하거나 차별적 결과, 시스템 오용 등 결함 및 취약성을 식별하기 위한 테스트 행사다. 참가자는 프롬프트 공격을 통해 의도적으로 AI가 욕설이나 비윤리적 답변, 편향된 답변 등 유해 정보를 생성하도록 유도하는 방식으로 AI 모델의 결함이나 취약점을 찾는다.

이 팀장은 "최근 LLM을 도입하고 개발하는 이들이 AI가 잘 작동하는지, 문제는 없는지, 이런 것을 어떻게 평가해야 하는지 문의가 많다"고 말했다. 이어 "이용자가 의도하지 않은 답변은 신뢰성을 떨어트리고 여기서 신뢰성은 품질과 안정성을 모두 의미한다"고 덧붙였다. LLM은 품질과 안정성 모두 좋은 평가를 받아야 신뢰성을 갖게 된다. 이 팀장은 "구글이 처음 LLM 바드를 내놓고 잘못된 답을 내놓은 것이 알려지면서 구글의 주가가 8% 급락하는 등 AI 서비스 기업의 기업 가치에도 큰 영향을 준다"고 말했다.

이 팀장은 "AI 서비스의 신뢰성 검증 프로세스에선 평가 기준, 평가 데이터를 먼저 수립하는 것이 매우 중요하다"며 "각 세부 기준에 대한 가중치를 정하고 점수화하는 과정도 필요하다"고 설명했다. 이어 "바이너리(binary) 평가를 최근 선호하는데 그 이유는 사람의 주관적인 요소를 줄여 좀 더 객관적이고 명확하게 평가를 할 수 있기 때문"이라고 덧붙였다.

주요 평가 지표는 관련성, 일관성, 유창성, 사실성, 추론 등이다. 이 팀장은 "이런 지표를 참고해서 서비스 특징에 맞게 수정하는 것도 필요하다"고 말했다. LLM 평가는 자동 평가와 사람 평가 등 크게 두 가지 방법으로 구성된다. 이 팀장은 "AI 서비스 평가에 대한 글로벌 공통 평가 기준은 아직 없고 국내에선 작년에 처음 LLM 신뢰성 벤치마크 데이터 세트를 구축하면서 발전하고 있다"고 말했다.

김주완 기자 kjwan@hankyung.com