AICE(AI Certificate for Everyone·에이스)는 기업 내부 데이터를 활용해 실무에서 유용하게 쓸 수 있는 AI 모델을 구축하는 실력을 평가하는 테스트다. 적절히 활용하면 AI와 관련한 기업들의 고민을 덜어줄 수 있다.
1일 AICE 사무국에 따르면 내년 1월부터 공인 민간자격으로 인정되는 AICE 어소시에이트는 프로그래밍 언어인 파이선으로 엑셀과 같은 표 형식(태뷸러) 데이터를 분석, 처리, 모델링하는 실력을 테스트한다. AI의 원리를 이해하고 업무에 적용하는 프로세스 전체를 경험해 실무에 활용하는 역량을 키우도록 하는 게 목표다.
시험은 주피터 랩(jupyter lab) 환경에서 치러진다. 데이터 사이언스 분야에서 가장 흔히 사용하는 툴이다. 다른 개발 툴과 달리 대화형 구조로 돼 있어 파이선 명령어의 결과물을 바로 확인할 수 있다. AICE 홈페이지에서도 KT의 클라우드 환경을 통해 주피터 랩을 제공 중이다.
AICE 어소시에이트는 90분 동안 총 14문항을 풀어야 한다. 실제 업무와 동일하게 탐색적 데이터 분석, 데이터 전처리, 머신러닝·딥러닝 모델링, 모델 성능 평가를 순차적으로 해볼 수 있다.
가장 먼저 해야 할 일은 실습을 위한 라이브러리 패키지 불러오기다. 데이터프레임을 다루기 위한 판다스(pandas)와 시각화에 사용되는 매트플롯라이브러리(matplotlib) 등이 대표적이다. 다음은 데이터를 불러와 분석을 한다. 주어진 데이터가 몇 개의 칼럼(column)을 가졌는지, 데이터가 비어 있는 결측치는 얼마나 되는지 등을 찾는 일도 빠뜨리면 안 된다. 시각화 기능 가운데 히트맵으로 변수 간 상관관계를 찾거나 박스플롯으로 이상치가 많은 데이터를 파악할 수도 있다. 데이터에 대한 이해도가 높을수록 이후 과정도 수월해진다.
데이터 분석을 마쳤다면 전처리를 해야 한다. 비어 있는 데이터는 분석 결과에 따라 최빈값이나 평균치 등 알맞은 값을 채워 넣는다. 데이터를 AI가 이해할 수 있도록 정제하는 레이블 인코딩도 중요하다.
다음은 전처리가 완료된 데이터로 머신러닝, 딥러닝 알고리즘을 이용해 AI 모델을 구축할 차례다. 사이킷런, 텐서플로 같은 라이브러리를 통해 AI 모델을 만들고 원하는 예측을 실행해볼 수 있다.
마지막으로 학습률, 최대 깊이 등 하이퍼파라미터의 설정을 바꿔 모델의 정확도를 높이는 과정까지 시험 문제에 포함된다.
이승우 기자 leeswoo@hankyung.com
관련뉴스