네이버 하이퍼클로바X, 한국판 AI 능력 평가서 GPT·제미나이 넘어서

한국 특화 지식 GPT-4 앞서

그동안 제대로 평가하기 힘들었던 AI(인공지능)의 한국어 능력을 정확히 평가하는 지표가 개발되면서 네이버클라우드의 하이퍼클로바X 경쟁력이 입증됐다.

네이버클라우드는 하이퍼클로바X(HyperCLOVA X)가 한국판 AI 성능 평가 체계 ‘KMMLU'에서 오픈AI, 구글의 생성형 AI보다 높은 점수를 기록하며 소버린 AI로 우수한 성능 경쟁력을 확인할 수 있었다고 27일 밝혔다.

KMMLU는 국내의 대표적인 오픈소스 언어모델 연구팀인 ‘해례(HAE-RAE)'가 이끈 AI 성능 평가 지표 구축 프로젝트다. 인문학, 사회학, 과학·기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성돼 있다.

수학적 추론 능력과 같이 전 세계 공통적으로 적용 가능한 지식을 묻는 문항 비중이 약 80%, 한반도 지리, 국내법 등 한국 특화 문제 해결 능력을 평가하기 위한 문항은 20%로 AI의 보편적 능력과 로컬 지식을 고르게 측정해 한국 사용자에게 유용한 AI를 종합적으로 판단했다.

오픈 AI, 구글 등 북미 테크 기업들은 자사 AI 성능을 확인하기 위해 주로 ‘MMLU’를 지표로 사용한다. 그러나 AI 모델의 한국어 능력을 평가할 때, 'MMLU' 문항에 내재된 영어 문화권 맥락 때문에 능력을 제대로 가늠하기 어려운 한계가 있었다. KMMLU는 한국어 원본의 시험 문제들로 구성돼 국내·외 AI의 한국어 이해 역량도 보다 정확하게 평가할 수 있다.

KMMLU 연구 논문에 따르면 하이퍼클로바X는 오픈AI의 GPT-3.5-터보(Turbo)와 구글의 제미나이 프로(Gemini-Pro)보다 높은 점수를 기록했다. 한국 특화 지식 기준으로는 오픈AI의 GPT-4보다 높은 점수를 기록했다.

네이버클라우드는 KMMLU를 통해 입증된 하이퍼클로바X의 성능 경쟁력을 바탕으로 하이퍼클로바X를 보안과 성능을 모두 갖춘 ‘소버린 AI' 솔루션으로 발전하겠다는 계획이다.

성낙호 네이버클라우드 하이퍼스케일 AI 기술 총괄은 “하이퍼클로바X는 세계 공통의 보편 지식에 한국 특화 문제 해결 능력을 더한 소버린 AI로 우수한 성능과 강력한 보안을 갖춘 솔루션과 함께 국내 산업계 전반에서 도입이 이뤄지고 있다”며 “자국어 중심 AI에 대한 전 세계적 수요가 관찰되는 만큼, 한국에서 확인한 소버린 AI의 경쟁력을 바탕으로 향후 글로벌 시장 진출에도 속도를 낼 것”이라고 말했다.

[신아일보] 우현명 기자

wisewoo@shinailbo.co.kr