[기자수첩] 옛 평가지 꺼내든 LG 인공지능팀

LG그룹은 지난 19일 한국어 인공지능(AI) 기계독해 평가에서 1위를 차지했다는 소식을 전했다. LG사이언스파크가 개발한 AI프로그램이 AI학습용 한국어 표준데이터셋 ‘코쿼드(KorQuAD)1.0’ 기계독해 평가에서 최고점(F1, 95.39)을 받았다는 것.

AI ‘표준 데이터셋’은 AI가 언어학습을 하는데 필요한 문서, 질문, 답변을 모은 학습데이터를 말한다. 영어 데이터셋은 SQuAD, 이탈리아어는 SQuAD-it, 중국어는 ODSQA, 일본어 NIILC 등으로 불린다.

코쿼드는 ‘LG CNS가 개발해 2018년 12월 무료 공개한 한국어 데이터셋이다. 위키문서 5만2000건을 바탕으로 생성한 7만건의 질문-답변을 제공한다. 특히 AI의 성능을 비교 평가할 수 있는 순위표(리더보드) 기능도 지원해 AI 개발자들의 격전지가 되고 있다. LG가 코쿼드 1.0의 리더보드 첫 줄에 이름을 올리며 자신들의 AI 한국어 독해 능력을 입증한 셈이다.

다만 LG의 이번 성과 발표가 아쉬운 건 ‘코쿼드 1.0’이 옛 평가방식이란 점이다. LG CNS는 지난해 9월 코쿼드 2.0을 공개했다. 이는 코쿼드 1.0 대비 한국어 표준데이터를 10만개로 확대하고, 장문의 답변이 가능한 AI를 개발할 수 있도록 강화한 버전이다. AI가 표 또는 리스트 형태에 담긴 정보도 읽어 답변할 수 있게끔 표준데이터 범위를 확대했고, 탐색시간을 평가방식에 포함시키기도 했다.

스코어보드를 살펴보면 AI의 학습 난이도가 확실히 올라간 듯하다. 1.0에서 1~5위의 점수는 95점대를 상회한다. 반면 2.0에서 1~2위만 88점을 넘겼고, 10위부터는 70점대로 내려간다. 흥미로운 건 정확도 면에서 선두였던 삼성SDS의 AI가 탐색시간 기준으론 9위까지 밀렸다. 코쿼드 1.0은 단문에서 답을 찾는다면, 2.0은 좀 더 어렵거나 복잡한 문장을 학습하고 문제를 풀기 때문이다.

LG 관계자는 이에 대해 코쿼드 2.0 학습·테스트는 아직 진행하지 않았고, 앞으로 그에 맞는 AI서비스를 개발할 경우 테스트할 것이라고 말했다. 또 “챗봇 서비스에 필요한 AI기술을 개발해 테스트를 한 것”이라며 “챗봇 서비스에 적합한 테스트는 1.0으로, 카테고리가 다를 뿐 베이직, 어드밴스드 등 (난이도를) 뜻하진 않는다”고 덧붙였다.

다만 업계 일각에선 LG의 주장과 상반된 의견을 제시한다. 한 업계 관계자는 “현재 많은 AI개발자들이 코쿼드 1.0과 2.0의 학습·테스트를 병행하며 기술을 개발 중”이라며 “당장은 1.0으로만 해도 챗봇이나 AI스피커에 도입 가능하다. 그러나 화자의 복잡한 질문에도 답을 낼 수 있는 2.0이 더 미래적으로 가치가 있을 것으로 본다”고 말했다.

[신아일보] 장민제 기자

jangstag@shinailbo.co.kr

장민제 기자 다른기사 보기