국립국어원, AI 한국어 학습자료 18억 어절…‘모두의 말뭉치’서 공개
국립국어원, AI 한국어 학습자료 18억 어절…‘모두의 말뭉치’서 공개
  • 이상명 기자
  • 승인 2020.08.25 16:20
  • 댓글 0
이 기사를 공유합니다

최근 10년간의 신문 기사·서적2만188종·방송자료·대본 등 수록
‘모두의 말뭉치’ 사이트에서 온라인 약정서 작성 후 이용 가능
'모두의 말뭉치' 사이트 첫 화면. (사진=국립국어원)
'모두의 말뭉치' 사이트 첫 화면. (사진=국립국어원)

국립국어원이 AI(인공지능)에 가르칠 한국어 빅데이터 18억 어절을 공개한다. 

25일 국립국어원에 따르면 인공지능의 한국어 처리 능력 향상에 필수적인 한국어 학습 자료 13종 18억 어절 분량을 25일 국립국어원 ‘모두의 말뭉치’에서 공개하는 가운데 관련 자료는 한국어 분야의 빅데이터로 전문 분야에서는 말뭉치(corpus)라고 한다. 

챗봇·인공지능 비서가 한국어를 정확하게 알아들은 후 분석을 통해 말로 전달하려면 다양한 한국어 말뭉치가 필요하다.

지난 2018년 대규모 한국어 학습자료 구축 사업을 시작한 국립국어원은 지난해까지 구축한 18억 어절 규모의 말뭉치를 이날 공개할 예정이다.

해당 자료는 국립국어원 ‘모두의 말뭉치’ 사이트에서 승인(온라인 약정서 작성) 후 시민 누구나 이용 가능하다. 

‘모두의 말뭉치’에는 최근 10년간의 신문 기사 및 서적 2만188종과 일상생활 속에서 이뤄지는 음성 대화 및 SNS 대화, 방송자료, 대본 등이 수록됐다. 아울러 각종 인터넷 사이트의 블로그·게시판 등(210만건)도 포함됐다.

국립국어원은 “초기 구축에 큰 비용과 시간이 소요되는 한국어 말뭉치의 대규모 공개로 중소기업 등이 한국어 처리기술 개발에 쉽게 접근할 수 있게 됐다”고 밝히며 “대기업이나 관련 연구 기관 등도 다양한 서비스 개발과 성능 향상에 많은 도움을 받게 됐다”고 말했다. 

vietnam1@shinailbo.co.kr