한은 "뉴스 텍스트 활용 모형, 공식 통계 대비 최대 9개월 선행"
한은 "뉴스 텍스트 활용 모형, 공식 통계 대비 최대 9개월 선행"
  • 박정은 기자
  • 승인 2022.05.16 13:32
  • 댓글 0
이 기사를 공유합니다

뉴스 텍스트 빅데이터로 경기동향 파악과 예측 활용
(사진=신아일보 DB)
(사진=신아일보 DB)

뉴스 텍스트 기반 경제지표를 이용해 경기 예측모형을 구축한 결과, 대부분 관련 공식 통계와 높은 상관관계를 보이며 공식 통계 대비 0~9개월 선행한 것으로 나타났다.

한국은행은 16일 '뉴스 텍스트를 이용한 경기예측' 보고서를 내놨다.

한국은행은 생산·물가·주택가격 등 경제적으로 관심이 높은 15개 부문의 뉴스 텍스트 기반 경제지표를 작성, 이 같은 결과를 얻었다고 설명했다.

뉴스 텍스트 빅데이터를 이용해 경기 동향 파악과 단기 경기 예측에 활용할 수 있다. 이 경제지표 작성법에서의 텍스트 지표는 사전접근법 방식을 문장별로 적용해 작성한다. 사전접근법이란, 미리 정해 놓은 단어의 포함 여부를 기준으로 텍스트를 분석하는 방식이다.

뉴스 기사 중 특정 단어를 포함하는 문장이 본문에 한번이라도 등장하는 기사를 추출한 뒤 같은 기사들 기간 중 상대빈도수를 계산해 지표를 작성하는 것이다.

한국은행은 이번 텍스트 지표 작성을 위해 2005년 1월~2022년 3월까지 인터넷 포털에 게재된 경제분야 뉴스기사 전체를 분석했다. 분석 대상은 연간 약 70개 언론사의 100만건 뉴스기사, 문장으로는 약 1800만문장이다. 

부문별로 텍스트 지표를 작성해 관련 공식 통계와 비교분석 결과, 비교 대상 공식 통계에 비해 0~9개월 선행하며 공식 통계와 높은 상관관계를 갖는 것으로 나타났다.

또 경기 예측모형을 구축한 결과 경기 예측 정확도도 유의미하게 향상되는 점이 확인됐다.

한국은행은 국내총생산(GDP) 예측모형으로 동적인자모형(통계적 모형에 의한 객관적 기준 근거로 선·동·후행성 판단) 기반의 선형모형과 인공신경망 기반의 비선형모형을 상호비교했더니 선형과 비선형 모형이 텍스트 지표를 추가한 경우 예측 정확도가 유의미하게 향상되는 것으로 나타났다고 설명했다.

한국은행은 "뉴스 텍스트는 다양한 전문가의 견해·전망 등 정성적 정보를 포함하고 있으며 실시간으로 입수 가능하므로 이를 종합하고 정량화해 경기 예측에 활용할 필요가 있다"고 지적했다.

또 "뉴스 텍스트의 정량적 활용은 신속하고 정확한 경기 동향 파악과 경기 예측에 유용하며 정성적 방법으로 뉴스를 이용하는 것에 비해 휴먼 에러를 줄이는 데도 기여할 것으로 기대된다"고 덧붙였다.

hhim565@shinailbo.co.kr