구광모 야심작 '엑사원'은 초거대AI…한국어·영어도 원어민 수준
구광모 야심작 '엑사원'은 초거대AI…한국어·영어도 원어민 수준
  • 장민제 기자
  • 승인 2021.12.14 10:08
  • 댓글 0
이 기사를 공유합니다

3000억 파라미터로 국내서 학습 능력 가장우수
원어민 수준 한영 이해·구사하는 이중 언어 AI
배경훈 LG AI연구원장이 14일 진행된 LG AI 토크 콘서트에서 키노트스피치를 하고 있다.[사진=LG전자]
배경훈 LG AI연구원장이 14일 진행된 LG AI 토크 콘서트에서 키노트스피치를 하고 있다.[사진=LG전자]

구광모 LG그룹 회장이 미래를 이끌 조직으로 내세운 ‘LG AI연구원’이 초거대 인공지능(AI) ‘EXAONE(엑사원)’을 전격 공개했다. 엑사원은 국내 최대 파라미터(AI가 딥러닝을 통해 학습한 데이터가 저장되는 곳)로 한국어는 물론 영어까지 원어민 수준으로 이해하는 게 특징이다. LG는 이를 통해 초거대 AI 생태계를 확장한다는 계획이다.

LG AI연구원은 14일 설립 1주년을 맞아 온라인으로 진행한 ‘LG AI 토크콘서트’에서 엑사원을 공개하고 주요 연구 성과와 앞으로 계획을 발표했다.

이는 올해 5월 대규모 컴퓨팅 인프라 확보·개발에 1억달러 이상의 투자계획을 공개한 뒤 약 7개월만이다. 구 회장은 지난해 12월 설립한 LG AI연구원 등을 통해 AI분야 기술선점에 주력하고 있다.

초거대 AI는 대용량 연산이 가능한 컴퓨팅 인프라를 기반으로 대규모 데이터를 스스로 학습해 인간처럼 사고·학습·판단할 수 있는 AI다. 특정 용도에 국한되지 않고 다양한 분야에서 활용할 수 있다.

◇인간을 위한 전문가, 국내 최대 파라미터 보유

이번에 공개된 LG의 초거대 AI 엑사원은 ‘EXpert Ai for everyONE’의 축약어다. ‘인간을 위한 전문가 AI’를 의미한다.

‘EX’는 ‘전문가’라는 뜻 외에 10의 18승 즉, 100경(京)을 뜻하는 접두어 ‘EXA’의 의미를 갖고 있다. 인류가 지금까지 사용한 모든 단어를 데이터로 저장한다고 가정할 때 그 양이 5엑사바이트(Exabyte)일 만큼 매우 큰 단위다. 초거대 AI의 규모를 가늠하기에 적합한 단어다.

LG AI연구원은 지난 5월부터 인간의 뇌에서 정보를 학습하고 기억하는 시냅스와 유사한 역할을 하는 인공 신경망의 파라미터를 △13억개 △130억개 △390억개 △1750억개 등 단계적으로 키우며 초거대 AI를 연구해왔다.

이론상 파라미터가 많을수록 AI가 더 정교한 학습을 할 수 있는 것으로 알려졌다.

이날 공개한 엑사원은 국내 최대인 약 3000억개의 파라미터를 보유하고 있다. 언어뿐 아니라 이미지와 영상에 이르기까지 인간의 의사소통과 관련된 다양한 정보를 습득하고 다룰 수 있는 멀티 모달리티(Multi-Modality) 능력을 갖췄다.

LG AI연구원은 멀티 모달 AI로 가는 첫 단계로 자체 개발한 알고리즘을 통해 언어를 이미지로, 이미지를 언어로 변환하는 기술을 구현했다. 또 품질 역시 글로벌 최고 수준의 성능을 의미하는 SOTA(State-of-the-art)를 달성했다.

앞으로 멀티 모달 AI 기술이 고도화되면 AI가 데이터를 습득해 이해하는 수준을 넘어 추론하고, 시각과 청각 등 다양한 감각 영역을 넘나드는 창조적 생성을 할 수 있다.

예를 들어 엑사원은 “호박 모양의 모자를 만들어 줘”라고 말하면 학습된 정보를 기반으로 스스로 판단해 ‘호박 모양의 모자’ 이미지를 새롭게 만들어 낸다.

LG AI연구원은 이날 엑사원이 제공할 수 있는 새로운 소비자 경험에 대한 영상도 공개했다.

영상에는 메타버스 공간에서 크리스마스 파티를 준비하는 엑사원이 발화자의 의도를 파악해 의상을 직접 만들어 추천하고, 집안의 공간을 꾸미는 과정이 담겼다.

이 같은 멀티 모달 AI를 개발하기 위해 LG AI연구원은 세계 최대 규모의 학습 데이터를 활용했다.

EXAONE이 만든 호박 모양의 모자.[사진=LG전자]
EXAONE이 만든 호박 모양의 모자.[사진=LG전자]

엑사원은 말뭉치 6000억개와 언어와 이미지가 결합돼 있는 고해상도 이미지 2억5000만장 이상을 학습했다.

엑사원은 LG전자, LG화학, LG유플러스, LG CNS 등 LG 계열사들이 보유하고 있는 전문 데이터를 포함해 논문, 특허 등의 정제된 말뭉치들을 학습해 다양한 산업 분야에서 전문가로 활약할 수 있는 가능성을 높여 가고 있다.

또, 미국 AI연구소 오픈AI가 개발한 초거대 AI인 GPT-3가 영어를 학습하고, 국내서 개발 중인 다른 초거대 AI들이 한국어에 집중하는 것과 달리 엑사원은 원어민 수준으로 한국어와 영어를 이해하고 구사하는 이중 언어 AI라는 점도 차별화 포인트다.

◇글로벌 초거대 AI 생태계 조성 위한 3단계 계획 구상

LG AI연구원은 엑사원을 제조, 연구, 교육, 금융 등 사실상 모든 분야에서 ‘상위 1% 수준의 전문가 AI’로 활약할 수 있도록 만든다는 계획이다.

연구원은 집단 지성으로 초거대 AI 생태계를 조성하기 위해 LG 계열사와의 협업을 통한 실증, 국내를 포함한 글로벌 AI 연합 결성해 활용 영역 확대, 초거대 AI 대중화를 통한 상생 환경 구축 등 3단계 계획을 발표했다.

우선 엑사원을 사용할 수 있는 통로인 오픈 API를 LG 계열사들에게 공개해 전자·화학·통신 등 LG 사업 전반에 초거대 AI를 적용할 수 있도록 했다.

각사는 언어에 내포돼 있는 감정까지 이해하며, 인간처럼 자연스럽게 고객과 대화하는 챗봇 고도화, 지난 100년간의 화학 분야 문헌 약 2000만건에 대한 분석과 학습을 통한 신소재·신물질 발굴 등에 엑사원을 실제 적용하고 있다.

기존 AI는 전공자가 논문이나 특허와 같은 전문 문헌을 직접 읽고 내용을 요약해 데이터 베이스에 입력한 것을 학습해 왔다. 반면, 언어와 시각을 모두 다룰 수 있는 멀티 모달 AI인 엑사원은 스스로 문헌을 읽고 분석한 뒤, 데이터베이스를 구축한다.

엑사원이 데이터를 계속해서 축적하며 학습하는 과정을 통해 연구의 속도는 비약적으로 상승하게 된다.

이는 고급 인력들이 단순 작업이 아닌 더 가치 있는 일에 시간을 집중할 수 있도록 함과 동시에 인류의 난제를 푸는 실마리를 엑사원이 제공할 수도 있다는 기대감도 갖게 한다.

이후 LG AI연구원은 금융, 패션, 유통, 교육 등 다양한 글로벌 파트너사와 함께 연합(Alliance)을 결성해 초거대 AI 활용 영역을 넓혀 나갈 계획이다.

LG AI연구원은 2단계인 글로벌 파트너사와의 연합을 결성할 때 가장 중요한 요소인 데이터 보안 문제를 해결하기 위해 ‘EXAONE-Tuning(엑사원-튜닝)’이라는 알고리즘도 자체적으로 개발했다.

AI연구원은 궁극적으로 초거대 AI를 일부 기업이 독점하는 것이 아니라, 일반 대중까지 공개하는 대중화를 통한 상생 환경 구축 방안도 검토 중이다.

◇지난해 12월 출범 후 글로벌 AI 학회 논문 18건 채택

LG AI연구원은 이날 행사에서 지난해 12월 출범 이후 1년간의 성과들도 공개했다.

연구 분야에서는 ‘최적 경로 강화 학습’, ‘작곡 하는 AI’ 등 올해에만 18건의 논문이 AAAI, CVPR, ICLR, NeurlPS 등 세계 최고 권위의 인공지능 학회에서 채택되는 성과를 거뒀다.

또 LG 계열사들의 AI 조직과 협력해 사업 기여도와 난이도가 높은 산업 과제를 해결하는 데 AI를 도입했다. 올해는 ‘맞춤형 항암 치료제 개발을 위한 신항원 예측 모델 개발’, ‘세계 최고 수준의 기계 독해(MRC) 기술을 적용한 챗봇 개발’, ‘비지도 학습(Unsupervised Learning) 방식의 품질 검사 AI 세계 최초 상용화’ 등 18건의 난제를 해결했다. 내년에는 25건 이상의 난제 해결을 목표로 하고 있다.

배경훈 LG AI연구원장은 “어려운 난제를 해결하기 위해 끊임없이 도전하고, 우수한 연구 성과를 바탕으로 고객에게 꼭 필요한 전문가 AI를 만드는 연구원이 되고자 한다”며 “캐나다 토론토대, 미국 미시건대, 서울대, 카이스트 등 국내외 주요 대학, 석학들과 연구개발 연계 체계를 더욱 강화하고, 앞으로 API 공개와 외부 파트너십을 통해 집단 지성으로 글로벌 초거대 AI 생태계를 만드는 데 기여할 것”이라고 말했다.

jangstag@shinailbo.co.kr