2024.04.26 (Fri) KOREA Edition
전체메뉴보기

4차산업

LG CNS, 인공지능 한국어 표준 데이터 10만개 무료 공개

송고시간 2019.09.05 12:34

LG CNS가 한국어 표준데이터 '코쿼드 2.0'을 무료 공개했다. (이미지 LG CNS 홈페이지)


LG CNS는 AI의 자연어 이해를 위한 한국어 표준데이터 '코쿼드 2.0'을 국내 AI 업계에 5일 무료로 공개했다. 
  
챗봇, 인공지능 스피커 등 언어 AI 개발을 위해서는 학생들이 공부하는 교과서와 유사한 개념인 AI 학습용 표준데이터가 필요하다. 해외에서는 미국 스탠포드대학, 마이크로소프트 등이 제작한 영문 표준데이터가 존재해 AI 개발에 활용되고 있으나 국내에서는 한국어 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 마련해야 했다. 

LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된 '코쿼드 1.0'을 제작해 업계에 공개한데 이어, 기본 버전에서 표준데이터 수를 10만개로 확대하고, 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화한 버전 '코쿼드 2.0'을 개방한다. 
      
예를 들어 “대한민국의 수도와 그 면적은?”이라는 질문에 “서울특별시, 605.25km2 입니다”라고 답하는 AI는 코쿼드 1.0 학습만으로 충분히 개발 가능했지만 “서울특별시의 특징은?”이라는 질문에 “도시 중앙으로 한강이 흐르고 북한산, 관악산, 도봉산 등의 여러 산들로 둘러싸인…”이라는 장문의 답을 위해서는 코쿼드 2.0으로 AI를 학습시켜야 한다. 
  
코쿼드 2.0은 AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있게끔 표준데이터 범위도 확대했다. 
  
이번에 출시한 한국어 표준데이터는 ‘코쿼드 2.0’ 웹사이트에서 누구나 다운로드 가능하며, 향후 AI 연구자들간의 시너지를 통한 국내 인공지능 기술 발전에 기여할 것으로 기대된다.
    
현신균 LG CNS CTO(최고기술책임자) 부사장은 “응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 AI 업계 전체에 개방해 국내 AI 연구자들 간 상생을 위한 AI 개방형 생태계 조성에 기여코자 한다”고 말했다.

한편, LG CNS는 이날 ‘AI Tech Talk(테크톡) for NLU’ 행사를 개최하며 한국전자통신연구원(ETRI), 서울대, 카이스트 등의 연구진 및 교수진이 연사로 참석해 언어 AI 연구 성과 및 최신 기술 트렌드를 공유했다. 

 

기사인쇄 | 이준섭 기자 jslee@bceconomy.co.kr

블록체인경제신문 댓글 토크0

* 최대 200자까지 작성가능 / 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]

0/200

자동등록방지용 코드를 입력하세요!
5765

Follow 블록체인경제신문