공지사항

과학기술 기계학습 데이터 5종 공개 및 2021년 연구데이터·AI 분석활용 경진대회 개최

  • 관리자
  • 2021.09.08 15:22

한국과학기술정보연구원(이하 KISTI)은 연구데이터 공유와 활용 활성화 및 DNA 저변 확대를 위해 과학기술정보통신부와 주최하고 한국과학기술정보연구원이 주관하는 ‘2021년 연구데이터·AI 분석활용 경진대회’를 개최합니다.

경진대회는 연구데이터 부문과 인공지능 부문으로 나뉘어 진행되며, 서류 접수는 9월 30일(10월 8일로 변경되었습니다)까지이고, 자세한 내용은 DataON(dataon.kisti.re.kr )를 통해서 확인하실 수 있습니다.

이번 경진대회의 인공지능 부문에서는 작년 KISTI가 디지털 뉴딜 사업을 통해 구축한 과학기술 기계학습 데이터 5종 4백 59만여 건과 대전시 도로영상 객체인식 데이터셋을 공개하고 활용을 지원합니다.

해당 데이터셋은 연구 목적에 한해 이용 동의 후 무료로 접근 가능하며, 향후 과학기술 논문 전문 기반 사전학습 언어모델도 10월 공개할 예정입니다.

구축 데이터

건수

구축 내용

URL

국내 논문

전문 텍스트

481,578

국내논문 PDF를 기계학습이 가능한 텍스트 형태로 구축 http://doi.org/10.23057/38

질의응답 셋

279,143

국내논문에서 질의와 정답 쌍 구축 http://doi.org/10.23057/37

문장의미태깅

155,740

국내논문의 연구목적, 연구방법, 연구결과 등 문장 의미 태깅 http://doi.org/10.23057/36

보고서

표/그림 설명

3,546,095

국가R&D보고서 원문의 표/그림에 대한 설명 텍스트 구축 http://doi.org/10.23057/41

기관식별

245,692

국내 논문/보고서에서 저자의 소속기관명 식별데이터 구축 http://doi.org/10.23057/39

대전시 도로영상 객체인식

-

KISTI가 자체적으로 수집한 도로영상 비디오를 활용한 영상객체 인식용 학습데이터셋 http://doi.org/10.23057/34

합계

4,708,248

   

앞으로 KISTI 보유 데이터 중 기계학습 활용성이 높은 데이터를 선별하여 지속적으로 공개를 확대할 것이며, 다양한 인공지능 연구에 활용될 수 있도록 적극적으로 지원하겠습니다.