데이터셋

국내 논문 전문 텍스트 데이터셋

텍스트 Ver 1 관리자 2021.10.21

국내 논문 전문 텍스트 데이터셋

개요
  • 국내 논문 PDF를 기계학습이 가능한 텍스트 형태로 구축
DOI
10.23057/38
형식 JSON
{
  "doc_id": "논문ID",
  "title": { "ko": "국문 제목", "en": "영문 제목" },
  "authors": "저자",
  "journal": { "ko": "국문 학술지/학술대회 제목", "en": "영문 학술지/학술대회 제목" },
  "year": "발행연도",
  "abstract": { "ko": "국문 초록", "en": "영문 초록" },
  "keywords": { "ko": "국문 키워드", "en": "영문 키워드" },
  "body_text": [
    {
      "section": "장, 절, 단락",
      "text": [ "해당 section의 텍스트" ]
    }
  ],
  "ref_entries": {
    "FIGURE[id]": {
      "text": "그림 캡션",
      "type": "figure"
    },
    "TABLE[id]": {
      "text": "표 캡션",
      "type": "table"
    }
  }
}

데이터 정보

생산자 한국과학기술정보연구원 제공기관 한국과학기술정보연구원
건수 481,578 건 발행년도 2021
라이선스 저작자표시-비영리 (데이터 이용동의) 저작권 논문 원문의 저작권은 해당 학술지(학회)에 있으며, 한국과학기술정보연구원은 기계학습 연구에 활용할 수 있도록 가공하여 제공합니다.
Cite as
한국과학기술정보연구원 (2021) : 국내 논문 전문 텍스트 데이터셋. Version 1.0. 한국과학기술정보연구원. https://doi.org/10.23057/38.

데이터 이력

Version 1 2021-09-08, 10.23057/38

데이터 탐색

데이터 파일 목록
파일설명
국내 논문 전문 텍스트 샘플 데이터셋
자료유형
JSON

데이터 탐색

파일설명
국내 논문 전문 텍스트 데이터셋
자료유형
JSON