데이터셋

국내 논문 QA 데이터셋

텍스트 Ver 1 관리자 2021.10.21

국내 논문 QA 데이터셋

개요
  • 기계가 과학기술 문헌을 읽고 이해하는 능력을 평가하기 위한 질의응답 데이터셋
  • 국내 한글 논문에서 질문과 정답 쌍 구축
DOI
10.23057/37
형식 JSON
{
  "doc_id": "논문ID",
  "title": "제목",
  "authors": "저자",
  "journal": { "ko": "국문 학술지/학술대회 제목", "en": "영문 학술지/학술대회 제목" },
  "year": "발행연도",
  "context": "질의응답문장이 포함된 논문 풀텍스트",
  "keywords": { "ko": "국문 키워드", "en": "영문 키워드" },
  "qas": [
    {
      "level": "난이도 (1:하, 2:중, 3:상)",
      "id": "질의응답 셋 ID",
      "question": "질의",
      "answer": {
        "answer_text": "응답에 해당하는 텍스트",
        "answer_start": "응답 시작 인덱스"
      },
      "keyword": {
        "keyword_text": "핵심 어휘",
        "keyword_start": "키워드 시작 인덱스"
      }
    }
  ]
}
구축예시

[논문 예시]

... 최근 LED관련 시장은 Green 산업 및 차세대 정보통신 기술로 주목 받고 있다. 기존 형광물질 및 가스등을 사용하는 조명등과 비교하여 적은 환경오염 물질을 배출하고 낮은 소비전력과 긴 수명, 인체에 무해한 가시광원을 선택적으로 사용이 가능하여 친환경적인 소자로 주목받고 있다. Visible Light Communication (VLC) 시스템은 LED를 통해 조명 및 데이터 전송을 동시에 제공하는 융합 기술이다. 빛의 파장은 사람의 눈에 보이는 가시 광 영역, 근적외선 영역을 포함하는 빛을 이용하여 정보를 전송 및 교환하는 기술로 기존의 유선광섬유를 통한 광통신 기술과는 차별화 된다. 또 한 다양한 색상 구현이 가능하다. 백열전구와 형광등과 같은 조명이 발광 다이오드(LED : Light Emitting Diode)조명으로 교체되는 인프라를 사용하여 정보를 각 객체에 전송하고 이를 재이용 하는 차세대 통신 시스템이라 할 수 있다. 가시광통신은 빛을 이용하기 때문에 인체에 무해하며, 주파수 허가를 받을 필요가 없고, ISM (Industrial Scientific Medical band)대역과의 간섭도 없으며, 물리적으로 높은 보안 수준을 제공한다. ...

난이도 

질의응답

  • 자유롭게 질의응답 작성 가능
  • 핵심어휘와 응답이 한 문장(같은 문장) 또는 다른 문장에 존재 가능

  예시  

핵심어휘: Visible Light Communication (VLC)
질 의: Visible Light Communication (VLC)는 무엇인가?
응 답: LED를 통해 조명 및 데이터 전송을 동시에 제공하는 융합 기술

  • 특정 핵심어휘가 포함된 문장 내에서 답변이 가능한 질문
  • 핵심어휘와 응답이 한 문장(같은 문장) 내에 존재

예시

핵심어휘: 가시광통신
질 의: 가시광통신의 장점은 무엇인가?
응 답: 빛을 이용하기 때문에 인체에 무해하며, 주파수 허가를 받을 필요가 없고, ISM (Industrial Scientific Medical band)대역과의 간섭도 없으며, 물리적으로 높은 보안 수준을 제공

  • 특정 핵심어휘가 포함되지 않은 다른 문장에서 답변이 가능한 질문
  • 핵심어휘와 응답이 다른 문장에 존재
  • 응답과 응답을 포함하는 문장에 핵심어휘가 존재하면 안됨.

예시

핵심어휘: Green 산업 및 차세대 정보통신 기술
질 의: LED관련 시장이 Green 산업 및 차세대 정보통신 기술로 주목 받는 이유는 무엇인가?
응 답: 기존 형광물질 및 가스등을 사용하는 조명등과 비교하여 적은 환경오염 물질을 배출하고 낮은 소비전력과 긴 수명, 인체에 무해한 가시광원을 선택적으로 사용이 가능하여 친환경적인 소자로 주목

데이터 정보

생산자 한국과학기술정보연구원 제공기관 한국과학기술정보연구원
건수 279,143 건 발행년도 2021
라이선스 저작자표시-비영리 (데이터 이용동의) 저작권 논문 원문의 저작권은 해당 학술지(학회)에 있으며, 한국과학기술정보연구원은 기계학습 연구에 활용할 수 있도록 가공하여 제공합니다.
Cite as
한국과학기술정보연구원 (2021) : 국내 논문 QA 데이터셋. Version 1.0. 한국과학기술정보연구원. https://doi.org/10.23057/37.

데이터 이력

Version 1 2021-09-08, 10.23057/37

데이터 탐색

데이터 파일 목록
파일설명
국내 논문 QA 샘플 데이터셋
자료유형
JSON

데이터 탐색

파일설명
국내 논문 QA 데이터셋
자료유형
JSON