KISTI 기계학습 데이터 공유·활용 예시를 보실 수 있습니다.
개요
Training Enviroment
1. Directory and Pre-processing
1-1. 키워드 추출(Keyword Extraction) 모델
├── data
│ ├── train.json
│ └── val.json
├── init_weight
├── models
│ └── 1_2000_model.pt
├── preproc
│ ├── train_pre.json
│ ├── val_pre.json
│ └── ###_keyword.json
├── src
│ ├── main.py
│ ├── model.py
│ ├── processor.py
│ └── utils.py
├── requirements.txt
└── README.md
1-2. 기계 독해(Machine Reading Comprehension; MRC) 모델
├── data
│ ├── train
│ │ └── train_#.json
│ ├── val
│ │ └── val_#.json
│ └── evidence
│ ├── ###_#_pre.json
│ └── ###_#_evidence.json
├── model
│ └── roberta_proposed
│ └── checkpoing-16883
├── src
│ ├── functions
│ │ ├── evaluate.py
│ │ ├── modules.py
│ │ ├── mrc_metrics.py
│ │ ├── processor_plus.py
│ │ └── utils.py
│ │
│ └── model
│ ├── main_functions.py
│ ├── models.py
│ └── roberta_model.py
│
├── ir
│ ├── evidence_sent_retrieval.py
│ └── processor.py
│
├── requirements.txt
├── evidence_processing.py
└── README.md
2. Model ⭐
2-1. 키워드 추출(Keyword Extraction) 모델
2-2. 기계 독해(MRC) 모델
3. How to use ⭐
3-1. 키워드 추출(Keyword Extraction) 모델
python main.py
-- train_flag
True: 모델 학습-- trian_flag
False: 모델 평가 / 데모-- data_dir
모델의 결과 데이터 저장 위치-- save_dir
학습된 모델 저장 위치-- load_dir
학습된 모델 로드
3-2. 기계 독해(MRC) 모델
requirements
pip install -r requirements.txt
Training
python run_mrc.py --do_train=True --from_init_weight=True dataset_nums=5
Evaluate
python run_mrc.py --do_eval=True --from_init_weight=False --predict_file=[val_#.json] --checkpoint=16883 --filtered_context=False
Predict ⭐⭐
python run_mrc.py --do_predict=True --from_init_weight=False --checkpoint=16883
-- output_dir
: 학습된 모델 저장 위치-- dataset_num
: 학습할 파일 갯수-- checkpoint
: 학습된 모델 checkpoint 16883-- from_init_weight
: pre trained roberta weight 로드-- filtered_context
: 검색모델이 만든 context 사용 (검색모델 예측 파일이 있어야함)-- do_train
: 모델 학습-- do_eval
: 모델 평가-- do_predict
: 데모 실행, 현재 디폴트 값
😎 Demo Video