기계독해를 이용한 판례 내 주요 정보 추출 방법 (2019)
1. 서론
- 법률정보통합검색 사이트인 리걸서치에서 학습시킬 데이터셋을 수집하여 한국어 판례 데이터셋 KorCL을 구축
2. 관련 연구
- KorBERT는 ETRI에서 공개한 한국어의 특성을 반영한 형태소 분석 기반의 언어 모델
- 신문 기사와 백과사전 등 23GB의 대용량 텍스트, 47억 개의 형태소를 학습한 모델
3. 데이터 셋
- KorCL 데이터셋은 법원에서 배포하는 판례의 범죄사실에 해당하는 내용을 지문으로 하고 있다
- 리걸 서치에서 1001건의 강력 범죄 판례를 수집
- 1심 재판에 해당하는 사건만 한정, 범죄 사실이 명시되지 않은 판례는 수집에서 제외
- 총 3885개의 질의응답 쌍을 구축
4. BERT 기반 기계독해를 이용한 정보 추출 방법
- 대표적인 다국어 지원 모델로 mBERT, XML이 있다
5. 실험 및 결과
- 질문 유형을 네 가지로 구성 (Who, When, Where, What)
- 질문 유형에 대한 답이 가장 정형적인 When에 대한 답이 가장 좋은 성능을 보임
- 질문 유형에 대한 답이 가장 비정형적인 Where에 대한 답이 가장 안좋은 성능을 보임
'AI - NLP > Articles' 카테고리의 다른 글
안전기준의 검색과 분석을 위한 기계독해 기반 질의응답 시스템 (2020) (0) | 2020.12.18 |
---|---|
사전 학습된 한국어 BERT의 전이학습을 통한 한국어 MRC 성능개선에 관한 연구 (2020) (0) | 2020.12.18 |
XML-Roberta 기반 한국어 기계독해 기법 (2020) (0) | 2020.12.17 |
KorSciQA 한국어 논문의 기계독해 데이터셋 (2019) (2) | 2020.12.17 |
BERT를 이용한 한국어 특허상담 기계독해 (2020) (0) | 2020.12.17 |