사전 학습된 한국어 BERT의 전이학습을 통한 한국어 MRC 성능개선에 관한 연구 (2020)

사전 학습된 한국어 BERT의 전이학습을 통한 한국어 MRC 성능개선에 관한 연구 (2020) 1. 서론 - 사전학습은 많은 자원, 비용, 방대한 데이터가 필요하다- 전이학습은 제한된 자원, 적은 데이터로 다양한 태스크에 최적화할 수 있다- 2019년 스탠포드 대학 NLP 연구실의 2019년 수상 논문은 모두 BERT의 전이학습에 관한 내용 2. 관련 연구 3. 이론적 배경 - Text Embedding : 텍스트에 대한 분석을 하기 위해 자연어를 컴퓨터가 이해하기 위해 수치화하는 과정- BERT & fine-tuning : 특정 도메인에 사전 학습된 모델을 다른 태스크에 활용에 학습시키는 과정- 사전학습 모델을 사용할 경우, 기본적인 데이터의 특징을 학습했기 때문에 유사한 데이터는 양이 적어도 도메인 ..

기계독해를 이용한 판례 내 주요 정보 추출 방법 (2019)

기계독해를 이용한 판례 내 주요 정보 추출 방법 (2019) 1. 서론 - 법률정보통합검색 사이트인 리걸서치에서 학습시킬 데이터셋을 수집하여 한국어 판례 데이터셋 KorCL을 구축 2. 관련 연구 - KorBERT는 ETRI에서 공개한 한국어의 특성을 반영한 형태소 분석 기반의 언어 모델- 신문 기사와 백과사전 등 23GB의 대용량 텍스트, 47억 개의 형태소를 학습한 모델 3. 데이터 셋 - KorCL 데이터셋은 법원에서 배포하는 판례의 범죄사실에 해당하는 내용을 지문으로 하고 있다- 리걸 서치에서 1001건의 강력 범죄 판례를 수집- 1심 재판에 해당하는 사건만 한정, 범죄 사실이 명시되지 않은 판례는 수집에서 제외- 총 3885개의 질의응답 쌍을 구축 4. BERT 기반 기계독해를 이용한 정보 추출..

XML-Roberta 기반 한국어 기계독해 기법 (2020)

XML-Roberta 기반 한국어 기계독해 기법 (2020) 요약 - XLM-roberta 모델, 출력 층에 SRU layer, Khaii Tokenizer를 활용- KorQuAD 1.0 dev dataset에서 EM 83.01%, F1 93.34% 성능 1. 서론 - 대표적인 다국어 지원 모델로 mBERT, XML이 있다 (비지도 학습)- 다국어를 지원하면 일반적으로 어휘 희석으로 인해 pre-trained model의 성능이 떨어지는 문제점이 있었다- XLM-Roberta는 위키 데이터를 정제한 CC 데이터로 학습하여 여러 기존의 문제들을 해결- 본 논문에서는 문맥 정보를 인코딩하기 위해 출력 층에 학습 속도를 향상시킨 SRU(Simple Recurrent Unit)를 사용 2. 관련 연구 3. XM..

KorSciQA 한국어 논문의 기계독해 데이터셋 (2019)

KorSciQA 한국어 논문의 기계독해 데이터셋 (2019) 요약 - 498개의 논문 초록에 대해 일관성 있는 품질의 2490개의 질의응답으로 구성된 기계독해 데이터셋을 구축 1. 서론 - 학술논문은 일반지식을 다루는 위키 데이터와는 달리 전문화된 지식이 없이 이해하기 힘든 특성이 있어서 더욱 도전적인 IR 과제- 특히 한국어 논문에 대한 NLP 연구는 많이 부족한 실정 2. 관련 연구 - MS MARCO는 인위적 질문이 아닌 실제 존재하는 질문들을 사용하여 상대적으로 높은 난이도 과제를 제안- 일반적인 위키, 상식 수준의 QA 과제에 대한 연구는 많지만 학술 논문에 대한 연구는 많지 않다 3. 문제 정의 - KorSciQA는 주어진 한국어 논문 초록에 대해 기계가 주요 내용을 이해하였는가를 질의응답 형..

BERT를 이용한 한국어 특허상담 기계독해 (2020)

BERT를 이용한 한국어 특허상담 기계독해 (2020) 요약 - 기계독해는 사용자 질의의 관련된 문서를 기계가 이해한 후 정답을 추론하는 인공지능 NLP task 1. 서론 - 기계독해는 QA, 챗봇과 같은 자동 질의응답 시스템의 핵심이 되는 기술 2. 관련 연구 - KorQuAD는 위키백과 문서를 대상으로 문단을 정제하여 질의와 정답을 생성한 일반상식분야에 대한 데이터 셋- BERT는 pre-trained된 모델을 기반으로 특정 task에 적합한 데이터를 학습하고 모델을 변형하여 학습된 모델의 가중치(weights)를 업데이트하는 representation learning의 한 방법이다.- 본 연구에서는 BERT-base-multilingual-cased 모델을 사용 3. 특허상담 질의응담 데이터 셋 ..

Neural networks for Information Retrieval (2018)

Neural Networks for Infomation Retrieval (2018) Abstact Machine Learning, Deep learning은 modern IR systems에서도 중요한 역할을 맡고 있다.이 분야에서 새로운 정보들이 쏟아지고 있기 때문에 이 tutorial에서 과거에 시도되었던, 효과가 있었떤 IR 방법들에 대한 overview를 제공한다 Motivation IR pipeline들에 Neural Networks가 사용되고 있다- click models, core ranking algorithms, dialogue systems, entity retrieval- Knowledge Graphs, Language Modeling, Question Answering, Test ..

Information Retrieval System and Machine Translation: A Review (2016)

Information Retrieval System and Machine Translation: A Review (2016) CLIR : Cross-lingual Information RetrievalMLIR: Multi-lingual Information Retrieval 인터넷에는 non-English content가 늘고 있으며, 개발국에서 언어에 제약이 없는 정보 검색은 매우 중요 □ CLIR Query, Document가 각각 하나의 언어로 혹은 섞인 언어로 주어질 수 있다 ▶ Machine Translation : 연산 비용이 많이 든다▶ Bilingual Dictionary dictionary에서 찾아서 (look up) query를 번역한다dictionary에서 찾지 못한 단어들은 simp..

Review: Information Retrieval Techniques and Application (2015)

Review: Information Retrieval Techniques and Applications (2015) IR(Information Retrieval)은 CS의 subfield로 representations, storage, access of information을 다룬다 user request를 받아 relevant information을 return하며 끝난다중간 과정에서 filtering, searching, matching, ranking이 작동main goal은 유저의 information needs를 만족시키는 관련 정보를 찾는 것 Indexing : 문서들이 summarized content form으로 표현된다filtering : stop words, common words를 삭..