Information Retrieval System and Machine Translation: A Review (2016)
CLIR : Cross-lingual Information Retrieval
MLIR: Multi-lingual Information Retrieval
인터넷에는 non-English content가 늘고 있으며, 개발국에서 언어에 제약이 없는 정보 검색은 매우 중요
□ CLIR
Query, Document가 각각 하나의 언어로 혹은 섞인 언어로 주어질 수 있다
▶ Machine Translation : 연산 비용이 많이 든다
▶ Bilingual Dictionary
dictionary에서 찾아서 (look up) query를 번역한다
dictionary에서 찾지 못한 단어들은 simple rule based 번역으로 해결한다
▶ Parallel Corpora
dictionary base보다 일반적으로 더 좋은 성능을 보인다
양질의 데이터를 얻기 힘들고, parallel corpora 데이터를 만드는 것 자체가 복잡하고 비용이 많이 듬
bilingual machine readable dictionaries가 더 많이 쓰임
▶ Morphological Analyzer (형태소 분석)
입력 단어들의 형태소를 생성, root word를 찾아내기 용이
POS tagger, Chunker와 결합하여 NLP 기초 단계에서 유용성이 높다
▶ Word Sense Disambiguation
주변의 단어들을 통해 추론, 같이 등장할 가능성이 높은 단어들을 통해 모호한 단어의 의미들 중 하나로 뜻을 결정
□ Machine Translation Approaches
▶ Rule-based (Fig.1)
사전에 없는 단어를 번역할 때 간단한 규칙 기반 접근법을 활용할 수 있다
syntactic(문법적), morphological(형태소적), semantic(의미적) 정보를 활용
▶ Corpus-based
statistical translation model, 대량의 이중 언어 병렬 코퍼스를 활용
example-based MT Approach는 Corpus-based Approach 중 하나다
▶ Dictionary-based machine translation
단어나 phrase 단위로 equivalent translated verse를 찾는 방식
문장 전체를 번역하지는 못한다
▶ Example-based machine translation
bilingual-corpus with parallel texts를 main knowledge로 활용
소스 언어에서 비슷한 형태의 문장으로 이루어진 타겟 문장을 사용
4단계 - example acquisition, example base and management, example application, synthesis
'AI - NLP > Articles' 카테고리의 다른 글
XML-Roberta 기반 한국어 기계독해 기법 (2020) (0) | 2020.12.17 |
---|---|
KorSciQA 한국어 논문의 기계독해 데이터셋 (2019) (2) | 2020.12.17 |
BERT를 이용한 한국어 특허상담 기계독해 (2020) (0) | 2020.12.17 |
Neural networks for Information Retrieval (2018) (0) | 2020.12.16 |
Review: Information Retrieval Techniques and Application (2015) (0) | 2020.12.11 |