Overview of the TREC 2020 Deep Leaning Track (2021)
Abstract
- TREC-style 평가 방법으로, 데이터가 많을 때 랭킹 시스템 간의 비교를 수행
- 올 해 결과는 BERT-style로 프리프레인된 것들이 더 좋은 성능을 내는 것으로 보임
1. Introduction
- IR의 ad hoc ranking에서 핵심 문제는 training-data가 커져도 딥러닝 모델의 성능이 많이 나아지지 않았다는 것
- 한 가지 가능한 설명은 아직 training sets가 너무 작다는 것이다.
- sparse labels로 평가하는 MS MACRO와 달리, TREC의 평가 방법은 comprehensive relevance labeling이다
2. Task description
- Track의 두 가지 tasks는 문서 검색과 문단 검색이다.
- 1) 문서 검색은 두 가지 subtasks로 이루어진다 (i) full retrieval (ii) top-100 reranking
- full retrieval은 모든 문서 콜렉션에서 쿼리와 관련도가 높은 문서를 추출하여 순위를 매긴다 (end-to-end 방식)
- top-100 rerank는 모든 참가자들에게 똑같이 100개의 문서가 주어지고 이것들의 순위를 매긴다
- 2) 문단 검색은 두 가지 subtasks로 이루어진다 (i) full retrieval (ii) top-1000 reranking
- top-1000 rerank에서 참가자들은 query에 대한 답이 포함된 문단들로 순위를 매긴다
3. Datasets
- 문단 검색의 경우 positive label은 해당 문단에 query에 대한 답이 포함되어 있음을 뜻한다.
- 문서 검색의 경우, 라벨링된 문단의 소스 문서에 대응되는 문단 라벨 값을 마찬가지로 사용한다
4. Results and Analysis
- run type은 nnlm, nn, trad로 나눈다
- nnlm : BERT와 같이 사전훈련된 큰 규모의 뉴럴 언어 모델, nn : 뉴럴넷 기반, trad : BM25같은 전통적 IR 방법
- 측정 메트릭 : NDCG(Normalized Discounted Cumulative Gain), AP(Average Precision), RR(Reciprocal Rank)
Neural vs. Trad
- 가장 뛰어난 성능의 nnlm 모델과 nn모델은 가장 뛰어난 trad 모델의 23%, 11% 뛰어난 성능을 보임 (NDCG@10)
- 쿼리 단위에서 win-loss 분석을 했을 때 nnlm은 trad 모델에 84% 이겼고, 문서 검색과 문단 검색 둘 다 비슷했다
End-to-End(Fullrank) vs. reranking
- 문단 검색에서는 fullrank와 rerank의 성능 차이가 거의 없었고, 이는 우리의 예상과 달랐다.
- 문서 검색에서는 fullrank가 rerank보다 NDCG@10에서 5% 정도 더 높은 성능을 보임
- NCG@10와 NDCG@10의 관계의 경우 rerank는 일정하지만 fullrank의 경우 뚜렷한 상관관계가 없다
- ORCAS(Open Resource for Click Analysis in Search) 데이터셋을 사용한 그룹은 약간 더 좋은 성능을 보임
- 이는 아마도 ORCAS 데이터셋이 훈련 데이터에 없는 추가 정보를 담고 있기 때문일 것으로 추측
NIST labels vs. Sparse MS MACRO labels
- 이외에도 라벨링 방법 (NIST labels vs. MS MACRO labels)에 따른 영향도 있다.
- Track에서는 NIST의 4점 척도를 활용하여 쿼리 당 여러 개의 결과가 대응되는 방식으로 labeling함
- 반면 MS MACRO는 하나의 쿼리 당 단 하나의 positive result를 갖도록 labeling함
- 문서 랭킹 태스크에서 데이터간 일치율에 따른 Kendall 상관도는 문서 검색 0.46, 문단 검색 0.69로 낮음
5. Conclusion
생략...
'AI - NLP > Articles' 카테고리의 다른 글
A Survey of Recommender Systems Based on Deep Learning (2018) (0) | 2021.02.22 |
---|---|
Deep Learning Based Recommendation: A Survey (2017) (0) | 2021.02.22 |
Switch Transformers: Scaling to trillion parameter models with simple and efficient sparcity (2021) (0) | 2021.02.16 |
Scaling Laws for Neural Language Models (2020) (0) | 2021.02.05 |
딥러닝 모델 병렬 처리 (2018) (0) | 2021.02.05 |