BERT4Rec: Sequential Recommendation with BERT (2019) Abstract - sequential recommendation을 위해서 Cloze task를 도입하였다.- sequence에서 랜덤 마스크된 아이템을 양방향으로 예측하는 방식 1. Introduction - 사실 유저의 과거 interaction 히스토리 정보를 활용하여 아이템 선택에 대해 예측할 때 우리가 측정하지 못하는 여러 외부 요인들의 영향으로 인하여 엄격한 시간적 순서를 따른다는 가정에 부합하지 않은 결과가 나올 때도 있다.- 이와 같은 경우를 위해 유저 sequence modeling을 양방향으로 context와 결합시키는 것이 중요하다- 테스트 동안 input sequence의 마지막에 [mas..
A Survey of Recommender Systems Based on Deep Learning (2018) 1. Abstract - 딥러닝은 non-linear, non-trivial 유저-아이템 관계를 포착할 수 있다. I. Introduction - 추천 시스템은 유저의 선호를 바탕으로 비슷한 선호의 아이템만 추천하는 데 그치지 않는다.- 유저의 선호와 상관없이 유저가 흥미를 가질만한 unknown items들도 추천할 수 있어야 한다.- 유저의 미래 requirements를 효과적으로 찾아낼 수 있어야 한다. - 세 가지 카테고리가 있다 1) content-based 2) collaborative 3) hybrid- 점점 개인 정보 이슈가 커지면서 content-based 추천 방법을 위해 유저..
Deep Learning Based Recommendation: A Survey (2017) 1. Introduction 2. Background - 일반적으로 유저로부터 k점 척도로 입력되는 평가 점수는 추천 시스템에서 가장 많이 쓰이는 입력 정보이다- 다른 추천 시스템은 다른 종류의 추천 결과를 도출한다- 어떤 시스템은 유저가 주목하지 않은 것에 대한 평가 점수를 예측하기도 한다- Matrix Factorization based 방법은 평가 점수 예측에 가장 많이 쓰이는 방식이다- 딥러닝은 FFW, RNN, CNN 등이 있다 3. Classification of Deep Leaning Based Recommendation Methods - input, output에 따라서 딥러닝을 활용한 추천시스템을..
Overview of the TREC 2020 Deep Leaning Track (2021) Abstract - TREC-style 평가 방법으로, 데이터가 많을 때 랭킹 시스템 간의 비교를 수행 - 올 해 결과는 BERT-style로 프리프레인된 것들이 더 좋은 성능을 내는 것으로 보임 1. Introduction - IR의 ad hoc ranking에서 핵심 문제는 training-data가 커져도 딥러닝 모델의 성능이 많이 나아지지 않았다는 것 - 한 가지 가능한 설명은 아직 training sets가 너무 작다는 것이다. - sparse labels로 평가하는 MS MACRO와 달리, TREC의 평가 방법은 comprehensive relevance labeling이다 2. Task descrip..
Switch Transformers: Scaling to trillion parameter models with simple and efficient sparcity (2021) 1. Introduction - 큰 언어 모델의 성공에 영향받아 sparsely-activated expert model: Switch Transformer가 탄생 - 희소성은 샘플 데이터로부터 뉴럴 네트워크 가중치 일부(subset)을 활성화하는 방식으로 제안한다 - 효율적인 sparse algorithm은 Mixture-of-Experts(MoE) 패러다임에서부터 시작한다 - Switch Transformer는 슈퍼컴퓨터 뿐만 아니라 적은 수의 코어를 가진 컴퓨터에서도 좋다 - T5 모델을 pretraining할 때 (7+α..
Scaling Laws for Neural Language Models (2020) 1. Introduction - NLM의 성능은 훈련 시간, 문장 길이, 데이터 크기, 모델 크기, 연산 능력과 멱법칙 관계가 있다 - NLM의 성능은 모델 파라미터 수 N, 데이터 크기 D, 연산 능력 C와 관련있고, 모델 형태와는 큰 관계가 없다 - N과 D가 동시에 커지면 성능도 동시에 향상, 한 쪽이 고정되면 N이 ×8일 때 D가 ×5는 되어야 페널티가 없다. - 훈련 횟수가 많아질수록, 훈련이 길어질수록 성능 향상을 roughly predict할 수 있었다. - N이 큰 모델은 더욱 적은 데이터(data efficient), 적은 optimization steps로 비슷한 수준의 성능에 도달한다. - 동일한 C에..
딥러닝 모델 병렬 처리 (2018) I. 머리말 - 딥러닝 모델이 점점 대형화되면서 하나의 디바이스로 연산이 불가능해짐 - 다수의 컴퓨터가 이를 효율적으로 나누어 처리하기 위한 분산 처리 기술이 요구됨 II. 딥러닝 모델 병렬 처리 개요 - 다수의 컴퓨터에서 분산 처리 하는 방법엔 데이터 병렬 처리, 모델 병렬 처리가 있다. - 모델 병렬 처리는 모델의 파라미터들을 여러 디바이스로 나누어 계산 - SGD 기법을 이용할 경우 미니배치 크기가 적으면 늦게 수렴하거나 정확도가 저하, 미니배치가 가능한 커야한다. 1) 딥러닝 모델 분할 - 분할 방법에 따라 4가지로 나뉜다 ① 계층별 분할 ② 피처별 분할 ③ 하이브리드 방법들 ④ 뉴런 단위의 자유 분할 - 레이어를 담당하는 워커들 간의 데이터 전송이 필요하다 -..
Transformer Feed-Forward Layers Are Key-Value Memories (2020) Abstract - 피드 포워드 층은 트랜스포머 모델의 parameters의 2/3를 차지한다 - key는 훈련 데이터의 문맥과 관련있고, 각각의 키는 출력 단어에 대한 분포를 유도한다. - 낮은 층은 shallow patterns, 높은 층은 semantic patterns을 포착한다 (인간이 이해할 수 있는 패턴들) - 피드 포워드 층의 출력은 연속적인 residual connections를 통해 정제된 기억들의 총합으로 최종 단어 분포를 생성한다. 1. Introduction - d : hidden layer의 dimension - position-wise FFW layers (8d^2 p..
BERT 기반의 Sentence-wise Attention을 활용한 계약서 조항 분류 연구 (2020) 1. 서론 - 미국과 유럽을 중심으로 리걸 테크 산업이 확장되고 있다- 리걸 테크의 주 분석 대상은, 판례, 법령들과 같은 문서들로 제한되어 있었다 => 계약서로 분석 대상을 확장- 계약서를 문장 단위로 분리 => 계약서에서 필수로 검토할 사항을 세부 조항(Label)로 정의하여 문장들을 분류- BERT를 활용해 검토 대상 문장과 동시에 출현하는 문장 간의 관계를 통해 문맥을 파악 2. 관련 연구 2.1 텍스트 분류- 문서 분류 연구에서는 문서의 계층적 특성을 반영하는 HAN(Hierarchy Attention Network)가 제안됨 2.2 법률 문서 분석- 개체명 인식 : Leitner (2019)..
안전기준의 검색과 분석을 위한 기계독해 기반 질의응답 시스템 (2020) 1. 서론 2. 관련 연구 - 본 연구는 다음과 같은 논문들을 활용한 QA 모델을 제안 1) Reading Wikipedia to Answer Open-domain Questions (2017)2) Denoising Distantly Supervised Open-domain Question Answering (2018)3) Ranking Paragraphs for Improving Answer Recall in Open-domain Question Answering (2018)4) Evidence Aggregation for answer Re-ranking in Open-domain Question Answering (2017) 3..