직장인인강
-
Pre-trained Big Transformers (2) | GPT-3, BERT | 패스트캠퍼스 챌린지 43일차딥러닝 2022. 3. 7. 16:45
GPT-2 까지의 모델이 zero-shot 환경에서 작동할 수 있도록 multitask learning을 목표로 훈련되었다면, GPT-3는 few-shot learning으로 fine-tuning이라는 프레임워크 자체를 타파하고자 한 모델이다. ELMo를 시작으로 자연어처리에서 pre-training + fine tuning으로 구성된 전이학습은 매우 높은 성능을 보였지만, fine-tuning 과정에서 label 된 데이터가 많이 필요하며, 이 과정에서 일반화 능력을 상실한다는 문제가 있었다. 또한, 궁극적으로, 이 방식은 사람의 언어 습득과 다른 방식이었다. 가령 NLI(두 문장 사의의 함의, 모순, 중립 관계를 판단하는 과제)를 생각해 보면 사람은 일반적인 언어 지식을 습득하면 몇 개의 예시만 보고..
-
Pre-trained Big Transformers (1) | 패스트캠퍼스 챌린지 42일차딥러닝 2022. 3. 6. 15:52
지금 자연어처리를 이끌어 가는 모델은 BERT와 GPT로 대표되는 대규모 사전훈련 트랜스포머 모델들이다. 이러한 모델들은 아주 가볍게 SOTA를 찍었을 뿐만 아니라, 최근에는 BERTology라 불리는 연구들에서 BERT 등의 언어 모델이 문장의 구조적 부분을 학습했다는 견해가 있을 정도다. 이러한 견해는 가령 장거리 의존(long-distance dependency) 구문을 잘 처리한다는 점으로 뒷받침 된다. 영어에서 The boys are swimming같은 문장에서 is 대신 are을 선택하는 일은 매우 간단한 일이다. 복수인 주어 boys가 바로 앞에 있기 때문이다. 하지만 관계절이 들어가서 이 거리가 길어진다면 어떻게 될까. 가령, The boys who were raised by Mary ar..
-
Transformer (2) | 패스트캠퍼스챌린지 41일차딥러닝 2022. 3. 5. 21:59
Transformer는 훌륭한 모델이지만, 완벽한 모델은 아니다. Transformer를 더욱 향상시키기 위해 attention 모듈 레벨의 해결책은 sparse attention, linearized attention, query prototype & memory compression, low-rank attention, prior knowledge 활용, multi-head mechanism 개선 등의 방법이 있다. Sparse attentiond은 마치 dropout과 같은 원리로 불필요하다고 필요하는 부분에 attention을 주지 않도록 하는 방법이다. Linearized attention은 kernel method를 통해 보틀넥이었던 행렬연산 및 소프트맥스를 linear 연산으로 해결하는 방법..
-
Transformer (1) | 패스트캠퍼스챌린지 40일차딥러닝 2022. 3. 4. 21:53
RNN은 long-term dependency issue, 즉 경사소실로 인하여 시퀀스 길이가 긴 경우 성능이 떨어진다는 문제가 있다. 이는 LSTM, GRU 등을 사용해서 개선할 수 있었지만, 궁극적인 해결책은 되지 못했다. Attention 또한 이를 개선하기 위해 도입되었고, 효과적이지만, 완전한 해결책이 되지는 못했다. 반면에 self-attention은 빠른 sequence operation을 가능하게 하면서, layer 내의 모든 값을 한 번에 처리한다는 장점이 있다. Transformer는 이 self-attention으로 RNN을 대체한 seq2seq 모델이다. Masked attention을 사용하여 auto-regressive한 구조를 재현해 냈다. Transformer에서는 이 목적을..
-
생성모델 (2) | Auto Encoder | Embedding | 패스트캠퍼스챌린지 39일차딥러닝 2022. 3. 3. 21:53
Auto-Ecoder는 input을 output으로 복구하는 신경망을 뜻한다. 이러한 모델은 Embedding, generative model 등에 활용될 수 있다. Embedding은 bottleneck 구조를 취해 잠재되어 있는 변수를 얻어내는 것을 뜻하며, generative model은 입력값을 압축하거나 노이즈를 제거하는 등의 의도적인 변형을 줄 수 있다. Embedding을 구채적으로 보자면, 고차원을 저차원 벡터로 매핑하는 표현이다. 단어를 비롯한 cateogrial variable의 경우 label encoding, one-hot encoding, lookup embedding 등의 방법이 있다. Label encoding는 각 고유번호를 int로 저장하는 방식이다. 즉, 라벨을 임의로 씌..
-
생성모델 (1) | Autoregressive | 패스트캠퍼스챌린지 38일차딥러닝 2022. 3. 2. 22:14
Sequence-to-sequence 모델은: encoder가 embedding 정보를 만들어; decoder는 auto-regressive하게 embedding 정보로 부터 데이터를 생성하며; input 사이즈와 ouput 사이즈가 같은 경우는 auto-encoder다. 여기에는 embedding 개념과 auto-regressive 개념과 auto-encoder 개념이 들어간다. Embedding은 '모집단의 성격을 보존하면서도 모집단과 다른 형태의 소집단으로 매핑하는 것' 정도로 정의될 수 있다. Embedding의 경우 Word2Vec과 같은 Word Embedding을 생각해 보면 와닿기가 쉽다. 컴퓨터는 당연히 자연어 단어를 이해할 수 없기 때문에, 자연어 단어를 숫자로 표현하는 방법이 필요하다..
-
RNN (3) | Attention | 패스트캠퍼스챌린지 37일차딥러닝 2022. 3. 1. 16:30
개념적으로, Attention Mechanism은 이름 그대로 주의 집중하게 하는 역할을 한다. 이 때 집중하는 대상은 input signal이다. 즉, 기계번역 문제에서, 해당 토큰을 번역하는데 단서가 되는 토큰만 주의 집중해서 보겠다는 뜻이다. 어텐션은 시퀀스 길이에 상관 없이 주어지기에 시퀀스의 길이에 따라 발생했던 경사 소실 문제를 효과적으로 대처할 수 있었다. 더군다나, 이렇게 집중하는 영역을 수치로 나타낼 수 있기 때문에 어텐션을 시각화하여 딥러닝의 고질적인 문제인 해석이 불가능하다는 단점을 어느정도 해결할 수 있다. 물론 어텐션 시각화를 가지고 모든 것을 설명하는 것에 대해 문제를 제기하는 연구가 몇 있다. 대표적인 연구가 Jain and Wallace (2019) Attention is N..
-
RNN (2) | LSTM & GRU | RNN 활용 | 패스트캠퍼스 챌린지 36일차딥러닝 2022. 2. 28. 21:33
RNN은 시퀀스 데이터를 처리할 수 있는 강력한 가능성을 가지고 있지만, 실제로는 경사 소실(gradient vanishing) 문제 때문에 토큰이 조금만 많아져도 제대로 된 처리를 해 낼 수 없다. 이에 따라 정규화를 통해 어느정도 경사 소실을 방지할 수 있지만, 궁극적으로는 모델링을 개선하는 것이 필요했다. LSTM(Long Short-Term Memory)는 중요하지 않다고 판단되는 정보를 전략적으로 까먹어서 오래된 정보를 기억하는 모델이다. LSTM과 같은 RNN은 하나의 셀들로 구성되어 있다고 생각할 수 있는데, 하나의 LSTM 셀 안에는 forget gate, input gate, 그리고 status update 세 단계가 있다. Forget gate는 sigmoid를 사용하여 이전 cell ..