transfer learning (1) 썸네일형 리스트형 Transformer의 기본 구조 최근 AI비서, ARS 등 언어 처리에 대한 분야에서 많이 사용되는 딥러닝 아키텍처인 Transformer에 대해 공부중이다. 공부한 내용을 정리하면 좀 더 기억이 잘 되기에 기록을 남겨본다. RNN과 LSTM 네트워크는 다음 단어 예측, 기계 번역, 텍스트 생성 등의 태스크에서 사용되어 왔었다. 하지만 트랜스포머가 발표된 후에는 트랜스포머에게 자리를 내주었다고 할 수 있다. 트랜스포머가 출연하면서 자연어 처리 분야가 획기적으로 발전하고, 이를 기반으로 한 BERT, GPT-3, T5 등과 같은 아키텍처가 나오게 되었다. 트랜스포머는 RNN에서 사용한 순환 방식을 사용하지 않는다. 대신 셀프 어텐션(self-attention)이라는 특수한 형태의 어텐션을 사용한다. 트랜스포머는 인코더-디코더로 구성된 모.. 이전 1 다음