decoder (1) 썸네일형 리스트형 [transformer] Multihead self-attention 과 multihead attention비교 요새 비전분야에서도 transformer가 많이 활용되고 있어서 관련 논문들을 읽어보는데 의문인 부분들이 있어서 정리겸 블로그에 글을 써본다. transformer의 encoder는 MHSA(multihead self-attention)만 사용하고, decoder는 MHSA, MHA 둘 다 사용한다. 그럼 여기에서 MHSA과 MHA의 차이가 뭔지 의문이 생긴다. MHSA은 입력정보 주체가 하나다. 이 하나의 정보를 가지고 비교분석을 시행하는게 MHSA의 역할이고 곧 encoder의 역할이다. 예를 들어 CNN을 거치고 나온 feature vector정보가 transformer encoder 에 들어가면 MHSA는 입력받은 feature vector들만 가지고 비교분석을 시행한다. MHA은 입력정보 주체가.. 이전 1 다음