본문 바로가기

머신러닝 읽어주는 남자

[오직 컨셉] Attention

반응형

Attention(for Seq2Seq)


기본 개념

연속적인 많은 정보중에 특정한 부분에 집중하는 기법, 말그대로 집중



한 줄 의미: 

현재 출력할 부분 직전과 비슷한 의미(비슷한 단어)가 나왔던 곳만 집중하여 정보를 가져와서 입력으로 넣어준다.


좀 더 상세 의미 

1. encoding 즉 입력 쪽에서 hidden state를 싹싹 모은다. 

여기에는 입력 문장의 구간별 정보가 잘 담겨져있다. (이를 F matrix라고 한다)


2. 이를 통째로 decoding, 즉 출력 쪽으로 보낸다. 


3. attention 값을 원하는 곳 직전의 hidden state를 살짝 변형한다. (V 행렬로 변형 시켜준다)


4. 위에서 살짝 변형된 hidden state와 유사한 encoding의 hidden state를 찾는다.


5. 비슷한 부분의 attention energy가 높아지게 계산된다.


6. encoding hidden state에서 attention이 높아진 부분의 정보를 더 가져온다. 


7. 가져온 정보를 기존 입력과 연결해서 넣어준다.


Nonlinear attetion energy 모델도 있으나 좀더 복잡하니 일단 스킵

반응형