attention勉強会2
2021/03/14開催の勉強会の資料です。 最近attentionの流行を肌で感じだし、焦って勉強しています。
スライド
maskについての訂正
- softmax(QK)についてではなく、QKにmaskをかけます。
Linformer
- D(Q,K,V)=softmax(QK)VのQKが低ランク
- L(Q,K,V)=softmax(Q(EK))(FV)と、E,Fをかけて次元を落とす
- maskはQKにかけるのではなく、K,V,(Q)にかける
- 高速化は未確認...
- 前の記事 : 行列方程式のクロネッカー積による解法
- 次の記事 : attention勉強会2.5
- 関連記事 :