์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- ํธ๋์คํฌ๋จธ2.0
- ์ปดํจํฐ๋น์
- ์คํAI
- ๋ฉํฐ๋ชจ๋ฌ
- ๋ฅ๋ฌ๋
- clip
- OpenAI
- ํธ๋์คํฌ๋จธ
- Transformers
- Today
- Total
์ธ์ฐฌํ๋
[๋ ผ๋ฌธ] Attention Is All You Need_ํธ๋์คํฌ๋จธ ์ดํด(๊ฐ์ + ๊ตฌ์กฐ์ )_ํํธ1 ๋ณธ๋ฌธ
[๋ ผ๋ฌธ] Attention Is All You Need_ํธ๋์คํฌ๋จธ ์ดํด(๊ฐ์ + ๊ตฌ์กฐ์ )_ํํธ1
HotSky92 2025. 3. 24. 13:05๐ง Transformer ๊ฐ์
Transformer๋ 2017๋
Vaswani et al.์ด ๋ฐํํ
๋
ผ๋ฌธ *Attention Is All You Need์์ ์ฒ์ ์๊ฐ๋ ๋ชจ๋ธ๋ก,
๊ธฐ์กด ์์ฐ์ด ์ฒ๋ฆฌ(NLP)์์ ์ฃผ๋ฅ๋ก ์ฌ์ฉ๋๋ RNN๊ณผ CNN ๊ธฐ๋ฐ์
Sequence-to-Sequence ๋ชจ๋ธ์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ๊ธฐ ์ํด ๋ฑ์ฅํ๋ค.
๊ธฐ์กด์ RNN ๊ธฐ๋ฐ ๋ชจ๋ธ(์: LSTM, GRU ๋ฑ)์ ๋ฌธ์ฅ์ ๊ตฌ์ฑํ๋ ๋จ์ด๋ค์
์์๋๋ก ์ฒ๋ฆฌํด์ผ ํ๊ธฐ ๋๋ฌธ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ์ด๋ ต๊ณ , ๋ฌธ์ฅ์ ๊ธธ์ด๊ฐ ๊ธธ์ด์ง์๋ก
์ ๋จ์ด์ ์ ๋ณด๊ฐ ๋ค๋ก ๊ฐ์๋ก ํฌ๋ฏธํด์ง๋ ์ฅ๊ธฐ ์์กด์ฑ(long-range dependency) ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
์๋ฅผ ๋ค์ด "๋๋ ์ด๋ฆด ์ ๊ฟ์ด ๋ญ์๋๋ฉด..." ๊ฐ์ ๊ธด ๋ฌธ์ฅ์์,
๋ง์ง๋ง ๋จ์ด๋ฅผ ์์ฑํ ๋ ์ฒ์ ๋งํ "๋๋"์ด ์ ๊ธฐ์ต๋์ง ์๋ ๋ฌธ์ ๊ฐ ๋ฐ์ํ๋ค.
ํํธ, CNN ๊ธฐ๋ฐ ๋ชจ๋ธ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํ๋ค๋ ์ฅ์ ์ด ์์ง๋ง,
๊ณ ์ ๋ ์ปค๋ ํฌ๊ธฐ๋ก ์ธํด ํ ๋ฒ์ ๋ณผ ์ ์๋ ๋จ์ด์ ๋ฒ์(= ์์ฉ ์์ญ, receptive field)๊ฐ ์ ํ๋๋ค.
์ด ๋๋ฌธ์ ๋ฉ๋ฆฌ ๋จ์ด์ง ๋จ์ด๋ค ๊ฐ์ ๊ด๊ณ๋ฅผ ํ์ตํ๋ ๋ฐ ์ด๋ ค์์ด ์๋ค.
์๋ฅผ ๋ค์ด "๋๋"๊ณผ "๊ฐ๋ค"๊ฐ ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์์ ๋, CNN์ ์ด ๋ ๋จ์ด์ ๊ด๊ณ๋ฅผ ํ์ ํ๋ ค๋ฉด
์ฌ๋ฌ ์ธต์ ๊ฑฐ์ณ์ผ ํ๋ค. ์ด๋ฌํ ํ๊ณ๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ์ ์๋ ๊ฒ์ด Transformer ๋ชจ๋ธ์ด๋ค.
Transformer๋ ๊ธฐ์กด์ recurrence(๋ฐ๋ณต ๊ตฌ์กฐ)์ convolution(ํฉ์ฑ๊ณฑ ์ฐ์ฐ)์ ๋ชจ๋ ์ ๊ฑฐํ๊ณ ,
๋์ Self-Attention ๋ฉ์ปค๋์ฆ๋ง์ผ๋ก ๋ฌธ์ฅ์ ๋ชจ๋ ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ ๋ฒ์ ๊ณ์ฐํ ์ ์๊ฒ ํ์๋ค.
์ด ๋๋ถ์ ๋ณ๋ ฌ ์ฒ๋ฆฌ๊ฐ ๊ฐ๋ฅํด์ง๊ณ , ๋ฉ๋ฆฌ ๋จ์ด์ง ๋จ์ด ๊ฐ ์์กด์ฑ๋ ๋จ ํ ๋ฒ์ ์ฐ์ฐ์ผ๋ก
๊ณ์ฐํ ์ ์์ด ํ์ต ์๋์ ์ฑ๋ฅ์ด ํฌ๊ฒ ํฅ์๋์๋ค.
๐ฆ ๊ตฌ์กฐ ์ค๋ช (์์: ์์ด → ํ๊ตญ์ด ๋ฒ์ญ)
Transformer๋ ํฌ๊ฒ Encoder์ Decoder๋ก ๊ตฌ์ฑ๋๋ค.
- ์๋ฅผ ๋ค์ด, ์ ๋ ฅ ๋ฌธ์ฅ์ด "I am a student"์ด๊ณ ์ถ๋ ฅ(์ ๋ต)์ด "๋๋ ํ์์ด๋ค"์ธ ๊ฒฝ์ฐ๋ฅผ ์๊ฐํด๋ณด์.
๐ท 1. Input Embedding + Positional Encoding
์ ๋ ฅ ๋ฌธ์ฅ์ ๋จ์ด๋ค์ ์ซ์ ๋ฒกํฐ๋ก ๋ณํํ ์๋ฒ ๋ฉ์ ๊ฑฐ์น๊ณ ,
์์๋ฅผ ์ ์ ์๋๋ก ์์น ์ ๋ณด(Positional Encoding)**๊ฐ ์ถ๊ฐ๋๋ค.
์ด๊ฑธ ํตํด ๋ชจ๋ธ์ "I"๊ฐ ์ฒซ ๋ฒ์งธ ๋จ์ด๊ณ "student"๊ฐ ๋ค ๋ฒ์งธ๋ผ๋ ์์๋ฅผ ์ธ์ํ ์ ์๋ค.
๐ถ 2. Encoder: ์ ๋ ฅ ์ ์ฒด ๋ฌธ๋งฅ์ ํ์
Encoder๋ ๋์ผํ ๊ตฌ์กฐ์ ๋ธ๋ก์ ์ฌ๋ฌ ๋ฒ ๋ฐ๋ณตํด์ ์์ ๊ตฌ์กฐ์ด๋ฉฐ, ๊ฐ ๋ธ๋ก์๋ ๋ค์ ๋ ๊ฐ์ง๊ฐ ๋ค์ด ์๋ค:
- Multi-Head Self-Attention: "I am a student" ๋ด์ ๋จ์ด๋ค์ด ์๋ก๋ฅผ ๋ฐ๋ผ๋ณด๋ฉฐ(์ดํ
์
)
์ค์ํ ๊ด๊ณ๋ฅผ ํ์ ํ๋ค. ์๋ฅผ ๋ค์ด "student"๋ "I"์ ์ฐ๊ฒฐ๋ ์ ์๋ค๋ ๊ฑธ ํ์ตํ๋ค.
๐ง ์ ์ : ๋ฌธ์ฅ๊ณผ ๋จ์ด ์๋ฒ ๋ฉ
์ด ๋ฌธ์ฅ์ 6๊ฐ์ ๋จ์ด๋ก ๊ตฌ์ฑ๋์ด ์๊ณ , ๊ฐ ๋จ์ด๋ ์๋ฒ ๋ฉ๋์ด d_model ์ฐจ์ ๋ฒกํฐ๋ก ํํ๋ผ."The cat sat on the mat"
(์: d_model = 512)
โ ์ ๋ฆฌQ, K, V ์์ฑ ๊ฐ ๋จ์ด๋ฅผ ์ธ ๊ฐ์ง ๊ด์ ์์ ๋ณํ ๋ด์ (Q·K) ๋จ์ด ๊ฐ ๊ด๋ จ์ฑ(์ ์ฌ๋) ๊ณ์ฐ Softmax ์ค์๋(๊ฐ์ค์น)๋ก ๋ณํ ๊ฐ์คํฉ ์ค์ํ ๋จ์ด์ ์ ๋ณด๋ฅผ ๋ชจ์์ ๋ด ํํ์ผ๋ก ๋ง๋ฆ
์ธ์ฝ๋ 1์ธต์ ๊ตฌ์ฑ (ํ ์ธต ๊ธฐ์ค):
- Input Embedding + Positional Encoding
→ ๋จ์ด๋ฅผ ๋ฒกํฐ๋ก ๋ณํํ๊ณ , ์์น ์ ๋ณด๋ฅผ ๋ํจ - Multi-Head Self-Attention
→ ๋ฌธ์ฅ ์ ๋จ์ด๋ค์ด ์๋ก๋ฅผ ๋ฐ๋ผ๋ณด๋ฉฐ ๊ด๊ณ ํ์ (์์ ์ ๋ฆฌํ ๋ด์ฉ) - Add & LayerNorm
→ ์์ฐจ ์ฐ๊ฒฐ(residual)๊ณผ ์ ๊ทํ(layer normalization)๋ก ์์ ์ ์ธ ํ์ต
์์ฐจ์ฐ๊ฒฐ๊ณผ ์ ๊ทํ ์์
์ ๋ฆฌ - ์์ฐจ์ ์ ๊ทํ๋ฅผ ํ๋ ์ด์
ํธ๋์คํฌ๋จธ์์ ๋ฉํฐํค๋ ์ดํ
์
์ ๋ฌธ๋งฅ์ ๋ฐ์ํ ์๋ก์ด ํํ์ ๋ง๋ค์ด๋ด์ง๋ง,
์ด ๊ณผ์ ์์ ์๋ ์
๋ ฅ ๋ฒกํฐ์ ๊ตฌ์กฐ๋ ์ ๋ณด๊ฐ ๊ณผํ๊ฒ ๋ณํ๋๊ฑฐ๋ ์์ค๋ ์ํ์ด ์๋ค.
์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํด ์์ฐจ ์ฐ๊ฒฐ(Residual Connection)์ ์ฌ์ฉํ์ฌ ์ดํ
์
์ ์ถ๋ ฅ์
์๋ ์
๋ ฅ์ ๋ํด์ค์ผ๋ก์จ ๋ชจ๋ธ์ด ๋ฌธ๋งฅ ์ ๋ณด์ ์
๋ ฅ ์์ฒด์ ์ ๋ณด๋ฅผ ํจ๊ป ์ ์งํ ์ ์๋๋ก ํ๋ค.
์ด๋ ๊ฒ ๋ํด์ง ๊ฒฐ๊ณผ๋ ๊ฐ์ ๋ถํฌ๊ฐ ๋ถ์์ ํ ์ ์๊ธฐ ๋๋ฌธ์,
์ด์ด์ ๋ ์ด์ด ์ ๊ทํ(Layer Normalization)๋ฅผ ์ ์ฉํด ํ๊ท 0, ๋ถ์ฐ 1๋ก ์ ๋ํจ์ผ๋ก์จ
ํ์ต์ ์์ ์ฑ๊ณผ ์๋ ด ์๋๋ฅผ ๋์ธ๋ค. ์ด ๋ ๊ตฌ์ฑ์ ํธ๋์คํฌ๋จธ๊ฐ ๊น์ ์ธต์์๋
์ ๋ณด ์์ค ์์ด ์๋ฏธ ์๋ ํํ์ ํจ๊ณผ์ ์ผ๋ก ํ์ตํ ์ ์๋๋ก ๋๋ ํต์ฌ ๋ฉ์ปค๋์ฆ์ด๋ค.
4. Feed Forward Network (FFN)
→ ๊ฐ ๋จ์ด์ ํํ์ ๋น์ ํ์ ์ผ๋ก ํ์ฅ (2-layer MLP)
๐ง Feed Forward Network(FFN)์ ๊ตฌ์ฑ ๋ค์ ๋ณด๊ธฐ
ํธ๋์คํฌ๋จธ์ FFN์ ์ฌ์ค์ ์์ฃผ ๊ฐ๋จํ 2์ธต์ง๋ฆฌ ์ ๊ฒฝ๋ง์ด์ผ.
๋ฅ๋ฌ๋์์ ํํ ์ฐ๋ MLP (Multi-Layer Perceptron) ๊ตฌ์กฐ๊ณ ,
๊ฐ ๋จ์ด(๋ฒกํฐ)์ ๋ํด ๊ฐ๋ณ์ ์ผ๋ก ๋์ผํ FFN์ ์ ์ฉํด.
๐ ์์ฝ ํ๋ฆ
๋จ์ด ํ๋ํ๋์ ๋ํด ์ด ๊ณผ์ ์ ๊ฑฐ์น๊ณ ,
๊ฒฐ๊ณผ๋ Self-Attention์ด ๋ฐ์๋ ํ ํ์ธต ๋ ์๋ฏธ์ ์ผ๋ก ๋ณํ๋ ํํ์ด ๋๋ ๊ฑฐ์ผ.
โป ํธ๋์คํฌ๋จธ ์ธ์ฝ๋๋ ๋์ผํ ๊ตฌ์กฐ์ ์ธต์ ์ฌ๋ฌ ๊ฐ ๋ฐ๋ณตํ๋๋ก ์ค๊ณ๋์ด์๋ค. ์ด๋ ๊ฒ ์์
์ ์ํํ๋ ค๋ฉด
๊ฐ ์ธต์ ์
๋ ฅ๊ณผ ์ถ๋ ฅ ์ฐจ์์ด ๊ฐ์์ผ ๋ค์ ์ธต์ ๊ทธ๋๋ก ๋ฃ์ ์ ์๋ค.
5. Add & LayerNorm (๋ ํ ๋ฒ)
→ ๋ค์ ์์ฐจ ์ฐ๊ฒฐ๊ณผ ์ ๊ทํ
์ด๊ฑธ N๋ฒ ๋ฐ๋ณต (๋ณดํต 6์ธต) → ์ธ์ฝ๋ ์ ์ฒด ์์ฑ!
๋ค์ํ๋ฒ ์ธ์ฝ๋ ๋ถ๋ถ ์ ๋ฆฌ
๐ง Transformer ์ธ์ฝ๋ ์ ๋ฆฌ
Transformer ์ธ์ฝ๋๋ ์
๋ ฅ ๋ฌธ์ฅ์ ๋ฌธ๋งฅ์ ๋ฐ์ํ ํ๋ถํ ํํ ๋ฒกํฐ๋ก ๋ณํํ๋ ๊ตฌ์กฐ๋ก,
๋์ผํ ํํ์ ๋ธ๋ก(layer)์ ์ฌ๋ฌ ์ธต(N์ธต) ๋ฐ๋ณตํด์ ๊ตฌ์ฑ๋๋ค.
๊ฐ ์ธ์ฝ๋ ๋ธ๋ก์ ๋ค์๊ณผ ๊ฐ์ ์์๋ก ๋์ํ๋ค:
โ ์ ๋ ฅ ์๋ฒ ๋ฉ + ์์น ์ธ์ฝ๋ฉ (Positional Encoding)
๋จผ์ ์
๋ ฅ ๋ฌธ์ฅ์ ๊ฐ ๋จ์ด๋ ๊ณ ์ ๋ ํฌ๊ธฐ์ ๋ฒกํฐ๋ก ์๋ฒ ๋ฉ๋๋ฉฐ,
Transformer๋ ์์๋ฅผ ์ฒ๋ฆฌํ ๋ฅ๋ ฅ์ด ์๊ธฐ ๋๋ฌธ์ ๊ฐ ๋จ์ด์
์์น ์ ๋ณด๋ฅผ ๋ํ๋ Positional Encoding์ ์ ์ฉํ๋ค.
์ด๋ ๊ฒ ํด์ ๋ง๋ค์ด์ง ์
๋ ฅ ๋ฒกํฐ๋ค์ด ์ธ์ฝ๋์ ์ฒซ ๋ฒ์งธ ๋ธ๋ก์ผ๋ก ๋ค์ด๊ฐ๋ค.
โก Multi-Head Self-Attention
์
๋ ฅ๋ ๋จ์ด ๋ฒกํฐ๋ค์ ์๋ก๋ฅผ "๋ฐ๋ผ๋ณด๋ฉฐ" ๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ์ฃผ๊ณ ๋ฐ๋๋ค.
๊ฐ ๋จ์ด๋ Query, Key, Value ๋ฒกํฐ๋ก ๋ณํ๋์ด,
๋ชจ๋ ๋จ์ด๋ค๊ณผ์ ์ ์ฌ๋(์ค์๋)๋ฅผ ๊ณ์ฐํ๊ณ ๊ทธ์ ๋ฐ๋ผ ์ ๋ณด๋ฅผ ๊ฐ์คํฉํ๋ค.
์ด ๊ณผ์ ์ ์ฌ๋ฌ ๊ฐ์ ํค๋(head)์์ ๋ณ๋ ฌ๋ก ์ํํ๋ฉด,
์๋ก ๋ค๋ฅธ ๊ด์ ์์ ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ์ตํ ์ ์๊ณ
์ด ๊ฒฐ๊ณผ๋ค์ ์ด์ด๋ถ์ฌ ๋ฌธ๋งฅ์ด ๋ฐ์๋ ํํ์ ๋ง๋ ๋ค.
โข ์์ฐจ ์ฐ๊ฒฐ(Residual Connection) + ๋ ์ด์ด ์ ๊ทํ(Layer Normalization)
Self-Attention์ ์ถ๋ ฅ์ ์
๋ ฅ ๋ฒกํฐ์ ๋ํด์ ธ(์์ฐจ ์ฐ๊ฒฐ),
์๋ ์ ๋ณด๊ฐ ์์ค๋์ง ์๋๋ก ๋ณด์กด๋๋ค.
์ดํ ์ ๊ทํ ๊ณผ์ ์ ๊ฑฐ์ณ ๊ฐ์ ๋ถํฌ๋ฅผ ์์ ํ์์ผ,
ํ์ต์ด ๋ ๋น ๋ฅด๊ณ ์์ ์ ์ผ๋ก ์งํ๋๋๋ก ํ๋ค.
โฃ Feed Forward Network (FFN)
๋ฌธ๋งฅ ์ ๋ณด๋ฅผ ๋ฐ์ํ ๊ฐ ๋จ์ด ๋ฒกํฐ๋
๊ฐ๋ณ์ ์ผ๋ก 2์ธต์ง๋ฆฌ ์์ ์ฐ๊ฒฐ ์ ๊ฒฝ๋ง์ ํต๊ณผํ๋ค.
๋จผ์ ์ฐจ์์ ํ์ฅํ์ฌ ๋น์ ํ ํ์ฑํ(ReLU)๋ฅผ ์ ์ฉํ๊ณ ,
๋ค์ ์๋ ์ฐจ์์ผ๋ก ์ค์ด๋ฉด์ ๋ ์ถ์์ ์ธ ํํ ๋ฒกํฐ๋ก ๋ณํ๋๋ค.
์ด ๊ณผ์ ์ ๋จ์ด ํ๋ํ๋์ ๋ ๋ฆฝ์ ์ผ๋ก ์ ์ฉ๋๋ค.
โค ๋ค์ ์์ฐจ ์ฐ๊ฒฐ + ๋ ์ด์ด ์ ๊ทํ
FFN์ ์ถ๋ ฅ์๋ ์
๋ ฅ์ ๋ํ๊ณ ,
๋ ์ด์ด ์ ๊ทํ๋ฅผ ์ ์ฉํ์ฌ ๊ฐ์ ์์ ํ์ํจ๋ค.
์ด ๊ณผ์ ์ ํตํด ๊ฐ ๋จ์ด ๋ฒกํฐ๋ ๋ฌธ๋งฅ๊ณผ ๊ณ ์ ์ ๋ณด๋ฅผ ๋ชจ๋ ๋ด์ ์ํ๋ก ๋ค์ ๋ธ๋ก์ผ๋ก ์ ๋ฌ๋๋ค.
โ ์ธ์ฝ๋ ์์ฝ ๊ตฌ์กฐ (ํ ์ธต ๊ธฐ์ค):
Input → [Multi-Head Self-Attention]
→ Add & LayerNorm
→ Feed Forward Network
→ Add & LayerNorm
→ Output → ๋ค์ ์ธต์ผ๋ก
์ด ๊ตฌ์กฐ๊ฐ N๋ฒ ๋ฐ๋ณต๋๋ฉด ์ธ์ฝ๋ ์ ์ฒด๊ฐ ์์ฑ๋๊ณ ,
์ต์ข
์ถ๋ ฅ์ ๊ฐ ๋จ์ด์ ๋ํ ๋ฌธ๋งฅ-aware ๋ฒกํฐ ํํ์ด ๋๋ค.
๐ธ 3. Decoder: ๋ฒ์ญ ๊ฒฐ๊ณผ๋ฅผ ์์ฑ(์ฌ๊ธฐ ๋ถํฐ๋ ๋ค์ ํธ์์ ๋ค๋ฃจ)
Decoder๋ Encoder์ ์ ์ฌํ ๊ตฌ์กฐ์ง๋ง, ๋ค์๊ณผ ๊ฐ์ ์ฐจ์ด์ ์ด ์๋ค:
- Masked Multi-Head Attention: ๋์ฝ๋๋ ์ถ๋ ฅ ๋ฌธ์ฅ์ ํ ๋จ์ด์ฉ ์์ฑํ๋ค.
ํ์ต ์์๋ "๋๋ ํ์์ด๋ค" ์ ์ฒด ๋ฌธ์ฅ์ ์ด์ฉํ๋,
์๋ฅผ ๋ค์ด "๋๋"์ ์ ๋ ฅํ์ ๋ ์ ๋จ์ด๊น์ง๋ง ๋ณด๊ณ ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋๋ก ๋ง์คํฌ๋ฅผ ์์ด๋ค.
์ฆ, "ํ์"์ด๋ผ๋ ์ ๋ต์ ๊ฐ๋ ค๋๊ณ "๋๋"๋ง ๋ณด๊ณ "ํ์"์ ์์ธกํด์ผ ํ๋ค. - Encoder-Decoder Attention: ์
๋ ฅ ๋ฌธ์ฅ์ ์ ๋ณด๋ฅผ ์ฐธ๊ณ ํด ์ถ๋ ฅ ๋จ์ด๋ฅผ ์์ฑํ๋ค.
"๋๋"์ด๋ผ๋ ๋จ์ด๋ฅผ ์์ฑํ ๋, Encoder๊ฐ ๋ถ์ํ "I am a student"์ ์๋ฏธ๋ฅผ ๊ฐ์ด ๊ณ ๋ คํ๋ค. - Feed-Forward Network: ์์ธก๋ ์ ๋ณด๋ค์ ์ต์ข ์ ์ผ๋ก ๋ณํํ๋ค.
๐ฏ 4. Linear + Softmax → ํ๋ฅ ์์ธก
Decoder์์ ๋์จ ์ถ๋ ฅ์ Linear Layer๋ฅผ ํตํด ๋จ์ด ์ฌ์ ํฌ๊ธฐ์ ๋ฒกํฐ๋ก ๋ณํ๋๊ณ ,
Softmax๋ฅผ ํตํด ๋ค์ ๋จ์ด๋ก ์ด๋ค ๋จ์ด๊ฐ ๋์ฌ ํ๋ฅ ์ด ๋์์ง๋ฅผ ๊ณ์ฐํ๋ค.
์๋ฅผ ๋ค์ด, ๋ค์ ๋จ์ด๋ก "ํ์"์ผ ํ๋ฅ ์ด 0.82, "์ ์"์ผ ํ๋ฅ ์ด 0.05, "์์ฌ"์ผ ํ๋ฅ ์ด 0.01 ๊ฐ์ ์์ผ๋ก
ํ๋ฅ ๋ถํฌ๋ฅผ ์์ฑํ ๋ค, ๊ฐ์ฅ ๋์ ๋จ์ด๋ฅผ ์ ํํด ์ถ๋ ฅํ๋ค.
๐ ํ์ต ๋ฐฉ์
Transformer๋ ์ง๋ํ์ต(Supervised Learning) ๊ธฐ๋ฐ์ผ๋ก ํ์ต๋๊ธฐ ๋๋ฌธ์,
๋ฐ๋์ ์
๋ ฅ๊ณผ ์ ๋ต ์ถ๋ ฅ ์์ด ๋งค์นญ๋ ๋ฐ์ดํฐ์
์ด ํ์ํ๋ค.
์์:
์ ๋ ฅ (Input) ์ถ๋ ฅ (Target)
"I am a student" | "๋๋ ํ์์ด๋ค" |
๐ผ๏ธ ์ด๋ฏธ์ง (๊ฐ์์ง ์ฌ์ง) | "๊ฐ์์ง๊ฐ ํ๋ฐญ์์ ๋ด๋ค" |
ํ์ต ์ค์๋ ๋์ฝ๋์ ์ถ๋ ฅ ๋ฌธ์ฅ์ ํ ์นธ์ฉ ๋ฐ์ด์ ์
๋ ฅ(?)ํ๊ณ ,
๊ฐ ์์ ๋ง๋ค ๋ค์ ๋จ์ด๋ฅผ ์์ธกํ๋ ๋ฐฉ์์ผ๋ก ํ์ต์ด ์ด๋ค์ง๋ค.
โ ์์ฝ
- Transformer๋ RNN/CNN์ ํ๊ณ๋ฅผ ๊ทน๋ณตํ ์์ ์ดํ ์ ๊ธฐ๋ฐ ๋ชจ๋ธ์ด๋ค.
- ์ ๋ ฅ๊ณผ ์ถ๋ ฅ์ ๋์์ ๋ณ๋ ฌ์ ์ผ๋ก ์ฒ๋ฆฌํ ์ ์์ด ํ์ต์ด ๋น ๋ฅด๊ณ , ๊ธด ๋ฌธ์ฅ์์๋ ํจ๊ณผ์ ์ด๋ค.
- ๊ตฌ์กฐ๋ Encoder-Decoder๋ก ๋๋๋ฉฐ,
๊ฐ ์ธต์ Multi-Head Attention + Feed Forward + LayerNorm + Residual๋ก ๊ตฌ์ฑ๋๋ค. - Self-Attention์ ๋จ์ด ๊ฐ ๊ด๊ณ๋ฅผ ํ์ ํ๊ณ , Multi-Head๋ ๋ค์ํ ์๊ฐ์ผ๋ก ์ด๋ฅผ ๊ฐํํ๋ค.
- ํ์ต ์์๋ ์ ๋ ฅ-์ถ๋ ฅ ์์ด ํ์ํ๋ฉฐ, ์ถ๋ ฅ์ Softmax๋ฅผ ํตํด ๋จ์ด ์ฌ์ ์ ์ฒด์ ๋ํ ํ๋ฅ ๋ถํฌ๋ก ์์ฑ๋๋ค.