목록트랜스포머 (2)
세찬하늘

🧠 Transformer 개요 Transformer는 2017년 Vaswani et al.이 발표한논문 *Attention Is All You Need에서 처음 소개된 모델로,기존 자연어 처리(NLP)에서 주류로 사용되던 RNN과 CNN 기반의Sequence-to-Sequence 모델의 한계를 극복하기 위해 등장했다. 기존의 RNN 기반 모델(예: LSTM, GRU 등)은 문장을 구성하는 단어들을순서대로 처리해야 하기 때문에 병렬 처리가 어렵고, 문장의 길이가 길어질수록앞 단어의 정보가 뒤로 갈수록 희미해지는 장기 의존성(long-range dependency) 문제가 발생했다.예를 들어 "나는 어릴 적 꿈이 뭐였냐면..." 같은 긴 문장에서,마지막 단어를 생성할 때 처음 말한 "나는"이 잘 기억되지 ..

원문 출처https://arxiv.org/pdf/2103.00020 논문 리뷰를 하기 전에왜 이 논문을 포스팅 1번으로 하느냐 > 내가 처음 읽은 영어 원문으로된 논문이라서, transformer 모델이라서, 지금 transformer 2.0이라 하는 최신 모델들이 등장하는 시점에서 한번은 짚고 넘어가야 한다고 생각함 > 그리고 이 페이퍼를 복습하면서 옛 기억도 살리면 좋지 않을까 > 여기 모델이 평가에 사용한 데이터셋도 많고 zero-shot, multi-modal, 같은 용어들도 많이 나온다 > 모델 코드부터 인코더, 데이터로더, 등 내부 파일 코드까지 훑어볼 수 있을 듯 이 논문 리뷰 하면서 파트를 몇개를 가져가야 할지 모르겠으나 일단 정리해보자. 챗지피티 버전도 좋아졌겠다 한번 활용하면 본..