Stanford CS224N - 8. Self-Attention and Transformers
·
Stanford CS224N Lectures/강의정리
https://www.youtube.com/watch?v=LWMzyfvuehA&list=PLoROMvodv4rOaMFbaqxPDoLWjDaRAdP9D&index=88강 강의 링크이다. 2024 spring 재생목록인데 8강부터는 2023년 영상이고 매닝 교수님 말고 다른 분들이 등장하지만이분도 핵심만 잘 가르치고 질문에 대한 대답이 깔끔하시다. 이번 강의에서는 자연어처리 모델이 RNN 중심의 시대에서 self-attention, 그리고 Transformer 중심의 시대로 넘어온 과정을 다룬다. 2010년대 초중반까지는 순차적인 정보를 다루는 데 있어 RNN이 기본적인 선택지였지만, 데이터가 커지고 GPU는 강력해지지만 그 성능을 이끌어내지 못하는 효율성 때문에 한계가 명확해졌다. 오늘은 왜 recurr..
Stanford CS224N - 7. Attention, Final Projects and LLM intro
·
Stanford CS224N Lectures/강의정리
커리큘럼대로 따라가기만 해도 자연어처리 분야를 시간순서대로 차근차근히 이해하고 있다는 느낌이 든다. 저번 강의에서 Seq2seq 모델을 배웠고, 읽을거리들을 읽으며 attention 메커니즘에 대해 이해를 했다. 그리고 나니 강의 때 40분 정도 attention에 대한 내용을 다뤄도 이해가 쏙쏙 되는 기분이다.그럼 강의내용을 정리해보자. (다음 순서로 진행된다)기계번역의 EvaluationAttentionFInal Projects1. How do we Evaluate MT?기계번역을 어떻게 평가할까?간단하게 BLEU라는 가장 흔히 쓰이는 평가지표를 소개한다. 자세한 리뷰는 아래 글을 참고하고, 여기엔 간단하게 정리만 해보자2025.12.31 - [논문리뷰/NLP] - [논문리뷰] BLEU : a Met..
Stanford CS224N - 6. Sequence to Sequence Models
·
Stanford CS224N Lectures/강의정리
https://www.youtube.com/watch?v=Ba6Fn1-Jsfw&list=PLoROMvodv4rOaMFbaqxPDoLWjDaRAdP9D&index=6 와! 지금까지 들은 강의 중 가장 재미있었던 강의였다. 저번 시간 RNN의 문제점 전까지 공부했는데, 이번엔 RNN의 문제인 vanishing & exploding gradients부터 시작해서 NMT를 위한 모델 구조 Seq2Seq까지 다룬다. 1. RNN의 문제점 : 기울기 소실 및 폭발2. LSTM : 기울기 소실 문제의 해결3. RNN 모델의 other uses4. Bidirectional / Multi-Layer RNNs5. Machine Translation6. Neural Machine Translation : Seq2Seq A..
LSTM 이해하기
·
DL/NLP
CS224N 강의에서 RNN까지 배우고 나서 additional reading 으로 LSTM 에 대하여 정리한 블로그 글이 있어 읽어보았다. https://colah.github.io/posts/2015-08-Understanding-LSTMs/ (내용 및 이미지 출처 : colah's blog) Humans don’t start their thinking from scratch every second. As you read this essay, you understand each word based on your understanding of previous words. You don’t throw everything away and start thinking " data-og-host="colah.g..
Stanford CS224N - 5. Recurrent Neural Networks
·
Stanford CS224N Lectures/강의정리
Assignment 2 를 하면서 사용했던 몇 가지 스킬들에 대해 약간 설명하며 시작한다. 강의 진행 순서a bit more about NNnew NLP tasks : Language ModelingLM으로부터 motivated : Recurrent Neural Networks (RNNs) Problem with RNNsRecap on RNNs / LMs정리도 요 순서대로 진행해보도록 하자. 1. Neural Networks 추가 -> 현대로 오면서 점점 neural networks의 크기가 방대해지고 있다고 얘기하며 강의를 시작한다. 파라미터 수가 100억개, 1000억 개가 넘어가는 것인 기본이다. 하지만 거대한 neural networks를 구축하는 것은 쉽지 않았다. 1990년대부터 2000년대..
[CS224N] Assignment 2 : Word2Vec and Dependency Parsing
·
Stanford CS224N Lectures/assignment
그래도 첫 번째 과제에서 포기하지 않고 두번째까지 왔으니 열심히 해보도록 하자. Part 1. Understanding word2vec Word2Vec 논문을 읽으면서 혼자 수식을 풀어본 것이 Part 1 과 굉장히 밀접했다.먼저 중심단어벡터가 주어졌을 때, 주변 단어 벡터의 확률과 그를 이용한 손실 함수를 다시 쓰고 넘어가자. (a)는 로스가 실제분포 $y$와 예측분포 $\hat{y}$의 cross entropy임을 보이는 것. (b)는 손실함수 $J$를 중심벡터 $v_c$로 미분하고, 직관적인 의미 이해하기 (c)는 L2 정규화에 대한 이해 (d)는 손실함수를 주변단어에 대해 미분하고, 직관적인 의미를 이해하는 것. 주변단어가 정답일 때, 정답이 아닐 때로 나누어 계산하여도 결국 일반화가 가능하다...
Stanford CS224N - 2. Word Vectors and Language Models
·
Stanford CS224N Lectures/강의정리
0-1. 경사하강법 추가 저번 강의에서 마지막에 $\theta$를 업데이트하는 방법을 알아보았다. $$ \theta^{new} = \theta^{old} - \alpha\triangledown_{\theta}J(\theta)$$에서 gradient descent는 entire set of data를 사용해서 한 번의 업데이트를 한다. 즉, 한 번 gradient를 계산할 때 모든 샘플을 다 사용하는 것인데, 이렇게 되면 정확한 gradient를 계산할 수 있지만 너무 느리고 계산 비용이 비싸다. 그래서 새로 애기하는 개념이 한번의 업데이트에 데이터 1개만 사용하는 Stochastic Gradient Descent와 현대 딥러닝의 표준이 되는 Mini-Batch Gradient Descent이다. 각각의..
Stanford CS224N - 1. Intro and Word Vectors
·
Stanford CS224N Lectures/강의정리
자연어처리에 대해 공부를 해보려고 한다. 기초가 튼튼해야 뭐라도 할 수 있을 것 같아서 시작한다..스탠포드의 강의를 방구석에서 무료로 들을 수 있다니 얼마나 행운인가? 2024년 봄학기 스탠포드의 NLP With Deep Learning 강의를 듣고 정리해보도록 하자. 실제로 수업을 듣는 것처럼 과제도 하고, 프로젝트도 해볼 생각이다. 1. Learning Goalsmethods of DL applied to NLP : bottom-up 방식으로 Wodf Vectors, Feed-Forward Networks, Recurrent Networks, Attention -> Transformers, Encoder-Decoder models, Pretraing, Post-Training(RLHF, SFT), ..