Transformers

About Transformer

"Attention Is All You Need"는 2017년에 발표된 논문으로, 자연어 처리(NLP)에서 혁신적인 Transformer 모델을 소개합니다. 이 모델은 기존의 RNN(recurrent neural networks)과 CNN(convolutional neural networks)과 달리, 전적으로 어텐션 메커니즘에 의존합니다. 어텐션 메커니즘은 입력 시퀀스의 모든 부분을 동시에 고려하여 병렬 처리를 가능하게 하고, 문맥을 더 잘 파악할 수 있게 합니다.

Transformer 모델은 크게 인코더와 디코더로 구성되어 있습니다. 인코더는 입력 시퀀스를 받아 어텐션 메커니즘을 통해 각 단어의 중요도를 계산하고, 디코더는 이 정보를 바탕으로 출력 시퀀스를 생성합니다. 이 모델의 핵심 구성 요소는 셀프 어텐션(self-attention) 메커니즘과 다중-헤드 어텐션(multi-head attention)입니다. 셀프 어텐션은 시퀀스 내의 각 단어가 다른 단어들과의 관계를 고려하게 하며, 다중-헤드 어텐션은 다양한 시각에서 이 관계를 분석할 수 있게 합니다.

Hugging Face Transformers는 자연어 처리(NLP) 작업을 위한 강력한 라이브러리로, 다양한 사전 훈련된 모델을 제공하여 연구자와 개발자가 쉽게 사용할 수 있게 합니다. 이 라이브러리는 PyTorch와 TensorFlow를 지원하며, BERT, GPT-2, T5, RoBERTa 등의 다양한 Transformer 기반 모델을 포함하고 있습니다.

Huggingface Transformer는 많은 기능을 제공하므로 모든 것을 소개하지는 못합니다. 여기서는 크게 Transformer 이론 해설, Pytorch로 구현, Huggingface Transformer 라이브러리와 pytorch로 Text Classification을 구성했습니다.

I. Principle of Transformer

II. Transformer Pytorch 구현

III. Huggingface Transformer 학습 절차

I. Principle of Transformer

원본: https://levelup.gitconnected.com/understanding-transformers-from-start-to-end-a-step-by-step-math-example-16d4e64e6eb1#e273

데이터 세트 정의하기
어휘 크기 찾기
인코딩
임베딩 계산하기
위치 임베딩 계산하기
위치 임베딩과 단어 임베딩 연결하기
다중 헤드 주의
추가 및 정규화
피드 포워드 네트워크
추가 및 다시 정규화하기
디코더 부분
마스크 멀티 헤드 어텐션 이해
예측 단어 계산하기
중요 사항
결론

1단계 - 데이터 집합 정의

ChatGPT를 만드는 데 사용되는 데이터 세트는 **570GB이다. 반면, 여기서는 시각적으로 수치 계산을 수행하기 위해 매우 작은 데이터 세트를 사용한다.

세 문장으로만 구성된 전체 데이터 세트

전체 데이터 세트에는 단 세 개의 문장만 포함되어 있으며, 모두 TV 프로그램에서 가져온 대화이다.. 데이터 세트는 정리되었지만 ChatGPT 생성과 같은 실제 시나리오에서는 570GB의 데이터 세트를 정리하는 데 상당한 노력이 필요하다.

2단계: 어휘 크기 찾기

어휘 크기는 데이터 세트의 총 고유 단어 수를 결정한다. 아래 공식을 사용하여 계산할 수 있으며, 여기서 N은 데이터 세트의 총 단어 수이다.

vocab_size 공식에서 N은 총 단어 수이다.

N을 찾으려면 데이터 집합을 개별 단어로 쪼개야한다.

변수 N 계산

N을 구한 후 집합 연산을 수행하여 중복을 제거한 다음 고유 단어를 계산하여 어휘 크기를 결정할 수 있다.

어휘 크기 찾기

따라서 데이터 세트에 23개의 고유 단어가 있으므로 어휘 크기는 23개이다.

3단계 - 인코딩

이제 각 고유 단어에 고유 번호를 할당한다.

고유 단어 인코딩

하나의 토큰을 하나의 단어로 간주하고 숫자를 할당했듯이, ChatGPT는 이 공식을 사용하여 단어의 일부를 하나의 토큰으로 간주한다.: 1 토큰 = 0.75 단어

전체 데이터 세트를 인코딩한 후에는 입력을 선택하고 트랜스포머 아키텍처로 작업을 시작할 차례이다.

4단계 - 임베딩 계산

말뭉치(Corpus)에서 트랜스포머 아키텍처에서 처리할 문장을 선택해 보자.

Transformer 입력 문장

입력을 선택했으니 그에 맞는 임베딩 벡터(Embedding Vector)를 찾아야 한다. 논문에서는 각 입력 단어에 대해 512차원 임베딩 벡터를 사용한다.

원본 용지는 512 차원 벡터를 사용합니다.

이 경우 계산이 어떻게 진행되는지 시각화하기 위해 더 작은 차원의 임베딩 벡터로 작업해야 한다. 따라서 임베딩 벡터에 6 차원을 사용하겠다.

입력 벡터 임베딩

임베딩 벡터의 값은 0과 1 사이이며 처음에는 무작위로 채워진다.나중에 트랜스포머가 단어 사이의 의미를 이해하기 시작하면 이 값은 업데이트된다.

5단계 - 위치 임베딩 계산하기

이제 입력에 대한 위치 임베딩(Positional Embedding)을 찾아야 한다.각 단어에 대한 임베딩 벡터의 ith 값의 위치에 따라 위치 임베딩을 위한 두 가지 공식이 있다.

위치 임베딩 공식

아시다시피, 입력 문장은 "왕좌의 게임을 할 때 "이고 시작 단어는 "언제 "이며 시작 인덱스(POS) 값은 0이고 차원(d)은 6이다.. 0에서 5까지의 i 대해 입력 문장의 첫 번째 단어에 대한 위치 임베딩을 계산한다.

단어의 위치 임베딩: When

마찬가지로 입력 문장의 모든 단어에 대해 위치 임베딩을 계산할 수 있다.

입력값의 위치 임베딩 계산하기 (계산된 값은 반올림 됨)

6단계 - 위치 및 단어 임베딩 연결하기

위치 임베딩을 계산한 후에는 단어 임베딩과 위치 임베딩을 추가한다.

연결 단계

두 행렬 (단어 임베딩 행렬과 위치 임베딩 행렬)을 결합한 결과 행렬이 인코더 부분의 입력으로 간주된다.

7단계 - 멀티 헤드 어텐션

다중 헤드 어텐션(Multi-head Attention)은 여러 개의 단일 헤드 어텐션으로 구성된다. 얼마나 많은 단일 헤드를 결합할 것인지는 모델에 따라 다르다. 예를 들어 Meta의 LLaMA LLM은 인코더 아키텍처에 32개의 싱글 헤드를 사용했다. 아래는 단일 헤드 어텐션이 어떻게 생겼는지 보여주는 그림 다이어그램.

트랜스포머의 싱글 헤드 어텐션

쿼리(Query), 키(Key), 값(Value)의 세 가지 입력이 있다. 이러한 각 행렬은 앞서 계산한 동일한 행렬의 조옮김 행렬과 다른 가중치 행렬 집합을 곱하여 단어 임베딩 및 위치 임베딩 행렬을 추가하여 얻는다.

쿼리 행렬을 계산하기 위해 가중치 행렬 집합의 행 수는 전치 행렬의 열 수와 같아야 하지만 가중치 행렬의 열은 어떤 것이든 상관없습니다(예를 들어 가중치 행렬의 열이 4개가정해 보면). 가중치 행렬의 값은 0과 1 사이의 임의의 값이며, 나중에 트랜스포머가 단어의 의미를 학습하기 시작하면 업데이트된다.

쿼리 행렬 계산

마찬가지로 동일한 절차를 사용하여 키 행렬과 값 행렬을 계산할 수 있지만, 가중치 행렬의 값은 두 행렬에 대해 서로 달라야 한다.

키 및 값 행렬 계산

따라서 행렬을 곱하면 결과 쿼리, 키, 값을 얻을 수 있다:

쿼리, 키, 값 행렬

이제 세 개의 행렬이 모두 준비되었으므로 단일 헤드 주의도 계산을 단계별로 시작해 보자.

쿼리와 키 사이의 행렬 곱셈

결과 행렬의 크기를 조정하려면 임베딩 벡터의 차원인 6을 재사용해야 한다.

결과 행렬을 차원 5로 스케일링한다.

마스킹의 다음 단계는 선택 사항이며 계산하지 않습니다. 마스킹은 모델에게 문장에서 다른 단어의 중요성을 파악하는 동안 특정 시점 이전에 일어난 일에만 집중하고 미래를 들여다보지 말라고 말하는 것과 같다. 이는 모델이 앞을 내다보며 속임수를 쓰지 않고 단계적으로 사물을 이해하는 데 도움이 된다.

이제 스케일링된 결과 행렬에 소프트맥스 연산을 적용배보자.

결과 매트릭스에 소프트맥스 적용하기

최종 곱셈 단계를 수행하여 단일 헤드 주의에서 결과 행렬을 얻는다.

싱글 헤드 어텐션의 최종 매트릭스 계산하기

앞서 말씀드린 것처럼 단일 헤드 어텐션은 단일 헤드 어텐션으로 계산한 반면, 멀티 헤드 어텐션은 여러 개의 단일 헤드 어텐션으로 구성된다. 아래는 그 모습을 시각화:

트랜스포머의 멀티 헤드 어텐션

각 싱글 헤드 어텐션에는 쿼리, 키, 값의 세 가지 입력이 있으며, 세 가지 입력에는 각각 다른 가중치 세트가 있다. 모든 싱글 헤드 어텐션이 결과 행렬을 출력하면 모두 연결되고, 최종 연결 행렬은 다시 한 번 무작위 값으로 초기화된 가중치 행렬 세트를 곱하여 선형적으로 변환되며, 나중에 트랜스포머가 훈련을 시작할 때 업데이트된다.

우리의 경우 단일 헤드 어텐션을 고려하고 있지만 다중 헤드 어텐션으로 작업하는 경우 이렇게 보인다.

싱글 헤드 어텐션 vs. 멀티 헤드 언텐션

단일 헤드 어텐션이든 다중 헤드 어텐션, 어떤 경우든 결과 행렬은 가중치 행렬 세트를 곱하여 다시 한 번 선형적으로 변환해야 한다.

단일 헤드 어텐션 행렬 정규화

다음 단계에서는 (단어 임베딩+ 위치 임베딩) 행렬로 정규화된 결과 행렬을 더할 것이므로 선형 가중치 집합 행렬의 열 수는 앞서 계산한 (단어 임베딩 + 위치 임베딩) 행렬의 열 수와 같아야 한다.

멀티 헤드 어텐션 출력 매트릭스

멀티 헤드 어텐션에 대한 결과 행렬을 계산했으므로 이제 단계를 추가하고 정규화하는 작업을 진행한다.

8단계 - 추가 및 정규화

멀티 헤드 어텐션에서 결과 행렬을 얻었으면 이를 원래 행렬에 추가해보자.

행렬을 추가하여 더하기 및 표준화 단계 수행하기

위의 행렬을 정규화하려면 각 행의 평균과 표준 편차를 행 단위로 계산해야 한다.

MEAND 및 STD 계산

행렬의 각 값에서 해당 행 평균을 뺀 다음 해당 표준 편차로 나눈다.

결과 행렬 정규화

작은 오차 값을 추가하면 분모가 0이 되는 것을 방지하고 전체 항이 무한대가 되는 것을 방지할 수 있다.

9단계 - 피드 포워드 네트워크

행렬을 정규화한 후에는 피드포워드 네트워크를 통해 처리된다. 여기서는 하나의 선형 레이어와 하나의 ReLU 활성화 함수 레이어만 포함된 매우 기본적인 네트워크를 사용한다. 이것이 시각적으로 보이는 모습:

피드 포워드 네트워크 비교

먼저, 마지막으로 계산한 행렬에 트랜스포머가 학습을 시작할 때 업데이트될 임의의 가중치 행렬 세트를 곱하고 그 결과 행렬을 임의의 값이 포함된 바이어스 행렬에 추가하여 선형 레이어를 계산한다.

선형 레이어 계산

선형 레이어를 계산한 후에는 이를 ReLU 레이어에 전달하고 해당 공식을 사용한다.

ReLU 레이어 계산

10단계 - 다시 추가 및 정규화

피드 포워드 네트워크에서 결과 행렬을 얻으면 이전 더하기 및 표준화 단계에서 얻은 행렬에 더한 다음 행 현명한 평균과 표준 편차를 사용하여 정규화해야 한다.

피드 포워드 네트워크 후 추가 및 규제

이 더하기 및 규제(Regularization) 단계의 출력 행렬은 디코더 부분에 존재하는 다중 헤드 주의 메커니즘 중 하나에서 쿼리 및 키 행렬로 사용되며, 더하기 및 규범에서 디코더 섹션으로 바깥쪽으로 추적하면 쉽게 이해할 수 있다.

11단계 - 디코더 부분

지금까지 인코더 부분( )을 계산했는데, 데이터 세트 인코딩부터 피드포워드 네트워크를 통한 행렬 전달까지 수행한 모든 단계가 고유하다. 이는 이전에 계산한 적이 없다는 뜻으로 트랜스포머의 나머지 아키텍처인 디코더 부분의모든 단계가 비슷한 종류의 행렬 곱셈을 포함하게 될 것이다.

향후 단계 디코더

디코더의 대부분은 인코더에서 이미 수행한 계산과 유사한 계산을 포함하므로 디코더의 입력과 출력의 계산에만 집중하면 된다.

학습할 때 디코더에는 두 가지 입력이 있다. 하나는 인코더에서 들어오는 것으로, 마지막 추가 및 표준 계층의 출력 행렬이 디코더 부분의 두 번째 다중 헤드 주의 계층에 대한 쿼리 및 키 역할을 합니다. 아래는 이를 시각화한 것이다( 바툴 하이더 제공):

시각화 제공: 바툴 하이더

값 행렬은 첫 번째 더하기 및 표준화 단계 이후 디코더에서 가져온다.

디코더에 대한 두 번째 입력은 예측된 텍스트입니다. 기억하시겠지만, 인코더에 대한 입력은 왕좌의 게임을 할 때이므로 디코더에 대한 입력은 예측된 텍스트(이 경우 승리 또는 사망 )이다.

하지만 예측된 입력 텍스트는 트랜스포머가 어디서 시작하고 어디서 끝나는지 알 수 있도록 표준 토큰 래핑을 따라야 한다.

인코더와 디코더의 입력 비교

여기서 <start> <end> 새로 도입되는 두 개의 토큰입니다. 또한 디코더는 한 번에 하나의 토큰을 입력으로 받습니다. 즉, <start> 입력으로 제공되며, 사용자 이에 대해 예측된 텍스트여야 한다.

디코더 입력 <시작> 단어

이미 알고 있듯이 이러한 임베딩은 임의의 값으로 채워지며, 나중에 학습 프로세스 중에 업데이트된다.

앞서 인코더 부분에서 계산한 것과 동일한 방식으로 나머지 블록을 계산한다.

디코더 계산

자세한 내용을 살펴보기 전에 간단한 수학적 예시를 통해 마스크드 멀티 헤드 주의가 무엇인지 알아보자.

12단계 - 마스크 멀티 헤드 어텐션 이해

트랜스포머에서 마스크드 멀티 헤드 어텐션은 모델이 문장의 여러 부분에 집중할 때 사용하는 스포트라이트와 같다. 이 기능이 특별한 이유는 모델이 문장의 뒷부분에 나오는 단어를 보고 속임수를 쓰지 못하도록 하기 때문이다. 이는 모델이 단계별로 문장을 이해하고 생성하는 데 도움이 되며, 이는 말하기나 다른 언어로 단어 번역과 같은 작업에서 중요하다

각 행이 시퀀스의 위치를 나타내고 각 열이 피처를 나타내는 다음과 같은 입력 행렬이 있다고 가정해 보자:

마스크형 멀티 헤드 어텐션용 인퍼 매트릭스

이제 두 개의 헤드를 가진 마스크드 멀티 헤드 주의 컴포넌트를 이해해 보겠다:

선형 투영(쿼리, 키, 값): 각 헤드에 대한 선형 투영을 가정합니다: **헤드 1: Wq1,Wk1,Wv1 및 헤드 2: Wq2,Wk2,Wv2
주의력 점수를 계산합니다: 각 헤드에 대해 쿼리와 키의 도트 곱을 사용하여 주의 점수를 계산하고 마스크를 적용하여 향후 위치에 참석하지 못하도록 한다.
소프트맥스 적용: 소프트맥스 함수를 적용하여 관심도 가중치를 얻는다.
가중치 합산(값): 관심도 가중치에 값을 곱하여 각 헤드에 대한 가중치 합계를 얻는다.
연결 및 선형 변환: 두 헤드의 출력을 연결하고 선형 변환을 적용한다.

간단한 계산을 해 보겠습니다:

두 가지 조건을 가정합니다.

Wq1= Wk1= Wv1= Wq2= Wk2= Wv2= I, 아이덴티티 행렬이다..
Q=K=V=입력 행렬

마스크 멀티 헤드 어텐션 (헤드 2개)

연결 단계에서는 두 주의 헤드의 출력을 하나의 정보 집합으로 결합한다. 두 명의 친구가 각각 어떤 문제에 대해 조언을 해준다고 가정해 보자. 두 친구의 조언을 연결한다는 것은 두 친구의 조언을 모두 합쳐서 두 친구가 제안하는 내용을 보다 완벽하게 파악하는 것을 의미한다. 트랜스포머 모델의 맥락에서 이 단계는 입력 데이터의 다양한 측면을 여러 관점에서 포착하여 모델이 추가 처리에 사용할 수 있는 더 풍부한 표현에 기여한다.

13단계 - 예상 단어 계산하기

디코더의 마지막 덧셈 및 표준 블록의 출력 행렬은 입력 행렬과 동일한 수의 행을 포함해야 하며 열 수는 임의의 수일 수 있다.. 여기서는 6으로 작업하자.

디코더의 출력 추가 및 표준화

디코더의 마지막 덧셈 및 표준 블록 결과 행렬은 데이터 세트(말뭉치)에서 각 고유 단어의 예측 확률을 찾기 위해 선형 레이어와 일치시키기 위해 평탄화되어야 한다.

마지막 더하기 및 표준화 블록 행렬을 평평하게 만든다.

이 평평한 레이어는 선형 레이어를 통과하여 데이터 세트에 있는 각 고유 단어의 로짓 (점수)을 계산한다.

Logits 계산

로그를 얻으면 소프트맥스 함수를 사용하여 정규화하여 가장 높은 확률을 포함하는 단어를 찾을 수 있다.

예상 단어 찾기

따라서 계산에 따르면 디코더에서 예상되는 단어는 you.

디코더의 최종 출력

이 예측된 단어 you 디코더의 입력 단어로 취급되며, 이 프로세스는 <end> 토큰이 예측될 때까지 계속된다.

중요 사항

위의 예는 파이썬과 같은 프로그래밍 언어를 사용해야만 시각화할 수 있는 에포크나 기타 중요한 매개변수를 포함하지 않기 때문에 매우 간단하다.
이 매트릭스 접근 방식을 사용하면 평가나 테스트는 시각적으로 볼 수 없는 반면, 훈련까지의 과정만 보여 준다.
마스킹된 다중 헤드 어텐션은 트랜스포머가 미래를 보지 못하도록 하여 모델 과적합을 방지하는 데 사용할 수 있다.

II. Transformers: Pytorch 구현

import torch
import torch.nn as nn
import torch.optim as optim

import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import random
import re

from torch.utils.data import DataLoader, Dataset

1. Transformers 기본 구조

d_model: 트랜스포머의 인코더와 디코더에서의 정해진 입력과 출력의 크기 (default=512)
num_encoder_layers: 트랜스포머 모델에서 인코더가 총 몇 층으로 구성되었는지를 의미 (default=6)
num_decoder_layers: 트랜스포머 모델에서 디코더가 총 몇 층으로 구성되었는지를 의미 (default=6)
nhead: 멀티헤드 어텐션 모델의 헤드 수, 어텐션을 사용할 때 여러 개로 분할해서 병렬로 어텐션을 수행하고 결과값을 다시 하나로 합치는 방식에서 병렬의 수 (default=8)
dim_feedforward: feedforward network model 의 차원, 피드 포워드 신경망의 은닉층의 크기(default=2048).

class Transformer(nn.Module):
    def __init__(self, num_tokens, dim_model, num_heads, num_encoder_layers, num_decoder_layers, dropout_p, ):
        super().__init__()

        # Layers
        self.transformer = nn.Transformer(
            d_model=dim_model,
            nhead=num_heads,
            num_encoder_layers=num_encoder_layers,
            num_decoder_layers=num_decoder_layers,
            dropout=dropout_p,
        )

    def forward(self):
        pass

2. Positional Encoding

PositionalEncoding 모듈은 시퀀스 안에서 토큰의 상대적인 또는 절대적인 위치에 대한 어떤 정보를 주입
다른 주파수(frequency) 의 sine 과 cosine 함수를 사용

class PositionalEncoding(nn.Module):
    def __init__(self, dim_model, dropout_p, max_len):
        super().__init__()
        # 드롭 아웃
        self.dropout = nn.Dropout(dropout_p)

        # Encoding - From formula
        pos_encoding = torch.zeros(max_len, dim_model)
        positions_list = torch.arange(0, max_len, dtype=torch.float).view(-1, 1) # 0, 1, 2, 3, 4, 5
        division_term = torch.exp(torch.arange(0, dim_model, 2).float() * (-math.log(10000.0)) / dim_model) # 1000^(2i/dim_model)

        pos_encoding[:, 0::2] = torch.sin(positions_list * division_term)
        pos_encoding[:, 1::2] = torch.cos(positions_list * division_term)

        # Saving buffer (same as parameter without gradients needed)
        pos_encoding = pos_encoding.unsqueeze(0).transpose(0, 1)
        self.register_buffer("pos_encoding",pos_encoding)

    def forward(self, token_embedding: torch.tensor) -> torch.tensor:
        # Residual connection + pos encoding
        return self.dropout(token_embedding + self.pos_encoding[:token_embedding.size(0), :])

3. Transformer nn.Module

nn.Transformer는 전체 구조에서 가운데 부분 즉 멀티헤드 어텐션과 피드 포워드 등 을 처리
Linear, Positional Encoding, Embedding 등은 따로 만들어줘야 함
PositionalEncoding을 추가하기 전에 시퀀스의 각 요소가 (고정 정수 대신) 조작할 수 있는 벡터로 변환되도록 Embedding 레이어 요구
모델의 출력의 차원으로 변환할 수 있도록 최종 Linear 레이어가 필요

class Transformer(nn.Module):
    # Constructor
    def __init__( self, num_tokens, dim_model, num_heads, num_encoder_layers, num_decoder_layers, dropout_p, ):
        super().__init__()

        # INFO
        self.model_type = "Transformer"
        self.dim_model = dim_model

        # LAYERS
        self.positional_encoder = PositionalEncoding(dim_model=dim_model, dropout_p=dropout_p, max_len=5000)
        self.embedding = nn.Embedding(num_tokens, dim_model)
        self.transformer = nn.Transformer(
            d_model=dim_model,
            nhead=num_heads,
            num_encoder_layers=num_encoder_layers,
            num_decoder_layers=num_decoder_layers,
            dropout=dropout_p,
        )
        self.out = nn.Linear(dim_model, num_tokens)

    def forward(self, src, tgt, tgt_mask=None, src_pad_mask=None, tgt_pad_mask=None):
        # Src, Tgt size 는 반드시 (batch_size, src sequence length) 여야 합니다.

        # Embedding + positional encoding - Out size = (batch_size, sequence length, dim_model)
        src = self.embedding(src) * math.sqrt(self.dim_model)
        tgt = self.embedding(tgt) * math.sqrt(self.dim_model)
        src = self.positional_encoder(src)
        tgt = self.positional_encoder(tgt)

        src = src.permute(1,0,2)
        tgt = tgt.permute(1,0,2)

        # Transformer blocks - Out size = (sequence length, batch_size, num_tokens)
        transformer_out = self.transformer(src, tgt, tgt_mask=tgt_mask, src_key_padding_mask=src_pad_mask, tgt_key_padding_mask=tgt_pad_mask)
        out = self.out(transformer_out)

        return out

    def get_tgt_mask(self, size) -> torch.tensor:
        mask = torch.tril(torch.ones(size, size) == 1) # Lower triangular matrix
        mask = mask.float()
        mask = mask.masked_fill(mask == 0, float('-inf')) # Convert zeros to -inf
        mask = mask.masked_fill(mask == 1, float(0.0)) # Convert ones to 0

        return mask

    def create_pad_mask(self, matrix: torch.tensor, pad_token: int) -> torch.tensor:
        return (matrix == pad_token)

4. Dataset 생성

시퀀스 형태의 크기가 8인 모든 문장을 만들고 크기가 16인 배치로 무작위로 구성하는 가상의 데이터셋 생성

1, 1, 1, 1, 1, 1, 1, 1 → 1, 1, 1, 1, 1, 1, 1, 1
0, 0, 0, 0, 0, 0, 0, 0 → 0, 0, 0, 0, 0, 0, 0, 0
1, 0, 1, 0, 1, 0, 1, 0 → 1, 0, 1, 0, 1, 0, 1, 0
0, 1, 0, 1, 0, 1, 0, 1 → 0, 1, 0, 1, 0, 1, 0, 1

def generate_random_data(n):
    SOS_token = np.array([2])
    EOS_token = np.array([3])
    length = 8

    data = []

    # 1,1,1,1,1,1 -> 1,1,1,1,1
    for i in range(n // 3):
        X = np.concatenate((SOS_token, np.ones(length), EOS_token))
        y = np.concatenate((SOS_token, np.ones(length), EOS_token))
        data.append([X, y])

    # 0,0,0,0 -> 0,0,0,0
    for i in range(n // 3):
        X = np.concatenate((SOS_token, np.zeros(length), EOS_token))
        y = np.concatenate((SOS_token, np.zeros(length), EOS_token))
        data.append([X, y])

    # 1,0,1,0 -> 1,0,1,0,1
    for i in range(n // 3):
        X = np.zeros(length)
        start = random.randint(0, 1)

        X[start::2] = 1

        y = np.zeros(length)
        if X[-1] == 0:
            y[::2] = 1
        else:
            y[1::2] = 1

        X = np.concatenate((SOS_token, X, EOS_token))
        y = np.concatenate((SOS_token, y, EOS_token))
        data.append([X, y])

    np.random.shuffle(data)

    return data

#크기가 16인 배치 형태로 만들어 줍니다.
def batchify_data(data, batch_size=16, padding=False, padding_token=-1):
    batches = []
    for idx in range(0, len(data), batch_size):
        # batch_size 크기가 아닌 경우 마지막 비트를 얻지 않도록 합니다.
        if idx + batch_size < len(data):
            # 여기서 배치의 최대 길이를 가져와 PAD 토큰으로 길이를 정규화해야 합니다.
            if padding:
                max_batch_length = 0
                # batch에서 가장 긴 문장 가져오기
                for seq in data[idx : idx + batch_size]:
                    if len(seq) > max_batch_length:
                        max_batch_length = len(seq)

                # 최대 길이에 도달할 때까지 X 패딩 토큰을 추가합니다.
                for seq_idx in range(batch_size):
                    remaining_length = max_bath_length - len(data[idx + seq_idx])
                    data[idx + seq_idx] += [padding_token] * remaining_length

            batches.append(np.array(data[idx : idx + batch_size]).astype(np.int64))

    print(f"{len(batches)} batches of size {batch_size}")

    return batches


train_data = generate_random_data(9000)
val_data = generate_random_data(3000)

train_dataloader = batchify_data(train_data)
val_dataloader = batchify_data(val_data)

562 batches of size 16
187 batches of size 16

5. Model Build

device = "cuda" if torch.cuda.is_available() else "cpu"

model = Transformer(num_tokens=4, 
                    dim_model=8, 
                    num_heads=2, 
                    num_encoder_layers=3, 
                    num_decoder_layers=3, 
                    dropout_p=0.1).to(device)

opt = torch.optim.SGD(model.parameters(), lr=0.01)
loss_fn = nn.CrossEntropyLoss()

6. Train & Validaion

target tensor는 예측 중에 모델에 전달
다음 단어를 숨기기 위해 target mask가 생성
padding mask가 생성되어 모델에 전달

# Train
def train_loop(model, opt, loss_fn, dataloader):
    model.train()
    total_loss = 0

    for batch in dataloader:
        X, y = batch[:, 0], batch[:, 1]
        X, y = torch.tensor(X).to(device), torch.tensor(y).to(device)

        # 이제 tgt를 1만큼 이동하여 <SOS>를 사용하여 pos 1에서 토큰을 예측합니다.
        y_input = y[:,:-1]
        y_expected = y[:,1:]

        # 다음 단어를 마스킹하려면 마스크 가져오기
        sequence_length = y_input.size(1)
        tgt_mask = model.get_tgt_mask(sequence_length).to(device)

        # X, y_input 및 tgt_mask를 전달하여 표준 training
        pred = model(X, y_input, tgt_mask)

        # Permute 를 수행하여 batch size 가 처음이 되도록
        pred = pred.permute(1, 2, 0)      
        loss = loss_fn(pred, y_expected)

        opt.zero_grad()
        loss.backward()
        opt.step()

        total_loss += loss.detach().item()

    return total_loss / len(dataloader)

# Validation
def validation_loop(model, loss_fn, dataloader):
    model.eval()
    total_loss = 0

    with torch.no_grad():
        for batch in dataloader:
            X, y = batch[:, 0], batch[:, 1]
            X, y = torch.tensor(X, dtype=torch.long, device=device), torch.tensor(y, dtype=torch.long, device=device)

            y_input = y[:,:-1]
            y_expected = y[:,1:]

            sequence_length = y_input.size(1)
            tgt_mask = model.get_tgt_mask(sequence_length).to(device)

            pred = model(X, y_input, tgt_mask)

            pred = pred.permute(1, 2, 0)      
            loss = loss_fn(pred, y_expected)
            total_loss += loss.detach().item()

    return total_loss / len(dataloader)

7. Training

def fit(model, opt, loss_fn, train_dataloader, val_dataloader, epochs): 
    
    # 나중에 plotting 하기위해
    train_loss_list, validation_loss_list = [], []

    print("Training and validating model")
    for epoch in range(epochs):
        print("-"*25, f"Epoch {epoch + 1}","-"*25)

        train_loss = train_loop(model, opt, loss_fn, train_dataloader)
        train_loss_list += [train_loss]

        validation_loss = validation_loop(model, loss_fn, val_dataloader)
        validation_loss_list += [validation_loss]

        print(f"Training loss: {train_loss:.4f}")
        print(f"Validation loss: {validation_loss:.4f}")

    return train_loss_list, validation_loss_list

train_loss_list, validation_loss_list = fit(model, 
                                            opt, 
                                            loss_fn, 
                                            train_dataloader, 
                                            val_dataloader, 
                                            10)

Training and validating model
------------------------- Epoch 1 -------------------------
Training loss: 0.6468
Validation loss: 0.3943

------------------------- Epoch 2 -------------------------
Training loss: 0.4055
Validation loss: 0.3466

------------------------- Epoch 3 -------------------------
Training loss: 0.3600
Validation loss: 0.2949

------------------------- Epoch 4 -------------------------
Training loss: 0.3205
Validation loss: 0.2481

------------------------- Epoch 5 -------------------------
Training loss: 0.2927
Validation loss: 0.2256

------------------------- Epoch 6 -------------------------
Training loss: 0.2746
Validation loss: 0.2037

------------------------- Epoch 7 -------------------------
Training loss: 0.2614
Validation loss: 0.1966

------------------------- Epoch 8 -------------------------
Training loss: 0.2489
Validation loss: 0.1818

------------------------- Epoch 9 -------------------------
Training loss: 0.2408
Validation loss: 0.1691

------------------------- Epoch 10 -------------------------
Training loss: 0.2327
Validation loss: 0.1595

8. Loss Visualization

plt.plot(train_loss_list, label = "Train loss")
plt.plot(validation_loss_list, label = "Validation loss")

plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Loss vs Epoch')
plt.legend()

plt.show()

![[스크린샷 2024-04-10 오전 9.36.17.png]]

9. Inference

def predict(model, input_sequence, max_length=15, SOS_token=2, EOS_token=3):
    model.eval()

    y_input = torch.tensor([[SOS_token]], dtype=torch.long, device=device)

    num_tokens = len(input_sequence[0])

    for _ in range(max_length):
        # Get source mask
        tgt_mask = model.get_tgt_mask(y_input.size(1)).to(device)
        pred = model(input_sequence, y_input, tgt_mask)

        next_item = pred.topk(1)[1].view(-1)[-1].item() # num with highest probability
        next_item = torch.tensor([[next_item]], device=device)

        # Concatenate previous input with predicted best word
        y_input = torch.cat((y_input, next_item), dim=1)

        # Stop if model predicts end of sentence
        if next_item.view(-1).item() == EOS_token:
            break

    return y_input.view(-1).tolist()


# Here we test some examples to observe how the model predicts
examples = [
    torch.tensor([[2, 0, 0, 0, 0, 0, 0, 0, 0, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 1, 1, 1, 1, 1, 1, 1, 1, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 1, 0, 1, 0, 1, 0, 1, 0, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 0, 1, 0, 1, 0, 1, 0, 1, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 0, 1, 3]], dtype=torch.long, device=device)
]

for idx, example in enumerate(examples):
    result = predict(model, example)
    print(f"Example {idx}")
    print(f"Input: {example.view(-1).tolist()[1:-1]}")
    print(f"Continuation: {result[1:-1]}")
    print()

Example 0
Input: [0, 0, 0, 0, 0, 0, 0, 0]
Continuation: [0, 0, 0, 0, 0, 0, 0, 0, 0]

Example 1
Input: [1, 1, 1, 1, 1, 1, 1, 1]
Continuation: [1, 1, 1, 1, 1, 1, 1, 1, 1]

Example 2
Input: [1, 0, 1, 0, 1, 0, 1, 0]
Continuation: [1, 0, 1, 0, 1, 0, 1, 0]

Example 3
Input: [0, 1, 0, 1, 0, 1, 0, 1]
Continuation: [1, 0, 1, 0, 1, 0, 1, 0]

Example 4
Input: [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]
Continuation: [0, 1, 0, 1, 0, 1, 0, 1]

Example 5
Input: [0, 1]
Continuation: [1, 0, 1, 0, 1, 0, 1, 0, 1]

Huggingface Trainer
Transformer Pytorch 학습

1. Dataset Hub에서 데이터셋 불러오기

load_dataset에서 glue, mrpc 로딩

from datasets import load_dataset

raw_datasets = load_dataset("glue", "mrpc")
raw_datasets

Downloading readme:   0%|          | 0.00/35.3k [00:00<?, ?B/s]


Downloading data: 100%|██████████| 649k/649k [00:00<00:00, 1.25MB/s]
Downloading data: 100%|██████████| 75.7k/75.7k [00:00<00:00, 175kB/s]
Downloading data: 100%|██████████| 308k/308k [00:00<00:00, 729kB/s]



Generating train split:   0%|          | 0/3668 [00:00<?, ? examples/s]



Generating validation split:   0%|          | 0/408 [00:00<?, ? examples/s]



Generating test split:   0%|          | 0/1725 [00:00<?, ? examples/s]





DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})

raw_train_dataset = raw_datasets["train"]
raw_train_dataset[1]

{'sentence1': "Yucaipa owned Dominick 's before selling the chain to Safeway in 1998 for $ 2.5 billion .",
 'sentence2': "Yucaipa bought Dominick 's in 1995 for $ 693 million and sold it to Safeway for $ 1.8 billion in 1998 .",
 'label': 0,
 'idx': 1}

raw_train_dataset.features

{'sentence1': Value(dtype='string', id=None),
 'sentence2': Value(dtype='string', id=None),
 'label': ClassLabel(names=['not_equivalent', 'equivalent'], id=None),
 'idx': Value(dtype='int32', id=None)}

raw_train_dataset

Dataset({
    features: ['sentence1', 'sentence2', 'label', 'idx'],
    num_rows: 3668
})

raw_train_dataset.shape

(3668, 4)

2.1 Tokenization

AutoTokenizer 사용

from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

inputs = tokenizer("This is the first sentence.", "This is the second one.")
inputs

{'input_ids': [101, 2023, 2003, 1996, 2034, 6251, 1012, 102, 2023, 2003, 1996, 2117, 2028, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

tokenizer.convert_ids_to_tokens(inputs["input_ids"])

['[CLS]',
 'this',
 'is',
 'the',
 'first',
 'sentence',
 '.',
 '[SEP]',
 'this',
 'is',
 'the',
 'second',
 'one',
 '.',
 '[SEP]']

def tokenize_function(example):
    return tokenizer(
        example["sentence1"], 
        example["sentence2"], 
        truncation=True
    )

tokenized_datasets = raw_datasets.map(
    tokenize_function, 
    batched=True
)
tokenized_datasets

Map:   0%|          | 0/3668 [00:00<?, ? examples/s]



Map:   0%|          | 0/408 [00:00<?, ? examples/s]



Map:   0%|          | 0/1725 [00:00<?, ? examples/s]





DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1725
    })
})

2.2. Collate Function: Pad Sequence

DataCollatorWithPadding

from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

samples = tokenized_datasets["train"][:8]
samples = {k: v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}

[len(x) for x in samples["input_ids"]]

[50, 59, 47, 67, 59, 50, 62, 32]

3. Train

3.1 TrainingArguments 정의

from transformers import TrainingArguments

training_args = TrainingArguments("test-trainer")

3.2 Sequence Classification PLM

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
    checkpoint, 
    num_labels=2
)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.

3.3 Trainer

class transformers.Trainer Default Parameters

( model: Union = None, args: TrainingArguments = None, data_collator: Optional = None train_dataset: Union = None, eval_dataset: Union = None, tokenizer: Optional = None, model_init: Optional = None, compute_metrics: Optional = None, callbacks: Optional = None, optimizers: Tuple = (None, None), preprocess_logits_for_metrics: Optional = None )

from transformers import Trainer

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

3.4 학습

trainer.train()

TrainOutput(global_step=345, training_loss=0.34370161415874095, metrics={'train_runtime': 75.0666, 'train_samples_per_second': 146.59, 'train_steps_per_second': 4.596, 'total_flos': 451584904312800.0, 'train_loss': 0.34370161415874095, 'epoch': 3.0})

4. Evaluation

trainer.predict() 사용

predictions = trainer.predict(tokenized_datasets["validation"])

print(
    predictions.predictions.shape, 
    predictions.label_ids.shape
)

(408, 2) (408,)

import numpy as np

preds = np.argmax(predictions.predictions, axis=-1)

from datasets import load_metric

metric = load_metric("glue", "mrpc")
metric.compute(predictions=preds, references=predictions.label_ids)

{'accuracy': 0.8480392156862745, 'f1': 0.89419795221843}

5. Metrics를 Trainer에 포함

Trainer(compute_metrics=compute_metrics)

def compute_metrics(eval_preds):
    metric = load_metric("glue", "mrpc")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics)

trainer.train()

TrainOutput(global_step=345, training_loss=0.36598324983016306, metrics={'train_runtime': 77.8575, 'train_samples_per_second': 141.335, 'train_steps_per_second': 4.431, 'total_flos': 451584904312800.0, 'train_loss': 0.36598324983016306, 'epoch': 3.0})

Transformer - Pytorch 결합 학습하기

1. 데이터셋 불러오기 & 전처리

from datasets import load_dataset
from transformers import AutoTokenizer, DataCollatorWithPadding

raw_datasets = load_dataset("glue", "mrpc")
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


def tokenize_function(example):
    return tokenizer(
        example["sentence1"], 
        example["sentence2"], 
        truncation=True
    )

tokenized_datasets = raw_datasets.map(
    tokenize_function, 
    batched=True
)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

Map:   0%|          | 0/408 [00:00<?, ? examples/s]

tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

tokenized_datasets.set_format("torch")
tokenized_datasets["train"].column_names

['labels', 'input_ids', 'token_type_ids', 'attention_mask']

2. DataLoader: Train/Test Batch 생성

from torch.utils.data import DataLoader

train_dataloader = DataLoader(
    tokenized_datasets["train"],
    shuffle=True,
    batch_size=128,
    collate_fn=data_collator,
)

eval_dataloader = DataLoader(
    tokenized_datasets["validation"],
    batch_size=128,
    collate_fn=data_collator,
)

for batch in train_dataloader:
    break
{k: v.shape for k, v in batch.items()}

{'labels': torch.Size([128]),
 'input_ids': torch.Size([128, 81]),
 'token_type_ids': torch.Size([128, 81]),
 'attention_mask': torch.Size([128, 81])}

3. PLM: Sequence Classification

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
    checkpoint, 
    num_labels=2
)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.

outputs = model(**batch)
print(outputs.loss, outputs.logits.shape)

tensor(1.0493, grad_fn=<NllLossBackward0>) torch.Size([128, 2])

from transformers import AdamW

optimizer = AdamW(
    model.parameters(), 
    lr=5e-5
)

/home/kubwa/anaconda3/envs/pytorch/lib/python3.11/site-packages/transformers/optimization.py:588: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set `no_deprecation_warning=True` to disable this warning
  warnings.warn(

4. Pytorch 스케줄러

from transformers import get_scheduler
import torch

num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)
print(num_training_steps)

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)
print(device)

87
cuda

5. Train

from tqdm.auto import tqdm

progress_bar = tqdm(range(num_training_steps))

model.train()
for epoch in range(num_epochs):
    for batch in train_dataloader:
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        loss = outputs.loss
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

  0%|          | 0/87 [00:00<?, ?it/s]

6. Metrics

from datasets import load_metric

metric = load_metric("glue", "mrpc")
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    metric.add_batch(predictions=predictions, references=batch["labels"])

metric.compute()

/home/kubwa/anaconda3/envs/pytorch/lib/python3.11/site-packages/datasets/load.py:756: FutureWarning: The repository for glue contains custom code which must be executed to correctly load the metric. You can inspect the repository content at https://raw.githubusercontent.com/huggingface/datasets/2.18.0/metrics/glue/glue.py
You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this metric from the next major release of `datasets`.
  warnings.warn(
{'accuracy': 0.8186274509803921, 'f1': 0.864963503649635}

7. 전체 코드

from datasets import load_dataset, load_metric
from transformers import AutoTokenizer, DataCollatorWithPadding, AutoModelForSequenceClassification, AdamW, get_scheduler

import torch
from torch.utils.data import DataLoader

from tqdm.auto import tqdm


# 데이터 셋 적재
raw_datasets = load_dataset("glue", "mrpc")

# 사전학습 언어모델 checkpoint 이름 지정
checkpoint = "bert-base-uncased"

# 지정된 사전학습 언어모델에서 토크나이저 인스턴스화
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


# 토크나이저 함수 사용자 정의화 (sentence1, sentence2 컬럼에 대해서만 토크나이징 수행)
def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)


# 토크나이징 수행
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)

# 배치(batch)별 패딩(padding)을 위한 data collator 정의
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# 불필요한 입력 컬럼을 제거하고 사전학습 언어모델에 필요한 입력만 남김.
tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])

# 데이터셋의 label 컬럼명을 labels로 변경
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

# 데이터셋의 유형을 PyTorch tensor로 변경
tokenized_datasets.set_format("torch")

# 변경된 컬럼 출력
print(tokenized_datasets["train"].column_names)


# 각 종류별 데이터 로더 생성
train_dataloader = DataLoader(
    tokenized_datasets["train"], 
    shuffle=True, 
    batch_size=256, 
    collate_fn=data_collator
)
eval_dataloader = DataLoader(
    tokenized_datasets["validation"],
    shuffle=True,
    batch_size=256,
    collate_fn=data_collator
)

# 사전학습 언어모델 인스턴스화
model = AutoModelForSequenceClassification.from_pretrained(
    checkpoint, 
    num_labels=2
)
# 최적화 함수 정의
optimizer = AdamW(
    model.parameters(), 
    lr=5e-5
)

# 에포크 개수 설정
num_epochs = 30

# 학습 스텝 수 계산
num_training_steps = num_epochs * len(train_dataloader)

# 학습 스케쥴러 설정
lr_scheduler = get_scheduler(
    "linear", 
    optimizer=optimizer, 
    num_warmup_steps=0, 
    num_training_steps=num_training_steps
)

# GPU로 모델을 이동
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)

# 진행 상황바 정의
progress_bar = tqdm(range(num_training_steps))

# 모델을 학습 모드로 전환
model.train()
# 학습 루프 시작
for epoch in range(num_epochs):
    for batch in train_dataloader:
        # 현재 배치 중에서 입력값을 모두 GPU로 이동.
        batch = {k: v.to(device) for k, v in batch.items()}
        # 모델 실행
        outputs = model(**batch)
        # 손실값 가져오기
        loss = outputs.loss
        # 역전파 수행
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

# 평가 메트릭 가져오기
metric = load_metric("glue", "mrpc")
# 모델을 평가 모드로 전환
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    metric.add_batch(
        predictions=predictions, 
        references=batch["labels"]
    )

# 평가 결과 계산 및 출력 
metric.compute()

Map:   0%|          | 0/3668 [00:00<?, ? examples/s]
Map:   0%|          | 0/408 [00:00<?, ? examples/s]
Map:   0%|          | 0/1725 [00:00<?, ? examples/s]
['labels', 'input_ids', 'token_type_ids', 'attention_mask']
  0%|          | 0/450 [00:00<?, ?it/s]
{'accuracy': 0.8284313725490197, 'f1': 0.8801369863013698}

PreviousSentence Embeddings NextSentence Transformers

Last updated 1 year ago

Transformers

I. Principle of Transformer

원본: https://levelup.gitconnected.com/understanding-transformers-from-start-to-end-a-step-by-step-math-example-16d4e64e6eb1#e273

데이터 세트 정의하기
어휘 크기 찾기
인코딩
임베딩 계산하기
위치 임베딩 계산하기
위치 임베딩과 단어 임베딩 연결하기
다중 헤드 주의
추가 및 정규화
피드 포워드 네트워크
추가 및 다시 정규화하기
디코더 부분
마스크 멀티 헤드 어텐션 이해
예측 단어 계산하기
중요 사항
결론

1단계 - 데이터 집합 정의

ChatGPT를 만드는 데 사용되는 데이터 세트는 **570GB이다. 반면, 여기서는 시각적으로 수치 계산을 수행하기 위해 매우 작은 데이터 세트를 사용한다.

세 문장으로만 구성된 전체 데이터 세트

2단계: 어휘 크기 찾기

어휘 크기는 데이터 세트의 총 고유 단어 수를 결정한다. 아래 공식을 사용하여 계산할 수 있으며, 여기서 N은 데이터 세트의 총 단어 수이다.

vocab_size 공식에서 N은 총 단어 수이다.

N을 찾으려면 데이터 집합을 개별 단어로 쪼개야한다.

변수 N 계산

N을 구한 후 집합 연산을 수행하여 중복을 제거한 다음 고유 단어를 계산하여 어휘 크기를 결정할 수 있다.

어휘 크기 찾기

따라서 데이터 세트에 23개의 고유 단어가 있으므로 어휘 크기는 23개이다.

3단계 - 인코딩

이제 각 고유 단어에 고유 번호를 할당한다.

고유 단어 인코딩

하나의 토큰을 하나의 단어로 간주하고 숫자를 할당했듯이, ChatGPT는 이 공식을 사용하여 단어의 일부를 하나의 토큰으로 간주한다.: 1 토큰 = 0.75 단어

전체 데이터 세트를 인코딩한 후에는 입력을 선택하고 트랜스포머 아키텍처로 작업을 시작할 차례이다.

4단계 - 임베딩 계산

말뭉치(Corpus)에서 트랜스포머 아키텍처에서 처리할 문장을 선택해 보자.

Transformer 입력 문장

입력을 선택했으니 그에 맞는 임베딩 벡터(Embedding Vector)를 찾아야 한다. 논문에서는 각 입력 단어에 대해 512차원 임베딩 벡터를 사용한다.

원본 용지는 512 차원 벡터를 사용합니다.

이 경우 계산이 어떻게 진행되는지 시각화하기 위해 더 작은 차원의 임베딩 벡터로 작업해야 한다. 따라서 임베딩 벡터에 6 차원을 사용하겠다.

입력 벡터 임베딩

임베딩 벡터의 값은 0과 1 사이이며 처음에는 무작위로 채워진다.나중에 트랜스포머가 단어 사이의 의미를 이해하기 시작하면 이 값은 업데이트된다.

5단계 - 위치 임베딩 계산하기

위치 임베딩 공식

단어의 위치 임베딩: When

마찬가지로 입력 문장의 모든 단어에 대해 위치 임베딩을 계산할 수 있다.

입력값의 위치 임베딩 계산하기 (계산된 값은 반올림 됨)

6단계 - 위치 및 단어 임베딩 연결하기

위치 임베딩을 계산한 후에는 단어 임베딩과 위치 임베딩을 추가한다.

연결 단계

두 행렬 (단어 임베딩 행렬과 위치 임베딩 행렬)을 결합한 결과 행렬이 인코더 부분의 입력으로 간주된다.

7단계 - 멀티 헤드 어텐션

트랜스포머의 싱글 헤드 어텐션

쿼리 행렬 계산

마찬가지로 동일한 절차를 사용하여 키 행렬과 값 행렬을 계산할 수 있지만, 가중치 행렬의 값은 두 행렬에 대해 서로 달라야 한다.

키 및 값 행렬 계산

따라서 행렬을 곱하면 결과 쿼리, 키, 값을 얻을 수 있다:

쿼리, 키, 값 행렬

이제 세 개의 행렬이 모두 준비되었으므로 단일 헤드 주의도 계산을 단계별로 시작해 보자.

쿼리와 키 사이의 행렬 곱셈

결과 행렬의 크기를 조정하려면 임베딩 벡터의 차원인 6을 재사용해야 한다.

결과 행렬을 차원 5로 스케일링한다.

이제 스케일링된 결과 행렬에 소프트맥스 연산을 적용배보자.

결과 매트릭스에 소프트맥스 적용하기

최종 곱셈 단계를 수행하여 단일 헤드 주의에서 결과 행렬을 얻는다.

싱글 헤드 어텐션의 최종 매트릭스 계산하기

트랜스포머의 멀티 헤드 어텐션

우리의 경우 단일 헤드 어텐션을 고려하고 있지만 다중 헤드 어텐션으로 작업하는 경우 이렇게 보인다.

싱글 헤드 어텐션 vs. 멀티 헤드 언텐션

단일 헤드 어텐션이든 다중 헤드 어텐션, 어떤 경우든 결과 행렬은 가중치 행렬 세트를 곱하여 다시 한 번 선형적으로 변환해야 한다.

단일 헤드 어텐션 행렬 정규화

멀티 헤드 어텐션 출력 매트릭스

멀티 헤드 어텐션에 대한 결과 행렬을 계산했으므로 이제 단계를 추가하고 정규화하는 작업을 진행한다.

8단계 - 추가 및 정규화

멀티 헤드 어텐션에서 결과 행렬을 얻었으면 이를 원래 행렬에 추가해보자.

행렬을 추가하여 더하기 및 표준화 단계 수행하기

위의 행렬을 정규화하려면 각 행의 평균과 표준 편차를 행 단위로 계산해야 한다.

MEAND 및 STD 계산

행렬의 각 값에서 해당 행 평균을 뺀 다음 해당 표준 편차로 나눈다.

결과 행렬 정규화

작은 오차 값을 추가하면 분모가 0이 되는 것을 방지하고 전체 항이 무한대가 되는 것을 방지할 수 있다.

9단계 - 피드 포워드 네트워크

피드 포워드 네트워크 비교

선형 레이어 계산

선형 레이어를 계산한 후에는 이를 ReLU 레이어에 전달하고 해당 공식을 사용한다.

ReLU 레이어 계산

10단계 - 다시 추가 및 정규화

피드 포워드 네트워크 후 추가 및 규제

11단계 - 디코더 부분

향후 단계 디코더

디코더의 대부분은 인코더에서 이미 수행한 계산과 유사한 계산을 포함하므로 디코더의 입력과 출력의 계산에만 집중하면 된다.

시각화 제공: 바툴 하이더

값 행렬은 첫 번째 더하기 및 표준화 단계 이후 디코더에서 가져온다.

하지만 예측된 입력 텍스트는 트랜스포머가 어디서 시작하고 어디서 끝나는지 알 수 있도록 표준 토큰 래핑을 따라야 한다.

인코더와 디코더의 입력 비교

디코더 입력 <시작> 단어

이미 알고 있듯이 이러한 임베딩은 임의의 값으로 채워지며, 나중에 학습 프로세스 중에 업데이트된다.

앞서 인코더 부분에서 계산한 것과 동일한 방식으로 나머지 블록을 계산한다.

디코더 계산

자세한 내용을 살펴보기 전에 간단한 수학적 예시를 통해 마스크드 멀티 헤드 주의가 무엇인지 알아보자.

12단계 - 마스크 멀티 헤드 어텐션 이해

각 행이 시퀀스의 위치를 나타내고 각 열이 피처를 나타내는 다음과 같은 입력 행렬이 있다고 가정해 보자:

마스크형 멀티 헤드 어텐션용 인퍼 매트릭스

이제 두 개의 헤드를 가진 마스크드 멀티 헤드 주의 컴포넌트를 이해해 보겠다:

선형 투영(쿼리, 키, 값): 각 헤드에 대한 선형 투영을 가정합니다: **헤드 1: Wq1,Wk1,Wv1 및 헤드 2: Wq2,Wk2,Wv2
주의력 점수를 계산합니다: 각 헤드에 대해 쿼리와 키의 도트 곱을 사용하여 주의 점수를 계산하고 마스크를 적용하여 향후 위치에 참석하지 못하도록 한다.
소프트맥스 적용: 소프트맥스 함수를 적용하여 관심도 가중치를 얻는다.
가중치 합산(값): 관심도 가중치에 값을 곱하여 각 헤드에 대한 가중치 합계를 얻는다.
연결 및 선형 변환: 두 헤드의 출력을 연결하고 선형 변환을 적용한다.

간단한 계산을 해 보겠습니다:

두 가지 조건을 가정합니다.

Wq1= Wk1= Wv1= Wq2= Wk2= Wv2= I, 아이덴티티 행렬이다..
Q=K=V=입력 행렬

마스크 멀티 헤드 어텐션 (헤드 2개)

13단계 - 예상 단어 계산하기

디코더의 출력 추가 및 표준화

마지막 더하기 및 표준화 블록 행렬을 평평하게 만든다.

이 평평한 레이어는 선형 레이어를 통과하여 데이터 세트에 있는 각 고유 단어의 로짓 (점수)을 계산한다.

Logits 계산

로그를 얻으면 소프트맥스 함수를 사용하여 정규화하여 가장 높은 확률을 포함하는 단어를 찾을 수 있다.

예상 단어 찾기

따라서 계산에 따르면 디코더에서 예상되는 단어는 you.

디코더의 최종 출력

이 예측된 단어 you 디코더의 입력 단어로 취급되며, 이 프로세스는 <end> 토큰이 예측될 때까지 계속된다.

중요 사항

위의 예는 파이썬과 같은 프로그래밍 언어를 사용해야만 시각화할 수 있는 에포크나 기타 중요한 매개변수를 포함하지 않기 때문에 매우 간단하다.
이 매트릭스 접근 방식을 사용하면 평가나 테스트는 시각적으로 볼 수 없는 반면, 훈련까지의 과정만 보여 준다.
마스킹된 다중 헤드 어텐션은 트랜스포머가 미래를 보지 못하도록 하여 모델 과적합을 방지하는 데 사용할 수 있다.

II. Transformers: Pytorch 구현

import torch
import torch.nn as nn
import torch.optim as optim

import math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import random
import re

from torch.utils.data import DataLoader, Dataset

1. Transformers 기본 구조

d_model: 트랜스포머의 인코더와 디코더에서의 정해진 입력과 출력의 크기 (default=512)
num_encoder_layers: 트랜스포머 모델에서 인코더가 총 몇 층으로 구성되었는지를 의미 (default=6)
num_decoder_layers: 트랜스포머 모델에서 디코더가 총 몇 층으로 구성되었는지를 의미 (default=6)
nhead: 멀티헤드 어텐션 모델의 헤드 수, 어텐션을 사용할 때 여러 개로 분할해서 병렬로 어텐션을 수행하고 결과값을 다시 하나로 합치는 방식에서 병렬의 수 (default=8)
dim_feedforward: feedforward network model 의 차원, 피드 포워드 신경망의 은닉층의 크기(default=2048).

class Transformer(nn.Module):
    def __init__(self, num_tokens, dim_model, num_heads, num_encoder_layers, num_decoder_layers, dropout_p, ):
        super().__init__()

        # Layers
        self.transformer = nn.Transformer(
            d_model=dim_model,
            nhead=num_heads,
            num_encoder_layers=num_encoder_layers,
            num_decoder_layers=num_decoder_layers,
            dropout=dropout_p,
        )

    def forward(self):
        pass

2. Positional Encoding

PositionalEncoding 모듈은 시퀀스 안에서 토큰의 상대적인 또는 절대적인 위치에 대한 어떤 정보를 주입
다른 주파수(frequency) 의 sine 과 cosine 함수를 사용

class PositionalEncoding(nn.Module):
    def __init__(self, dim_model, dropout_p, max_len):
        super().__init__()
        # 드롭 아웃
        self.dropout = nn.Dropout(dropout_p)

        # Encoding - From formula
        pos_encoding = torch.zeros(max_len, dim_model)
        positions_list = torch.arange(0, max_len, dtype=torch.float).view(-1, 1) # 0, 1, 2, 3, 4, 5
        division_term = torch.exp(torch.arange(0, dim_model, 2).float() * (-math.log(10000.0)) / dim_model) # 1000^(2i/dim_model)

        pos_encoding[:, 0::2] = torch.sin(positions_list * division_term)
        pos_encoding[:, 1::2] = torch.cos(positions_list * division_term)

        # Saving buffer (same as parameter without gradients needed)
        pos_encoding = pos_encoding.unsqueeze(0).transpose(0, 1)
        self.register_buffer("pos_encoding",pos_encoding)

    def forward(self, token_embedding: torch.tensor) -> torch.tensor:
        # Residual connection + pos encoding
        return self.dropout(token_embedding + self.pos_encoding[:token_embedding.size(0), :])

3. Transformer nn.Module

nn.Transformer는 전체 구조에서 가운데 부분 즉 멀티헤드 어텐션과 피드 포워드 등 을 처리
Linear, Positional Encoding, Embedding 등은 따로 만들어줘야 함
PositionalEncoding을 추가하기 전에 시퀀스의 각 요소가 (고정 정수 대신) 조작할 수 있는 벡터로 변환되도록 Embedding 레이어 요구
모델의 출력의 차원으로 변환할 수 있도록 최종 Linear 레이어가 필요

class Transformer(nn.Module):
    # Constructor
    def __init__( self, num_tokens, dim_model, num_heads, num_encoder_layers, num_decoder_layers, dropout_p, ):
        super().__init__()

        # INFO
        self.model_type = "Transformer"
        self.dim_model = dim_model

        # LAYERS
        self.positional_encoder = PositionalEncoding(dim_model=dim_model, dropout_p=dropout_p, max_len=5000)
        self.embedding = nn.Embedding(num_tokens, dim_model)
        self.transformer = nn.Transformer(
            d_model=dim_model,
            nhead=num_heads,
            num_encoder_layers=num_encoder_layers,
            num_decoder_layers=num_decoder_layers,
            dropout=dropout_p,
        )
        self.out = nn.Linear(dim_model, num_tokens)

    def forward(self, src, tgt, tgt_mask=None, src_pad_mask=None, tgt_pad_mask=None):
        # Src, Tgt size 는 반드시 (batch_size, src sequence length) 여야 합니다.

        # Embedding + positional encoding - Out size = (batch_size, sequence length, dim_model)
        src = self.embedding(src) * math.sqrt(self.dim_model)
        tgt = self.embedding(tgt) * math.sqrt(self.dim_model)
        src = self.positional_encoder(src)
        tgt = self.positional_encoder(tgt)

        src = src.permute(1,0,2)
        tgt = tgt.permute(1,0,2)

        # Transformer blocks - Out size = (sequence length, batch_size, num_tokens)
        transformer_out = self.transformer(src, tgt, tgt_mask=tgt_mask, src_key_padding_mask=src_pad_mask, tgt_key_padding_mask=tgt_pad_mask)
        out = self.out(transformer_out)

        return out

    def get_tgt_mask(self, size) -> torch.tensor:
        mask = torch.tril(torch.ones(size, size) == 1) # Lower triangular matrix
        mask = mask.float()
        mask = mask.masked_fill(mask == 0, float('-inf')) # Convert zeros to -inf
        mask = mask.masked_fill(mask == 1, float(0.0)) # Convert ones to 0

        return mask

    def create_pad_mask(self, matrix: torch.tensor, pad_token: int) -> torch.tensor:
        return (matrix == pad_token)

4. Dataset 생성

시퀀스 형태의 크기가 8인 모든 문장을 만들고 크기가 16인 배치로 무작위로 구성하는 가상의 데이터셋 생성

1, 1, 1, 1, 1, 1, 1, 1 → 1, 1, 1, 1, 1, 1, 1, 1
0, 0, 0, 0, 0, 0, 0, 0 → 0, 0, 0, 0, 0, 0, 0, 0
1, 0, 1, 0, 1, 0, 1, 0 → 1, 0, 1, 0, 1, 0, 1, 0
0, 1, 0, 1, 0, 1, 0, 1 → 0, 1, 0, 1, 0, 1, 0, 1

def generate_random_data(n):
    SOS_token = np.array([2])
    EOS_token = np.array([3])
    length = 8

    data = []

    # 1,1,1,1,1,1 -> 1,1,1,1,1
    for i in range(n // 3):
        X = np.concatenate((SOS_token, np.ones(length), EOS_token))
        y = np.concatenate((SOS_token, np.ones(length), EOS_token))
        data.append([X, y])

    # 0,0,0,0 -> 0,0,0,0
    for i in range(n // 3):
        X = np.concatenate((SOS_token, np.zeros(length), EOS_token))
        y = np.concatenate((SOS_token, np.zeros(length), EOS_token))
        data.append([X, y])

    # 1,0,1,0 -> 1,0,1,0,1
    for i in range(n // 3):
        X = np.zeros(length)
        start = random.randint(0, 1)

        X[start::2] = 1

        y = np.zeros(length)
        if X[-1] == 0:
            y[::2] = 1
        else:
            y[1::2] = 1

        X = np.concatenate((SOS_token, X, EOS_token))
        y = np.concatenate((SOS_token, y, EOS_token))
        data.append([X, y])

    np.random.shuffle(data)

    return data

#크기가 16인 배치 형태로 만들어 줍니다.
def batchify_data(data, batch_size=16, padding=False, padding_token=-1):
    batches = []
    for idx in range(0, len(data), batch_size):
        # batch_size 크기가 아닌 경우 마지막 비트를 얻지 않도록 합니다.
        if idx + batch_size < len(data):
            # 여기서 배치의 최대 길이를 가져와 PAD 토큰으로 길이를 정규화해야 합니다.
            if padding:
                max_batch_length = 0
                # batch에서 가장 긴 문장 가져오기
                for seq in data[idx : idx + batch_size]:
                    if len(seq) > max_batch_length:
                        max_batch_length = len(seq)

                # 최대 길이에 도달할 때까지 X 패딩 토큰을 추가합니다.
                for seq_idx in range(batch_size):
                    remaining_length = max_bath_length - len(data[idx + seq_idx])
                    data[idx + seq_idx] += [padding_token] * remaining_length

            batches.append(np.array(data[idx : idx + batch_size]).astype(np.int64))

    print(f"{len(batches)} batches of size {batch_size}")

    return batches


train_data = generate_random_data(9000)
val_data = generate_random_data(3000)

train_dataloader = batchify_data(train_data)
val_dataloader = batchify_data(val_data)

562 batches of size 16
187 batches of size 16

5. Model Build

device = "cuda" if torch.cuda.is_available() else "cpu"

model = Transformer(num_tokens=4, 
                    dim_model=8, 
                    num_heads=2, 
                    num_encoder_layers=3, 
                    num_decoder_layers=3, 
                    dropout_p=0.1).to(device)

opt = torch.optim.SGD(model.parameters(), lr=0.01)
loss_fn = nn.CrossEntropyLoss()

6. Train & Validaion

target tensor는 예측 중에 모델에 전달
다음 단어를 숨기기 위해 target mask가 생성
padding mask가 생성되어 모델에 전달

# Train
def train_loop(model, opt, loss_fn, dataloader):
    model.train()
    total_loss = 0

    for batch in dataloader:
        X, y = batch[:, 0], batch[:, 1]
        X, y = torch.tensor(X).to(device), torch.tensor(y).to(device)

        # 이제 tgt를 1만큼 이동하여 <SOS>를 사용하여 pos 1에서 토큰을 예측합니다.
        y_input = y[:,:-1]
        y_expected = y[:,1:]

        # 다음 단어를 마스킹하려면 마스크 가져오기
        sequence_length = y_input.size(1)
        tgt_mask = model.get_tgt_mask(sequence_length).to(device)

        # X, y_input 및 tgt_mask를 전달하여 표준 training
        pred = model(X, y_input, tgt_mask)

        # Permute 를 수행하여 batch size 가 처음이 되도록
        pred = pred.permute(1, 2, 0)      
        loss = loss_fn(pred, y_expected)

        opt.zero_grad()
        loss.backward()
        opt.step()

        total_loss += loss.detach().item()

    return total_loss / len(dataloader)

# Validation
def validation_loop(model, loss_fn, dataloader):
    model.eval()
    total_loss = 0

    with torch.no_grad():
        for batch in dataloader:
            X, y = batch[:, 0], batch[:, 1]
            X, y = torch.tensor(X, dtype=torch.long, device=device), torch.tensor(y, dtype=torch.long, device=device)

            y_input = y[:,:-1]
            y_expected = y[:,1:]

            sequence_length = y_input.size(1)
            tgt_mask = model.get_tgt_mask(sequence_length).to(device)

            pred = model(X, y_input, tgt_mask)

            pred = pred.permute(1, 2, 0)      
            loss = loss_fn(pred, y_expected)
            total_loss += loss.detach().item()

    return total_loss / len(dataloader)

7. Training

def fit(model, opt, loss_fn, train_dataloader, val_dataloader, epochs): 
    
    # 나중에 plotting 하기위해
    train_loss_list, validation_loss_list = [], []

    print("Training and validating model")
    for epoch in range(epochs):
        print("-"*25, f"Epoch {epoch + 1}","-"*25)

        train_loss = train_loop(model, opt, loss_fn, train_dataloader)
        train_loss_list += [train_loss]

        validation_loss = validation_loop(model, loss_fn, val_dataloader)
        validation_loss_list += [validation_loss]

        print(f"Training loss: {train_loss:.4f}")
        print(f"Validation loss: {validation_loss:.4f}")

    return train_loss_list, validation_loss_list

train_loss_list, validation_loss_list = fit(model, 
                                            opt, 
                                            loss_fn, 
                                            train_dataloader, 
                                            val_dataloader, 
                                            10)

Training and validating model
------------------------- Epoch 1 -------------------------
Training loss: 0.6468
Validation loss: 0.3943

------------------------- Epoch 2 -------------------------
Training loss: 0.4055
Validation loss: 0.3466

------------------------- Epoch 3 -------------------------
Training loss: 0.3600
Validation loss: 0.2949

------------------------- Epoch 4 -------------------------
Training loss: 0.3205
Validation loss: 0.2481

------------------------- Epoch 5 -------------------------
Training loss: 0.2927
Validation loss: 0.2256

------------------------- Epoch 6 -------------------------
Training loss: 0.2746
Validation loss: 0.2037

------------------------- Epoch 7 -------------------------
Training loss: 0.2614
Validation loss: 0.1966

------------------------- Epoch 8 -------------------------
Training loss: 0.2489
Validation loss: 0.1818

------------------------- Epoch 9 -------------------------
Training loss: 0.2408
Validation loss: 0.1691

------------------------- Epoch 10 -------------------------
Training loss: 0.2327
Validation loss: 0.1595

8. Loss Visualization

plt.plot(train_loss_list, label = "Train loss")
plt.plot(validation_loss_list, label = "Validation loss")

plt.xlabel('Epoch')
plt.ylabel('Loss')
plt.title('Loss vs Epoch')
plt.legend()

plt.show()

![[스크린샷 2024-04-10 오전 9.36.17.png]]

9. Inference

def predict(model, input_sequence, max_length=15, SOS_token=2, EOS_token=3):
    model.eval()

    y_input = torch.tensor([[SOS_token]], dtype=torch.long, device=device)

    num_tokens = len(input_sequence[0])

    for _ in range(max_length):
        # Get source mask
        tgt_mask = model.get_tgt_mask(y_input.size(1)).to(device)
        pred = model(input_sequence, y_input, tgt_mask)

        next_item = pred.topk(1)[1].view(-1)[-1].item() # num with highest probability
        next_item = torch.tensor([[next_item]], device=device)

        # Concatenate previous input with predicted best word
        y_input = torch.cat((y_input, next_item), dim=1)

        # Stop if model predicts end of sentence
        if next_item.view(-1).item() == EOS_token:
            break

    return y_input.view(-1).tolist()


# Here we test some examples to observe how the model predicts
examples = [
    torch.tensor([[2, 0, 0, 0, 0, 0, 0, 0, 0, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 1, 1, 1, 1, 1, 1, 1, 1, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 1, 0, 1, 0, 1, 0, 1, 0, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 0, 1, 0, 1, 0, 1, 0, 1, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0, 3]], dtype=torch.long, device=device),
    torch.tensor([[2, 0, 1, 3]], dtype=torch.long, device=device)
]

for idx, example in enumerate(examples):
    result = predict(model, example)
    print(f"Example {idx}")
    print(f"Input: {example.view(-1).tolist()[1:-1]}")
    print(f"Continuation: {result[1:-1]}")
    print()

Example 0
Input: [0, 0, 0, 0, 0, 0, 0, 0]
Continuation: [0, 0, 0, 0, 0, 0, 0, 0, 0]

Example 1
Input: [1, 1, 1, 1, 1, 1, 1, 1]
Continuation: [1, 1, 1, 1, 1, 1, 1, 1, 1]

Example 2
Input: [1, 0, 1, 0, 1, 0, 1, 0]
Continuation: [1, 0, 1, 0, 1, 0, 1, 0]

Example 3
Input: [0, 1, 0, 1, 0, 1, 0, 1]
Continuation: [1, 0, 1, 0, 1, 0, 1, 0]

Example 4
Input: [0, 1, 0, 1, 0, 1, 0, 1, 0, 1, 0]
Continuation: [0, 1, 0, 1, 0, 1, 0, 1]

Example 5
Input: [0, 1]
Continuation: [1, 0, 1, 0, 1, 0, 1, 0, 1]

III. Huggingface Transformer 학습절차

Huggingface Trainer
Transformer Pytorch 학습

1. Dataset Hub에서 데이터셋 불러오기

load_dataset에서 glue, mrpc 로딩

from datasets import load_dataset

raw_datasets = load_dataset("glue", "mrpc")
raw_datasets

Downloading readme:   0%|          | 0.00/35.3k [00:00<?, ?B/s]


Downloading data: 100%|██████████| 649k/649k [00:00<00:00, 1.25MB/s]
Downloading data: 100%|██████████| 75.7k/75.7k [00:00<00:00, 175kB/s]
Downloading data: 100%|██████████| 308k/308k [00:00<00:00, 729kB/s]



Generating train split:   0%|          | 0/3668 [00:00<?, ? examples/s]



Generating validation split:   0%|          | 0/408 [00:00<?, ? examples/s]



Generating test split:   0%|          | 0/1725 [00:00<?, ? examples/s]





DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx'],
        num_rows: 1725
    })
})

raw_train_dataset = raw_datasets["train"]
raw_train_dataset[1]

{'sentence1': "Yucaipa owned Dominick 's before selling the chain to Safeway in 1998 for $ 2.5 billion .",
 'sentence2': "Yucaipa bought Dominick 's in 1995 for $ 693 million and sold it to Safeway for $ 1.8 billion in 1998 .",
 'label': 0,
 'idx': 1}

raw_train_dataset.features

{'sentence1': Value(dtype='string', id=None),
 'sentence2': Value(dtype='string', id=None),
 'label': ClassLabel(names=['not_equivalent', 'equivalent'], id=None),
 'idx': Value(dtype='int32', id=None)}

raw_train_dataset

Dataset({
    features: ['sentence1', 'sentence2', 'label', 'idx'],
    num_rows: 3668
})

raw_train_dataset.shape

(3668, 4)

2.1 Tokenization

AutoTokenizer 사용

from transformers import AutoTokenizer

checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)

inputs = tokenizer("This is the first sentence.", "This is the second one.")
inputs

{'input_ids': [101, 2023, 2003, 1996, 2034, 6251, 1012, 102, 2023, 2003, 1996, 2117, 2028, 1012, 102], 'token_type_ids': [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1], 'attention_mask': [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]}

tokenizer.convert_ids_to_tokens(inputs["input_ids"])

['[CLS]',
 'this',
 'is',
 'the',
 'first',
 'sentence',
 '.',
 '[SEP]',
 'this',
 'is',
 'the',
 'second',
 'one',
 '.',
 '[SEP]']

def tokenize_function(example):
    return tokenizer(
        example["sentence1"], 
        example["sentence2"], 
        truncation=True
    )

tokenized_datasets = raw_datasets.map(
    tokenize_function, 
    batched=True
)
tokenized_datasets

Map:   0%|          | 0/3668 [00:00<?, ? examples/s]



Map:   0%|          | 0/408 [00:00<?, ? examples/s]



Map:   0%|          | 0/1725 [00:00<?, ? examples/s]





DatasetDict({
    train: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 3668
    })
    validation: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 408
    })
    test: Dataset({
        features: ['sentence1', 'sentence2', 'label', 'idx', 'input_ids', 'token_type_ids', 'attention_mask'],
        num_rows: 1725
    })
})

2.2. Collate Function: Pad Sequence

DataCollatorWithPadding

from transformers import DataCollatorWithPadding

data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

samples = tokenized_datasets["train"][:8]
samples = {k: v for k, v in samples.items() if k not in ["idx", "sentence1", "sentence2"]}

[len(x) for x in samples["input_ids"]]

[50, 59, 47, 67, 59, 50, 62, 32]

3. Train

3.1 TrainingArguments 정의

from transformers import TrainingArguments

training_args = TrainingArguments("test-trainer")

3.2 Sequence Classification PLM

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
    checkpoint, 
    num_labels=2
)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.

3.3 Trainer

class transformers.Trainer Default Parameters

from transformers import Trainer

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

3.4 학습

trainer.train()

TrainOutput(global_step=345, training_loss=0.34370161415874095, metrics={'train_runtime': 75.0666, 'train_samples_per_second': 146.59, 'train_steps_per_second': 4.596, 'total_flos': 451584904312800.0, 'train_loss': 0.34370161415874095, 'epoch': 3.0})

4. Evaluation

trainer.predict() 사용

predictions = trainer.predict(tokenized_datasets["validation"])

print(
    predictions.predictions.shape, 
    predictions.label_ids.shape
)

(408, 2) (408,)

import numpy as np

preds = np.argmax(predictions.predictions, axis=-1)

from datasets import load_metric

metric = load_metric("glue", "mrpc")
metric.compute(predictions=preds, references=predictions.label_ids)

{'accuracy': 0.8480392156862745, 'f1': 0.89419795221843}

5. Metrics를 Trainer에 포함

Trainer(compute_metrics=compute_metrics)

def compute_metrics(eval_preds):
    metric = load_metric("glue", "mrpc")
    logits, labels = eval_preds
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

training_args = TrainingArguments("test-trainer", evaluation_strategy="epoch")
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
    compute_metrics=compute_metrics)

trainer.train()

TrainOutput(global_step=345, training_loss=0.36598324983016306, metrics={'train_runtime': 77.8575, 'train_samples_per_second': 141.335, 'train_steps_per_second': 4.431, 'total_flos': 451584904312800.0, 'train_loss': 0.36598324983016306, 'epoch': 3.0})

Transformer - Pytorch 결합 학습하기

1. 데이터셋 불러오기 & 전처리

from datasets import load_dataset
from transformers import AutoTokenizer, DataCollatorWithPadding

raw_datasets = load_dataset("glue", "mrpc")
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


def tokenize_function(example):
    return tokenizer(
        example["sentence1"], 
        example["sentence2"], 
        truncation=True
    )

tokenized_datasets = raw_datasets.map(
    tokenize_function, 
    batched=True
)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

Map:   0%|          | 0/408 [00:00<?, ? examples/s]

tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

tokenized_datasets.set_format("torch")
tokenized_datasets["train"].column_names

['labels', 'input_ids', 'token_type_ids', 'attention_mask']

2. DataLoader: Train/Test Batch 생성

from torch.utils.data import DataLoader

train_dataloader = DataLoader(
    tokenized_datasets["train"],
    shuffle=True,
    batch_size=128,
    collate_fn=data_collator,
)

eval_dataloader = DataLoader(
    tokenized_datasets["validation"],
    batch_size=128,
    collate_fn=data_collator,
)

for batch in train_dataloader:
    break
{k: v.shape for k, v in batch.items()}

{'labels': torch.Size([128]),
 'input_ids': torch.Size([128, 81]),
 'token_type_ids': torch.Size([128, 81]),
 'attention_mask': torch.Size([128, 81])}

3. PLM: Sequence Classification

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained(
    checkpoint, 
    num_labels=2
)

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.

outputs = model(**batch)
print(outputs.loss, outputs.logits.shape)

tensor(1.0493, grad_fn=<NllLossBackward0>) torch.Size([128, 2])

from transformers import AdamW

optimizer = AdamW(
    model.parameters(), 
    lr=5e-5
)

/home/kubwa/anaconda3/envs/pytorch/lib/python3.11/site-packages/transformers/optimization.py:588: FutureWarning: This implementation of AdamW is deprecated and will be removed in a future version. Use the PyTorch implementation torch.optim.AdamW instead, or set `no_deprecation_warning=True` to disable this warning
  warnings.warn(

4. Pytorch 스케줄러

from transformers import get_scheduler
import torch

num_epochs = 3
num_training_steps = num_epochs * len(train_dataloader)
lr_scheduler = get_scheduler(
    "linear",
    optimizer=optimizer,
    num_warmup_steps=0,
    num_training_steps=num_training_steps,
)
print(num_training_steps)

device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)
print(device)

87
cuda

5. Train

from tqdm.auto import tqdm

progress_bar = tqdm(range(num_training_steps))

model.train()
for epoch in range(num_epochs):
    for batch in train_dataloader:
        batch = {k: v.to(device) for k, v in batch.items()}
        outputs = model(**batch)
        loss = outputs.loss
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

  0%|          | 0/87 [00:00<?, ?it/s]

6. Metrics

from datasets import load_metric

metric = load_metric("glue", "mrpc")
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    metric.add_batch(predictions=predictions, references=batch["labels"])

metric.compute()

/home/kubwa/anaconda3/envs/pytorch/lib/python3.11/site-packages/datasets/load.py:756: FutureWarning: The repository for glue contains custom code which must be executed to correctly load the metric. You can inspect the repository content at https://raw.githubusercontent.com/huggingface/datasets/2.18.0/metrics/glue/glue.py
You can avoid this message in future by passing the argument `trust_remote_code=True`.
Passing `trust_remote_code=True` will be mandatory to load this metric from the next major release of `datasets`.
  warnings.warn(
{'accuracy': 0.8186274509803921, 'f1': 0.864963503649635}

7. 전체 코드

from datasets import load_dataset, load_metric
from transformers import AutoTokenizer, DataCollatorWithPadding, AutoModelForSequenceClassification, AdamW, get_scheduler

import torch
from torch.utils.data import DataLoader

from tqdm.auto import tqdm


# 데이터 셋 적재
raw_datasets = load_dataset("glue", "mrpc")

# 사전학습 언어모델 checkpoint 이름 지정
checkpoint = "bert-base-uncased"

# 지정된 사전학습 언어모델에서 토크나이저 인스턴스화
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


# 토크나이저 함수 사용자 정의화 (sentence1, sentence2 컬럼에 대해서만 토크나이징 수행)
def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)


# 토크나이징 수행
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)

# 배치(batch)별 패딩(padding)을 위한 data collator 정의
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# 불필요한 입력 컬럼을 제거하고 사전학습 언어모델에 필요한 입력만 남김.
tokenized_datasets = tokenized_datasets.remove_columns(["sentence1", "sentence2", "idx"])

# 데이터셋의 label 컬럼명을 labels로 변경
tokenized_datasets = tokenized_datasets.rename_column("label", "labels")

# 데이터셋의 유형을 PyTorch tensor로 변경
tokenized_datasets.set_format("torch")

# 변경된 컬럼 출력
print(tokenized_datasets["train"].column_names)


# 각 종류별 데이터 로더 생성
train_dataloader = DataLoader(
    tokenized_datasets["train"], 
    shuffle=True, 
    batch_size=256, 
    collate_fn=data_collator
)
eval_dataloader = DataLoader(
    tokenized_datasets["validation"],
    shuffle=True,
    batch_size=256,
    collate_fn=data_collator
)

# 사전학습 언어모델 인스턴스화
model = AutoModelForSequenceClassification.from_pretrained(
    checkpoint, 
    num_labels=2
)
# 최적화 함수 정의
optimizer = AdamW(
    model.parameters(), 
    lr=5e-5
)

# 에포크 개수 설정
num_epochs = 30

# 학습 스텝 수 계산
num_training_steps = num_epochs * len(train_dataloader)

# 학습 스케쥴러 설정
lr_scheduler = get_scheduler(
    "linear", 
    optimizer=optimizer, 
    num_warmup_steps=0, 
    num_training_steps=num_training_steps
)

# GPU로 모델을 이동
device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
model.to(device)

# 진행 상황바 정의
progress_bar = tqdm(range(num_training_steps))

# 모델을 학습 모드로 전환
model.train()
# 학습 루프 시작
for epoch in range(num_epochs):
    for batch in train_dataloader:
        # 현재 배치 중에서 입력값을 모두 GPU로 이동.
        batch = {k: v.to(device) for k, v in batch.items()}
        # 모델 실행
        outputs = model(**batch)
        # 손실값 가져오기
        loss = outputs.loss
        # 역전파 수행
        loss.backward()

        optimizer.step()
        lr_scheduler.step()
        optimizer.zero_grad()
        progress_bar.update(1)

# 평가 메트릭 가져오기
metric = load_metric("glue", "mrpc")
# 모델을 평가 모드로 전환
model.eval()
for batch in eval_dataloader:
    batch = {k: v.to(device) for k, v in batch.items()}
    with torch.no_grad():
        outputs = model(**batch)

    logits = outputs.logits
    predictions = torch.argmax(logits, dim=-1)
    metric.add_batch(
        predictions=predictions, 
        references=batch["labels"]
    )

# 평가 결과 계산 및 출력 
metric.compute()

Map:   0%|          | 0/3668 [00:00<?, ? examples/s]
Map:   0%|          | 0/408 [00:00<?, ? examples/s]
Map:   0%|          | 0/1725 [00:00<?, ? examples/s]
['labels', 'input_ids', 'token_type_ids', 'attention_mask']
  0%|          | 0/450 [00:00<?, ?it/s]
{'accuracy': 0.8284313725490197, 'f1': 0.8801369863013698}