NLP6 [Transformer] 트랜스포머 동작 원리 1. 인코딩, 디코딩 저번에 트랜스포머가 무엇인지 공부한 거에 이어서 리뷰영상을 마저 보며 공부했다.저번에 이해 안되는 단어들을 풀어적으며... 트랜스포머 동작 원리 알아보기! 트랜스포머 동작 원리 [입력 값 임베딩] 트랜스포머 이전의 임베딩(RNN사용 → 단어 순서대로 들어감 : 위치정보 알 수 있음): 네트워크에 넣기 전, 입력 값들을 임베딩 형태로 표현하기 위해 사용하는 레이어 트랜스포머: 위치 정보를 포함하고 있는 임베딩 사용 : Positional Encoding [인코더] 임베딩이 끝난 이후에 어텐션 진행 인코더 파트에서 수행하는 어텐션 : 셀프 어텐션전반적인 입력 문장에 대한 문맥에 대한 정보를 잘 학습하도록 함: 각각의 단어가 서로에게 어떤 연관성을 가지고 있는지 구하기 위해 사용 성능 향상을 위해 잔여학습(.. 2024. 8. 20. [Transformer] 트랜스포머란? 그리고 등장 배경 트랜스포머 모델은 구글이 자연어처리를 위해 2017년에 발표한 논문, "Attention Is All You Need"에 처음 등장한 딥러닝 모델의 일종이다.ChatGPT도 트랜스포머에 기반한 모델이고, 지금 아주 유행 중이라는데,, 이게 뭔지 등장 배경부터 자세히 알아보자."Attention Is All You Need" 논문을 리뷰한 영상(https://www.youtube.com/watch?v=AA621UofTUA)을 보고 정리한 내용을 정리했다.(저작권 문제되면 내릴테니 알려주시길...!)일단 모르는 단어 정리는 건너뛰고 가볍게 이런게 있구나..라는 느낌으로 정리했다. 딥러닝 기반의 기계 번역 발전 과정기계번역 발전 과정LSTM: 다양한 시퀀스 정보 모델링 가능 → 주가 예측, 주기함수 예측.. 2024. 8. 20. [딥러닝] 역전파(Back propagation) 알고리즘 역전파(Backpropagation) 알고리즘 : 딥러닝에서 인공 신경망(특히 다층 퍼셉트론)을 학습시킬 때 사용되는 핵심 알고리즘네트워크의 출력 결과와 실제 값 사이의 오차(손실)를 계산하고, 이 오차를 네트워크의 가중치에 반영하여 모델을 업데이트하는 과정 역전파의 두 가지 주요 단계1. 순전파(Forward Propagation)2. 역전파(Backward Propagation) 순전파 입력 데이터를 신경망에 전달하여 예측값을 계산하는 과정입력이 각 층을 통과하며 가중치와 편향이 적용된 선형 결합(z = Wx + b)을 거치고, 이후 활성화 함수(f(z))가 적용됨이 과정이 반복되어 최종 출력값이 계산 역전파 순전파 결과로 얻은 예측값과 실제 값의 차이(손실)를 바탕으로 각 가중치가 손실에 미치.. 2024. 8. 16. [LLM] 대규모 언어 모델 LLM에 대해 잘 설명된 다음 글(https://www.cloudflare.com/ko-kr/learning/ai/what-is-large-language-model/)에서 일부를 발췌하여 정리함Large Language Model, 대규모 언어 모델이 무엇인지 가볍게 알아보자 대규모 언어 모델(LLM) 방대한 양의 데이터로 사전 학습된 초대형 딥 러닝 (트랜스포머 신경망 모델 기반) 모델텍스트를 인식하고 생성하는 등의 작업을 수행할 수 있는 일종의 인공지능 프로그램트랜스포머 모델 : 문맥 학습 가능. 셀프어텐션->시퀀스 요소 간 연관방식 감지 Meta, Llama : 다양한 크기의 모델을 제공하여 필요에 맞게 선택 가능. 오픈소스. OpenAi, ChatGPT : 대화형 AI 애플리케이션에 사용. 다.. 2024. 8. 6. [딥러닝] 선형, 로지스틱, 소프트맥스 회귀 회귀모델(Regression Model)은 머신러닝과 통계학에서 종속 변수와 하나 이상의 독립 변수 간의 관계를 모델링하는 방법이다.선형회귀 문제를 딥러닝을 통해 풀기도 하고, 분류를 위해 로지스틱 회귀를, 다중분류를 위해 소프트맥스 회귀를 사용하는 등 딥러닝과 회귀모델은 상호보완적인 관계이다.따라서 딥러닝을 이해할 때 회귀모델을 알아두면 좋다.하나씩 알아보자! 선형 회귀(Linear Regression) 종속 변수와 독립 변수들 사이의 관계가 직선으로 표현될 수 있을 때 사용하는 모델알려진(독립변수) 다른 관련 데이터 값을 사용하여 알 수 없는(종속변수) 데이터의 값을 예측하는 데이터 분석 기법다층 퍼셉트론(MLP)을 사용하여 선형 회귀 문제를 해결할 수 있으며, 더 복잡한 비선형 관계도 학습할 수 .. 2024. 8. 5. [딥러닝] 딥러닝 기초 개념 딥 러닝 머신러닝의 하위 집합인간의 두뇌에서 영감을 얻은 방식으로 데이터를 처리하도록 컴퓨터를 가르치는 인공 지능(AI) 방식데이터 세트에 대해 신경망을 학습시킴신경망은 인공신경망을 사용 머신러닝 인공지능의 하위 집합많은 양의 데이터를 제공하여, 신경망과 딥 러닝을 사용하여 시스템이 자율적으로 학습하고 개선할 수 있게 함종류- supervised learning : 데이터에 정답 존재- unsupervised learning : 데이터에 정답 없음. 컴퓨터가 비슷한 것끼리 군집화 하는 등 학습- reinforcement learning : 강화학습. 반복된 시행착오를 통해 학습 인공신경망(Neural Network) 인간의 두뇌에서 영감을 얻은 방식으로 데이터를 처리하도록 컴퓨터를 가르치는 인공 .. 2024. 8. 4. 이전 1 다음