본문 바로가기
NLP

[LLM] 대규모 언어 모델

by 박다소니 2024. 8. 6.

 

LLM에 대해 잘 설명된 다음 글(https://www.cloudflare.com/ko-kr/learning/ai/what-is-large-language-model/)에서 일부를 발췌하여 정리함

Large Language Model, 대규모 언어 모델이 무엇인지 가볍게 알아보자

 


 

대규모 언어 모델(LLM)

 

방대한 양의 데이터로 사전 학습된 초대형 딥 러닝 (트랜스포머 신경망 모델 기반) 모델

텍스트를 인식하고 생성하는 등의 작업을 수행할 수 있는 일종의 인공지능 프로그램

트랜스포머 모델 : 문맥 학습 가능. 셀프어텐션->시퀀스 요소 간 연관방식 감지

 

  • Meta, Llama : 다양한 크기의 모델을 제공하여 필요에 맞게 선택 가능. 오픈소스. 
  • OpenAi, ChatGPT : 대화형 AI 애플리케이션에 사용. 다양한 자연어 처리 작업에 높은 성능
  • Google, Bard : PLM기술 기반, 다중 작업 학습과 효율적인 모델학습을 목표로 개발
  • Microsoft, Bing Chat : GPT-4 기반, 대화형 AI 서비스. 자연어처리와 질문 응답에 높은 성능

 

 

 

사용

 

아래와 같이 매우 다양한 분야에서 활용 가능

생성형 Ai : 프롬프트가 주어지거나 질문을 받으면 응답으로 텍스트를 생성

감정 분석, DNA분석, 고객 서비스, 챗봇, 온라인 검색

 

 

장점

 

예측할 수 없는 쿼리에 대응할 수 있음

자연스러운 인간 언어에 응답하고 데이터 분석을 사용하여 구조화되지 않은 질문이나 프롬프트에 적절한 방식으로 답변

 

 

단점

 

수집하는 데이터만큼만 신뢰할 수 있는 정보를 제공할 수 있음

잘못된 정보가 입력되면 사용자 쿼리에 대한 응답으로 잘못된 정보를 제공 (환각)

버그가 발생하기 쉬움

악의적인 입력을 통해 LLM을 조작하여 위험하거나 비윤리적인 응답 등 특정 유형의 응답을 다른 응답보다 우선적으로 제공하도록 할 수 있음

기밀 데이터 유출 가능 : 사용자가 자신의 생산성을 높이기 위해 안전한 기밀 데이터를 LLM에 업로드할 시, LLM은 수신한 입력을 사용하여 모델을 추가로 학습시킴. 이후 다른 사용자의 쿼리에 대한 응답으로 기밀 데이터가 노출될 수 있음.