대규모 데이터 학습을 통해 인간과 유사한 자연어를 생성하는 인공지능 언어 모델로, 문서 작성, 질의응답, 번역, 요약 등 다양한 언어 처리 작업을 수행할 수 있다.
GPT(Generative pre-trained transformer)는 미국의 인공지능 단체
오픈AI가 2018년 선보인
대형 언어 모델(LLM)의 계열이며 GPT 모델들은 레이블링되지 않은 대량의 텍스트 데이터셋으로 미리 훈련되고 인간과 같은 문자를 생성할 수 있는
변환기 아키텍처에 기반한
인공 신경망이다. 2023년 기준으로, 대부분의 LLM은 이러한 특징을 지니고 있으며 종종 GPT로 통칭한다.
OpenAI는 "GPT-n" 시리즈를 구성하기 위해 순차적으로 번호가 매겨진 매우 영향력 있는 GPT 기반 모델을 출시했다. 이들 각각은 증가된 크기(훈련 가능한 매개변수의 수) 및 훈련으로 인해 이전보다 훨씬 더 많은 능력을 발휘했다. 가장 최근인 GPT-4는 2023년 3월에 출시되었다. 이러한 모델은 지침을 따르도록 미세 조정된 모델을 포함하여 작업별 GPT 시스템의 기반이 되었으며, 이는 ChatGPT 챗봇 서비스를 지원한다.
"GPT"라는 용어는 다른 사람이 개발한 모델의 이름 또는 설명에도 자주 사용된다. 예를 들어 다른 GPT 기초 모델에는 EleutherAI에서 생성한 일련의 GPT-3에서 영감을 받은 모델과 최근 Cerebras에서 생성한 7개의 모델 시리즈가 포함된다. 또한 세일즈포스의 "EinsteinGPT"(CRM용) 및 블룸버그의 "BloombergGPT"(금융용)와 같이 다양한 산업 분야의 회사에서 해당 분야의 작업별 GPT를 개발했다.
•
GPT-2 (2019년 2월) - 파라미터 수 : 15 억
•
GPT-3 (2020년 6월) - 파라미터 수 : 1750 억
•
GPT-4 (2023년 3월) - 파라미터 수 : 미공개