본문 바로가기

LLM

(2)
LLM마다 답변이 다른 이유는 사전학습과 사후학습에 있습니다. Claude, GPT, Gemini를 함께 쓰다 보면 같은 질문에도 답변의 결이 다릅니다. 처음엔 단순히 모델 성능 차이라고 생각할 수 있습니다.하지만 모델을 사용할수록 그 차이가 어디서 오는지 알 수 있습니다. 사전학습과 사후학습의 차이입니다. 사전학습(Pre-training)은 모델이 방대한 데이터를 통해 언어와 지식을 학습하는 단계입니다.사후학습(Post-training)은 그 위에서 모델이 어떻게 대답해야 하는지, 어떤 방식으로 사람과 상호작용해야 하는지를 조정하는 단계입니다.같은 규모의 사전학습을 거쳤더라도 사후학습의 방향에 따라 모델의 성격과 응답 방식이 달라집니다. GPT는 범용성이 강합니다. 다양한 태스크에 고르게 대응하도록 사후학습이 설계된 느낌입니다.특정 영역에서 두드러지기보다 어디서든..
추론 모델은 대답이 아닌 정답을 찾는다. 2024년 9월, OpenAI가 o1-preview 모델을 출시했습니다. 당시 많은 개발자들이 이 모델을 단순히 더 똑똑한 모델 정도로 받아들였습니다. 돌이켜보면 그 시점이 AI 모델의 패러다임이 바뀐 분기점이었습니다. 기존 LLM은 입력에 대해 가장 그럴듯한 다음 토큰을 예측합니다. 빠르고 효율적이지만 구조적으로 "그럴듯한 답"을 찾도록 설계된 것입니다.하지만 o1-preview는 달랐습니다. 응답 전에 내부적으로 추론 과정을 거칩니다. 틀린 경로를 되짚어 보고, 다른 전략을 시도하고, 스스로 오류를 인식합니다. 이를 Test-time Compute라고 합니다. 학습이 아닌 추론 시점에 연산을 더 투입해서 품질을 높이는 방식입니다. 기존 모델이 "이 질문에 대답은 무엇인가"를 찾는다면, 추론 모델은 "..