요즘 “AI가 똑똑해졌다”는 말, 사실 절반은 맞고 절반은 ‘준비 운동을 엄청 했더라’가 정답입니다.
그 준비 운동의 이름이 바로 사전학습모델(Pretrained Model)입니다.
한 줄로 요약하면 이렇습니다.
사전학습모델은 먼저 세상에 널린 방대한 데이터로 기초 실력을 길러두고, 나중에 특정 업무(번역, 요약, 감성분석, 검색, 분류 등)에 맞게 빠르게 적응시키는 모델입니다.
이 글은 “사전학습모델”이라는 단어가 왠지 어려워 보였던 분도, 개발자로서 실무 적용을 고민하는 분도 이해할 수 있게 핵심 용어를 예시와 함께 풀어드립니다.
사전학습모델이 뭐냐고요? 비유로 시작해봅시다
처음부터 요리사를 키운다고 생각해볼게요.
- 처음부터 학습(From scratch): 요리 도구 잡는 법부터 시작해서, 레시피도 직접 만들고, 실수도 다 하면서 성장
- 사전학습 + 파인튜닝: 이미 기본기가 좋은 요리사를 데려와서, 우리 가게 메뉴(업무)에 맞게 짧게 훈련
사전학습모델은 “기본기를 미리 끝내둔 모델”입니다. 그래서 같은 성능을 내려면 데이터도 덜 필요하고, 학습 시간과 비용도 줄어드는 경우가 많습니다.
사전학습(Pre-training)과 파인튜닝(Fine-tuning)의 차이
사전학습과 파인튜닝은 세트 메뉴처럼 붙어 다니는 단짝입니다.
- 사전학습: 일반적인 지식/패턴을 크게 학습(대규모 데이터, 보통 라벨 없음)
- 파인튜닝: 특정 목적에 맞춰 미세 조정(상대적으로 작은 데이터, 라벨이 있는 경우가 많음)
여기서 많이 헷갈리는 포인트가 하나 있습니다.
사전학습모델이 “정답을 다 알고 있는 백과사전”이라기보다는, “문장을 그럴듯하게 이어가고 패턴을 잘 맞추는 선수”에 가깝다는 점입니다. 그래서 잘 쓰면 만능인데, 대충 쓰면 그럴듯한 헛소리도 가능합니다(이건 뒤에서 ‘한계’에서 다룹니다).
한눈에 비교: 처음부터 학습 vs 사전학습 활용 전략
| 접근 | 언제 쓰나 | 장점 | 단점 |
|---|---|---|---|
| 처음부터 학습 | 데이터/도메인이 완전히 특수하거나 공개 모델이 부적합 | 완전 맞춤형 | 데이터·비용·시간이 큼 |
| 사전학습 + 파인튜닝 | 분류/추출/도메인 특화 성능이 중요 | 효율 좋고 성능 안정적 | 데이터 품질/라벨링 필요 |
| 프롬프트 기반 활용 | 빠르게 PoC, 규칙이 자주 바뀌는 업무 | 개발 속도 빠름 | 일관성/평가/재현성이 어려울 수 있음 |
| RAG(검색+생성) | 최신 정보/사내 문서 기반 답변 | 업데이트에 강함 | 검색 품질·보안 설계가 중요 |
| LoRA 등 PEFT | 큰 모델을 “가볍게” 도메인 적응 | 비용 절감, 운영 유리 | 세팅/평가 설계 필요 |
사전학습을 가능하게 만든 핵심: 자기지도학습(Self-supervised Learning)
사전학습은 보통 라벨이 없습니다. 그럼 뭘로 공부하죠?
여기서 등장하는 개념이 자기지도학습입니다.
아이디어는 단순합니다.
- 데이터 자체에서 문제와 정답을 “만들어낸다”
- 예: 문장 일부를 가려놓고 맞히기, 다음 단어 맞히기
대표적으로 많이 알려진 두 방식은 다음과 같습니다.
- 마스크드 언어 모델(예: BERT 계열): 문장 중간을 가리고 빈칸 맞히기
- 자기회귀 언어 모델(예: GPT 계열): 앞 단어들을 보고 다음 단어 이어쓰기
이 방식 덕분에 인터넷 규모의 텍스트처럼 “라벨 없는 데이터”를 활용해 기초 체력을 극한까지 끌어올릴 수 있게 됐습니다.
트랜스포머(Transformer): 사전학습모델의 엔진
사전학습모델 이야기에서 트랜스포머를 빼면, 자동차 얘기하면서 엔진 얘기 안 하는 느낌입니다.
트랜스포머의 핵심은 ‘어텐션(attention)’입니다.
문장 안에서 어떤 단어가 어떤 단어와 더 관련이 큰지, 스스로 가중치를 두고 바라보는 방식이죠. 이 구조는 병렬화에도 유리해서 대규모 학습과 잘 맞았습니다.
AI 시대 필수 용어 12개: 사전학습모델을 이해하는 최소 단위
1) 전이학습(Transfer Learning)
한 분야에서 배운 능력을 다른 분야에 재사용하는 것.
예: 일반 뉴스로 학습한 모델을 고객 상담 분류에 적용.
2) 다운스트림 태스크(Downstream Task)
사전학습 이후 “실제로 하고 싶은 일”.
예: 스팸 분류, 감성분석, 개체명 인식, 문서 요약.
3) 파인튜닝(Fine-tuning)
사전학습된 가중치를 시작점으로 추가 학습해 특정 태스크 성능을 끌어올리는 것.
예: 사내 용어가 많은 문서 분류기를 만들 때.
4) 토큰(Token)과 토크나이저(Tokenizer)
모델이 문장을 처리하는 최소 조각 단위가 토큰입니다. 토크나이저는 문장을 토큰으로 쪼개는 규칙/도구입니다.
예: “데이터베이스”가 한 토큰이 아닐 수도 있습니다(“데이터”, “##베”, “##이스”처럼).
5) 임베딩(Embedding)
토큰(또는 문장)을 숫자 벡터로 바꾼 표현.
예: “고양이”와 “강아지” 임베딩은 가깝고, “고양이”와 “세금계산서”는 멀 수 있습니다.
6) 파라미터(Parameter)
모델이 학습한 지식이 저장되는 숫자들(가중치).
일반적으로 파라미터 수가 클수록 표현력이 커지지만, 비용과 운영 난이도도 같이 올라갑니다.
7) 추론(Inference)
학습이 끝난 모델로 실제 입력을 넣고 결과를 뽑는 단계.
현업에서는 학습보다 추론 비용/지연이 병목이 되는 경우가 많습니다.
8) 프롬프트(Prompt)
모델에 주는 지시문/입력 구성 자체.
예: “다음 문장을 한 줄로 요약해줘: …” 같은 형태.
9) 인컨텍스트 러닝(In-context learning), 퓨샷(Few-shot)
추가 학습 없이도, 입력에 예시를 몇 개 붙여주면 그 패턴을 따라 하게 만드는 방식.
예: “예시 2개 줄 테니 같은 형식으로 1개 더 만들어줘”.
10) 컨텍스트(Context)
모델이 한 번에 참고할 수 있는 입력의 범위.
컨텍스트가 짧으면 긴 문서에서 앞부분을 “까먹는” 것처럼 보일 수 있습니다.
11) RAG(Retrieval-Augmented Generation)
모델이 내부 파라미터(기억)만 믿지 않고, 외부 문서/검색 결과를 가져와서 답변을 생성하는 방식.
예: 사내 위키/정책 문서를 검색해 근거 기반 응답.
12) LoRA(저랭크 적응) 같은 PEFT(Parameter-Efficient Fine-Tuning)
모델 전체를 다 고치지 않고, 일부 작은 모듈만 학습해서 적응시키는 방식.
큰 모델을 여러 업무에 붙여 쓸 때 비용을 줄이는 데 자주 쓰입니다.
사전학습모델의 한계도 정확히 알아야 합니다
사전학습모델은 강력하지만 무적은 아닙니다. 특히 아래는 실무에서 자주 터집니다.
- 환각(Hallucination): 그럴듯하지만 사실이 아닌 내용을 생성할 수 있음
- 최신성 한계: 학습 이후의 사건/정책/가격 변동은 자동으로 반영되지 않음(그래서 RAG가 자주 등장)
- 편향(Bias): 학습 데이터의 편향을 그대로 물려받을 수 있음
- 보안/개인정보: 민감 데이터 입력 시 외부 유출, 로그 저장, 정책 위반 이슈가 생길 수 있음
한 줄 결론은 이겁니다.
사전학습모델은 “정답 생성기”가 아니라 “확률적으로 그럴듯한 출력을 만드는 엔진”이니, 평가·검증·가드레일이 세트로 가야 합니다.
사전학습모델은 AI 시대의 기본 교양이다
사전학습모델을 이해하면, 요즘 AI 기술 뉴스가 갑자기 번역기처럼 술술 읽힙니다.
전이학습, 파인튜닝, 트랜스포머, 토큰, 임베딩, RAG, LoRA… 이 단어들이 “남의 나라 말”이 아니라 “내가 선택할 수 있는 도구”로 바뀌거든요.
정리하면
- 빠르게 성과를 내고 싶으면: 사전학습모델 + 프롬프트
- 정확도와 도메인 적합성이 중요하면: 파인튜닝 또는 PEFT(LoRA)
- 최신 정보/근거가 중요하면: RAG
이제 “사전학습모델이 뭔데 이렇게 다들 떠들어?”에서
“우리 문제엔 어느 전략이 맞지?”로 질문이 한 단계 업그레이드될 겁니다.
'IT' 카테고리의 다른 글
| 팹리스(Fabless)란 무엇인가: AI 시대에 꼭 알아야 할 반도체 핵심 용어 (3) | 2026.01.12 |
|---|---|
| 파운데이션 모델(Foundation Model)이란 무엇인가? (2) | 2026.01.10 |
| 지식 증류(knowledge distillation)란 무엇인가? (3) | 2026.01.09 |
| 지도학습(Supervised Learning)이란 무엇인가?(라벨이 있는 데이터로 똑똑해지는 가장 현실적인 머신러닝) (2) | 2026.01.09 |
| AI 리터러시란 무엇인가? (2) | 2026.01.08 |