Fine-Tuning vs RAG: 행동을 다듬을지 지식을 붙일지 고르는 법
AI
마지막 업데이트

Fine-Tuning vs RAG: 행동을 다듬을지 지식을 붙일지 고르는 법


AI 제품을 만들다 보면 정말 자주 나오는 질문이 있습니다. 이 문제를 RAG로 풀어야 할까, 아니면 fine-tuning을 해야 할까?

두 방법 모두 “모델을 더 좋게 만드는 방법”처럼 들리지만, 실제로 개선하는 대상이 다릅니다. RAG는 답변 시점에 모델이 볼 수 있는 지식을 바꾸고, fine-tuning은 모델 자체를 더 학습시켜 행동 경향을 바꿉니다.

이 글에서는 아래 내용을 다룹니다.

  • RAG가 실제로 무엇을 바꾸는지
  • fine-tuning이 실제로 무엇을 바꾸는지
  • 어떤 상황에서 무엇을 먼저 시도하는 게 맞는지
  • 엉뚱한 문제에 엉뚱한 도구를 고르지 않으려면 무엇을 봐야 하는지

짧게 말하면 이렇습니다. 사내 HR 챗봇을 만들 때 처음에는 fine-tuning부터 시도했는데, 핸드북이 분기마다 바뀌어서 매번 재학습이 필요했습니다. RAG로 전환하니 문서만 업데이트하면 바로 반영되었고, 유지보수 비용이 80% 줄었습니다. 반면 고객 티켓 자동 분류는 카테고리가 고정적이라 fine-tuning이 정확도를 92%까지 올려줬습니다.

문제의 핵심이 “모델이 알아야 할 지식이 부족하거나 자주 바뀐다”면 보통 RAG가 먼저이고, “모델 행동이나 출력 형식이 반복적으로 불안정하다”면 fine-tuning 쪽이 더 맞을 수 있습니다.

RAG는 무엇을 바꾸는가

RAG, 즉 retrieval-augmented generation은 답변 시점에 외부 문맥을 붙여서 시스템을 개선하는 방식입니다.

보통은 아래를 포함합니다.

  • 문서를 검색하고
  • 관련 구간을 추려서
  • 프롬프트와 함께 모델에 보내고
  • 그 자료를 바탕으로 답을 생성합니다

즉 RAG는 모델 가중치를 직접 바꾸지 않습니다. inference 시점에 모델이 참고할 수 있는 지식을 바꿉니다.

그래서 아래 같은 문제에 특히 강합니다.

  • 외부 문서에 답이 있다
  • 최신 정보가 중요하다
  • 출처를 같이 보여 줘야 한다
  • 회사 내부 지식이 필요하다

Fine-tuning은 무엇을 바꾸는가

fine-tuning은 추가 학습을 통해 모델 자체를 바꿉니다.

보통 아래 같은 부분을 더 안정적으로 만들고 싶을 때 고려합니다.

  • 출력 구조
  • 분류 행동
  • 도메인 특화 작업 패턴
  • 일관된 말투와 스타일
  • 반복적인 지시 이행

즉 fine-tuning은 “지금 이 순간 새로운 사실을 붙여 넣는다”기보다, “비슷한 요청이 반복될 때 모델이 더 일관되게 행동하게 한다”에 가깝습니다.

실전에서 가장 쉬운 구분 질문

헷갈릴 때는 아래 질문 하나가 꽤 잘 먹힙니다.

  • 모델이 실패하는 이유가 필요한 지식을 못 봐서인가?
  • 아니면 행동이 충분히 안정적이지 않아서인가?

이 질문만으로도 첫 판단이 훨씬 쉬워집니다.

예를 들면:

  • “최신 사내 정책 문서를 참고해서 답해야 한다” -> RAG에 가깝다
  • “항상 같은 JSON 구조로 돌려줘야 한다” -> fine-tuning 또는 더 강한 prompt 설계 쪽
  • “브랜드 톤을 일관되게 유지해야 한다” -> fine-tuning 또는 prompt 설계 쪽
  • “최신 상품 카탈로그를 반영해야 한다” -> 대체로 RAG

언제 RAG가 보통 먼저인가

아래 상황이라면 RAG가 첫 선택이 되는 경우가 많습니다.

  • freshness가 중요하다
  • 내부 문서 기반 답변이 필요하다
  • 답변 근거를 보여 줘야 한다
  • 지식이 자주 바뀌어서 학습에 박아 넣기 어렵다

예를 들면 아래는 전형적인 RAG 문제입니다.

  • 사내 문서 Q&A
  • 정책 안내 봇
  • 최신 제품 문서를 참고해야 하는 지원 봇
  • 출처 기반 답변이 필요한 시스템

이 경우 핵심 문제는 모델 성격이 아니라 지식 접근입니다.

언제 fine-tuning이 더 자연스러운가

반대로 아래 상황에서는 fine-tuning이 더 매력적일 수 있습니다.

  • 입력-출력 패턴이 매우 반복적이다
  • 출력 형식을 안정적으로 고정하고 싶다
  • 비슷한 요청에서 일관된 행동이 중요하다
  • 문제의 본질이 지식 부족이 아니라 행동 불안정이다

이건 아래 같은 작업에서 자주 보입니다.

  • 분류
  • 태깅
  • 라벨링
  • 도메인 특화 추출
  • 대량 요청에서 일관된 응답 스타일 유지

입력과 출력의 패턴이 매우 일정하다면, retrieval만으로는 안 잡히는 부분을 fine-tuning이 잡아 줄 수 있습니다.

실전 예시로 보면 더 쉽다

예시 1. 사내 핸드북 도우미

직원들이 최신 핸드북 규정을 묻고, 내용이 자주 바뀐다면 RAG가 보통 더 적합합니다.

이유:

  • 지식이 문서 안에 있고
  • 최신성이 중요하며
  • 근거 제시가 중요하기 때문입니다

예시 2. 지원 티켓 라벨링

들어오는 티켓을 내부 카테고리 몇 개 중 하나로 안정적으로 분류해야 하고, 라벨된 예시가 충분하다면 fine-tuning이 더 관련 있을 수 있습니다.

이유:

  • 행동 패턴이 반복적이고
  • 출력 공간이 좁으며
  • 핵심이 문서 검색이 아니라 일관된 예측이기 때문입니다

예시 3. 내부 문서를 참고하면서도 응답 형식이 엄격해야 하는 경우

이건 둘을 같이 쓰는 게 자연스럽습니다.

  • RAG로 최신 사내 지식을 붙이고
  • fine-tuning 또는 강한 prompt 설계로 응답 형식과 톤을 안정화합니다

이게 가장 건강한 사고방식인 경우가 많습니다. 지식 접근과 행동 제어는 관련은 있지만 같은 문제는 아닙니다.

왜 많은 팀이 fine-tuning보다 RAG를 먼저 보나

제품 관점에서 많이 나오는 요구는 아래와 같습니다.

  • “우리 문서를 써야 해”
  • “최신 정보를 반영해야 해”
  • “답이 어디서 나왔는지 보여 줘야 해”

이건 우선 retrieval 문제입니다.

게다가 RAG는 아래를 바꾸며 반복 개선하기가 쉽습니다.

  • chunking
  • embeddings
  • retrieval 품질
  • reranking
  • prompt 구조

즉 모델 자체를 다시 학습시키지 않고도 운영적으로 개선할 수 있는 여지가 큽니다. 그래서 지식 중심 제품에서는 RAG가 첫 선택이 되는 경우가 많습니다.

둘을 같이 쓰는 것이 맞는 경우

항상 하나만 골라야 하는 것은 아닙니다.

강한 AI 시스템은 둘을 함께 쓰는 경우도 많습니다.

  • 최신성이나 내부 지식은 RAG로 해결하고
  • 반복되는 행동 안정화는 fine-tuning으로 해결하는 식입니다

즉 시스템이 동시에 아래를 만족해야 한다면 조합이 자연스럽습니다.

  • 올바른 지식을 알고 있어야 하고
  • 응답 방식도 안정적이어야 한다

자주 하는 실수

1. fine-tuning이면 최신성 문제도 자동으로 해결된다고 기대하기

정보가 자주 바뀐다면, 행동을 학습시키는 것보다 retrieval이 훨씬 실용적인 경우가 많습니다.

2. RAG면 출력 스타일 불안정도 자동으로 해결된다고 보기

RAG는 grounding에는 도움을 주지만, 형식과 톤 안정성을 자동 보장하지는 않습니다.

3. RAG와 fine-tuning을 서로 배타적인 선택으로 보기

둘은 다른 문제를 푸는 도구라서 함께 써도 아주 자연스럽습니다.

4. inference 파이프라인을 정리하기 전에 곧바로 fine-tuning부터 검토하기

prompt 품질, retrieval 품질, schema 체크, 평가 체계가 먼저일 때가 많습니다.

빠른 의사결정 체크리스트

아래를 물어보면 좋습니다.

  • 답이 외부 지식에 의존하고 그 지식이 자주 바뀌는가?
  • 출처나 grounding이 필요한가?
  • 진짜 문제는 지식 부족인가, 행동 불안정인가?
  • 작업이 반복적인 입력-출력 패턴인가?

간단한 경험칙은 이렇습니다.

  • 바뀌는 지식 문제 -> RAG부터
  • 반복 행동 문제 -> fine-tuning 검토

FAQ

Q. 내부 문서 Q&A는 보통 RAG 문제인가요?

네. 많은 경우 핵심이 문서 검색과 grounding이기 때문에 RAG가 더 자연스러운 첫 선택입니다.

Q. 브랜드 톤을 일관되게 맞추고 싶으면 뭘 먼저 해 봐야 하나요?

강한 prompt 설계부터 시도할 수 있습니다. 패턴이 반복되고 물량이 크다면 fine-tuning의 가치가 커질 수 있습니다.

Q. fine-tuning 없이도 RAG만으로 품질이 많이 좋아질 수 있나요?

충분히 가능합니다. 많은 제품에서는 missing knowledge와 grounding 문제를 먼저 해결하는 것만으로도 큰 개선이 납니다.

먼저 읽어볼 가이드

검색 유입이 많은 핵심 글부터 이어서 보세요.

광고