RAG의 종류

생성일

2026/03/30 01:45

태그

LLM

RAG

들어가며

LLM은 귀납적 추론에 강하다.

왜일까?

초기의 ChatGPT는 이렇게 능숙하지 못했다.

들어가며

현대의 AI는 이제는 거의 LLM 위주로 돌아가고 있다. (적어도 산업 안에서는 말이다.)

그리고 이 LLM이라는 기술은 몇가지 특징이 있는데 대충 다음과 같다.

귀납적 추론는 잘하지만 연역적 추론는 아직까지는 힘들다.

귀납적 사고를 잘하니 정보를 취합하고 이를 토대로 정보를 만들어내는건 잘한다.

Cutoff로 인해서 과거의 정보밖에 알 수가 없다.

공개된 정보 이외에 비공개 자료는 LLM 모델이 알 수 없다.

이로 인해 환각(Hallucination)이 생기게 된다.

LLM은 귀납적 추론에 강하다.

LLM을 이용하다보면 Few-shot prompt 기법을 종종 사용하게 된다.

귀납법은 동일한 현상을 보이는 여러 개별 요소에서 공통적인 속성을 찾아내 결론으로 삼고, 해당 속성 자체가 그 현상을 일반적으로 지니고 있는 것이라고 결론을 내는 논증 방식이다. 가령 "영철이는 나이 먹고 죽었다(동일 현상). 영희도 나이 먹고 죽었다(동일 현상). 철수도 나이 먹고 죽었다(동일 현상). 그들은 모두 사람이다(공통적인 속성). 그러니 모든 사람은 나이를 먹으면 죽는다(해당 속성 자체가 각 개별 요소들이 일으킨 현상을 일반적으로 지니고 있을 것이라고 결론)."라는 식이 바로 귀납법이다.

출처: 나무위키

이게 무엇이냐면 AI에게 프롬프트로 예시를 주는 것이다.

너는 단어 변환의 전문가야.
사용자에게 단어를 받으면 이를 예시처럼 영어로 변한해야해

예시:
- 포도 = Grape
- 사과 = Apple
- 토마토 = Tomato
Plain Text
복사
FewShot 프롬프트

위와 같은 프롬프트를 준다면 AI는 프롬프트 내에 있는 예시를 통해 자신의 역할, 사용자의 요구사항을 더욱 잘 파악할 수 있게된다.

왜일까?

이는 트랜스포머 모델의 Self-Attention으로 인한 부수효과라고 생각할 수 있다.

본래 어텐션은 인코더의 단어와 디코더의 단어간의 관계를 알아내는 번역기를 위한 모델이었다.

히지만 “Attention is All You Need”에서 공개된 최초의 트랜스포머 모델에서는 인코더의 문장 내의 관계를 찾아내는 Self-Attention의 개념이 등장했다.

더 길게 이야기 하기엔 어려우니 이 부분은 AI나 다른 블로그 게시글을 참고하길 바란다.

아무튼 결국 단어간 관계를 찾는게 기본 기저다보니 입력된 프롬프트 내에서 Context를 만들어내는데 능숙하다는것이다.

초기의 ChatGPT는 이렇게 능숙하지 못했다.

아직도 화자되는 세종대왕 맥북사건 (환각의 대표사례)

초기 공개된 GPT는 현재 글을쓰는 2026년도와 다르게 15억개 정도의 파라미터만을 가지고 있었다.

결과 환각현상이 상당히 심하기 때문에 아직 AI는 시기상조라는 말까지 들어왔었다.

하지만 현재는 50조개의 파라미터량으로 엄청난 결과물들을 만들어내고 있다.

그럼에도 여전히 문제점은 있었는데

가장 먼저 컷오프의 문제점이다.

AI는 파라미터의 수가 많으면 많을 수록 학습에 엄청난 양의 에너지와 시간을 요구한다. (GPT 4의 경우 전 세계 전기 소비량의 2%를 요구했다)

결과 대중에게 모델을 공개하기 위해서는 지속 학습이 아닌 어느 정도에서 학습을 멈추고 공개해야만 한다.

이걸 컷오프(지식단절)이라고 부른다.

단순히 최신 데이터를 알지 못한다는 것의 문제만 있는것은 아니다.

Private 정보는 알수가 없다.

GPT, Gemini, Claude… 다양한 LLM 모델들이 존재하고 이들은 모두 공개된 자료만을 학습한다.

물론 사내에서 인적 보안 문제로 회사의 정보가 노출되는 일들도 있다지만 기본은 Private 자료는 학습할 수가 없다.

이를 위해서는 RLHF, DPO, LoRA 등을 통한 추가적인 강화학습으로 Fine-turning 하여 비공개 정보를 학습시키거나 프롬프트 상에 정보를 전달해주어야 한다.

다만 ML 엔지니어는 어디에서나 환영받고 고연봉의 인력이기 때문에 모든 회사에서 이런 파인튜닝에 자원을 투자하기는 어려웠다.

여기서 나온 개념이 검색증강생성, RAG(Retrieval-Augmented Generation)의 등장이었다.

RAG의 등장

위 언급했던 문제들의 해결책으로 나온 RAG는 2023년 말부터 스물스물 수면위로 올라오더니 이제는 사실상 기업 내에서 AI 를 활용하기 위한 기술로 자리잡았다.

이를 통해서 알 수 있는건 이제 태동기부터 적응기까지 약 3년의 시간도 있지 않은 동안 폭발적으로 성장했다는 것이다.

그리고 RAG를 더 효율적으로 이용하기 위한 각종 논문들이 쏟아져 나오기 시작했고, 어느정도 적응기를 마친 RAG 기술 형태는 다음과 같다

Naive RAG

가장 원초적인 형태의 RAG다.

사용자 질의 → VectorDB Retrieve → LLM 이라는 지극히 단순한 구조의 RAG 시스템으로 장점은 구현이 단순하다는 것이다.

다만 임베딩된 데이터에 의존해야 한다는 점과 사용자 입력이 하나의 의도만을 가지고 있지 않을 수 있다는 점 등으로 인해 간단한 시스템이 아니라면 여러 한계를 가지게 되었다.

하지만 일반적인 사내 시스템에서는 이정도 만으로도 충분히 제역할을 해낼 수 있다.

Advenced RAG

Modular RAG

마치며

이미 필자의 사내에서도 RAG는 도입되어있고 사내 시스템뿐 아니라 대고객 시스템까지 RAG 구성이 되어있다.

실제로 RAG가 구성되면서 생산성 향상에 도움되는걸 느끼고 있는 만큼 다른 사람들에게 내 정보가 도움이 되면 좋겠다.