개념 잡동사니

RLHF(Reinforcement Learning from Human Feedback), RLAIF(Reinforcement Learning from AI Feedback)

wikys 2026. 4. 8. 12:35

잘난 척을 위한 한 줄 요약

RLHF가 “사람이 더 좋은 답을 골라 주며 모델을 다듬는 방식”이라면, RLAIF는 그 평가자 역할의 일부를 AI가 대신 맡도록 확장한 정렬 기법이라고 보면 된다.

 

RLHF와 RLAIF, AI는 누구의 피드백을 먹고 더 ‘괜찮은 답’을 하게 될까

먼저, 둘을 한 줄로 구분해보자

이 두 개념은 이름이 비슷해서 처음 보면 거의 같은 말처럼 느껴진다.
실제로도 목적은 꽤 비슷하다. 둘 다 모델이 사람에게 더 유용하고, 더 안전하고, 더 선호되는 답을 하도록 만드는 후처리(post-training) 방식이다. 차이는 아주 단순하게 말하면 여기 있다.

 

RLHF

Reinforcement Learning from Human Feedback
사람이 모델 답변을 보고 더 좋은 답을 고르거나 순위를 매겨서, 그 피드백으로 모델을 더 낫게 만드는 방식이다. OpenAI는 InstructGPT와 ChatGPT를 설명하면서 RLHF를 사용했다고 밝히며, 인간 레이블러가 원하는 답변 예시를 쓰고 여러 출력의 선호 순위를 매긴다고 설명했다.

 

RLAIF

Reinforcement Learning from AI Feedback
사람이 하던 평가자 역할의 일부를 AI가 대신 맡는 방식이다. Anthropic은 Constitutional AI 연구에서 유해성에 대한 인간 라벨 없이, 원칙 목록과 AI의 자기비평·자기수정 과정을 이용해 모델을 학습시켰고, 이를 RLAIF로 볼 수 있다고 설명했다.

 

즉, 아주 거칠게 말하면 이렇다.

  • RLHF: 사람이 “이 답이 더 낫다”고 골라 준다
  • RLAIF: AI가 정해진 원칙이나 기준을 바탕으로 “이 답이 더 낫다”고 평가하는 역할을 더 많이 맡는다

 


RLHF는 무엇일까?

RLHF는 요즘 대형 언어모델 정렬(alignment) 이야기에서 거의 기본 교과서 같은 개념이다.
OpenAI의 InstructGPT 논문과 ChatGPT 소개 글에 따르면, RLHF의 큰 흐름은 대체로 이렇다.

 

1. 사람이 원하는 답의 예시를 만든다

먼저 인간 레이블러가 “이 질문에는 이런 답이 바람직하다”는 식의 예시를 제공한다.
이걸 바탕으로 모델을 초기 지도학습(supervised fine-tuning)으로 다듬는다.

 

2. 사람이 여러 답변을 비교해 순위를 매긴다

그다음 모델이 여러 답을 내면, 사람이 그중 어떤 답이 더 낫고 어떤 답이 별로인지 순위를 매긴다.
OpenAI는 이런 인간 선호 데이터를 이용해 보상모델(reward model)을 학습했다고 설명한다.

 

3. 그 선호를 따라가도록 모델을 강화학습한다

마지막으로 모델은 “사람이 선호할 가능성이 높은 답”을 더 자주 내도록 강화학습된다.
Hugging Face의 RLHF 설명도 이 구조를 비교적 직관적으로 정리해 준다.

 

이걸 쉽게 말하면, RLHF는 “사람이 직접 시범도 보여 주고, 채점도 해 주고, 더 나은 답의 방향도 잡아 주는 방식”이다.

 


왜 RLHF가 중요했을까?

거대한 언어모델은 그냥 다음 단어를 잘 예측하도록만 학습하면, 말은 유창해도 사람 입장에서 이상한 답을 할 수 있다.
OpenAI는 이런 모델이 거짓되거나, 유해하거나, 그냥 사용자 의도와 안 맞는 답을 낼 수 있다고 설명하면서, RLHF를 통해 더 helpful하고 safer하게 만들려 했다고 밝혔다.

 

즉, RLHF의 핵심은 단순히 “성능 올리기”가 아니다.
사람이 원하는 방향으로 모델 행동을 다듬는 것에 더 가깝다.
그래서 RLHF는 기술적으로는 후처리 기법이지만, 실제로는 “모델 성격 조정 장치”처럼 느껴질 때가 많다.

 


그런데 RLHF에는 한계도 있다

RLHF가 널리 쓰이긴 했지만, 완벽한 해법은 아니다.

 

사람이 직접 평가해야 해서 비용이 크다

사람이 답을 읽고 비교하고 순위를 매기는 일은 시간이 많이 들고 비싸다.
모델이 커지고 작업 범위가 넓어질수록, 모든 걸 인간 피드백으로만 처리하는 건 부담이 커진다. Anthropic은 더 강력한 AI가 등장할수록 AI가 다른 AI를 감독하도록 돕고 싶다고 설명했다.

 

사람의 선호가 항상 진실성과 일치하지는 않는다

Anthropic의 sycophancy 연구는 RLHF 모델이 때때로 “맞는 답”보다 “사람이 듣기 좋아하는 답” 쪽으로 밀릴 수 있다고 지적했다. 즉, 인간 선호를 최적화한다고 해서 언제나 더 참되거나 더 바람직한 모델이 되는 것은 아니다.

이 지점에서 자연스럽게 다음 질문이 나온다.

“그럼 사람 대신 AI가 채점하면 더 낫지 않을까?”

바로 이 질문에서 RLAIF가 나온다.

 


RLAIF는 무엇일까?

RLAIF는 Reinforcement Learning from AI Feedback의 줄임말이다.
이름 그대로, 모델을 더 좋게 만들기 위한 피드백을 인간 대신 AI가 더 많이 제공하는 방식이다. Anthropic의 Constitutional AI 연구는 인간이 직접 “이 답은 해롭다/안 해롭다”라고 라벨링하지 않고도, 원칙 목록과 AI의 자기평가를 통해 더 harmless한 모델을 만들 수 있는지 실험했다.

 

핵심 아이디어는 이렇다

  • 사람이 일일이 모든 답을 평가하지 않는다
  • 대신 사람이 만든 원칙(constitution) 이나 기준을 준다
  • AI가 그 기준에 따라 답을 비평하고 고친다
  • 그 AI 피드백을 바탕으로 다시 모델을 강화학습한다

Anthropic은 이 과정을 Constitutional AI라고 부르며, 그 안의 강화학습 단계를 RLAIF로 볼 수 있다고 설명했다.

 


RLAIF가 왜 매력적으로 보일까?

1. 확장성이 좋다

사람이 직접 평가하는 양에는 한계가 있다.
반면 AI가 평가자 역할을 일부 맡으면 훨씬 더 많은 샘플을 처리할 수 있다. Anthropic은 더 강력한 AI가 다른 AI를 감독하도록 활용하고 싶다고 명시적으로 설명했다.

 

2. 기준을 문서화하기 쉽다

사람의 “감”에만 의존하는 대신, 어떤 원칙을 따르게 할지 문장으로 적어둘 수 있다.
Anthropic은 Claude의 Constitution 게시글에서, 어떤 가치와 원칙을 넣었는지 비교적 투명하게 설명했다.

 

3. 특정 영역에서는 인간 라벨 의존도를 줄일 수 있다

특히 유해성, 안전성, 응답 태도 같은 영역에서는 “사람이 일일이 전부 채점”하지 않고도 어느 정도 자동화된 정렬을 시도할 수 있다. Constitutional AI 논문은 유해성 라벨에 대한 인간 피드백 없이도 harmlessness를 개선하는 실험을 제시했다.

 


그럼 RLAIF가 RLHF를 완전히 대체할까?

여기서 많이 오해한다.
지금까지 공개된 자료를 보면, RLAIF는 RLHF를 “완전히 끝내는 대체재”라기보다 보완재처럼 보는 편이 더 정확하다.

Anthropic 논문도 Constitutional AI가 RLHF를 improves upon and partly replaces, 즉 개선하고 부분적으로 대체한다고 표현했다. 또 Anthropic의 Claude 2 모델 카드도 Claude 계열 모델이 RLHF와 Constitutional AI를 함께 사용한다고 설명했다.

 

즉, 현실에서는 이렇게 보는 게 맞다.

  • RLHF: 여전히 중요한 인간 기준점
  • RLAIF: 그 기준을 더 확장 가능하게 만들려는 방식

쉽게 말해, 사람이 완전히 빠지는 게 아니라, 사람이 만든 기준을 AI가 더 많이 집행하는 구조에 가깝다.

 


둘의 차이는 어디서 가장 크게 드러날까?

1. 피드백의 출처

이게 제일 본질적이다.

  • RLHF는 인간 평가자가 직접 더 나은 답을 골라 준다
  • RLAIF는 AI가 원칙이나 기준에 맞춰 더 나은 답을 고른다

 

2. 비용과 확장성

  • RLHF는 품질이 높을 수 있지만 사람 비용이 많이 든다
  • RLAIF는 자동화 가능성이 높아 확장성이 좋다

 

3. 위험의 종류

  • RLHF는 인간 편향, 아첨 유도, 평가 일관성 문제를 가질 수 있다
  • RLAIF는 AI가 잘못된 기준을 강화하거나, 원칙 해석을 어색하게 할 수 있다

 

즉, RLHF와 RLAIF는 “누가 더 좋은 심판이냐”의 싸움이라기보다, “어떤 피드백 구조가 더 확장 가능하고 더 바람직한가”의 문제에 가깝다.

 


비유로 보면 더 쉽다

이 둘은 약간 이런 차이다.

 

RLHF

사람 선생님이 직접 과제를 읽고 채점하면서 “이 답이 더 좋다”, “이건 별로다”라고 알려주는 방식

 

RLAIF

사람 선생님이 먼저 채점 기준표를 만들고, 그 기준표를 읽은 조교 AI가 더 많은 답안을 대신 검토하는 방식

즉, RLHF는 사람이 직접 채점하는 수업, RLAIF는 사람이 룰을 만들고 AI가 채점 역할을 더 많이 맡는 수업이라고 생각하면 감이 온다.

 


이 개념을 볼 때 같이 체크하면 좋은 것

“피드백”이 정확히 무엇인지 봐야 한다

그냥 AI를 더 학습시켰다는 말과 RLHF/RLAIF는 다르다.
핵심은 답변의 선호도나 품질 평가를 이용해 후속 학습을 한다는 점이다.

 

RLAIF에도 인간이 완전히 사라지진 않는 경우가 많다

Anthropic 사례처럼, AI가 피드백을 주더라도 그 기준 자체는 사람이 만든 헌장(constitution)이나 원칙에서 시작하는 경우가 많다.

 

둘 다 “정렬” 기술이지, 진실 보장 기술은 아니다

RLHF든 RLAIF든 모델을 더 유용하고 더 바람직하게 만들려는 방법이지, 절대적으로 참된 답을 보장하는 마법은 아니다. Anthropic의 sycophancy 연구는 오히려 이런 정렬 과정이 때때로 진실성과 긴장관계를 만들 수 있다고 지적했다.

 


결국 핵심은 이것이다

RLHF와 RLAIF는 둘 다 모델을 더 “사람이 원하는 방향”으로 다듬기 위한 방법이다.
차이는 누가 피드백을 주느냐에 있다. RLHF는 사람이 직접 평가하고, RLAIF는 AI가 그 평가자 역할의 일부를 더 많이 맡는다. 공개된 자료를 보면, 최근 흐름은 RLHF를 버리고 RLAIF만 쓰는 쪽이라기보다, 사람이 기준을 만들고 AI가 그 기준을 더 넓게 집행하는 방향으로 가는 모습에 가깝다.

 

아주 짧게 정리하면 이렇게 기억하면 된다.

RLHF는 사람 손으로 모델을 다듬는 방식이고, RLAIF는 그 손의 일부를 AI에게 넘겨 더 크게 확장하려는 방식이다.

 


참고 자료

 

지침에 부합하는 언어 모델

 

openai.com

 

ChatGPT 소개

우리는 대화 방식으로 상호 작용하는 ChatGPT라는 모델을 훈련시켰습니다. 대화 형식을 통해 ChatGPT는 후속 질문에 답변하고, 실수를 인정하고, 잘못된 전제에 이의를 제기하고, 부적절한 요청을

openai.com

 

Constitutional AI: Harmlessness from AI Feedback

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

 

Claude’s Constitution

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

 

Towards Understanding Sycophancy in Language Models

Anthropic is an AI safety and research company that's working to build reliable, interpretable, and steerable AI systems.

www.anthropic.com

 

Illustrating Reinforcement Learning from Human Feedback (RLHF)

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

huggingface.co

 


참고 영상

 

- YouTube

 

www.youtube.com

 

- YouTube

 

www.youtube.com

 

- YouTube

 

www.youtube.com

 

- YouTube

 

www.youtube.com

 

반응형