잘난 척을 위한 한 줄 요약RLHF가 “사람이 더 좋은 답을 골라 주며 모델을 다듬는 방식”이라면, RLAIF는 그 평가자 역할의 일부를 AI가 대신 맡도록 확장한 정렬 기법이라고 보면 된다. RLHF와 RLAIF, AI는 누구의 피드백을 먹고 더 ‘괜찮은 답’을 하게 될까먼저, 둘을 한 줄로 구분해보자이 두 개념은 이름이 비슷해서 처음 보면 거의 같은 말처럼 느껴진다.실제로도 목적은 꽤 비슷하다. 둘 다 모델이 사람에게 더 유용하고, 더 안전하고, 더 선호되는 답을 하도록 만드는 후처리(post-training) 방식이다. 차이는 아주 단순하게 말하면 여기 있다. RLHFReinforcement Learning from Human Feedback사람이 모델 답변을 보고 더 좋은 답을 고르거나 순위를 매..