😎 한 줄 요약(잘난 척용)“GRPO는 ‘정답 하나’ 대신 ‘잘한 답들의 상대평가’로 AI를 키운다.”GRPO 강화학습이란 무엇인가?여러 결과를 서로 비교해 배우는 새로운 강화학습 방식1. GRPO를 한 문장으로 설명하면GRPO(Group Relative Policy Optimization)는 여러 출력 결과를 한 그룹으로 묶어, 서로 비교해가며 더 나은 행동을 학습하는 강화학습 방법이다.아주 쉽게 말하면, “절대 점수 대신, 누가 더 잘했는지를 보고 배우는 방식”이다.2. 왜 GRPO가 나왔을까? (아주 쉽게)기존 강화학습은 보통 이런 방식이다.하나의 행동 → 하나의 점수점수가 높으면 강화, 낮으면 약화하지만 현실에서는정답이 하나가 아니고점수 매기기도 어렵다.특히 언어모델(LLM)에서는👉 “이 답이..