잘난 척을 위한 한 줄 요약
테스트 타임 스케일링 법칙은 “모델을 더 크게 다시 학습시키지 않아도, 답을 내기 전에 더 오래 생각하게 하거나 여러 번 시도하게 하면 성능이 꽤 규칙적으로 좋아질 수 있다”는 경험 법칙이다.
테스트 타임 스케일링 법칙, AI는 왜 더 오래 생각하게 하면 더 똑똑해 보일까
먼저, 이 말이 뭘 뜻하는지부터
테스트 타임 스케일링(test-time scaling) 또는 인퍼런스 타임 스케일링(inference-time scaling)은 모델을 사용할 때 더 많은 계산 자원을 투입해서 성능을 높이는 흐름을 말한다. 쉽게 말해, 학습을 다시 시키는 대신 답변 전에 더 오래 생각하게 하거나, 여러 후보 답을 만들어 비교하게 하거나, 더 긴 추론 과정을 허용하는 방식이다. OpenAI는 o1을 소개하면서 성능이 더 많은 강화학습(train-time compute) 뿐 아니라 더 많은 생각 시간(test-time compute) 에 따라 함께 좋아졌다고 설명했고, Stanford·Washington의 s1 논문도 테스트 타임 스케일링을 “추가 테스트 시점 계산으로 성능을 높이는 접근”이라고 정의한다.
여기서 “법칙”이라는 말은 물리학 공식 같은 절대 법칙이라기보다, 계산을 더 쓰면 성능이 꽤 예측 가능하게 올라가는 경향이 있다는 경험적 스케일링 관계를 가리킨다. 관련 연구들은 이를 “inference-time scaling laws”라고 부르며, 제한된 계산 예산 안에서 모델 크기와 추론 전략을 어떻게 고를지 분석한다.
왜 갑자기 이런 개념이 중요해졌을까
예전에는 AI 성능을 높이려면 보통 이렇게 생각했다.
“더 큰 모델을 학습시키자.”
“더 많은 데이터를 넣자.”
“더 오래 훈련하자.”
그런데 최근 reasoning model 계열에서는 다른 축이 부각됐다.
이미 학습된 모델이라도, 답을 바로 내지 말고 더 많은 추론 계산을 쓰게 하면 어려운 문제에서 성능이 올라간다는 것이다. OpenAI는 o1의 성능이 생각 시간에 따라 좋아진다고 직접 밝혔고, Anthropic도 Claude 3.7 Sonnet의 extended thinking에서 병렬 test-time compute scaling 으로 GPQA 같은 어려운 벤치마크 점수를 크게 끌어올렸다고 설명했다.
즉, 테스트 타임 스케일링은 “모델 자체를 다시 키우는 것” 말고도 “답을 뽑는 과정에 더 많은 계산을 쓰는 것”도 중요한 성능 향상 축이 될 수 있다는 이야기다.
정확히 무엇을 ‘스케일링’하는 걸까
이 개념에서 스케일링되는 건 보통 추론 시점의 계산량이다. 대표적으로는 이런 것들이 들어간다.
첫째, 더 긴 추론 체인이다.
모델이 중간 사고 과정을 더 길게 펼치도록 허용하면, 복잡한 문제를 단계적으로 분해하고 자기 오류를 고칠 시간이 생긴다. 최근 법률 추론 연구도 OpenAI o1이나 DeepSeek-R1 같은 사례를 설명하면서, longer chain-of-thought 가 일반 추론 성능 향상에 기여한다고 정리했다.
둘째, 여러 번 시도한 뒤 고르기다.
모델이 답 하나만 내지 않고 여러 후보를 병렬로 만든 뒤, 다수결이나 보상모델, 스코어링 모델로 가장 좋은 답을 선택하는 방식이다. Anthropic은 Claude 4와 Claude 3.7 Sonnet의 “high compute” 설정에서 multiple parallel attempts 와 내부 스코어링 모델을 사용했다고 설명했다.
셋째, 검증과 되돌아가기다.
답을 낸 뒤 다시 점검하거나, 중간 단계가 이상하면 backtrack하는 절차를 넣는 것이다. 테스트 타임 스케일링 개요 논문들은 최근 접근이 단순 장문 CoT를 넘어 alternative exploration 과 backtracking 으로 확장되고 있다고 설명한다.
즉, 테스트 타임 스케일링은 한마디로 “정답을 한 번에 찍지 말고, 더 생각하고 더 시도하고 더 골라라”에 가깝다.
왜 “더 오래 생각하면” 더 잘 맞출까
이건 사람 시험 문제와도 꽤 비슷하다.
쉬운 문제는 바로 답해도 된다.
하지만 어려운 문제는 문제를 쪼개고, 중간 계산을 해 보고, 다른 접근도 시도하고, 마지막에 검산까지 해야 정확도가 올라간다.
모델도 복잡한 수학, 과학, 코딩, 법률 추론처럼 단계적 사고가 필요한 문제에서는 비슷한 패턴을 보인다. s1 논문은 test-time scaling이 language modeling의 유망한 새 접근이라고 하며, OpenAI도 reasoning model이 더 오래 생각할수록 성능이 좋아진다고 설명했다. Anthropic은 extended thinking을 통해 majority vote의 한계를 넘는 개선이 가능했다고 밝혔다.
즉, 테스트 타임 스케일링의 직관은 이렇다.
어려운 문제일수록 “첫 반응”보다 “조금 더 계산한 반응”이 나을 가능성이 커진다.
그럼 이건 그냥 체인 오브 소트(chain-of-thought)랑 같은 말일까
겹치는 부분은 크지만 완전히 같은 말은 아니다.
체인 오브 소트는 보통 중간 추론 단계를 드러내며 답하는 방식을 말한다.
반면 테스트 타임 스케일링은 더 넓다. 긴 CoT를 허용하는 것도 포함하지만, 다중 샘플링, 병렬 시도, 점수 기반 선택, 검색적 탐색 같은 것까지 포괄한다. 최근 개요 논문도 inference-time scaling을 단순 장문 CoT뿐 아니라 post-training 기법, reward-guided generation, multiple answer generation으로 나눠 설명한다.
즉,
- CoT는 “생각 과정을 쓰는 방식”
- 테스트 타임 스케일링은 “추론 시 계산을 더 쓰는 전체 전략”
이라고 보면 된다. CoT는 그 안의 대표 기술 중 하나다.
왜 “법칙”처럼 말할 수 있을까
관련 연구들이 말하는 “스케일링 법칙”은, 계산량을 늘릴수록 성능이 아무렇게나 들쭉날쭉 오르는 게 아니라, 꽤 부드럽고 분석 가능한 패턴을 보인다는 뜻이다. “Inference Scaling Laws” 논문은 제한된 FLOPs 예산에서 어떤 모델 크기와 어떤 추론 전략이 정확도를 최대로 만드는지를 경험적으로 분석했고, s1 논문도 reasoning tokens를 더 쓰면 성능이 로그-선형적으로 개선되는 경향을 보고했다.
다만 이걸 “무조건 계산 두 배면 성능도 일정 비율로 두 배”처럼 단순 공식으로 외우면 안 된다. 문제 종류, 모델 종류, 선택 전략, 메모리 병목, 검증기 유무에 따라 곡선이 많이 달라진다. 2025년 Kinetics 논문은 기존 test-time scaling law 논의가 실제 시스템의 메모리 접근 병목 을 과소평가했다고 지적했다.
즉, “법칙”은 대체로 그런 경향이 있다는 뜻이지, 언제나 예쁘게 유지되는 만능 공식은 아니다.
어떤 문제에서 특히 잘 먹힐까
테스트 타임 스케일링은 보통 정답 검증이 비교적 쉬운 문제에서 특히 강하다.
예를 들어
- 수학 문제
- 코딩 문제
- 과학 추론
- 객관식 전문지식 문제
같은 영역이다. 답을 여러 개 뽑아 놓고, 맞는지 비교하거나 테스트 케이스로 거를 수 있기 때문이다. OpenAI의 수학 추론 논문은 process supervision과 다양한 test-time compute budget에서 성능 차이를 실험했고, Anthropic도 코딩·과학 평가에서 병렬 test-time compute를 강조했다.
반대로 정답 검증기가 약한 영역에서는 여러 개 답을 만들어도 무엇이 정말 좋은 답인지 고르는 문제가 남는다. “Large Language Monkeys” 논문은 수학 문제에서 1만 개 샘플을 뽑으면 정답이 포함될 확률 자체는 매우 높아져도, 그중 정답을 골라내는 단계가 병목이라고 지적했다.
즉, 테스트 타임 스케일링은 “많이 생각하면 좋아진다”와 동시에 “그 많은 생각 중 뭘 채택할지도 중요하다”는 이야기다.
그렇다면 더 오래 생각할수록 무조건 좋을까
아니다. 여기서부터가 진짜 현실적인 부분이다.
첫째, 수익 체감이 온다.
처음에는 계산을 조금 더 쓰는 것만으로도 성능이 눈에 띄게 오를 수 있지만, 어느 지점을 넘으면 같은 비용 증가에 비해 개선폭이 줄어든다. 관련 연구 전반이 바로 이 compute-performance tradeoff를 다룬다.
둘째, 잘못된 추론을 더 길게 할 수도 있다.
단순히 reasoning tokens를 늘린다고 항상 더 나아지는 건 아니며, 통제되지 않은 긴 추론이 비효율적일 수 있다는 연구도 있다. Anthropic의 2023년 연구는 CoT의 성능 향상이 단순히 “added test-time compute alone” 때문만은 아니라고 지적했다.
셋째, 비용과 지연시간이 커진다.
테스트 타임 스케일링은 말 그대로 추론 때 더 많은 계산을 쓰는 방식이므로, 서비스 입장에서는 응답속도와 GPU 비용이 증가한다. Google MedGemma 모델 카드도 일부 최고 성능 수치가 best-of-5 같은 test-time scaling을 사용한 결과라고 별도로 표시했다.
즉, 테스트 타임 스케일링은 성능을 공짜로 올리는 비법이 아니라, 지연시간과 비용을 더 내고 정확도를 사는 방식에 가깝다.
모델 크기 스케일링과는 뭐가 다를까
이건 꼭 구분해야 한다.
모델 크기 스케일링
- 파라미터를 더 키운다
- 더 큰 모델을 학습시킨다
- 보통 train-time 비용이 매우 크다
테스트 타임 스케일링
- 이미 학습된 모델을 쓴다
- 추론 때 계산을 더 쓴다
- 같은 모델이라도 더 생각하게 해 성능을 높인다
OpenAI는 reasoning 모델의 제약이 일반 LLM pretraining과 substantially differ 한다고 했고, inference scaling laws 논문도 train-time scaling과 별개의 최적화 문제로 본다.
쉽게 말하면,
- 모델 스케일링은 두뇌 자체를 키우는 것
- 테스트 타임 스케일링은 시험 볼 때 더 오래 풀게 하는 것
에 가깝다. 둘은 동시에 쓸 수도 있지만, 같은 개념은 아니다.
이 개념을 볼 때 같이 체크하면 좋은 것
테스트 타임 스케일링이라는 말을 볼 때는 세 가지를 같이 보면 이해가 빨라진다.
첫째, 무슨 방식으로 계산을 늘렸는지 봐야 한다.
긴 CoT인지, best-of-N인지, 병렬 샘플링인지, 검색 기반 탐색인지에 따라 성격이 다르다.
둘째, 무엇으로 답을 고르는지 봐야 한다.
다수결, 보상모델, 검증기, 테스트 케이스, 스코어링 모델에 따라 결과가 크게 달라진다.
셋째, 비용 대비 성능인지, 절대 성능인지 구분해야 한다.
작은 모델에 계산을 많이 쓰는 게 큰 모델보다 효율적인지, 아니면 결국 큰 모델이 더 유리한지는 조건마다 다르다. 이 점을 다룬 논문들이 바로 inference scaling law 계열이다.
결국 핵심은 이것이다
테스트 타임 스케일링 법칙은 AI 성능이 학습 때만 스케일되는 것이 아니라, 사용할 때 더 많은 계산을 쓰는 것만으로도 꽤 규칙적으로 좋아질 수 있다는 최근의 중요한 관찰이다. 이 흐름은 reasoning model, extended thinking, best-of-N, verifier-guided selection 같은 기술들을 하나로 묶어 준다. 다만 이것은 만능 공식이 아니라, 비용·지연·검증 가능성·문제 유형에 따라 효율이 크게 달라지는 경험 법칙이다.
아주 짧게 정리하면 이렇게 기억하면 된다.
모델을 다시 키우지 않아도, 답을 내기 전에 더 많이 생각하고 더 많이 시도하게 하면 성능이 올라가는 경향이 있다. 그 경향을 가리키는 말이 테스트 타임 스케일링 법칙이다.
참고 자료
- OpenAI, Learning to reason with LLMs
https://openai.com/index/learning-to-reason-with-llms/ - Muennighoff et al., s1: Simple test-time scaling
https://arxiv.org/pdf/2501.19393 - Snell et al., Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for Problem-Solving with Language Models
https://arxiv.org/html/2408.00724v2 - Anthropic, Claude’s extended thinking
https://www.anthropic.com/news/visible-extended-thinking - Anthropic, Introducing Claude 4
https://www.anthropic.com/news/claude-4 - OpenAI, Let’s Verify Step by Step
https://cdn.openai.com/improving-mathematical-reasoning-with-process-supervision/Lets_Verify_Step_by_Step.pdf
Inference Scaling Laws: An Empirical Analysis of Compute-Optimal Inference for LLM Problem-Solving
Scaling laws of neural networks (Hestness et al., 2017; Rosenfeld et al., 2019) have been established across a range of domains, including language modeling (Kaplan et al., 2020; Hoffmann et al., 2022; OpenAI, 2023), image modeling (Henighan et al., 2
arxiv.org
LLM으로 추론하는 법 배우기
openai.com
참고 영상
- test-time scaling explained
https://www.youtube.com/results?search_query=test-time+scaling+explained - inference-time scaling LLM
https://www.youtube.com/results?search_query=inference-time+scaling+LLM - 테스트 타임 스케일링 설명
https://www.youtube.com/results?search_query=%ED%85%8C%EC%8A%A4%ED%8A%B8+%ED%83%80%EC%9E%84+%EC%8A%A4%EC%BC%80%EC%9D%BC%EB%A7%81+%EC%84%A4%EB%AA%85
- YouTube
www.youtube.com
- YouTube
www.youtube.com
- YouTube
www.youtube.com
'개념 잡동사니' 카테고리의 다른 글
| 소형 모듈 원자로(SMR, Small Modular Reactor) (0) | 2026.04.25 |
|---|---|
| 선행 PBR (0) | 2026.04.24 |
| 인컨텍스트 러닝(In-Context Learning, ICL) (0) | 2026.04.22 |
| 어텐션 메커니즘(attention mechanism) (0) | 2026.04.21 |
| 워드 임베딩(word embedding) (0) | 2026.04.20 |