tfidf 2

N-Gram

잘난 척을 위한 한 줄 요약N-gram은 텍스트를 한 단어씩 따로 보지 않고, 연속해서 붙어 나오는 단어 묶음으로 보는 방식이라서 “단어 자체”보다 “단어의 연결 패턴”을 잡아내는 데 강하다. N-Gram, 컴퓨터는 왜 단어 하나보다 ‘붙어 다니는 단어 묶음’을 더 중요하게 볼까먼저, N-Gram이 뭔지부터N-gram은 텍스트를 연속된 N개의 토큰 묶음으로 잘라 보는 방식이다.여기서 토큰은 보통 단어일 때가 많지만, 문자 단위일 수도 있다. 즉, 핵심은 아주 단순하다.1개씩 보면 1-gram2개씩 붙여 보면 2-gram3개씩 붙여 보면 3-gram 예를 들어 문장이 이렇게 있다고 해보자.“나는 오늘 커피를 마셨다”이걸 단어 기준으로 보면,1-gram나는오늘커피를마셨다2-gram나는 오늘오늘 커피를커피를 ..

개념 잡동사니 2026.04.19

TF-IDF(Term Frequency, Inverse Document Frequency)

잘난 척을 위한 한 줄 요약TF-IDF는 어떤 단어가 “이 문서 안에서는 자주 나오지만, 전체 문서들에서는 흔하지 않을수록” 더 중요한 단어라고 보는 고전적인 텍스트 가중치 방식이다. TF-IDF, 컴퓨터는 왜 “많이 나온 단어”보다 “여기서만 유독 많이 나온 단어”를 더 중요하게 볼까먼저, TF-IDF가 뭔지부터TF-IDF는 텍스트 분석에서 정말 오래 살아남은 대표 개념이다.이름은 조금 딱딱하지만, 아이디어는 생각보다 직관적이다.TF-IDF는 보통 이렇게 풀어쓴다.TF: Term FrequencyIDF: Inverse Document Frequency 즉, 어떤 단어가이 문서에서는 얼마나 자주 나오는지전체 문서들에서는 얼마나 드문지를 같이 봐서 중요도를 계산하는 방식이다.아주 짧게 말하면 이렇다.많이 ..

개념 잡동사니 2026.04.18
반응형