NLP 4

어텐션 메커니즘(attention mechanism)

잘난 척을 위한 한 줄 요약어텐션 메커니즘은 문장을 처리할 때 모든 단어를 똑같이 보지 않고, 지금 이 순간 가장 중요한 단어들에 더 집중하도록 만드는 계산 방식이다. 어텐션 메커니즘, AI는 왜 문장을 읽을 때 모든 단어를 똑같이 보지 않을까먼저, 어텐션 메커니즘이 뭔지부터어텐션 메커니즘(attention mechanism)은 자연어처리에서 아주 중요한 아이디어다.이름 그대로 핵심은 집중(attention) 이다.사람도 긴 문장을 읽을 때 모든 단어를 똑같은 비중으로 처리하지 않는다.지금 해석에 중요한 단어는 더 눈여겨보고, 덜 중요한 단어는 상대적으로 약하게 본다. 어텐션 메커니즘도 비슷하다.문장을 처리하는 모델이 어떤 단어를 이해하거나 생성할 때, 지금 필요한 정보와 관련이 큰 단어들에 더 높은 가..

개념 잡동사니 2026.04.21

워드 임베딩(word embedding)

잘난 척을 위한 한 줄 요약워드 임베딩은 단어를 그냥 번호표처럼 다루는 게 아니라, 의미가 비슷한 단어끼리는 벡터 공간에서도 가깝게 놓이도록 바꾸는 표현 방식이다. 워드 임베딩, 컴퓨터는 어떻게 단어를 ‘뜻이 있는 숫자’로 바꿀까먼저, 워드 임베딩이 뭔지부터워드 임베딩(word embedding)은 단어를 숫자 벡터(vector) 로 표현하는 방법이다.그런데 여기서 중요한 건 그냥 숫자로 바꾸는 것 자체가 아니다. 핵심은 이거다.비슷한 뜻이나 비슷한 쓰임을 가진 단어들이, 벡터 공간에서도 서로 가깝게 배치되도록 만드는 것 즉, 컴퓨터가 “사과 = 137번, 바나나 = 241번”처럼 무의미한 번호표만 붙이는 게 아니라, 단어 사이의 의미적 관계까지 어느 정도 반영된 숫자 표현을 갖게 만드는 것이다. 왜 이..

개념 잡동사니 2026.04.20

N-Gram

잘난 척을 위한 한 줄 요약N-gram은 텍스트를 한 단어씩 따로 보지 않고, 연속해서 붙어 나오는 단어 묶음으로 보는 방식이라서 “단어 자체”보다 “단어의 연결 패턴”을 잡아내는 데 강하다. N-Gram, 컴퓨터는 왜 단어 하나보다 ‘붙어 다니는 단어 묶음’을 더 중요하게 볼까먼저, N-Gram이 뭔지부터N-gram은 텍스트를 연속된 N개의 토큰 묶음으로 잘라 보는 방식이다.여기서 토큰은 보통 단어일 때가 많지만, 문자 단위일 수도 있다. 즉, 핵심은 아주 단순하다.1개씩 보면 1-gram2개씩 붙여 보면 2-gram3개씩 붙여 보면 3-gram 예를 들어 문장이 이렇게 있다고 해보자.“나는 오늘 커피를 마셨다”이걸 단어 기준으로 보면,1-gram나는오늘커피를마셨다2-gram나는 오늘오늘 커피를커피를 ..

개념 잡동사니 2026.04.19

TF-IDF(Term Frequency, Inverse Document Frequency)

잘난 척을 위한 한 줄 요약TF-IDF는 어떤 단어가 “이 문서 안에서는 자주 나오지만, 전체 문서들에서는 흔하지 않을수록” 더 중요한 단어라고 보는 고전적인 텍스트 가중치 방식이다. TF-IDF, 컴퓨터는 왜 “많이 나온 단어”보다 “여기서만 유독 많이 나온 단어”를 더 중요하게 볼까먼저, TF-IDF가 뭔지부터TF-IDF는 텍스트 분석에서 정말 오래 살아남은 대표 개념이다.이름은 조금 딱딱하지만, 아이디어는 생각보다 직관적이다.TF-IDF는 보통 이렇게 풀어쓴다.TF: Term FrequencyIDF: Inverse Document Frequency 즉, 어떤 단어가이 문서에서는 얼마나 자주 나오는지전체 문서들에서는 얼마나 드문지를 같이 봐서 중요도를 계산하는 방식이다.아주 짧게 말하면 이렇다.많이 ..

개념 잡동사니 2026.04.18
반응형