앞 장에서는 '통계 기반 기법'으로 단어의 분산 표현을 얻었는데, 이번 chapter 3에서는 더 강력한 기법인 '추론 기반 기법'을 살펴보자. 추론 과정에 신경망을 이용하는데, 여기서 그 유명한 word2vec가 등장한다. 3.1 추론 기반 기법과 신경망 단어를 벡터로 표현하는 방법은 크게 '통계 기반 기법'과 '추론 기반 기법'이다. 두 기법 모두 분포 가설이 배경이고, 이번 절에서는 추론 기반 기법의 이점을 설명한다. 그 다음 word2vec 전처리를 위해 신경망으로 '단어'를 처리하는 예를 보자. 3.1.1 통계 기반 기법의 문제점 통계 기반 기법은 주변 단어의 빈도를 기초로 단어를 표현했다. 구체적으로는 단어의 동시발생 행렬을 만들고, 행렬에 SVD를 적용하여 밀집벡터(단어의 분산 표현)를 얻었..
밑바닥부터시작하는딥러닝2 검색 결과
해당 글 2건
밑바닥부터시작하는딥러닝3 - word2vec
Data Science/NLP
2022. 2. 4. 08:43
[밑바닥부터시작하는딥러닝2] Chapter2 - 자연어와 단어의 분산 표현
2.1 자연어처리란 한국어와 영어 등 평소에 쓰는 말을 자연어(natural language)라고 한다. 자연어 처리(natural language processing)를 문자 그대로 해석하면 '자연어를 처리하는 분야'이고, 쉽게 말해 '우리의 말을 컴퓨터에게 이해시키는 기술이자 분야'이다. 우리의 말은 일상생활에서도 느끼지만, 의미나 형태가 유연하게 바뀔수도 있고 때론 같은 의미의 문장도 여러 형태로 표현되며 세월이 흐르면서 새로운 말이나 새로운 의미가 생겨나거나 사라질 수 있다. 이렇게 언어라는 것이 모호하고 중의적이기 때문에 컴퓨터에게 자연어를 이해시킨다는 것은 매우 어려운 일이기 때문에, 이러한 일들을 할 수 있다면 수많은 사람에게 도움을 줄 수 있다. 2.1.1 단어의 의미 우리의 말은 '문자'..
Data Science/NLP
2022. 2. 3. 17:00
최근댓글