머신러닝
-
Apple Silicon(M1) 맥에서 KoNLPy 사용하기 : jdk에서 Mecab까지머신러닝 2022. 2. 28. 15:05
영어는 I'm의 'm 등 일부 예외만 제외하면 띄어쓰기 단위가 곧 단어의 단위이다. 하지만 한국어의 경우 띄어쓰기와 단어의 단위가 다르다. 조사와 같은 의존 형태소를 붙여 쓴다는 규칙 때문이다. 따라서, '사람'이라는 하나의 단어에 '-을', '-에게', '-이' 등등이 붙음에 따라 '사람을', '사람에게', '사람이' 등의 형태로 나타난다. 이러한 이유 때문에 한국어 데이터를 머신러닝 알고리즘으로 처리하려면 문제가 생긴다. Gensim의 Word2Vec이나 LDA와 같은 모델들은 하나의 토큰이 하나의 요소로 들어가도록 된 리스트를 받아들이는데, 영어의 경우 규칙 기반의 단순한 tokenizer를 돌려 'm과 같은 단어를 띄어 써 준 뒤, split(' ')으로 쪼개면 그만이다. 한국어의 경우 이렇게 하..