konlpy
-
헌법에서 특정 단어가 사용된 용례를 찾아보기 : konlpy와 nltk를 활용한 한국어 concordance언어학 2022. 5. 8. 09:04
텍스트를 특정한 목적 아래 전산화하여 모아 둔 것을 코퍼스(말뭉치)라고 한다. 코퍼스 언어학은 이러한 코퍼스를 처리하는 방법론을 연구한다. 이러한 코퍼스 언어학의 기법 중 하나가 concordance이다. Concordance는 특정 코퍼스에서 지정한 단어가 등장할 때, 이 단어를 맥락과 함께 표시한 것이다. 위의 그림은 대한민국 헌법에서 뽑아낸 '국민(일반명사)'에 대한 concordance이다. NLTK는 Python을 사용하여 자연어처리를 할 수 있도록 도와주는 패키지이다. 코퍼스 언어학이 아니라 자연어처리를 위한 패키지인 이유는 concordance와 같은 기능을 더불어 tokenization, lemmatization 등의 처리를 할 수 있도록 도와주기 때문이다. 문제는 이 패키지는 한국어를 지..
-
Apple Silicon(M1) 맥에서 KoNLPy 사용하기 : jdk에서 Mecab까지머신러닝 2022. 2. 28. 15:05
영어는 I'm의 'm 등 일부 예외만 제외하면 띄어쓰기 단위가 곧 단어의 단위이다. 하지만 한국어의 경우 띄어쓰기와 단어의 단위가 다르다. 조사와 같은 의존 형태소를 붙여 쓴다는 규칙 때문이다. 따라서, '사람'이라는 하나의 단어에 '-을', '-에게', '-이' 등등이 붙음에 따라 '사람을', '사람에게', '사람이' 등의 형태로 나타난다. 이러한 이유 때문에 한국어 데이터를 머신러닝 알고리즘으로 처리하려면 문제가 생긴다. Gensim의 Word2Vec이나 LDA와 같은 모델들은 하나의 토큰이 하나의 요소로 들어가도록 된 리스트를 받아들이는데, 영어의 경우 규칙 기반의 단순한 tokenizer를 돌려 'm과 같은 단어를 띄어 써 준 뒤, split(' ')으로 쪼개면 그만이다. 한국어의 경우 이렇게 하..