izel_study

헌법에서 특정 단어가 사용된 용례를 찾아보기 : konlpy와 nltk를 활용한 한국어 concordance

언어학 2022.05.08 09:04

텍스트를 특정한 목적 아래 전산화하여 모아 둔 것을 코퍼스(말뭉치)라고 한다. 코퍼스 언어학은 이러한 코퍼스를 처리하는 방법론을 연구한다. 이러한 코퍼스 언어학의 기법 중 하나가 concordance이다. Concordance는 특정 코퍼스에서 지정한 단어가 등장할 때, 이 단어를 맥락과 함께 표시한 것이다. 위의 그림은 대한민국 헌법에서 뽑아낸 '국민(일반명사)'에 대한 concordance이다. NLTK는 Python을 사용하여 자연어처리를 할 수 있도록 도와주는 패키지이다. 코퍼스 언어학이 아니라 자연어처리를 위한 패키지인 이유는 concordance와 같은 기능을 더불어 tokenization, lemmatization 등의 처리를 할 수 있도록 도와주기 때문이다. 문제는 이 패키지는 한국어를 지..

Python 정규식 : re.match와 re.search, 그리고 regex 패키지와 후방탐색

카테고리 없음 2022.05.06 17:23

프로젝트 하느라 여념이 없어 블로그에 아무것도 올리지 못하다가, 뭐라도 올려야지 싶어 올려보는 글입니다. 봉착한 문제 기나긴 텍스트에서 특정 부분을 긁어오는 스크립트를 짜는 중 두 가지 문제에 봉착했다. 1. re.match()를 쓰는데 정규식은 분명 올바른데, 아무런 match object가 반환되지 않는다. 2. (? 이 두 문제를 해결한 기록이다. re.match()와 re.search() 1번 문제는 너무나도 허무한 문제였다. re 모듈에서는 패턴을 스트링에서 찾아서 match 객체를 내보내는 메소드가 두 가지 있는데, 하나는 match고 하나는 search다. (findall은 match 객채가 아니라 패턴에 일치하는 사례들을 리스트로 반환한다.) 문제는 분명히 올바른 정규식이고, regex 테..

지금까지의 딥러닝 강의 후기 | 패스트캠퍼스 챌린지 최종 후기

딥러닝 2022.03.23 21:10

패스트캠퍼스에서 딥러닝 강의를 매일같이 수강한지 어느덧 50일이 넘었다. 마지막 글을 남긴 다음에도 매일같이 듣고는 있는데, 코딩 실습 부분을 들은데다가 코드 내용을 함부로 공개하면 안 될 것 같아서 딱히 기록으로 남기지는 못하고 있었다. 이번 글에서는 패스트캠퍼스 환급 챌린지의 마지막으로 전체적인 후기를 남기고자 한다. 물론 강의를 아직 끝까지 들은 것은 아니기 때문에, 코드 내용이 아닌 이론 부분에 대한 글은 꾸준히 올릴 생각이다. 누군가에게는 도움이 되기를 바라며. 강의를 듣게 된 계기 내가 들은 강의의 정확한 이름은 한번에 끝내는 딥러닝/인공지능 초격차 패키지다. 매우 긴 이름인데, 딥러닝을 활용한 인공지능을 수학적 원리에서 실용적인 실습까지 한 번에 끝내겠다는 강의이다. 딥러닝 자체는 개인적으로..

Latent Variable Models (2) | 패스트캠퍼스 챌린지 50일차

딥러닝 2022.03.14 19:53

Latent variable model은 모든 변수를 알고 참조하는 방식으로 학습하는 것이 아니라 잠재된 변수가 있다고 상정하고 학습을 진행하는 모델이다. 이 과정에서 p(x)를 구하기 위해 posterior p(z|x)를 활용할 수 있다. 이러한 과정이 variational inference이다. 이러한 잠재 변수 모델은 여러 과업에서 적용될 수 있다. 우선, 지금 중점을 두고 있는 것 처럼 생성 모델로 활용할 수도 있다. 또한, 상호 정보(Mutual Information)를 최대화하고 측정하는 방법으로 사용할 수도 있다. 마지막으로, 학습 가능한 dequantization으로 활용할 수도 있다. 이 때, posterior의 parameter와 모델 q의 파라미터는 서로 같을 수도, 다를 수도 있다...

Latent Variable Model (1) | 패스트캠퍼스 챌린지 49일차

딥러닝 2022.03.13 20:33

지금까지 살펴 본 Flow 방법의 생성모델은 데이터와 노이즈를 모두 참고하는 방식으로 생성 모델을 훈련한다. 이와 달리, Latent Variable Models(잠재변수모델)은 잠재된 숨은 변수, 즉 intractable density가 있는 변수가 있다는 가정 하에 진행한다. 굳이 숨은 변수를 상정하는 이유는 차원 축소된 representation을 이룰 수 있고, pixel 및 time-step 추측으로 부터 독립적이면서 통계적 원리를 사용하기 때문에 샘플링이 빠르다는 장점 때문이다. 다만, 비지도학습이기 떄문에 이 잠재 변수가 무엇인지, 그리고 데이터와 어떻게 상호작용하는지를 알 수 없다. 이러한 잠재된 변수를 지정하는 방법을 찾는 최선의 방법 또한 아직 연구 단계이다. 잠재 변수를 이해하는데는 ..

ABOUT ME

izel_study izel_study

티스토리툴바