커먼컴퓨터에서 제공하는 형태소 분석 무료 API인 'KoNLPy-gRPC'를 사용해볼 것이다. ainize.ai/minhoryang/KoNLPy-gRPC minhoryang/KoNLPy-gRPC Redesigned KoNLPy (Wrapper) for Usability and Portability with gRPC. [EXPERIMENTAL] ainize.ai Komoran 분석기의 명사를 뽑아내는 기능을 사용할 것이다. (konlpy 패키지에서 가장 성능이 좋다고 할 수 있는 mecab 분석기가 원래 윈도우에서는 지원이 안되지만, 이 API를 통해서는 사용이 가능한 것을 확인했다! 띄어쓰기나 오타가 있는 경우에 높은 성능을 원하면 komoran 분석기를, 띄어쓰기나 오타가 없는 경우에 빠르고 높은 성능..
'에이콘' 출판사의 [예제로 배우는 자연어 처리 기초] 책을 참고하여 자연어 처리의 기초 개념을 기록한 포스팅입니다. - 데이터는 구조에 따라 정형, 준정형, 비정형으로 나눠진다 정형 데이터 : 엑셀/csv 파일과 같은 표 형식 준정형 데이터 : 주로 xml/html 파일, 명확한 패턴에 따라 태그 사이에 정보를 저장 표 형식으로 변환이 가능 비정형 데이터 : 단순 텍스트, 이미지 처리하기 가장 어려움 - 데이터는 내용에 따라 텍스트, 이미지, 오디오, 비디오로 나눠진다 - 정규 표현식 ab? : a 뒤에 0 또는 하나의 b가 온다 ab* : a 뒤에 0 또는 b가 계속된다 ab+ : a 뒤에 b가 1개 이상 온다 ab{2} : a 뒤에 2개의 b가 온다 ab{3,5}? : a 뒤에 4개의 b가 온다 ^..
Mecab 분석기는 기본적으로 Windows에서는 사용이 불가하다. 그래서 나는 구글 Colaboratory의 GPU 환경에서 리눅스를 사용하였다. Mecab을 사용하려면 mecab-ko 와 mecab-ko-dic 을 모두 다운로드 해야한다. Mecab 설치 방법에 대한 자세한 정보는 https://bitbucket.org/eunjeon/mecab-ko/src/master/README.md 에서 확인한다. 0) Colab 세팅 우선 Colab에서 런타임 - 런타임 유형 변경 - 하드웨어 가속기를 GPU로 선택한다. 그리고 아래와 같이 입력하여 구글 드라이브와 Colab을 연동한다. 두 번의 계정 인증이 필요하다. !apt-get install -y -qq software-properties-common ..
Python 3.7 환경에서 word2vec을 사용해볼 것이다. '자연어 처리와 컴퓨터 언어학'이라는 책을 참고했다. 우선 gensim 이 설치되어 있지 않으므로 cmd 창을 열어 > pip install gensim 을 입력해 설치해준다. 그런 다음 jupyter를 실행해 from gensim.models import word2vec 와 같이 word2vec 모델을 임포트한다. ※ word2vec.Word2vec 클래스의 파라미터 모아 보기 더보기 sg : 알고리즘을 지정한다. 0(기본값)이면 CBOW, 1이면 skip-gram size : 벡터의 차원 수 window : 현재 단어와 예측 단어 간의 거리 alpha : 초기 학습률 seed : 임의 숫자를 생성할 때 사용하는 값 min_count : ..
설치 KoNLPy 홈페이지 https://konlpy-ko.readthedocs.io/ko/v0.4.3/ 에서 사용하기 - 설치하기 - 윈도우를 클릭해보면 다음과 같은 과정이 나온다. KoNLPy를 사용하기 위해서는 반드시 이 순서대로 진행해야 정상적으로 작동한다. (마음대로 설치하다가 다 지우고 다시 설치함ㅠㅠ) 이제 설치해보자. 1. Java 설치 -> https://www.java.com/ko/download/win10.jsp 2. jdk 설치 -> https://www.oracle.com/technetwork/java/javase/downloads/index.html 3. JAVA_HOME 설정 제어판 - 시스템 속성 - 환경 변수 - 사용자 변수 - 새로 만들기/편집 누른 후 변수: JAVA_H..