[NLP] 기초 개념 필기
'에이콘' 출판사의 [예제로 배우는 자연어 처리 기초] 책을 참고하여 자연어 처리의 기초 개념을 기록한 포스팅입니다. - 데이터는 구조에 따라 정형, 준정형, 비정형으로 나눠진다 정형 데이터 : 엑셀/csv 파일과 같은 표 형식 준정형 데이터 : 주로 xml/html 파일, 명확한 패턴에 따라 태그 사이에 정보를 저장 표 형식으로 변환이 가능 비정형 데이터 : 단순 텍스트, 이미지 처리하기 가장 어려움 - 데이터는 내용에 따라 텍스트, 이미지, 오디오, 비디오로 나눠진다 - 정규 표현식 ab? : a 뒤에 0 또는 하나의 b가 온다 ab* : a 뒤에 0 또는 b가 계속된다 ab+ : a 뒤에 b가 1개 이상 온다 ab{2} : a 뒤에 2개의 b가 온다 ab{3,5}? : a 뒤에 4개의 b가 온다 ^..
AI/NLP
2020. 12. 18. 19:48