IT공부 썸네일형 리스트형 텍스트 분석과 데이터 크롤링(Data Crawling) 텍스트 분석 - 텍스트 분석에서는 전처리가 90% 이다 (머신러닝에서는 70% 정도) 텍스트 마이닝 의미있는 패턴을 찾아내거나 통찰력을 얻어내는 방법 구조화 과정이 필수적임 비구조화 텍스트에서 구조화된 데이터 변환 프로세스 텍스트 데이터 / 문서 / 문단 / 문장 / 단어 를 다룸 원-핫 인코딩(One -Hot Encoding) 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에 0을 부여하는 단어의 벡터 표현 방식 전처리 개행문자, 특수문자, 공백 제거 중복표현 제어 이메일, 링크 제거 제목 제거 불용어 (의미가 없는 용어) 제거 조사 제거 한국어의 전처리 전처리 Tokenizing 자연어를 어떤 단위로 살펴볼 것인가 어절 형태소 n-gram W.. 더보기 이전 1 2 다음