본문 바로가기

반응형

IT 로그

텍스트 분석과 데이터 크롤링(Data Crawling) 텍스트 분석 - 텍스트 분석에서는 전처리가 90% 이다 (머신러닝에서는 70% 정도) 텍스트 마이닝 의미있는 패턴을 찾아내거나 통찰력을 얻어내는 방법 구조화 과정이 필수적임 비구조화 텍스트에서 구조화된 데이터 변환 프로세스 텍스트 데이터 / 문서 / 문단 / 문장 / 단어 를 다룸 원-핫 인코딩(One -Hot Encoding) 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에 0을 부여하는 단어의 벡터 표현 방식 전처리 개행문자, 특수문자, 공백 제거 중복표현 제어 이메일, 링크 제거 제목 제거 불용어 (의미가 없는 용어) 제거 조사 제거 한국어의 전처리 전처리 Tokenizing 자연어를 어떤 단위로 살펴볼 것인가 어절 형태소 n-gram W.. 더보기
머신러닝 모형(Machine Learning) 구분 머신러닝(Machine Learning) 모형 구분 지도학습(Supervised Learning) 종속 및 독립변수를 이용하여 주어진 독립변수를 바탕으로 종속 변수 예측 모형 제시 target 라벨값(y값)이 있는 모형 ex) 회귀/ 분류 모형 decision tree , logistic regression [decision tree] [logistic regression] 비지도학습(Unsupervised Learning) Target (종속변수/ 반응변수) 가 없고 독립(설명)변수 간의 관계나 이를 바탕으로 개체를 구분하여 의미 있는 결과 제시 ex) 군집분석, 연관성 분석 [Clustering Analysis] 더보기
[파이썬 머신러닝 완벽가이드] 파이썬 머신러닝 개요 및 SW 설치 * 파이썬 기반 머신러닝의 특징 및 장점과 구성요소 1) R과 Python 비교 - 통계 분석 관점 R : 통계분석 측면에서 더 나음. Python : 라이브러리가 굉장히 많음 이제 머신러닝을 시작하려는 사람이라면, R보다는 파이썬 권장 2) ML(Maching Learning) + Python 강점 - 뛰어난 확장성, 연계, 호환성 - 분석 영역을 넘어서 ML 기반의 Application 개발이 쉽게 가능 - 기존 Application 과의 연계도 쉬움 (서로 다른 언어로 개발된 Application의 경우 REST API) * REST API(RESTful API, 레스트풀 API)란 REST 아키텍처의 제약 조건을 준수하는 애플리케이션 프로그래밍 인터페이스를 뜻함 3) Deep Learning 으로.. 더보기

반응형