728x90
반응형
텍스트 분석
- 텍스트 분석에서는 전처리가 90% 이다 (머신러닝에서는 70% 정도)
텍스트 마이닝
- 의미있는 패턴을 찾아내거나 통찰력을 얻어내는 방법
- 구조화 과정이 필수적임
- 비구조화 텍스트에서 구조화된 데이터 변환 프로세스
- 텍스트 데이터 / 문서 / 문단 / 문장 / 단어 를 다룸
원-핫 인코딩(One -Hot Encoding)
- 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에 0을 부여하는 단어의 벡터 표현 방식
전처리
- 개행문자, 특수문자, 공백 제거
- 중복표현 제어
- 이메일, 링크 제거
- 제목 제거
- 불용어 (의미가 없는 용어) 제거
- 조사 제거
한국어의 전처리
- 전처리
- Tokenizing
- 자연어를 어떤 단위로 살펴볼 것인가
- 어절
- 형태소
- n-gram
- WordPiece tokenizing
활용분야
문서 분류 / 문법 , 오타 교정 / 정보추출 / 음성 인식결과 보정 / 음성 합성 텍스트 보정/ 정보 검색/ 요약문 생성 / 기계 번역 / 질의 응답 / 기계 독해 / 챗봇 /형태소 분석/ 개체명 분석 / 구문 분석 / 감성 분석 /관계 추출(요즘 trend 이 주제랑 저주제가 연결되어 있을까) / 의도 파악 --> ex )솔트룩스 /// 독거노인, 우울증
참고 도서 및 강연
도서 : 자연어 처리 바이블
강의 : stanford cs 224n / natural laungage
데이터 크롤링이란 ?
- 사전적으로 기어다닌다는 의미
- web 상을 돌아다니면서 수집하는 행위를 말함
- 주로 인터넷 상의 웹페이지 (html, 문서 등)을 수집해서 분류하고 저장하는 것을 의미
- 데이터 수집보다는 여러 웹페이지를 돌아다닌다는 뜻이 강하며, 데이터가 어디에 저장되어 있는지 위치에 대한 분류작업이 크롤링의 주요 목적
HTML 관련
- HTML, CSS, Java Script
> HTML : 정보 및 설계도
> CSS : 디자인 및 스타일링
> JS : 기능과 효과
- HTML 편집기 :https://www.w3schools.com/html/tryit.asp?filename=tryhtml_default
- VS CODE 활용
반응형
'IT 로그' 카테고리의 다른 글
기계학습 분류모형 (0) | 2021.11.11 |
---|---|
21.11.10 AI 공부 로그 (0) | 2021.11.10 |
메타버스가 궁금해진 날 (0) | 2021.11.03 |
머신러닝 모형(Machine Learning) 구분 (0) | 2021.11.01 |
[파이썬 머신러닝 완벽가이드] 파이썬 머신러닝 개요 및 SW 설치 (0) | 2021.05.25 |