본문 바로가기

IT 로그

텍스트 분석과 데이터 크롤링(Data Crawling)

728x90
반응형

텍스트 분석 

- 텍스트 분석에서는 전처리가 90% 이다 (머신러닝에서는 70% 정도)

 

텍스트 마이닝

  • 의미있는 패턴을 찾아내거나 통찰력을 얻어내는 방법
  • 구조화 과정이 필수적임 
  • 비구조화 텍스트에서 구조화된 데이터 변환 프로세스
  • 텍스트 데이터  / 문서  / 문단  / 문장 / 단어 를 다룸

- 인코딩(One -Hot Encoding)

  • 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에 0을 부여하는 단어의 벡터 표현 방식

전처리 

  1. 개행문자, 특수문자, 공백 제거
  2. 중복표현 제어
  3. 이메일, 링크 제거
  4. 제목 제거
  5. 불용어 (의미가 없는 용어) 제거
  6. 조사 제거

한국어의 전처리

  1. 전처리
  2. Tokenizing
    1. 자연어를 어떤 단위로 살펴볼 것인가
    2. 어절
    3. 형태소
    4. n-gram
    5. WordPiece tokenizing

 

활용분야

문서 분류  / 문법 , 오타 교정 / 정보추출 / 음성 인식결과 보정 / 음성 합성 텍스트 보정/ 정보 검색/ 요약문 생성 / 기계 번역 / 질의 응답 / 기계 독해 / 챗봇 /형태소 분석/ 개체명 분석 / 구문 분석 / 감성 분석 /관계 추출(요즘 trend 주제랑 저주제가 연결되어 있을까) / 의도 파악 --> ex )솔트룩스 /// 독거노인, 우울증 

 

참고 도서 및 강연 

도서 : 자연어 처리 바이블

강의 : stanford cs 224n / natural laungage 

 


 

데이터 크롤링이란 ? 

- 사전적으로 기어다닌다는 의미

- web 상을 돌아다니면서 수집하는 행위를 말함

- 주로 인터넷 상의 웹페이지 (html, 문서 등)을 수집해서 분류하고 저장하는 것을 의미

- 데이터 수집보다는 여러 웹페이지를 돌아다닌다는 뜻이 강하며, 데이터가 어디에 저장되어 있는지 위치에 대한 분류작업이 크롤링의 주요 목적 

 

HTML 관련 

- HTML, CSS, Java Script 

> HTML : 정보 및 설계도 

> CSS : 디자인 및 스타일링

> JS : 기능과 효과 

- HTML 편집기 :https://www.w3schools.com/html/tryit.asp?filename=tryhtml_default

 

W3Schools online HTML editor

The W3Schools online code editor allows you to edit code and view the result in your browser

www.w3schools.com

- VS CODE 활용 

 

반응형