공부 썸네일형 리스트형 이미지 인식의 꽃, CNN 학습 데이터 전처리 과정 CNN 데이터 전처리 과정을 정리해보자 ! from keras.datasets import mnist # 케라스 이용 mnist 데이터셋 가져오기 MNIST 데이터 셋 : 손글씨 데이터셋 머신러닝 계의 HELLO WORLD 같은 데이터 셋 데이터 전처리 케라스를 이용해서 간단히 불러올 수 있다. mnist.load_data() 함수로 사용할 데이터를 불러온다 이때 불러온 이미지 데이터를 X로, 이 이미지에 0~9까지 붙인 이름표를 Y_Class로 구분하여 명명 - 학습에 사용될 부분 : X_train, Y_class_train - 테스트에 사용될 부분 : X_test , Y_class_test 1. 케라스 이용하여 mnist 데이터셋 가져오고 제대로 가져왔는지 확인 from keras.datasets i.. 더보기 잠재요인 협업 필터링의 원리를 정리해보자 잠재요인 협업 필터링 : 사용자 - 아이템 평점 행렬에 잠재된 어떤 요인이 있다고 가정하고, 행렬 분해를 통해 그 요인을 찾아내는 방식을 말함 잠재요인이 뭔지 구체적 정의는 어렵다 행렬 분해 ? 원본행렬을 분해한 후 내적 곱 결과를 구한다. 사용자 - 잠재 요인 행렬 / 아이템 -잠재요인 행렬의 전치 행렬 (잠재요인 - 아이템 행렬) 로 분해된 데이터셋을 다시 내적 곱으로 결합하면서 사용자가 예측하지 않은 아이템에 대한 평점을 도출하는 방식을 이용한다. 행렬 분해로 추출되는 잠재요인이 어떤 것인지는 알 수 없지만, 예를 들어 영화 평점 기반의 사용자 - 아이템 행렬 데이터라면 영화가 가지는 장르별 특정 선호도로 가정할 수 있다. 즉, 사용자 - 잠재 요인 행렬은 사용자의 영화에 대한 선호도로, 아이템- .. 더보기 추천시스템 공부(1) 협업필터링 - 절대 거절 못할 제안을 하지 추천시스템을 공부해보자 ! 데이터 분석 중에서 추천시스템에 가장 관심이 많이 생기고 재밌다 애초에 내 특기가 누군가에게 좋은걸 추천해주는 거여서인가 암튼 각설하고 바로 추천시스템을 누구나 구현할 수 있게끔 추천 시스템 을 완전 타파해보자 - 추천시스템의 유형 * 콘탠츠 기반 필터링 (Content Based Filtering) * 협업 필터링(Collaborative Filtering) 1) 최근접 이웃 협업 필터링(Nearest Neighbor) 2) 잠재요인 협업 필터링 (Latent Factor) trend : 넷플릭스 추천 시스템 경연 대회에서 행렬 분해 기법을 이용한 잠재 요인 협업 필터링 방식이 우승하면서 잠재 요인 협업 필터링 적용 중, BUT 서비스하는 아이템의 특성에 따라 콘텐츠 기반 필.. 더보기 머신러닝 왕초보 - 붓꽃 품종 예측 import sklearn 파이썬에서 가장 만만하게 사용하는 붓꽃 데이터셋 사이킷런을 통해 해당 데이터로 머신러닝 모델을 만들어보자 붓꽃 데이터셋으로 붓꽃의 품종을 classification 해보자 ! 분류는 대표적인 지도학습이다 그러니까 예측하려는 애 (피처: feature) 가 정해져있는 머신러닝이다. 지도학습은 쉽게 말하면 정답이 주어져 있는 데이터로 먼저 컴퓨터를 학습 시킨 다음에 미지의 정답을 예측하는 방법이다. 데이터 세트를 아래 처럼 분류 한다 - 학습을 위한 학습 데이터 set - 머신러닝 모델의 예측 성능 평가를 위한 테스트 데이터 set 바로 코드를 처보자 ! import sklearn 1. sklearn 모듈을 import 한다 from sklearn.datasets import lo.. 더보기 ORACLE JOB 깔짝이기 DBMS_JOB 패키지의 특징 - DBA 권한 필요 없이 사용 가능 - JOB을 추가 또는 변경하는 경우 커밋 실행 없이 자동 커밋 [BROKEN] 특히 오늘은 BROKEN 이라는 키워드를 배웠다 DBMS_JOB.BROKEN ( job IN BINARY_INTEGER, broken IN BOOLEAN, next_date IN DATE DEFAULT SYSDATE ); * 파라미터 설명 JOB : 실행할 JOB의 번호 BROKEN : TRUE - JOB이 BROEKN 된 경우 , FALSE: 정상 상태인 경우 NEXT_DATE : BROKEN이 TRUE 인 경우 무시하고 FALSE 인 경우 다음 실행 시각을 설정 한다 * 예제 BEGIN -- JOB 번호는 100 -- broken된 JOB을 정상 상태로 .. 더보기 텍스트 분석과 데이터 크롤링(Data Crawling) 텍스트 분석 - 텍스트 분석에서는 전처리가 90% 이다 (머신러닝에서는 70% 정도) 텍스트 마이닝 의미있는 패턴을 찾아내거나 통찰력을 얻어내는 방법 구조화 과정이 필수적임 비구조화 텍스트에서 구조화된 데이터 변환 프로세스 텍스트 데이터 / 문서 / 문단 / 문장 / 단어 를 다룸 원-핫 인코딩(One -Hot Encoding) 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에 0을 부여하는 단어의 벡터 표현 방식 전처리 개행문자, 특수문자, 공백 제거 중복표현 제어 이메일, 링크 제거 제목 제거 불용어 (의미가 없는 용어) 제거 조사 제거 한국어의 전처리 전처리 Tokenizing 자연어를 어떤 단위로 살펴볼 것인가 어절 형태소 n-gram W.. 더보기 이전 1 다음