본문 바로가기

반응형

데이터분석

[python] k-means clustering 데이터 분석 공부 정리 k- means 군집 분석의 특징 - 연속형 변수에 활용 가능 - 초기 중심값은 임의로 선택가능 - 장점 : 알고리즘 단순, 빠름, 계층보다 많은 데이터 가능 - 단점 : 군집 수 , 가중치 ,거리 정의 어렵, 결과 해석 어렵, 이상값 영향 큼 from sklearn.datasets import make_blobs # 가상의 데이터셋을 만들어주는 함수 # 필요 데이터 로딩 import pandas as pd import numpy as np import math import scipy as sp import seaborn as sns import matplotlib.pyplot as plt sns.set_palette("Set2") # make_blobx : 보통 클러스링 용 가상데이터를 생성하는데 사용.. 더보기
[Python] describe() 결과값 해석하는 법 | 기술 통계량 파이썬 공부를 하다보면 자주 만나게 되는 describe 함수 데이터 분석에서 유용하게 사용되는 메소드이다. 이 describe 메소드가 반환하는 결과를 해석하는 법을 공부했다. 인터넷의 예제를 따라치면서 공부하다가 describe를 해서 dataset 결과를 확인했다. 아 이게 뭐야.. 대체 모르겠다. 보통 describe를 실행하면 count, min, max, sum 등이 나올걸 예상했는데 신기한 feature 들이 있다. 각각의 의미를 살펴보자 count : 말그대로 각 필드값의 개수이다. unique : 각 필드의 고유값의 개수이다. 이 개 맞는 말이면 class 라는 필드는 딱 2개의 고유값을 가진 것이 된다. dataset.head() dataset['class'] # class 행만 가져오.. 더보기
[ADSP] 데이터 준분석가 자격증 ADSP 시험 정보 이번 달 말에 시험 보기로 예정된 ADSP 시험 정보 입니다. 데이터 분석에 관심이 꾸준히 있어서 시험을 예약했습니다. ADSP란? 데이터 분석 준전문가 Advanced Data Analyticst Semi-Professional 데이터 이해에 대한 기본지식을 바탕으로 데이터 분석 기획 및 데이터 분석 등의 실무를 수행하는 실무자를 이름 데이터 분석 직무는 어떤 일을 하나요? 데이터 기획과 데이터 분석으로 나눠짐 1. 데이터기획 : 비즈니스 목표 달성을 위해 내부 업무 프로세스를 기반으로 다양한 분석 기회를 발굴 분석 목표 정의 및 분석대상 도출 및 분석 결과 활용 시나리오 정의 빅데이터 분석과제 정의, 분석로드맵 수립, 성과관리 수행 2. 데이터분석 : 분석에 대한 요건 도출 및 분석과정 설계 요건 정.. 더보기
잠재요인 협업 필터링의 원리를 정리해보자 잠재요인 협업 필터링 : 사용자 - 아이템 평점 행렬에 잠재된 어떤 요인이 있다고 가정하고, 행렬 분해를 통해 그 요인을 찾아내는 방식을 말함 잠재요인이 뭔지 구체적 정의는 어렵다 행렬 분해 ? 원본행렬을 분해한 후 내적 곱 결과를 구한다. 사용자 - 잠재 요인 행렬 / 아이템 -잠재요인 행렬의 전치 행렬 (잠재요인 - 아이템 행렬) 로 분해된 데이터셋을 다시 내적 곱으로 결합하면서 사용자가 예측하지 않은 아이템에 대한 평점을 도출하는 방식을 이용한다. 행렬 분해로 추출되는 잠재요인이 어떤 것인지는 알 수 없지만, 예를 들어 영화 평점 기반의 사용자 - 아이템 행렬 데이터라면 영화가 가지는 장르별 특정 선호도로 가정할 수 있다. 즉, 사용자 - 잠재 요인 행렬은 사용자의 영화에 대한 선호도로, 아이템- .. 더보기
Machine Learning - 비지도학습 1. 패턴 : Association Rule 2. 군집 : Classifiacation 3. 그래프 : graph 4. 추천 : recommendation Machine Learning 모형 구분 지도학습 비지도학습 (Unsupervised Learning) target x 1. Association Rule 기저기와 맥주 ? 다수의 거래 내역 각각에 포함된 품목(ITEM)의 관찰을 통해 규칙 발견 인과관계가 있을 수 있지만 해석은 그렇게 하면 안됨 모든 데이터를 Categorical 가정 ( Numeric data에는 적절하지 않음 ) 장바구니 분석에 처음 사용됨 예 : Bread > Milk Lift (향상도) , support, confidence 향상도 의미 : A를 고려한 b의 구매확률을 A를 .. 더보기

반응형