본문 바로가기

반응형

데이터분석공부

[python] k-means clustering 데이터 분석 공부 정리 k- means 군집 분석의 특징 - 연속형 변수에 활용 가능 - 초기 중심값은 임의로 선택가능 - 장점 : 알고리즘 단순, 빠름, 계층보다 많은 데이터 가능 - 단점 : 군집 수 , 가중치 ,거리 정의 어렵, 결과 해석 어렵, 이상값 영향 큼 from sklearn.datasets import make_blobs # 가상의 데이터셋을 만들어주는 함수 # 필요 데이터 로딩 import pandas as pd import numpy as np import math import scipy as sp import seaborn as sns import matplotlib.pyplot as plt sns.set_palette("Set2") # make_blobx : 보통 클러스링 용 가상데이터를 생성하는데 사용.. 더보기
[Python] describe() 결과값 해석하는 법 | 기술 통계량 파이썬 공부를 하다보면 자주 만나게 되는 describe 함수 데이터 분석에서 유용하게 사용되는 메소드이다. 이 describe 메소드가 반환하는 결과를 해석하는 법을 공부했다. 인터넷의 예제를 따라치면서 공부하다가 describe를 해서 dataset 결과를 확인했다. 아 이게 뭐야.. 대체 모르겠다. 보통 describe를 실행하면 count, min, max, sum 등이 나올걸 예상했는데 신기한 feature 들이 있다. 각각의 의미를 살펴보자 count : 말그대로 각 필드값의 개수이다. unique : 각 필드의 고유값의 개수이다. 이 개 맞는 말이면 class 라는 필드는 딱 2개의 고유값을 가진 것이 된다. dataset.head() dataset['class'] # class 행만 가져오.. 더보기
Machine Learning - 비지도학습 1. 패턴 : Association Rule 2. 군집 : Classifiacation 3. 그래프 : graph 4. 추천 : recommendation Machine Learning 모형 구분 지도학습 비지도학습 (Unsupervised Learning) target x 1. Association Rule 기저기와 맥주 ? 다수의 거래 내역 각각에 포함된 품목(ITEM)의 관찰을 통해 규칙 발견 인과관계가 있을 수 있지만 해석은 그렇게 하면 안됨 모든 데이터를 Categorical 가정 ( Numeric data에는 적절하지 않음 ) 장바구니 분석에 처음 사용됨 예 : Bread > Milk Lift (향상도) , support, confidence 향상도 의미 : A를 고려한 b의 구매확률을 A를 .. 더보기

반응형