본문 바로가기

IT 로그

[Python] describe() 결과값 해석하는 법 | 기술 통계량

728x90
반응형

파이썬 공부를 하다보면 자주 만나게 되는 describe 함수 

데이터 분석에서 유용하게 사용되는 메소드이다. 

이 describe 메소드가 반환하는 결과를 해석하는 법을 공부했다.


인터넷의 예제를 따라치면서 공부하다가 describe를 해서 dataset 결과를 확인했다.

 

아 이게 뭐야..

대체 모르겠다.

 

보통 describe를 실행하면 count, min, max, sum 등이 나올걸 예상했는데 신기한 feature 들이 있다. 

각각의 의미를 살펴보자

count  : 말그대로 각 필드값의 개수이다.

unique  : 각 필드의 고유값의 개수이다. 이 개 맞는 말이면 class 라는 필드는 딱 2개의 고유값을 가진 것이 된다. 

dataset.head()
dataset['class'] # class 행만 가져오기 
dataset['class'].drop_duplicates() #  중복제거

맞구만!

top : 최빈값이다. 가장 많이 나온 값을 말한다.

freq : 그 최빈값이 몇번 나왔는지 빈도를 의미한다. 

이것도 테스트를 해봤다.

condition = (dataset['class'] == 'e') # 조건식 작성

dataset[condition]

class는 'e'인 것만 뽑는 코드를 조건으로 데이터를 조회해봤다.

4208 개가 맞게 조회된다.

include="all"을 사용하면 보이지 않던 unique, top, freq 라는 통계가 추가로 보여진다고 한다.


 


describe를 통해 볼 수 있는 기술통계량을 공부하고 TEST 해봤다.

최빈값 같은 것들은 활용하기 좋을 것 같다. 

반응형