728x90
반응형
파이썬 공부를 하다보면 자주 만나게 되는 describe 함수
데이터 분석에서 유용하게 사용되는 메소드이다.
이 describe 메소드가 반환하는 결과를 해석하는 법을 공부했다.
인터넷의 예제를 따라치면서 공부하다가 describe를 해서 dataset 결과를 확인했다.
아 이게 뭐야..
대체 모르겠다.
보통 describe를 실행하면 count, min, max, sum 등이 나올걸 예상했는데 신기한 feature 들이 있다.
각각의 의미를 살펴보자
count : 말그대로 각 필드값의 개수이다.
unique : 각 필드의 고유값의 개수이다. 이 개 맞는 말이면 class 라는 필드는 딱 2개의 고유값을 가진 것이 된다.
dataset.head()
dataset['class'] # class 행만 가져오기
dataset['class'].drop_duplicates() # 중복제거
맞구만!
top : 최빈값이다. 가장 많이 나온 값을 말한다.
freq : 그 최빈값이 몇번 나왔는지 빈도를 의미한다.
이것도 테스트를 해봤다.
condition = (dataset['class'] == 'e') # 조건식 작성
dataset[condition]
class는 'e'인 것만 뽑는 코드를 조건으로 데이터를 조회해봤다.
4208 개가 맞게 조회된다.
include="all"을 사용하면 보이지 않던 unique, top, freq 라는 통계가 추가로 보여진다고 한다.
describe를 통해 볼 수 있는 기술통계량을 공부하고 TEST 해봤다.
최빈값 같은 것들은 활용하기 좋을 것 같다.
반응형
'IT 로그' 카테고리의 다른 글
네카라쿠배 대신 몰두센 ? 새로 뜨는 IT 기업 어디 ? 복지와 채용공고/ JD #몰로코 (0) | 2022.06.10 |
---|---|
[colab] 코랩 노트에 이미지를 넣는 간단한 방법 (4) | 2022.02.09 |
[SQL] 테이블 생성 방법, NOT NULL, UK(Unique Key) , Check (1) | 2022.02.07 |
[ADSP] 데이터 준분석가 자격증 ADSP 시험 정보 (17) | 2022.02.05 |
java 공부 with 백준 - 알고리즘 문제풀이 (3) | 2022.01.28 |