pandas

02, PANDAS를 이용한 EAD( 왜도 ,상관계수)

미스터 한뺑 2022. 8. 29. 17:07
반응형

EDA(Exploratory Data Analysis)

  • 탐색적 데이터 분석
  • 데이터를 분석하고 결과를 도출하는 과정에서 있어서 지속적으로 데이터에 대한 탐색과 이해를 기본적으로 가져야 한다는 의미
  •  

데이터 종류

  • 수치형 데이터
    • 연속형 : 일정범위 안에서 어떠한 값도 취할수 있는 실수형 데이터 (ex. 온도 ,키, 풍속)
    • 이산형 : 횟수 같은 정수형 데이터(ex 방개수, 가족수 등등)
  • 범주형 데이터
    • 가능한 범주 안에서 값만 취할수 있는 데이터
    • 성별:남,여(영목형)
    • 전공: 경영학,교육학,인문학등(영목형)
    • 장르(명목형)
    • 영화평점(순서형)
    • 직급(순서형)

 

 

 

왜도 (Skewness)

  • 데이터 분포들의 비대칭를 나타내는 통계량
  • 분포가 오른쪽으로 치우쳐져 있고 왼쪽으로 긴 꼬리를 가진 경우 음수
  • 분포가 왼쪽으로 치우쳐저 있고 오른쪽으로 긴꼬리를 가진경우 왜도는 양수
  • 정규분포와 같이 좌우 대칭인 경우 왜도는 0에 가까워진다.

 

 

 

상관계수

 

 

  • 칼 피어슨이 개발한 상관계수
  • 두개의 수치형 변수의 변화가 연관되는 정도
  • +1~ -1 사이의 값을 가짐
  • +1에 가까워질수록 양의 상관관계
  • -1에 가까워질수록 음의 상관관계
  • 0에 가까울수록 상관관계 x

 

 

범주형 데이터 분석하기

 

 

고유값을 확인하고 싶을땐 nuique메소드를 사용한다

 

 

한 컬럼에 데이터가 얼마나 있는지 궁금하면 value_counts 메소드를 사용한다.

 

 

두 컬럼에 대해 비교하고 싶을때는 crosstab을 사용하면 된다 .

 

반응형

'pandas' 카테고리의 다른 글

3.PANDAS를 이용한 전처리  (0) 2022.08.29
01. PANDAS 기초  (0) 2022.08.29