pandas
02, PANDAS를 이용한 EAD( 왜도 ,상관계수)
미스터 한뺑
2022. 8. 29. 17:07
반응형
EDA(Exploratory Data Analysis)
- 탐색적 데이터 분석
- 데이터를 분석하고 결과를 도출하는 과정에서 있어서 지속적으로 데이터에 대한 탐색과 이해를 기본적으로 가져야 한다는 의미
데이터 종류
- 수치형 데이터
- 연속형 : 일정범위 안에서 어떠한 값도 취할수 있는 실수형 데이터 (ex. 온도 ,키, 풍속)
- 이산형 : 횟수 같은 정수형 데이터(ex 방개수, 가족수 등등)
- 범주형 데이터
- 가능한 범주 안에서 값만 취할수 있는 데이터
- 성별:남,여(영목형)
- 전공: 경영학,교육학,인문학등(영목형)
- 장르(명목형)
- 영화평점(순서형)
- 직급(순서형)
왜도 (Skewness)
- 데이터 분포들의 비대칭를 나타내는 통계량
- 분포가 오른쪽으로 치우쳐져 있고 왼쪽으로 긴 꼬리를 가진 경우 음수
- 분포가 왼쪽으로 치우쳐저 있고 오른쪽으로 긴꼬리를 가진경우 왜도는 양수
- 정규분포와 같이 좌우 대칭인 경우 왜도는 0에 가까워진다.
상관계수
- 칼 피어슨이 개발한 상관계수
- 두개의 수치형 변수의 변화가 연관되는 정도
- +1~ -1 사이의 값을 가짐
- +1에 가까워질수록 양의 상관관계
- -1에 가까워질수록 음의 상관관계
- 0에 가까울수록 상관관계 x
범주형 데이터 분석하기
고유값을 확인하고 싶을땐 nuique메소드를 사용한다
한 컬럼에 데이터가 얼마나 있는지 궁금하면 value_counts 메소드를 사용한다.
두 컬럼에 대해 비교하고 싶을때는 crosstab을 사용하면 된다 .
반응형