본문 바로가기
  • On the ball
Data/Statistics

EDA(Exploratory Data Analysis) - 이산형(범주형) 변수

by pub-lican-ai 2019. 7. 23.
반응형
  • 빈도분석

- 분류형(범주형) 변수에 대한 빈도표Frequency table을 작성하고 그에 적절한 그래프를 그리는 분석 방법

 

  • R에서의 집계 예제

aggregate(EDEC_TRAMT ~AGE_GROUP, data=ndata,mean)

   -> AGE_Group별 EDEC 값의 평균값을 집계해 다른 연령군 대비 높거나 낮은 값을 찾을 수 있음

 

  • 교차표 Contingency Table

- 범주형 변수간의 관계를 빈도 Frequency나 백분율 Percentage을 가로/세로축의 표로 나타 낸 것

 행합계, 열합계, 행 백분율, 열 백분율등을 쉽게 계산하고 확인할 수 있음

(교차표 예시)

분할표란?

두 변수가 범주형일 경우에 한 변수의 범주는 행 한 변수의 범주는 열로 하여 교차되는 칸에 도수를 적은 표이다.

분할표는 분석 목적에 따라 다양한 방법으로 만들 수 있다.

1. 기본 자료의 분할표

 

찬성

반대

합계

남자

100

50

150

여자

100

150

250

합계

200

200

400

2. 전체 자료에 대한 상대도수 분할표

 

찬성

반대

합계

남자

0.25

0.125

0.375

여자

0.25

0.375

0.625

합계

0.5

0.5

1

3. 한정된 상대도수 분할표

  찬성 반대 합계

남자

0.75

0.25

1

여자

0.4

0.6

1

출처: https://blog.naver.com/ujb0411/221527430162

반응형