본문 바로가기

온라인 강의 내용/패캠-데이터분석

2. 데이터분석과 엑셀 : 탐색적 데이터 분석 (EDA)

탐색적 데이터 분석 (EDA, Exploratory Data Analysis)

기존 통계학이 정보 추출에서 가설 검정 등에 치우치다 보니, 자료 본연의 의미를 찾는데 어려움이 존재함.

이를 보완하고자 주어진 자료만 가지고도 충분한 정보를 찾을 수 있도록하는 여러 탐색적 자료 분석 방법.

  • 내 입맛대로 수집되는 데이터는 1도 없다
  • 데이터의 분포를 파악할 수 있다
  • 분석에 필요한 데이터 전처리를 수행할 수 있다
  • 데이터의 생김새를 알아야 올바른 분석을 할 수 있다
  • 결측치, 이상치를 파악하고 처리할 수 있다
  • 가장 적합한 분석 방법을 결정할 수 있다

- 결측: 계획된 실험 배치에서 어떤 사고로 이루어지지 못한 관측

 

기초 통계량 계산

* 합계=SUM(범위)

* 중앙값=MEDIAN(범위). 자료를 크기 순서로 나열해 놓았을 때 위치적으로 중앙에 있는 값

ex) 1,2,3,4,5 : 중앙인 3번째의 3 // 1,2,3,4,5,6 : 절대적인 중앙값이 없으므로 중앙에 위치한 두 값의 평균, (3+4)/2=3.5

* 최대값=MAX(범위)

* 최솟값=MIN(범위)

* 평균=AVERAGE(범위)

* 최빈값=MODE(범위), 가장 많이 등장하는. 빈도수 높은 값

ex) 1,2,2,3,3,3,2,1의 최빈값 : 2, 3

* 분산=VAR(범위), 평균을 기준으로 데이터가 흩어져있는 정도.

분산이 높으면 각 값들이 평균과 차이가 많이 남 / 분산이 낮으면 각 값들이 평균과 비슷한 값들임

* 표준편차=STDEV(범위) , 분산의 제곱근(표준편차의 제곱=분산)

 

피벗 테이블 활용

커다란 표의 데이터를 요약하는 통계표

어려운 이유?

어떤 요약 통계표를 만들어야 하는지 명확하지 않기 때문

 

* 피벗 테이블 생성

Raw data 선택 > [삽입] 탭 > 피벗 테이블

피벗테이블 생성 - raw data 선택

피벗 테이블 사용하기

[피벗 테이블 필드]의 필드를 필터/열/행/값 중 필요한 부분에 드래그

피벗 테이블 사용

 

Boxplot & 산점도

* Boxplot

최솟값, 제1사분위수, 중앙값, 제3사분위수, 최댓값을 활용해 그리는 그래프

boxplot 구조

최소값/사분위수/최댓값 구하기 (엑셀 2013이하 에선 최소값, 1,3사분위수, 최대값 등을 미리 구해놓고 차트를 만들어야)

=QUARTILE(범위, 데이터 종류 지정)

 

* 산점도

데이터를 점으로 표현해 흩어져 있는 정도를 파악하는 그래프

산점도

[삽입] > 차트의 분산형(X, Y) 또는 거품형 차트 삽입에서 선택 > 분산형 선택

빈 차트가 나오면 > 데이터 선택해서 보여줄 정보 표시

X , Y 축에 표시할 정보를 선택한다

* 추세선 표시하기

차트에서 마우스 오른쪽 버튼 > 추세선 추가