제로베이스 20220321 통계 개념정리
통계 - 개념 정리
통계학
- 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리, 분석하는 방법을 연구하는 수학의 한 분야.
기술 통계학
- 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할수 있도록 정리, 요약, 설명하는 방법론.
추론 통계학
- 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론
통계 기술의 흐름
- 통계 -> 데이터 마이닝 -> 빅데이터 -> AI
통계
- 전통적인 통계 분석 방법론.
- 가설 -> 검증
- 기술 통계 분석
- 추론 통계 분석
데이터 마이닝
- 90년대부터 등장.
- 군집, 연관 분석
- 예측 모델링
- 텍스트 마이닝
빅데이터
- 2000년대부터 등장.
- 3V로 대표됨.
- Volume(크기) : 데이터의 양이 거대함.
- Velocity(속도) : 데이터 처리 속도가 빠름.
- Variety(다양성) : 데이터의 다양성이 존재.
- 머신러닝, 딥러닝을 활용.
- 사람이 데이터를 분석, 활용
AI
-
컴퓨터 프로그램이 데이터를 학습함으로서 데이터를 분석, 활용한다.
-
빅데이터, 머신러닝, 딥러닝 활용.
데이터 분석의 단계
- 데이터 수집 및 처리
- 기존에는 ORACLE의 DB를 사용.
- hadoop의 등장 이후 kibana, cloudera등의 툴이 등장.
- 분석 툴
- 기존에는 saas를 사용.
- 최근에는 R, Python을 통해 분석을 진행.
- 시각화
- 기존에는 olab을 사용
- 최근에는 spotfire, tableau등의 툴을 사용
데이터와 그래프
변수(Variable)
-
통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 한다.
-
해당 변수에 의해 관측된 값들이 자료(Data)가 된다.
질적 자료
-
관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇개의 범주로 표현할수 있는 데이터를 의미함.
- 명목형 변수
-
데이터 입력시 1은 남자, 2는 여자로 표현 가능하나, 숫자에 의미가 없음.
-
이처럼 숫자의 크기와 순서가 의미 없는 변수를 명목형 변수라고 함.
-
- 순서형 변수
-
교육 수준에 대한 데이터를 입력할때 1은 초졸, 2는 중졸, 3은 고졸 등으로 표현할수 있음.
-
이처럼 숫자의 순서가 있는 경우 순서형 변수라고 함.
-
양적 자료
-
관측된 데이터가 숫자의 형태로 표현되며, 숫자의 크기가 의미를 가지는 데이터.
- 이산형 변수
- 숫자가 불연속적인 값을 가지는 경우
- 연속형 변수
- 숫자가 연속적인 값을 가지는 경우
EDA(Exploratory Data Analysis)
-
데이터를 분석하는 과정중 가장 많이 사용하는 분석 방법
-
도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법이다.
EDA의 목적
-
데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용
-
데이터 분석 프로젝트 초기에, 적절한 모델 및 기법의 선정
-
변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가
-
분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용
데이터 시각화
-
데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다.
-
데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다.
시각화의 종류
- 시간 시각화
-
시간의 흐름에 따라서 데이터가 변화하는것을 표현.
-
막대 그래프, 누적 막대 그래프, 점 그래프
-
- 분포 시각화
- 데이터가 어떻게 분포되어 있는지 표현.
- 파이 차트, 도넛 아트, 트리 맵, 누적 연속 그래프
- 관계 시각화
- 데이터 사이의 관계를 보여주는 표현
- 스캐터플롯, 버블 차트, 히스토그램
- 비교 시각화
- 하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현.
- 히트맵, 스타 차트, 평행 좌표계, 다차원 턱도법
- 히트맵을 가장 많이 사용.
- 공간 시각화
-
장소나 지역에 따른 데이터의 분포를 표현.
-
지도 맵핑
-
데이터 시각화의 4요소
-
Data
-
Design
-
Story
-
Shareablity
-
데이터를 어떻게 디자인해서, 데이터가 가진 스토리를 적절하게 공유할수 있는가?
시각화 툴
-
BI(Business Inteligence) 툴이라고도 함.
-
excel, tableau 등.
-
오픈소스 시각화 tool의 경우, R과 Python을 많이 사용한다.
데이터의 기초 통계량
기초 통계량
-
통계량(statistic)은 표본으로 산출한 값으로, 기술통계량이라고도 표현함
-
통계량을 통해 데이터(표본)가 갖는 특성을 이해 할 수 있음.
중심 경향치
-
가장 많이 사용되는 기초 통계량 중 하나.
-
표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖는다.
-
표본의 중심을 설명하는 값을 대표값이라 하며, 이를
중심경향치
라고함. -
대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있다.
평균
-
모집단으로부터 관측된 n개의 x가 주어졌을때 아래와 같이 정의됨
-
표본으로 추출된 표본평균(sample mean)과 모집단의 평균인 모평균으로 구분.
중앙값(median)
- 평균과 같이 가장 많이 사용하는 값.
- 관측치를 크기 순서로 나열했을때, 가운데 위치하는 값
-
관측치가 홀수일 경우 중앙에 취하는 값이고, 짝수일경우 가운데 두개의 값을 산술평균한 값을 사용.
- 이상치가 포함된 데이터에 대해서 사용함.
최빈값(mode)
-
관측치 중에서 가장 많이 관측되는 값을 의미함.
-
명목형 데이터의 경우 주로 사용함.
산포도
-
데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심 경향치와 함께 산포에 대한 측도를 고려해야 함.
-
데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동계수 등이 있음.
범위
- 데이터의 최대값과 최소값의 차이를 의미함.
사분위수
- 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을때 다음과 같이 표현함.
- 첫번째를 제1사분위수(Q1)
- 두번째를 제2사분위수(Q2)
- 세번째를 제3사분위수(Q3)
- 사분위수 범위(interquartile range, IQR) : 제3사분위수(Q3) - 제1사분위수(Q1)
백분위수
-
전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값.
-
제p백분위수는 p%에 위치한 자료값을 의미함.
-
데이터를 오름차순으로 배열하고 자료가 n개 있을때, 제(100*p)백분위수는 아래와 같음
- np가 정수이면, np번째와 (np+1)번째 자료의 평균
- np가 정수가 아니면, np보다 큰 최소의 정수 m에 대해 m번째 자료
분산
-
산포도에서 가장 중요한 개념
-
데이터의 분포가 얼마나 흩어져있는지를 알수 있는 측도
-
데이터 각각의 값들을 편차 제곱합으로 계산함.
표준 편차
- 분산의 제곱근으로 정의
분산
- 크기가 N인 모집단의 평균을 μ라고 할떄, 모평균과 모분산은 다윽 수식과 같다.
변동 계수
-
Coefficient of Variation, CV
-
평균이 다른 두개 이상의 그룹의 표준편차를 비교할때 사용함.
-
변동계수는 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교함.
-
실제 분석에서 자주 사용함.
분포에 따른 그래프의 모양 변화
- 정규 분포 모양
- 평균과 분산에 따라서 모양이 달라짐.
- 기본적으로 중앙값=최빈값=평균값
- 분산이 크면 분포가 넓어지고, 분산이 작으면 분포가 좁아짐.
왜도
-
자료의 분포가 얼마나 비대칭적인지 표현하는 지표
- 왜도가 0이면 좌우가 대칭.
- 0에서 클수록 그래프 왼쪽의 분포가 상승
- 0에서 작을수록 그래프 오른쪽의 분포가 상승
첨도
-
확률분포의 꼬리가 두꺼운 정도를 나타내는 척도
-
첨도값이 3에 가까우면 산포도가 정규분포에 가까움
-
3보다 작은 경우에는 분산이 큰것을 의미
-
3보다 큰 경우에는 분산이 작은것을 의미
확률
- 모든 경우의 수에 대한 특정 사건이 발생하는 비율
확률의 고전적 정의
-
어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 비.
-
이는 모든 사건이 동일하게 일어날 수 있다고 할 때 성립한다.
표본 공간
- 어떤 살험에서 나올 수 있는 모든 가능한 결과들의 집합
- 동전 던지기의 경우 S = {앞면, 뒷면}
- 주사위 던지기 S = {1,2,3,4,5,6}
- 사건 A가 일어날 확률을 P(A)라 하고, 표본공간 S가 유한집합일때
통계적 확률 정의
-
어떤 시행을 N번 반복했을때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N이고, 사건 A가 일어날
상대도수
라고함. -
N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 사건 A의
통계적 확률
또는 경험적 확률 이라고 함.
확률의 성질
-
확률의 덧셈법칙
-
A와 B가 배반 사건이면,
-
A의 여사건이 A의 여집합이면,
-
확률의 곱셈법칙
합사건(union)
- 사건 A 또는 사건B가 일어날 확률
- A or B
- A와 B의 합집합
곱사건(intersection)
- 사건A와 사건B가 동시에 일어날 확률
- A and B
- A와 B의 교집합
배반사건(mutually exclusive event)
-
사건 A와 사건 B가 동시에 일어날수 없는 경우.
-
A and B == 공집합
여사건
-
사건A가 일어나지 않을 확률
-
A의 여집합
조합과 순열
- !(Factorial)
- n개를 일렬로 늘어놓은 경우의 수.
- n * (n-1) * (n-2) * … * 2 * 1
- n(n+1)/2
- 순열
-
순서를 고려하여 n개중 r개를 뽑아 배열하는 경우의 수
-
n! / (n-r)!
-
-
조합
-
순서를 고려하지 않고 n개중 r개를 뽑아서 배열하는 경우의 수
-
n! / (r! * (n-r)!)
-
조건부확률
- 어떤 사건 A가 발생한 상황에서 또하나의 사건 B가 발생할 확률
베이즈정리
확률 변수
-
표본공간에서 각 사건에 실수를 대응시키는 함수
-
확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함
-
일반적으로 확률 변수는 대문자로 표현하며, 확률변수의 특정 값을 소문자로 표현함.
이산 확률 변수
- 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우
연속 확률 변수
- 연속형 또는 무한대와 같이 셀 수 없는 경우
확률 변수의 평균
확률 변수의 분산
확률 변수 기대값의 성질
- a,b가 상수이고 X,Y를 임의의 확률변수라고 할때, 다음이 성립한다.
- E(a) = a
- E(aX) = aE(X)
- E(aX+b) = aE(X)+b
- E(aX±bY) = aE(X)±bE(Y)
- X,Y가 독립일때 E(XY) = E(X) E(Y)
확률 변수 분산의 성질
- a,b가 상수이고, X,Y를 임의의 확률 변수라고 할 때, 다음이 성립한다.
- Var(a) = 0
- Var(aX) = a2 Var(X)
- Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)
- Var(aX±bY) = a2Var(X) ± b2Var(Y)
- X,Y가 독립일때 Var(XY) = 0
- Var(X) = E(X2)-[E(X)]2
공분산
-
2개의 확률변수의 선형 관계를 나타내는 값.
-
하나의 값이 상승할때 다른 값도 상승한다면 양의 공분산
-
하나의 값이 상승할때 다른 값이 하락한다면 음의 공분산을 가진다.
확률 분포
- 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타낼 확률을 표현한 함수
이산형 확률분포
- 확률변수 X가 유한한 집합
- 베르누이 분포
- 이항분포
- 기하분포
- 음이항분포
- 포아송분포
- 초기하분포
- 다항분포
이산형 균등 분포
-
확률변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포
- 기대값 : (n+1)/2
- 분산 : (n2-1)/12
베르누이 분포
-
베르누이 시행 : 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행을
베르누이 시행
이라고 함. -
베르누이 시행에서 성공이 1, 실패가 0의 값을 가질떄, 확률변수 X의 분포를
베르누이 분포
라고 하며 다음과 같이 정의함 - 베르누이 분포의 평균 : P
- 베르누이 분포의 분산 : p(1-p)
이항 분포
- 연속적인 베르누이 시행을 거쳐 나타나는 확률 분포
-
서로 독립인 베르누이 시행을 n번 반복해서 실행했을때, 성공한 횟수 X의 확률 분포는 다음과 같다.
- 이항 분포의 기대값 : np
- 이항 분포의 분산 : np(1-p)
포아송 분포
- 어느 희귀한 사건이 어떤 일정한 시간대에 발생할 확률 분포
포아송 분포의 조건
- 어떤 단위구간동안 이를 더 작은 단위의 구간으로 나눌수 있고, 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도중에서 항상 일정
- 두개 이상의 사건이 동시에 발생할 확률은 0에 가까움
- 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
- 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
-
포아송분포 확률변수의 기댓값과 분산은 모두 λ이다.
기하 분포
- 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포
- 이때 각 시도는 베르누이 시행을 따름
- 기하 분포의 기대값 : 1/p
- 기하 분포의 분산 : (1-p)/p2
음이항분포
-
어떤 실험에서 성공확률이 p일때, r번의 실패가 나올때까지 발생한 성공횟수 X의 확률 분포
- 음이항분포의 기대값 : r(1-p)/p
- 음이항분포의 분산 : r(1-p)/p2