7 minute read

통계 - 개념 정리

통계학

  • 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리, 분석하는 방법을 연구하는 수학의 한 분야.

기술 통계학

  • 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할수 있도록 정리, 요약, 설명하는 방법론.

추론 통계학

  • 모집단으로부터 추출한 표본 데이터를 분석하여 모집단의 여러가지 특성을 추측하는 방법론

통계 기술의 흐름

  • 통계 -> 데이터 마이닝 -> 빅데이터 -> AI

통계

  • 전통적인 통계 분석 방법론.
  • 가설 -> 검증
  • 기술 통계 분석
  • 추론 통계 분석

데이터 마이닝

  • 90년대부터 등장.
  • 군집, 연관 분석
  • 예측 모델링
  • 텍스트 마이닝

빅데이터

  • 2000년대부터 등장.
  • 3V로 대표됨.
    • Volume(크기) : 데이터의 양이 거대함.
    • Velocity(속도) : 데이터 처리 속도가 빠름.
    • Variety(다양성) : 데이터의 다양성이 존재.
  • 머신러닝, 딥러닝을 활용.
  • 사람이 데이터를 분석, 활용

AI

  • 컴퓨터 프로그램이 데이터를 학습함으로서 데이터를 분석, 활용한다.

  • 빅데이터, 머신러닝, 딥러닝 활용.

데이터 분석의 단계

  • 데이터 수집 및 처리
    • 기존에는 ORACLE의 DB를 사용.
    • hadoop의 등장 이후 kibana, cloudera등의 툴이 등장.
  • 분석 툴
    • 기존에는 saas를 사용.
    • 최근에는 R, Python을 통해 분석을 진행.
  • 시각화
    • 기존에는 olab을 사용
    • 최근에는 spotfire, tableau등의 툴을 사용

데이터와 그래프

변수(Variable)

  • 통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 한다.

  • 해당 변수에 의해 관측된 값들이 자료(Data)가 된다.

질적 자료

  • 관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇개의 범주로 표현할수 있는 데이터를 의미함.

  • 명목형 변수
    • 데이터 입력시 1은 남자, 2는 여자로 표현 가능하나, 숫자에 의미가 없음.

    • 이처럼 숫자의 크기와 순서가 의미 없는 변수를 명목형 변수라고 함.

  • 순서형 변수
    • 교육 수준에 대한 데이터를 입력할때 1은 초졸, 2는 중졸, 3은 고졸 등으로 표현할수 있음.

    • 이처럼 숫자의 순서가 있는 경우 순서형 변수라고 함.

양적 자료

  • 관측된 데이터가 숫자의 형태로 표현되며, 숫자의 크기가 의미를 가지는 데이터.

  • 이산형 변수
    • 숫자가 불연속적인 값을 가지는 경우
  • 연속형 변수
    • 숫자가 연속적인 값을 가지는 경우

EDA(Exploratory Data Analysis)

  • 데이터를 분석하는 과정중 가장 많이 사용하는 분석 방법

  • 도표, 그래프, 요약 통계 등을 사용하여 데이터를 체계적으로 분석하는 하나의 방법이다.

EDA의 목적

  1. 데이터 분석 프로젝트 초기에 가설을 수립하기 위해 사용

  2. 데이터 분석 프로젝트 초기에, 적절한 모델 및 기법의 선정

  3. 변수 간 트렌드, 패턴, 관계 등을 찾고 통계적 추론을 기반으로 가정을 평가

  4. 분석 데이터에 적절한가 평가, 추가 수집, 이상치 발견 등에 활용

데이터 시각화

  • 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적으로 표현하고 전달되는 과정을 말한다.

  • 데이터 시각화의 목적은 도표(graph)라는 수단을 통해 정보를 명확하고 효과적으로 전달하는 것이다.

시각화의 종류

  • 시간 시각화
    • 시간의 흐름에 따라서 데이터가 변화하는것을 표현.

    • 막대 그래프, 누적 막대 그래프, 점 그래프

  • 분포 시각화
    • 데이터가 어떻게 분포되어 있는지 표현.
    • 파이 차트, 도넛 아트, 트리 맵, 누적 연속 그래프
  • 관계 시각화
    • 데이터 사이의 관계를 보여주는 표현
    • 스캐터플롯, 버블 차트, 히스토그램
  • 비교 시각화
    • 하나 이상의 변수에 대해서 변수 사이의 차이와 유사성 등을 표현.
    • 히트맵, 스타 차트, 평행 좌표계, 다차원 턱도법
    • 히트맵을 가장 많이 사용.
  • 공간 시각화
    • 장소나 지역에 따른 데이터의 분포를 표현.

    • 지도 맵핑

데이터 시각화의 4요소

  • Data

  • Design

  • Story

  • Shareablity

  • 데이터를 어떻게 디자인해서, 데이터가 가진 스토리를 적절하게 공유할수 있는가?

시각화 툴

  • BI(Business Inteligence) 툴이라고도 함.

  • excel, tableau 등.

  • 오픈소스 시각화 tool의 경우, R과 Python을 많이 사용한다.

데이터의 기초 통계량

기초 통계량

  • 통계량(statistic)은 표본으로 산출한 값으로, 기술통계량이라고도 표현함

  • 통계량을 통해 데이터(표본)가 갖는 특성을 이해 할 수 있음.

중심 경향치

  • 가장 많이 사용되는 기초 통계량 중 하나.

  • 표본(데이터)를 이해하기 위해서는 표본의 중심에 대해서 관심을 갖는다.

  • 표본의 중심을 설명하는 값을 대표값이라 하며, 이를 중심경향치라고함.

  • 대표적인 중심 경향치는 평균이며, 중앙값, 최빈값, 절사 평균 등이 있다.

평균

  • 모집단으로부터 관측된 n개의 x가 주어졌을때 아래와 같이 정의됨

  • 표본으로 추출된 표본평균(sample mean)과 모집단의 평균인 모평균으로 구분.

중앙값(median)

  • 평균과 같이 가장 많이 사용하는 값.
  • 관측치를 크기 순서로 나열했을때, 가운데 위치하는 값
  • 관측치가 홀수일 경우 중앙에 취하는 값이고, 짝수일경우 가운데 두개의 값을 산술평균한 값을 사용.

  • 이상치가 포함된 데이터에 대해서 사용함.

최빈값(mode)

  • 관측치 중에서 가장 많이 관측되는 값을 의미함.

  • 명목형 데이터의 경우 주로 사용함.

산포도

  • 데이터가 어떻게 흩어져 있는지를 확인하기 위해서는 중심 경향치와 함께 산포에 대한 측도를 고려해야 함.

  • 데이터의 산포도를 나타내는 측도로는 범위, 사분위수, 분산, 표준편차, 변동계수 등이 있음.

범위

  • 데이터의 최대값과 최소값의 차이를 의미함.

사분위수

  • 전체 데이터를 오름차순으로 정렬하여 4등분을 하였을때 다음과 같이 표현함.
    • 첫번째를 제1사분위수(Q1)
    • 두번째를 제2사분위수(Q2)
    • 세번째를 제3사분위수(Q3)
  • 사분위수 범위(interquartile range, IQR) : 제3사분위수(Q3) - 제1사분위수(Q1)

백분위수

  • 전체 데이터를 오름차순으로 정렬하여 주어진 비율에 의해 등분한 값.

  • 제p백분위수는 p%에 위치한 자료값을 의미함.

  • 데이터를 오름차순으로 배열하고 자료가 n개 있을때, 제(100*p)백분위수는 아래와 같음

    1. np가 정수이면, np번째와 (np+1)번째 자료의 평균
    2. np가 정수가 아니면, np보다 큰 최소의 정수 m에 대해 m번째 자료

분산

  • 산포도에서 가장 중요한 개념

  • 데이터의 분포가 얼마나 흩어져있는지를 알수 있는 측도

  • 데이터 각각의 값들을 편차 제곱합으로 계산함.

표준 편차

  • 분산의 제곱근으로 정의

분산

  • 크기가 N인 모집단의 평균을 μ라고 할떄, 모평균과 모분산은 다윽 수식과 같다.

변동 계수

  • Coefficient of Variation, CV

  • 평균이 다른 두개 이상의 그룹의 표준편차를 비교할때 사용함.

  • 변동계수는 표준편차를 평균으로 나누어서 산출하여 단위나 조건에 상관없이 서로 다른 그룹의 산포를 비교함.

  • 실제 분석에서 자주 사용함.

분포에 따른 그래프의 모양 변화

  • 정규 분포 모양
    • 평균과 분산에 따라서 모양이 달라짐.
    • 기본적으로 중앙값=최빈값=평균값
    • 분산이 크면 분포가 넓어지고, 분산이 작으면 분포가 좁아짐.

왜도

  • 자료의 분포가 얼마나 비대칭적인지 표현하는 지표

  • 왜도가 0이면 좌우가 대칭.
  • 0에서 클수록 그래프 왼쪽의 분포가 상승
  • 0에서 작을수록 그래프 오른쪽의 분포가 상승

첨도

  • 확률분포의 꼬리가 두꺼운 정도를 나타내는 척도

  • 첨도값이 3에 가까우면 산포도가 정규분포에 가까움

  • 3보다 작은 경우에는 분산이 큰것을 의미

  • 3보다 큰 경우에는 분산이 작은것을 의미

확률

  • 모든 경우의 수에 대한 특정 사건이 발생하는 비율

확률의 고전적 정의

  • 어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 비.

  • 이는 모든 사건이 동일하게 일어날 수 있다고 할 때 성립한다.

표본 공간

  • 어떤 살험에서 나올 수 있는 모든 가능한 결과들의 집합
    • 동전 던지기의 경우 S = {앞면, 뒷면}
    • 주사위 던지기 S = {1,2,3,4,5,6}
  • 사건 A가 일어날 확률을 P(A)라 하고, 표본공간 S가 유한집합일때

통계적 확률 정의

  • 어떤 시행을 N번 반복했을때, 사건 A에 해당하는 결과가 r번 일어난 경우 r/N이고, 사건 A가 일어날 상대도수 라고함.

  • N이 무한히 커지면 상대도수는 일정한 수로 수렴하는데, 이 극한값을 사건 A의 통계적 확률 또는 경험적 확률 이라고 함.

확률의 성질

  1. 확률의 덧셈법칙

  2. A와 B가 배반 사건이면,

  3. A의 여사건이 A의 여집합이면,

  4. 확률의 곱셈법칙

합사건(union)

  • 사건 A 또는 사건B가 일어날 확률
  • A or B
  • A와 B의 합집합

곱사건(intersection)

  • 사건A와 사건B가 동시에 일어날 확률
  • A and B
  • A와 B의 교집합

배반사건(mutually exclusive event)

  • 사건 A와 사건 B가 동시에 일어날수 없는 경우.

  • A and B == 공집합

여사건

  • 사건A가 일어나지 않을 확률

  • A의 여집합

조합과 순열

  • !(Factorial)
    • n개를 일렬로 늘어놓은 경우의 수.
    • n * (n-1) * (n-2) * … * 2 * 1
    • n(n+1)/2
  • 순열
    • 순서를 고려하여 n개중 r개를 뽑아 배열하는 경우의 수

    • n! / (n-r)!

  • 조합

    • 순서를 고려하지 않고 n개중 r개를 뽑아서 배열하는 경우의 수

    • n! / (r! * (n-r)!)

조건부확률

  • 어떤 사건 A가 발생한 상황에서 또하나의 사건 B가 발생할 확률

베이즈정리

확률 변수

  • 표본공간에서 각 사건에 실수를 대응시키는 함수

  • 확률 변수의 값은 하나의 사건에 대하여 하나의 값을 가지며, 실험의 결과에 의하여 변함

  • 일반적으로 확률 변수는 대문자로 표현하며, 확률변수의 특정 값을 소문자로 표현함.

이산 확률 변수

  • 셀 수 있는 값들로 구성되거나 일정 범위로 나타나는 경우

연속 확률 변수

  • 연속형 또는 무한대와 같이 셀 수 없는 경우

확률 변수의 평균

확률 변수의 분산

확률 변수 기대값의 성질

  • a,b가 상수이고 X,Y를 임의의 확률변수라고 할때, 다음이 성립한다.
    1. E(a) = a
    2. E(aX) = aE(X)
    3. E(aX+b) = aE(X)+b
    4. E(aX±bY) = aE(X)±bE(Y)
    5. X,Y가 독립일때 E(XY) = E(X) E(Y)

확률 변수 분산의 성질

  • a,b가 상수이고, X,Y를 임의의 확률 변수라고 할 때, 다음이 성립한다.
    1. Var(a) = 0
    2. Var(aX) = a2 Var(X)
    3. Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)
    4. Var(aX±bY) = a2Var(X) ± b2Var(Y)
    5. X,Y가 독립일때 Var(XY) = 0
    6. Var(X) = E(X2)-[E(X)]2

공분산

  • 2개의 확률변수의 선형 관계를 나타내는 값.

  • 하나의 값이 상승할때 다른 값도 상승한다면 양의 공분산

  • 하나의 값이 상승할때 다른 값이 하락한다면 음의 공분산을 가진다.

확률 분포

  • 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타낼 확률을 표현한 함수

이산형 확률분포

  • 확률변수 X가 유한한 집합
    • 베르누이 분포
    • 이항분포
    • 기하분포
    • 음이항분포
    • 포아송분포
    • 초기하분포
    • 다항분포

이산형 균등 분포

  • 확률변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포

  • 기대값 : (n+1)/2
  • 분산 : (n2-1)/12

베르누이 분포

  • 베르누이 시행 : 각 시행의 결과가 성공, 실패 두가지 결과만 존재하는 시행을 베르누이 시행이라고 함.

  • 베르누이 시행에서 성공이 1, 실패가 0의 값을 가질떄, 확률변수 X의 분포를 베르누이 분포라고 하며 다음과 같이 정의함

  • 베르누이 분포의 평균 : P
  • 베르누이 분포의 분산 : p(1-p)

이항 분포

  • 연속적인 베르누이 시행을 거쳐 나타나는 확률 분포
  • 서로 독립인 베르누이 시행을 n번 반복해서 실행했을때, 성공한 횟수 X의 확률 분포는 다음과 같다.

  • 이항 분포의 기대값 : np
  • 이항 분포의 분산 : np(1-p)

포아송 분포

  • 어느 희귀한 사건이 어떤 일정한 시간대에 발생할 확률 분포

포아송 분포의 조건

  1. 어떤 단위구간동안 이를 더 작은 단위의 구간으로 나눌수 있고, 이러한 더 짧은 단위구간 중에 어떤 사건이 발생할 확률은 전체 척도중에서 항상 일정
  2. 두개 이상의 사건이 동시에 발생할 확률은 0에 가까움
  3. 어떤 단위구간의 사건의 발생은 다른 단위구간의 발생으로부터 독립적임
  4. 특정 구간에서의 사건 발생확률은 그 구간의 크기에 비례함
  5. 포아송분포 확률변수의 기댓값과 분산은 모두 λ이다.

기하 분포

  • 어떤 실험에서 처음 성공이 발생하기까지 시도한 횟수 X의 분포
    • 이때 각 시도는 베르누이 시행을 따름

  • 기하 분포의 기대값 : 1/p
  • 기하 분포의 분산 : (1-p)/p2

음이항분포

  • 어떤 실험에서 성공확률이 p일때, r번의 실패가 나올때까지 발생한 성공횟수 X의 확률 분포

  • 음이항분포의 기대값 : r(1-p)/p
  • 음이항분포의 분산 : r(1-p)/p2

총정리

강의 외 참고 자료