728x90

1. 기초 수학 및 통계학

확률 변수와 확률 분포

이산 확률

이산적이란, 연속적이지 않고 떨어져서 구분되거나 비연속적인 것(ex: 주사위)
불연속적인 이산확률 변수(discrete random variable) 에 대한 확률함수를 확률 질량함수(probability mass function)이라고 함

베르누이 확률 분포: 0, 1 두개의 값만 있음 -> 이항분포(binomial distribution): 베르누이 시행을 n번 한 것
멀티눌리 분포: 주사위처럼 여러개의 이산값 -> 다항 분포(multinomial distribution)

연속 확률

연속적인 값을 다루는 연속 확률 변수(continuous random variable)
확률변수가 가질 수 있는 값의 개수를 ‘셀 수 없다’ (ex: 중학생 키의 분포)
연속 확률 분포(continuous probability distribution)

누적 분포 함수

주어진 확률 변수가 특정값보다 작거나 같을 확률을 나타내는 함수

결합 확률

결합 확률(joint probability) 이란 두 개 이상의 사건이 동시에 일어날 확률 ->P(A, B)
P(A=3, B=2)는 서로에게 영향을 끼치지 않아서 독립관계
-> P(A,B) = P(A)P(B)
독립 항등분포란 두 개 이상의 확률 변수를 고려할 때, 각 확률 변수가 통계적으로 독립이고, 동일한 확률 분포를 따르는 것

평균과 분산

산술평균
기하평균
조화평균
모평균(population mean): 모집단(전체)의 평균
표본 평균(sample mean): 모평균의 추정량
분산(variance): 데이터가 얼마나 퍼져 있는지 수치화한 것, 평균에 대한 편차 제곱의 평균으로 계산
표준편차: 분산의 양의 제곱근

표준편차가 분산에 루트를 씌우는 이유: 분산은 편차 제곱을 시킨것이라서 다시 원래 단위로 조정해야 편차가 얼마인지 이해하기 쉬워서

상관관계

공분산(covariance): 두 확률 변수의 상관관계를 나타내는 값

변수 X의 편차와 변수 Y의 편차를 곱한 값의 평균

  1. Cov(X,Y) > 0 , 양의 상관관계(positively correlated)
  2. Cov(X,Y) < 0 , 음의 상관관계(negatively correlated)
  3. Cov(X,Y) = 0 , 상관관계 없음(uncorrelated)

공분산은 변수 순서와 상관 없이 같은 값을 가짐
확률 변수가 서로 독립이면 공분산은 0

공분산 행렬: 확률 변수 간 분산, 공분산을 행렬로 표현한 것, 차원 축소할 때 자주 사용

상관계수(population coefficient of correlation)
상관계수는 공분산을 각 변수의 표준편차로 나눔, -1에서 1 사이의 값

균일 분포

균일분포(uniform distributuion): 특정 범위 내에서 확률 분포가 균일한 분포

  • 이산형 균일분포(주사위)
  • 연속형 균일분포
    균일 분포는 머신러닝에서 베이지안 방법론을 사용할 때 사전 정보가 없는 경우 초기 분포로 많이 사용

정규 분포

정규분포(normal distribution) = gaussian distribution, 종모양 분포
N(μ, σ^2)

x-μ/σ : 데이터 표준화(standardization)에 사용
표준화란 원래 데이터에서 평균을 빼고 표준편차로 나누는 것을 의미
-> 이 단계를 지나면 데이터는 평균이 0이고 분산이 1인 분포로 변경됨

최대 가능도 추정

기댓값과 샘플링
기댓값은 보상과 보상을 받을 확률을 곱한 값의 총합 = 가중평균(weighted average)

몬테카를로 샘플링: 랜덤 성질을 이용하여 임의의 함수 적분을 근사하는 방법
k번 샘플링한 값을 균등분포 인것 처럼 다루어 가중평균 대신 단순한 1/k 즉 산술평균을 구한다.

Likelihood: 확률 분포에서 파라미터가 고정되어 있을 때, 샘플을 얻을 수 있는 확률을 가능도/우도 라고 함
가능도 함수(likelihood function): 결합 확률 밀도 함수와 동일한 형태이지만 함수를 바랍는 시점이 확률변수가 아니라 파라미터로 변경한 함수
로그 가능도 함수(log-likelihood function): 가능도 함수에 로그 취한 함수
로그 가능도 함수를 쓰는 이유는 확률을 계속 곱하다보면 0에 수렴하는데 0이 되지 않게 하려고

MLE : 최대 우도 추정, Maximum Likelihood Estimation
가능도 함수를 사용해 가장 그럴듯한 추정값을 파라미터로 추정하는 것

파라미터 추정방법은 가능도 함수를 최대화 하는 값을 파라미터로 추정
-> 미분해서 기울기가 0인 지점을 파라미터로 추정하고 MLE라고 부른다.

최대 사후 추정

조건부 확률(conditional probability): 조건이 주어질 때의 확률

베이즈 추정

2. 파이토치

파이토치 기전

  1. nn.Module 클래스를 상속받아 모델 아키텍처 클래스 선언
  2. 해당 클래스 객체 생성
  3. SGD나 Adam 등의 옵티마이저를 생성하고, 생성한 모델의 파라미터를 최적화 대상으로 등록
  4. 데이터로 미니배치를 구성하여 피드포워드 연산 그래프 작성
  5. 손실 함수를 통해 최종 결괏값 과 손실값 계산
  6. 손실에 대해서 backward() 호출 -> 연산 그래프 상의 텐서들의 기울기가 채워짐
  7. 3번의 옵티마이저에서 step()을 호출하여 경사하강법 1 스텝 수행
  8. 4번으로 돌아가 수렴 조건이 만족할 때까지 반복 수행

참고 도서
(김기현의) 자연어 처리 딥러닝 캠프: 딥러닝 기반의 자연어 처리 기초부터 심화까지, 파이토치 편
선형대수와 통계학으로 배우는 머신러닝 with 파이썬

반응형