1. 기초 수학 및 통계학
확률 변수와 확률 분포
이산 확률
이산적이란, 연속적이지 않고 떨어져서 구분되거나 비연속적인 것(ex: 주사위)
불연속적인 이산확률 변수(discrete random variable) 에 대한 확률함수를 확률 질량함수(probability mass function)이라고 함
베르누이 확률 분포: 0, 1 두개의 값만 있음 -> 이항분포(binomial distribution): 베르누이 시행을 n번 한 것
멀티눌리 분포: 주사위처럼 여러개의 이산값 -> 다항 분포(multinomial distribution)
연속 확률
연속적인 값을 다루는 연속 확률 변수(continuous random variable)
확률변수가 가질 수 있는 값의 개수를 ‘셀 수 없다’ (ex: 중학생 키의 분포)
연속 확률 분포(continuous probability distribution)
누적 분포 함수
주어진 확률 변수가 특정값보다 작거나 같을 확률을 나타내는 함수
결합 확률
결합 확률(joint probability) 이란 두 개 이상의 사건이 동시에 일어날 확률 ->P(A, B)
P(A=3, B=2)는 서로에게 영향을 끼치지 않아서 독립관계
-> P(A,B) = P(A)P(B)
독립 항등분포란 두 개 이상의 확률 변수를 고려할 때, 각 확률 변수가 통계적으로 독립이고, 동일한 확률 분포를 따르는 것
평균과 분산
산술평균
기하평균
조화평균
모평균(population mean): 모집단(전체)의 평균
표본 평균(sample mean): 모평균의 추정량
분산(variance): 데이터가 얼마나 퍼져 있는지 수치화한 것, 평균에 대한 편차 제곱의 평균으로 계산
표준편차: 분산의 양의 제곱근
표준편차가 분산에 루트를 씌우는 이유: 분산은 편차 제곱을 시킨것이라서 다시 원래 단위로 조정해야 편차가 얼마인지 이해하기 쉬워서
상관관계
공분산(covariance): 두 확률 변수의 상관관계를 나타내는 값
변수 X의 편차와 변수 Y의 편차를 곱한 값의 평균
- Cov(X,Y) > 0 , 양의 상관관계(positively correlated)
- Cov(X,Y) < 0 , 음의 상관관계(negatively correlated)
- Cov(X,Y) = 0 , 상관관계 없음(uncorrelated)
공분산은 변수 순서와 상관 없이 같은 값을 가짐
확률 변수가 서로 독립이면 공분산은 0
공분산 행렬: 확률 변수 간 분산, 공분산을 행렬로 표현한 것, 차원 축소할 때 자주 사용
상관계수(population coefficient of correlation)
상관계수는 공분산을 각 변수의 표준편차로 나눔, -1에서 1 사이의 값
균일 분포
균일분포(uniform distributuion): 특정 범위 내에서 확률 분포가 균일한 분포
- 이산형 균일분포(주사위)
- 연속형 균일분포
균일 분포는 머신러닝에서 베이지안 방법론을 사용할 때 사전 정보가 없는 경우 초기 분포로 많이 사용
정규 분포
정규분포(normal distribution) = gaussian distribution, 종모양 분포
N(μ, σ^2)
x-μ/σ : 데이터 표준화(standardization)에 사용
표준화란 원래 데이터에서 평균을 빼고 표준편차로 나누는 것을 의미
-> 이 단계를 지나면 데이터는 평균이 0이고 분산이 1인 분포로 변경됨
최대 가능도 추정
기댓값과 샘플링
기댓값은 보상과 보상을 받을 확률을 곱한 값의 총합 = 가중평균(weighted average)
몬테카를로 샘플링: 랜덤 성질을 이용하여 임의의 함수 적분을 근사하는 방법
k번 샘플링한 값을 균등분포 인것 처럼 다루어 가중평균 대신 단순한 1/k 즉 산술평균을 구한다.
Likelihood: 확률 분포에서 파라미터가 고정되어 있을 때, 샘플을 얻을 수 있는 확률을 가능도/우도 라고 함
가능도 함수(likelihood function): 결합 확률 밀도 함수와 동일한 형태이지만 함수를 바랍는 시점이 확률변수가 아니라 파라미터로 변경한 함수
로그 가능도 함수(log-likelihood function): 가능도 함수에 로그 취한 함수
로그 가능도 함수를 쓰는 이유는 확률을 계속 곱하다보면 0에 수렴하는데 0이 되지 않게 하려고
MLE : 최대 우도 추정, Maximum Likelihood Estimation
가능도 함수를 사용해 가장 그럴듯한 추정값을 파라미터로 추정하는 것
파라미터 추정방법은 가능도 함수를 최대화 하는 값을 파라미터로 추정
-> 미분해서 기울기가 0인 지점을 파라미터로 추정하고 MLE라고 부른다.
최대 사후 추정
조건부 확률(conditional probability): 조건이 주어질 때의 확률
베이즈 추정
2. 파이토치
파이토치 기전
- nn.Module 클래스를 상속받아 모델 아키텍처 클래스 선언
- 해당 클래스 객체 생성
- SGD나 Adam 등의 옵티마이저를 생성하고, 생성한 모델의 파라미터를 최적화 대상으로 등록
- 데이터로 미니배치를 구성하여 피드포워드 연산 그래프 작성
- 손실 함수를 통해 최종 결괏값 과 손실값 계산
- 손실에 대해서 backward() 호출 -> 연산 그래프 상의 텐서들의 기울기가 채워짐
- 3번의 옵티마이저에서 step()을 호출하여 경사하강법 1 스텝 수행
- 4번으로 돌아가 수렴 조건이 만족할 때까지 반복 수행
참고 도서
(김기현의) 자연어 처리 딥러닝 캠프: 딥러닝 기반의 자연어 처리 기초부터 심화까지, 파이토치 편
선형대수와 통계학으로 배우는 머신러닝 with 파이썬
'AI > Books' 카테고리의 다른 글
선형대수와 통계학으로 배우는 머신러닝 - Chap9 앙상블 학습 (0) | 2023.12.25 |
---|---|
선형대수와 통계학으로 배우는 머신러닝 - Chap8 지도 학습 (1) | 2023.12.25 |
선형대수와 통계학으로 배우는 머신러닝 - Chap7 손실함수 (0) | 2023.12.25 |
선형대수와 통계학으로 배우는 머신러닝 - Chap6 머신러닝 데이터 라이브러리 (Scikit-Learn) (0) | 2023.12.25 |
선형대수와 통계학으로 배우는 머신러닝 - Chap3 선형대수 (0) | 2023.12.25 |