❤️ 배운것
엑셀을 활용한 데이터 분석
- 모집단, 전수 조사
- 표본, 표본 조사
- 유의수준 (오차한계: 5%)
- 신뢰수준 95%
- 가설 (귀무가설, 대립가설)
귀무가설을 기각하고 대립가설을 채택하는 기준 : p-value < 0.05
1종 오류: 귀무가설이 참인데 기각 (범죄자인데 무죄 판결)
2종 오류: 귀무가설이 거짓인데 기각하지 않은 경우 (범죄자가 아닌데 유죄 판결)
p-value는 1종오류를 발생시킬 확률
기술 통계
산술 평균 mean
중앙값 median
최빈값 mode
용어
편차: 평균에서 얼마나 떨어져 있는지
분산: 편차의 제곱의 합
표준편차: 분산에서 제곱근(root) 씌운 값
왜도(skewness): 왼쪽(-), 오른쪽(+)으로 치우친 정도
- 왼쪽 그림은 오른쪽이 heavy tail
첨도(kurtosis): 가운데로 모여있는지, 퍼져있는지 정도 (꼬리의 두께) - 음의 첨도(-0.514153196)는 퍼져있음
- 양의 첨도는 표준 정규분포보다 평균에 데이터가 더 많이 모여있는 뾰족한 형태
- 큰 편차 또는 outlier가 많을 수록 큰 값
표준 오차: 여러 개 뽑히는 표본평균들의 편차
- 표본의 크기가 커질수록 작아지며, 표본의 크기가 작을수록 커짐
- 표준 오차를 사용하여 신뢰 구간(confidence interval)을 계산하거나 가설 검정에서 t-통계량을 계산하는 데 활용
워크샵
철스크랩, 열연, 냉연 중에서 가장 좋은 원자재 찾기
- 저렴, 가격변동성, 품질중에 가격변동성이 덜한 비즈니스로 원자재 선택
기술통계 결과
- | 철스크랩 | 열연 | 냉연 |
---|---|---|---|
평균 | 291.6222 | 711.5046 | 845.7336 |
표준 편차 | 70.8568 | 91.24778 | 131.0595 |
첨도 | -0.9056 | 0.0193 | -0.6491 |
표준편차/평균 | 0.2429 | 0.1282 | 0.1549 |
결과: 열연이 가격 변동성이 가장 낮다.
이유: 열연의 표준 편차가 중간이면서, 표준편차/평균 값이 가장 낮기 때문
상관분석 (Correlation Analysis)
- 상관관계: 두 변수간에 일정한 관계가 있음
- 인과관계: 상관관계의 충분조건
상관이 있는 것 만으로는 인과가 있다고 할 수 없고, 인과의 전제에 지나지 않음
회귀분석
공변성: 두가지 변수가 함께 움직임
시간적 선후 관계: 시간적으로 어느 하나가 먼저 변화할 때 다른 하나가 뒤따라 변화
비허위성: 공변성과 선후관계의 양상이 제 3의 다른 변인으로 설명될 수 없어야 함
비허위성이 만족되지 않으면 인과관계가 성립 X
ex) 아이스크림과 범죄율은 불쾌지수라는 제3의 변인이 있어서 인과관계가 성립하지 않음
GDP - 행복점수 분석
행복 점수 = 종속변수 = y / 1인당 GDP = 독립변수 = x
-> 1인당 GDP가 올라감에따라 행복 점수가 올라간다. 가 문맥에 맞으면 앞이 x 뒤가 y
- 결정계수: 회귀식이 얼마나 정확한지를 나타내는 숫자 (0~1)
기준은 R^2 = 0.5로, 그것보다 크면 어느정도 믿을만 하다.
y의 변화량이 x의 변화량에 따라서 62%정도의 인과관계를 가지고 있다.
결정계수는 상관계수를 제곱하여 구함(다른 방법도 있음)
상관 관계는 두 변수 간의 · 직선관계
유의성 검사
유의성 검사란 회귀분석이 유의한지 확인하는 프로세스
내 모델이 신뢰할만한지 검증하는것
엑셀 기준 이름: P-Value(P-값), F-value(유의한 F)
- F값이 0.05보다 작아야 함
- 결정계수 및 조정된 결정계수가 0.5 이상이면 좋음
- 각 변수마다 P-Value가 0.05보다 작아야 함
오차와 잔차
오차(error)는 모집단(population)으로부터 추정한 회귀식으로부터 얻은 예측값과 실제 관측값의 차이
잔차(residual)는 표본(sample)으로 추정한 회귀식과 실제 관측값의 차이
잔차의 합은 0에 수렴
차원의 저주
차원이 커질수록 데이터가 상대적으로 희박해지는 것
- feature가 너무 많으면 performance가 하락
마이데이터 밀키트 실습
💛 배운점/느낀점
- 엑셀 상관분석, 회귀분석을 통해 회귀식의 메커니즘을 알게 됨
- 데이터 모델링 전 유의성 검사를 통해 상관 분석 및 회귀분석이 유의미한 지 확인 하는 방법을 알게 됨
'Education > 새싹 TIL' 카테고리의 다른 글
새싹 AI데이터엔지니어 핀테커스 2주차 (월) - 파이썬(1) (0) | 2023.09.04 |
---|---|
새싹 AI데이터엔지니어 핀테커스 1주차 (금) - 면접 특강 (0) | 2023.09.01 |
새싹 AI데이터엔지니어 핀테커스 1주차 (목) - 이력서 특강 (0) | 2023.08.31 |
새싹 AI데이터엔지니어 핀테커스 1주차 (화) (0) | 2023.08.29 |
새싹 AI데이터엔지니어 핀테커스 1주차 (월) (0) | 2023.08.28 |