firstStep
[ADsP - 데이터 분석] 확률·확률분포·추정·가설검정 본문
확률부터 가설검정까지, 통계 분석의 핵심 개념 한방에 정리!
여러분, "이게 정말 우연일까?"라는 생각, 해보신 적 있죠? 실제로 데이터 분석에서는 이런 '우연'을 그냥 넘기지 않습니다. 바로 확률과 가설검정을 통해 데이터를 더 깊이 들여다보거든요. ADsP 시험에서도 이 파트는 정말 자주 등장하고, 실무 분석에서도 추론 기반 의사결정의 핵심이 되기 때문에 반드시 짚고 넘어가야 해요.
오늘 포스트에서는 통계 분석의 핵심 개념인 확률, 확률분포, 추정, 가설검정을 초보자도 이해할 수 있도록 예제 중심으로 설명드릴게요. 특히 ADsP 기출문제에서 자주 등장하는 내용과 연결해서 설명하니, 이 글 하나로 이론+실전 모두 커버 가능합니다. 😎 준비되셨다면, 바로 시작해볼게요!
목차
1. 확률의 개념과 기본 법칙 🎲 [모의고사 포함]
"이건 운이야!"라는 말을 자주 하곤 하죠. 그런데 통계학에서는 이 '운'도 수학적으로 계산할 수 있어요. 그게 바로 확률(Probability)입니다. 확률은 어떤 사건이 일어날 가능성을 0부터 1 사이의 수로 표현한 개념이에요. 예를 들어, 동전을 던져 앞면이 나올 확률은 0.5(=50%)처럼요.
확률의 기본 개념과 용어 📘
- 표본공간(Sample Space, S) : 실험에서 가능한 모든 결과의 집합
- 사건(Event, A) : 표본공간의 부분집합 (예: 주사위에서 3이 나오는 사건)
- 확률(Probability, P) : 사건이 일어날 가능성을 수치화한 값 (0 ≤ P(A) ≤ 1)
확률의 3대 법칙 📏
- 덧셈법칙 (P(A ∪ B) = P(A) + P(B) – P(A ∩ B))
- 곱셈법칙 (P(A ∩ B) = P(A) × P(B|A))
- 여사건 법칙 (P(Ā) = 1 – P(A))
확률 문제를 풀 땐 "전체에서 얼마나 많은 경우가 해당 사건인가?"를 잘 따져야 해요. 특히 조건부확률이나 독립 사건을 묻는 문제는 많이 출제되니 꼭 체크하세요!
📘 모의고사 5문항 (기초 2문항 + 심화 3문항)
- 주사위를 한 번 던질 때 3 또는 5가 나올 확률은?
A. 1/6 B. 1/3 C. 1/2 D. 2/3
정답: B
→ 3 또는 5가 나올 경우의 수는 2, 전체 경우는 6, 따라서 2/6 = 1/3 - 동전을 두 번 던졌을 때 앞면이 한 번 나올 확률은?
A. 1/4 B. 1/2 C. 1/3 D. 3/4
정답: B
→ 경우의 수는 HH, HT, TH, TT 중 HT와 TH 2개 → 2/4 = 1/2 - A와 B가 독립이라면 P(A ∩ B)는?
A. P(A) + P(B) B. P(A) × P(B) C. P(A) – P(B) D. P(A) ÷ P(B)
정답: B
→ 독립 사건은 곱셈법칙 P(A ∩ B) = P(A) × P(B) - 조건부확률 P(B|A) = ?
A. P(A ∩ B)/P(B) B. P(B)/P(A) C. P(A ∩ B)/P(A) D. P(A) × P(B)
정답: C
→ 조건부확률 정의: P(B|A) = P(A ∩ B) / P(A) - 확률 P(A) = 0.3이라면 여사건 P(Ā)는?
A. 0.3 B. 0.5 C. 0.7 D. 1.3
정답: C
→ 여사건 법칙: P(Ā) = 1 – P(A) = 0.7
이제 확률의 기본 개념은 완전히 잡으셨죠? 😊 다음 파트에서는 확률과 가장 밀접한 친구인 확률분포에 대해 살펴보겠습니다!
#ADsP 공부, #확률분포, #ADsP 기출문제
2. 확률분포의 종류와 특징 📈 [모의고사 포함]
확률은 ‘일어날 가능성’을 말한다면, 확률분포는 그 가능성이 어떻게 퍼져 있는지를 말합니다. 쉽게 말해, 어떤 값이 얼마나 자주 나타나는지를 알려주는 통계 지도가 바로 확률분포예요. 🎯
특히 ADsP 시험에서는 이산 확률분포와 연속 확률분포를 구분하는 문제가 단골로 나와요. 개념만 잘 잡아도 반은 먹고 들어간다고 할 수 있죠!
이산 확률분포와 연속 확률분포의 차이 🔍
구분 | 이산 확률분포 | 연속 확률분포 |
---|---|---|
정의 | 정해진 개수의 결과에 대해 확률을 부여 | 무한한 실수 값에 대해 확률 밀도를 가짐 |
예시 | 이항분포, 포아송분포 | 정규분포, t분포, F분포 |
특징 | 확률의 합 = 1 | 면적 = 1, 특정값의 확률 = 0 |
대표 확률분포 요약 📝
- 이항분포(Binomial): 성공/실패 같은 두 가지 사건이 n번 반복될 때
- 포아송분포(Poisson): 일정 시간당 사건 발생 횟수 모델링
- 정규분포(Normal): 종 모양 곡선, 평균 중심 대칭
정규분포는 정말 자주 나옵니다! 평균과 표준편차만 알면 전체 데이터 분포를 알 수 있어요. 특히 68-95-99.7 법칙은 꼭 기억하세요!
🧪 모의고사 5문항 (기초 2문항 + 심화 3문항)
- 정규분포는 어떤 모양을 갖는가?
A. 직선형 B. 종형 C. 곡선형 D. 무작위
정답: B
→ 정규분포는 평균을 중심으로 대칭인 종 모양 곡선 - 이항분포에서 성공확률이 p일 때 평균은?
A. np B. n/p C. p/n D. n + p
정답: A
→ 평균 = n × p - 포아송분포는 어떤 상황에 적합한가?
A. 성공/실패 반복 실험 B. 고정 시간당 발생 수 C. 연속적인 수치 예측 D. 표본 분할
정답: B
→ 포아송은 일정 시간/공간당 발생 횟수 예측 - 이산 확률분포에 해당하지 않는 것은?
A. 이항분포 B. 포아송분포 C. 정규분포 D. 기하분포
정답: C
→ 정규분포는 연속 확률분포입니다 - 평균=0, 표준편차=1인 정규분포를 무엇이라 하는가?
A. 이항정규분포 B. 표준정규분포 C. 단일정규분포 D. 평균정규분포
정답: B
→ 평균 0, 표준편차 1 → 표준정규분포 Z
여기까지가 확률분포의 핵심이었어요! 다음은 그걸 바탕으로 실제 값을 추정하는 방법, 추정으로 이어집니다. 👍
#ADsP 모의고사, #확률분포, #정규분포
3. 점추정과 구간추정 📏 [모의고사 포함]
확률과 확률분포를 이해했다면 이제는 "전체 집단의 특성을 어떻게 알 수 있을까?"라는 질문에 답할 차례예요. 여기서 등장하는 개념이 바로 추정(Estimation)입니다. 전체 모집단을 조사하는 건 현실적으로 어렵기 때문에, 표본(sample)을 이용해 모수(parameter)를 예측하죠. 🔍
추정에는 두 가지 방법이 있어요: 점추정(point estimation)과 구간추정(interval estimation). 점 하나로 찍어서 예측할 것이냐, 아니면 일정한 범위 안에 있을 확률을 말할 것이냐의 차이죠.
점추정이란? 🎯
점추정은 말 그대로 하나의 값으로 모집단의 특성을 예측하는 방법이에요. 예를 들어, "우리 반 키 평균은 165cm야!"라는 말이 점추정입니다. 대표적인 추정량에는 표본평균, 표본비율, 표본분산 등이 있어요.
- 좋은 추정량의 조건: 불편성, 일치성, 효율성
구간추정이란? 📊
"우리 반 키 평균은 163cm에서 167cm 사이일 거야." 이게 바로 구간추정입니다. 실제 평균이 특정 범위 안에 포함될 신뢰도(confidence level)를 함께 제시하죠. 일반적으로 95% 신뢰구간을 많이 사용해요.
구간추정 공식 (모평균 μ에 대한 신뢰구간):
표본평균 ± 신뢰계수 × 표준오차
→ 이때 신뢰계수는 95%일 때 약 1.96을 사용합니다.
📝 모의고사 5문항 (기초 2문항 + 심화 3문항)
- 점추정 예시로 적절한 것은?
A. 평균 165cm에서 170cm 사이
B. 키 평균은 약 167cm
C. 키 평균은 정확히 167.5cm이다
D. 키가 160cm 이상일 확률
정답: C
→ 하나의 값으로 추정하는 것이 점추정 - 좋은 추정량의 조건이 아닌 것은?
A. 불편성 B. 일치성 C. 효율성 D. 다양성
정답: D
→ 다양성은 추정량의 조건이 아님 - 95% 신뢰구간에 대한 설명 중 옳은 것은?
A. 정확히 95% 확률로 평균이 그 안에 존재한다
B. 동일 조건 반복 시, 95% 구간에 평균이 포함될 확률
C. 평균은 반드시 구간 안에 존재한다
D. 평균은 항상 구간 밖에 존재할 수 있다
정답: B
→ 신뢰구간은 장기적으로 반복했을 때 포함되는 비율 - 구간추정에서 표준오차가 커지면 어떻게 될까?
A. 신뢰구간이 좁아진다
B. 신뢰구간이 넓어진다
C. 신뢰수준이 높아진다
D. 신뢰계수가 작아진다
정답: B
→ 표준오차가 크면 ± 범위가 넓어짐 - 신뢰계수가 높아지면 신뢰구간은 어떻게 변할까?
A. 좁아진다 B. 일정하다 C. 넓어진다 D. 무관하다
정답: C
→ 신뢰계수가 높아질수록 구간도 넓어짐
점추정과 구간추정은 ‘얼마나 정확하게 예측하느냐’의 관점에서 매우 중요합니다. 다음 파트에서는 이 예측이 과연 맞았는지를 검증하는 가설검정으로 넘어가볼게요!
#ADsP 추정, #신뢰구간, #통계기초
4. 가설검정의 절차와 개념 ⚖️ [모의고사 포함]
“이 차이가 우연일까, 아니면 진짜일까?”
이런 질문에 과학적으로 답을 주는 것이 바로 가설검정(Hypothesis Testing)이에요. ADsP 시험에서도 가장 자주 출제되는 파트 중 하나이며, 데이터 분석 실무에서도 의사결정의 핵심 도구로 쓰이죠.
추정을 통해 "이 정도면 평균이 맞을 거야"라고 했다면, 가설검정은 "정말 그런지 확인해보자!"에 해당하는 논리적 검증 절차입니다. 👨🔬
가설검정의 기본 용어 정리 📚
- 귀무가설(H₀): 변화나 차이가 없다는 가정 (기본 가정)
- 대립가설(H₁): 변화나 차이가 있다는 가정 (새로운 주장)
- 유의수준(α): 귀무가설을 기각할 기준값 (보통 0.05 사용)
- p값(p-value): 실제 관측된 값이 귀무가설 하에서 나타날 확률
가설검정의 절차 🔍
- 1. 가설 설정 (H₀ vs H₁)
- 2. 유의수준 α 선택 (예: 0.05)
- 3. 검정통계량 계산 (z, t 등)
- 4. 유의확률(p-value) 계산
- 5. p-value와 α 비교 → 가설 채택/기각
💡 p값 < α → 귀무가설 기각 (통계적으로 유의함)
💡 p값 ≥ α → 귀무가설 채택 (차이가 유의하지 않음)
📘 모의고사 5문항 (기초 2문항 + 심화 3문항)
- 귀무가설의 의미로 옳은 것은?
A. 새로운 주장을 담은 가설
B. 기존 상태가 유지된다는 가설
C. 실험 결과를 의미하는 가설
D. 표본으로 만든 임시 가설
정답: B
→ 귀무가설은 ‘차이가 없다’는 기본 상태 가정 - 유의수준 0.05란 무엇을 의미하는가?
A. 오차가 5% 이내이다
B. 귀무가설이 틀릴 확률
C. 귀무가설을 기각할 기준값
D. 대립가설이 참일 확률
정답: C
→ 유의수준은 기각 기준값(통상 5%) - p-value가 0.02일 때, 유의수준 0.05와 비교 결과는?
A. 유의미하지 않다
B. 귀무가설을 채택한다
C. 귀무가설을 기각한다
D. 대립가설을 기각한다
정답: C
→ p값이 유의수준보다 작으므로 기각 - 가설검정에서 제1종 오류란?
A. 귀무가설을 잘못 채택함
B. 대립가설을 잘못 채택함
C. 귀무가설을 잘못 기각함
D. 검정통계량을 잘못 계산함
정답: C
→ 실제로는 맞는 귀무가설을 기각한 오류 - p값이 클수록 어떤 해석이 맞는가?
A. 통계적으로 유의함
B. 귀무가설을 기각할 가능성 큼
C. 차이가 의미 없음
D. 대립가설이 우세함
정답: C
→ p값이 크면 유의하지 않음 → 차이가 없음
이제 가설검정의 흐름이 보이시죠? 다음 단계에서는 실전에서 가장 자주 등장하는 Z검정, t검정을 구체적으로 비교하며 살펴볼 거예요.
#가설검정, #p값해석, #ADsP 가설문제
5. Z검정, t검정 완전 정복 🧪 [모의고사 포함]
가설검정에서 가장 자주 등장하는 두 친구, 바로 Z검정(Z-test)과 t검정(t-test)입니다. ADsP 시험에서도 이 둘의 사용 조건 차이를 묻는 문제가 단골로 나오니, 제대로 구분할 수 있어야 해요!
Z검정 vs t검정 차이표 📋
항목 | Z검정 | t검정 |
---|---|---|
사용 조건 | 모분산을 알고 있고, 표본이 클 때 (n ≥ 30) | 모분산을 모를 때, 혹은 표본이 작을 때 (n < 30) |
분포 | 표준정규분포(Z) | t분포 |
자주 쓰이는 분야 | 품질관리, 대규모 데이터 분석 | 사회과학, 심리학, 의학 연구 등 소표본 분석 |
Z검정과 t검정 모두 평균 간의 차이를 검정한다는 점에서는 같지만, 분산을 알고 있느냐와 표본 크기에 따라 선택이 달라진다는 점 기억하세요!
t검정의 종류 💡
- 단일표본 t검정: 특정 평균과 표본 평균 비교
- 독립표본 t검정: 두 집단 평균 비교 (예: 남학생 vs 여학생 성적)
- 대응표본 t검정: 동일 집단의 전후 비교 (예: 다이어트 전후 체중)
📝 모의고사 5문항 (기초 2문항 + 심화 3문항)
- Z검정의 전제 조건으로 옳은 것은?
A. 표본 수가 작을 것
B. 모분산을 모를 것
C. 모분산을 알고 있을 것
D. 정규분포가 아닐 것
정답: C
→ Z검정은 모분산을 알고 있어야 가능 - t검정이 필요한 상황은?
A. 데이터가 명목형일 때
B. 표본 수가 매우 많을 때
C. 모분산을 알 때
D. 표본 수가 작고 모분산을 모를 때
정답: D
→ t검정은 소표본 & 모분산 미지시 사용 - 동일 대상의 전후 데이터를 비교하는 검정은?
A. 독립표본 t검정
B. 대응표본 t검정
C. 단일표본 t검정
D. 카이제곱검정
정답: B
→ 전후 변화는 대응표본 t검정 - Z검정에서 사용하는 분포는?
A. 카이제곱분포
B. 정규분포
C. F분포
D. t분포
정답: B
→ Z검정은 표준정규분포 사용 - 다음 중 독립표본 t검정이 적합한 경우는?
A. 같은 사람의 다이어트 전/후 비교
B. 한 집단의 평균 비교
C. 남성과 여성의 시험 점수 비교
D. 비율 차이 검정
정답: C
→ 서로 다른 두 집단 비교 → 독립표본 t검정
여기까지 오셨으면 이제 가설검정에서 어떤 검정을 써야 할지도 눈에 들어오셨을 거예요. 다음 파트에서는 지금까지의 내용을 요약하고, 실전 대비용 통합 모의고사로 마무리해볼게요!
#Z검정, #t검정, #통계검정조건, #ADsP 출제유형
6. 핵심 요약 & 실전 모의고사 📝 [모의고사 포함]
📌 핵심 요약 정리
- 확률: 사건이 일어날 가능성 (0~1 사이)
- 확률분포: 사건의 발생 확률이 어떻게 분포되는지
- 추정: 표본을 통해 모수 예측 (점추정, 구간추정)
- 가설검정: 통계적으로 주장 검증 (p값 & 유의수준)
- Z검정 vs t검정: 모분산, 표본크기 여부로 구분
🎯 실전 모의고사 5문항 (복합 난이도)
- 동전을 3번 던질 때, 앞면이 2번 나올 확률은?
A. 3/8 B. 1/4 C. 1/2 D. 5/8
정답: A
→ 경우의 수는 HTT, THT, TTH → 3/8 - 표본평균 = 60, 표준편차 = 10, n = 25일 때 95% 신뢰구간은?
A. 55~65 B. 58~62 C. 56~64 D. 54~66
정답: C
→ 표준오차 = 10/√25 = 2 → 60±1.96×2 ≈ 56.08~63.92 - 정규분포에서 평균±1σ 안에 포함되는 비율은?
A. 68% B. 75% C. 90% D. 95%
정답: A
→ 68-95-99.7 법칙 - p값=0.07, α=0.05인 경우 올바른 결론은?
A. 유의미하다 B. 귀무가설 기각
C. 귀무가설 채택 D. 대립가설 채택
정답: C
→ p값 > α → 귀무가설 채택 - t검정이 아닌 검정 방법은?
A. 단일표본 검정 B. 정규성 검정 C. 독립표본 검정 D. 대응표본 검정
정답: B
→ 정규성 검정은 t검정 종류 아님
지금까지의 내용을 기반으로 하면 ADsP 시험의 통계 파트 문제를 80% 이상은 맞힐 수 있습니다! 이론도 익혔고, 실전 문제도 풀었고… 이제 남은 건 반복 복습뿐이죠. 💪
#ADsP 통계총정리, #확률추정검정, #모의고사필수
마무리 🎓 통계 분석, 이제 자신 있죠?
통계 분석의 네 가지 핵심 주제인 확률, 확률분포, 추정, 가설검정은 ADsP 시험의 중심축이자, 실제 데이터 분석 실무에서도 의사결정의 기반이 됩니다. 복잡하고 어려워 보이지만, 하나씩 구조적으로 접근하면 충분히 마스터할 수 있어요. 🎯
단기적으로는 기출문제 풀이와 오답 분석을 반복하고, 장기적으로는 실제 데이터를 활용한 예제 분석을 추천드립니다. 예컨대, A/B 테스트나 설문조사 데이터 분석 같은 사례를 통해 통계적 추론이 어떻게 사용되는지를 체감해보세요.
이 글이 여러분의 ADsP 학습 여정에 작은 이정표가 되길 바라며, 더 다양한 주제의 실전 콘텐츠는 곧 업로드될 ‘ADsP 기출 완전 분석’ 편에서 이어가겠습니다. 기대해주세요! 🚀
'ADsP' 카테고리의 다른 글
[ADsP - 데이터 분석] PCA·FA·MDS, 시계열 ARIMA·ETS (0) | 2025.05.21 |
---|---|
[ADsP - 데이터 분석] 회귀, 분산분석(ANOVA), 상관·카이제곱 (0) | 2025.05.20 |
[ADsP - 데이터 분석] 결측치·이상치 탐지 & 처리, 스케일링, 피처엔지니어링 (0) | 2025.05.18 |
[ADsP - 데이터 분석] 외부 데이터 수집/정제, 데이터 마트 설계·ETL (0) | 2025.05.17 |
[ADsP - 데이터 분석] Tidyverse의 핵심 dplyr과 tidyr 완전 정복 (0) | 2025.05.16 |