[ADsP - 데이터 분석] 회귀, 분산분석(ANOVA), 상관·카이제곱
3-3 통계 분석
📊 회귀·분산분석(ANOVA)·상관분석·카이제곱 완전정복 [ADsP 통계 분석 핵심]
여러분, 통계 분석이 어렵다고 느끼셨던 적 있으신가요? 🤔 사실 ADsP 자격증에서 가장 까다롭게 느껴지는 파트가 바로 이 회귀·분산분석·상관·카이제곱 항목일 거예요. 처음 접하면 용어도 낯설고, 수식도 복잡해 보이죠. 하지만 이 영역은 데이터의 인과 관계, 차이, 연관성을 수치적으로 증명하는 핵심 도구입니다.
제가 처음 ADsP를 공부할 때도 이 파트는 ‘나만 어려운 거야?’라는 생각이 들 정도로 혼란스러웠어요. 하지만 각 분석 기법이 ‘무엇을 비교하고 싶은지’에 따라 쓰임이 정해진다는 걸 이해하고 나서는, 퍼즐처럼 쏙쏙 맞아 떨어졌답니다. 😊
이 글에서는 ADsP 출제 기준에 따라 회귀분석, 분산분석(ANOVA), 상관분석, 카이제곱 검정을 각각 정리해드릴게요. 각 분석 방법이 어떤 데이터를 대상으로 하고, 언제 사용하며, 결과는 어떻게 해석하는지까지 한 번에 정리하고 모의고사 문제도 같이 풀어보면서 확실하게 내 것으로 만들어 봅시다!
🧭 목차
1. 회귀분석의 개념과 활용 [모의고사 포함]
회귀분석은 하나의 종속 변수(Y)가 하나 또는 여러 개의 독립 변수(X)와 어떤 관계가 있는지 분석하는 기법이에요. 쉽게 말하면, X값이 변할 때 Y값이 어떻게 달라지는지를 예측하는 거죠. 예를 들어, 공부 시간(X)이 늘어나면 시험 점수(Y)가 얼마나 오를지 예측하고 싶다면 회귀분석을 사용합니다.
📌 단순회귀 vs 다중회귀
- 단순회귀(Simple Regression): 독립변수가 1개일 때 사용
- 다중회귀(Multiple Regression): 독립변수가 2개 이상일 때 사용
회귀식은 일반적으로 다음과 같이 표현돼요:
Y = a + bX + ε
(여기서 a는 절편, b는 회귀계수, ε는 오차항)
📈 회귀분석에서 꼭 알아야 할 용어
- 회귀계수 (b): X가 1 단위 증가할 때 Y가 얼마나 변하는지
- 결정계수 (R²): 모델이 Y를 얼마나 잘 설명하는지를 나타내는 지표 (0~1 사이)
- p-value: 회귀계수가 통계적으로 유의한지 확인하는 값 (보통 0.05 미만이면 유의함)
📝 회귀분석 모의고사 (5문항)
- 단순회귀분석에서 독립변수가 하나일 경우 회귀식은 어떻게 표현되나요?
정답: Y = a + bX
해설: X가 하나인 경우 회귀식은 절편과 회귀계수로 구성된 선형식입니다. - 회귀분석에서 회귀계수의 통계적 유의성을 판단하는 데 쓰이는 값은?
정답: p-value
해설: p-value가 0.05보다 작으면 회귀계수가 유의하다고 판단합니다. - 다중회귀분석에서 독립변수가 늘어나면 결정계수 R² 값은 보통 어떻게 되나요?
정답: 증가한다
해설: 변수가 많을수록 R²는 커지지만, 과적합 문제도 주의해야 해요. - 다음 중 회귀분석의 전제 조건이 아닌 것은?
① 독립성 ② 등분산성 ③ 정규성 ④ 변수 간 다중공선성
정답: ④ 변수 간 다중공선성
해설: 다중공선성은 문제가 되는 조건이지, 분석 전제는 아닙니다. - 회귀분석 결과에서 결정계수 R² 값이 0.85일 때, 해석은?
정답: 전체 변동의 85%를 설명한다
해설: R²은 모델이 데이터를 설명하는 비율로, 0.85면 설명력이 매우 높은 편입니다.
이처럼 회귀분석은 데이터의 예측뿐 아니라 변수 간 관계 해석에도 큰 도움을 줍니다. 특히 ADsP 시험에서는 단순회귀의 개념, 해석, p-value, R² 중심 문제 출제가 자주 이뤄지니 반드시 이해하고 연습해두세요.
ADsP 회귀분석, 단순회귀, 결정계수 R² 등의 키워드는 자주 등장하니 꼭 익혀두시길 바랍니다.
2. 분산분석(ANOVA)의 원리와 실전 적용 [모의고사 포함]
ANOVA(분산분석)는 '여러 집단 간 평균이 서로 다른가?'를 검정하는 데 사용하는 통계 기법이에요. 회귀분석이 '예측'을 위한 도구라면, 분산분석은 '차이'를 검정하는 도구입니다. 예를 들어, 세 개의 다른 다이어트 프로그램이 체중 감소에 효과가 다른지를 확인하고 싶을 때 ANOVA를 사용합니다.
📌 일원분산분석 vs 이원분산분석
- 일원분산분석: 하나의 요인만 고려 (예: 다이어트 프로그램 종류)
- 이원분산분석: 두 개 이상의 요인을 고려 (예: 프로그램 종류 + 성별)
분산분석의 핵심은 F-통계량입니다. 이 값이 크고 p-value가 작다면 집단 간 평균 차이가 유의하다는 의미죠.
F = 집단 간 분산 / 집단 내 분산
📊 ANOVA의 전제 조건
- 모든 집단은 정규분포를 따라야 함
- 분산은 서로 동일해야 함 (등분산성)
- 각 샘플은 독립적으로 추출되어야 함
📝 ANOVA 모의고사 (5문항)
- ANOVA는 어떤 통계량을 기반으로 분석하나요?
정답: F-값
해설: F-값은 집단 간 분산과 집단 내 분산의 비율입니다. - 다음 중 분산분석의 전제 조건이 아닌 것은?
① 정규성 ② 독립성 ③ 등분산성 ④ 변수 간 상관성
정답: ④ 변수 간 상관성
해설: ANOVA는 집단 간 평균 차이를 보며, 변수 간 상관성은 고려 대상이 아닙니다. - 세 집단의 평균 비교에 사용할 수 있는 방법은?
정답: 일원분산분석
해설: 평균이 3개 이상이면 t검정 대신 ANOVA를 사용해야 합니다. - ANOVA에서 유의한 차이가 나타났다면 다음 단계는?
정답: 사후검정(Post-hoc test)
해설: 어떤 집단 간에 차이가 있는지 파악하기 위해 사후검정을 합니다. - 다음 중 이원분산분석에 해당하는 예는?
정답: 제품 종류와 성별이 만족도에 미치는 영향 분석
해설: 두 개의 독립 요인을 동시에 고려하면 이원분산분석입니다.
ANOVA는 평균 간 차이를 검정하는 핵심 도구이며, ADsP에서는 전제 조건, F값 해석, 사후검정 유무 등을 중심으로 출제됩니다. 꼭 개념을 구조화해두세요!
출제 키워드로는 일원분산분석, 이원분산분석, F-분포, 사후검정이 자주 등장합니다.
3. 상관분석과 피어슨 상관계수의 해석법 [모의고사 포함]
상관분석은 두 변수 간의 연관성을 측정하는 방법이에요. 쉽게 말해, A가 커질수록 B도 커지는지, 반대로 줄어드는지를 수치로 표현한 것이죠. 우리가 흔히 '둘이 얼마나 관련 있어?'라고 물을 때 쓰는 게 바로 이 상관분석이에요.
📌 피어슨 상관계수(Pearson r)
피어슨 상관계수는 가장 일반적으로 사용하는 상관계수예요. 값의 범위는 -1에서 1 사이이고, 다음과 같이 해석해요:
r 값 | 해석 |
---|---|
1 | 완전한 양의 상관관계 |
0.7 ~ 0.9 | 강한 양의 상관 |
0.3 ~ 0.6 | 보통 수준의 양의 상관 |
0 ~ 0.3 | 약한 양의 상관 |
0 | 상관 없음 |
-1 | 완전한 음의 상관관계 |
🔍 상관 ≠ 인과
꼭 기억해야 할 점은 상관관계가 있다고 해서 인과관계가 있는 것은 아니라는 것이에요. 예를 들어, 아이스크림 판매량과 익사 사고 건수는 모두 여름에 증가하지만, 서로 원인과 결과는 아니죠.
📝 상관분석 모의고사 (5문항)
- 피어슨 상관계수의 범위는?
정답: -1 ~ 1
해설: -1은 완전한 음의 상관, 1은 완전한 양의 상관을 의미합니다. - 상관계수가 0일 경우, 무엇을 의미하나요?
정답: 상관이 없다
해설: 두 변수 간에 직선적 연관성이 전혀 없음을 의미해요. - r = -0.85는 어떤 관계를 의미하나요?
정답: 강한 음의 상관관계
해설: r이 -0.7 이하이면 강한 음의 관계로 해석됩니다. - 상관분석의 결과가 인과관계를 의미하나요?
정답: 아니다
해설: 상관 ≠ 인과. 두 변수 간 관계가 있어도 원인과 결과는 아님. - 상관계수의 해석에서 가장 주의해야 할 점은?
정답: 인과관계로 해석하지 않기
해설: 높은 상관이 있다고 해서 반드시 원인-결과 관계는 아닙니다.
ADsP에서는 상관계수의 해석, 음/양의 방향, r값의 크기, 인과성 여부를 묻는 문제가 자주 출제돼요. 개념은 간단하지만 헷갈리기 쉬우니 꼭 반복 확인하세요.
출제 키워드는 피어슨 상관계수, 상관과 인과, 음의 상관, r 해석 등이 있습니다.
4. 카이제곱 검정의 의미와 적용 사례 [모의고사 포함]
카이제곱 검정(χ² Test)은 범주형 데이터 간의 독립성 또는 적합성을 검정하는 데 사용하는 통계 기법이에요. 예를 들어, 성별과 제품 선호도 사이에 연관이 있는지를 알고 싶다면, 바로 이 카이제곱 검정을 사용하죠.
📌 두 가지 카이제곱 검정
- 적합도 검정(Goodness of Fit): 관찰 빈도가 기대 빈도와 얼마나 차이 나는지를 검정
- 독립성 검정(Test of Independence): 두 변수 간 관련성이 있는지를 확인
χ² 검정은 다음 수식을 기반으로 해요:
χ² = Σ (관측값 - 기대값)² / 기대값
📊 카이제곱 검정의 조건
- 데이터는 범주형(질적)이어야 함
- 모든 셀의 기대빈도는 5 이상이어야 함
- 각 표본은 독립적이어야 함
📝 카이제곱 검정 모의고사 (5문항)
- 카이제곱 검정에서 사용하는 데이터 유형은?
정답: 범주형
해설: 카이제곱 검정은 질적(분류형) 데이터의 빈도를 비교할 때 사용해요. - 적합도 검정의 목적은 무엇인가요?
정답: 관측값이 기대값과 얼마나 다른지를 검정
해설: 하나의 변수 분포가 기대 분포와 일치하는지를 판단합니다. - 두 변수의 독립성을 확인하는 데 쓰이는 검정은?
정답: 카이제곱 독립성 검정
해설: 예를 들어 성별과 구매 여부의 관계를 파악할 때 사용됩니다. - 기대빈도가 너무 작으면 χ² 검정에 어떤 문제가 생기나요?
정답: 검정 결과의 신뢰도 저하
해설: 기대값이 5 미만이면 χ² 분포 근사 조건을 만족하지 못합니다. - 카이제곱 검정에서 유의미한 결과가 나왔다면, 이는 무엇을 의미하나요?
정답: 두 변수 간 관련성이 있다
해설: 독립이 아니라는 귀무가설을 기각하고, 두 변수가 관련 있다는 대립가설을 채택합니다.
ADsP 시험에서는 적합도 검정과 독립성 검정의 차이, 기대빈도 조건, 해석 문장 등을 정확히 알고 있어야 해요. 빈도표 기반 문제가 자주 나오니 실전 문제도 꼭 연습하세요!
자주 나오는 키워드: χ² 통계량, 독립성 검정, 기대빈도, 범주형 데이터
5. 통계 분석별 적용 조건 비교 [모의고사 포함]
회귀분석, 분산분석, 상관분석, 카이제곱 검정은 각각 쓰임새가 달라요. 하지만 실제 분석을 할 때 "지금 이 데이터에 어떤 분석을 써야 할까?" 하는 고민이 생기곤 하죠. 그래서 이번엔 각 분석 기법의 적용 조건과 구분 포인트를 한눈에 정리해볼게요.
📊 분석기법별 비교 테이블
기법 | 사용 목적 | 데이터 유형 | 전제 조건 |
---|---|---|---|
회귀분석 | 예측 및 변수 간 인과관계 분석 | 연속형 | 독립성, 등분산성, 정규성 |
분산분석 | 집단 간 평균 차이 검정 | 연속형 | 등분산성, 정규성 |
상관분석 | 두 변수 간 관계(선형성) 측정 | 연속형 | 선형성, 정규성 |
카이제곱 검정 | 범주형 변수 간 연관성 검정 | 범주형 | 기대빈도 5 이상, 독립성 |
🧠 분석기법 적용 Quick Tip
- X와 Y가 모두 연속형 → 회귀 or 상관분석
- X는 집단(범주형), Y는 연속형 → 분산분석
- 둘 다 범주형 → 카이제곱 검정
📝 분석기법 비교 모의고사 (5문항)
- X는 성별, Y는 점수일 때 적합한 분석 기법은?
정답: 분산분석
해설: 성별은 범주형, 점수는 연속형 → 평균 차이 검정 - 두 연속 변수 간 선형 관계를 측정하는 분석은?
정답: 상관분석
해설: 피어슨 상관계수를 통해 두 변수 간 관계를 파악합니다. - 독립 변수와 종속 변수가 모두 범주형일 때 적합한 검정은?
정답: 카이제곱 검정
해설: 범주형 변수 간 연관성은 χ² 검정을 사용합니다. - 회귀분석의 필수 전제 조건이 아닌 것은?
① 정규성 ② 등분산성 ③ 선형성 ④ 사후검정
정답: ④ 사후검정
해설: 사후검정은 분산분석에서 사용되는 개념이에요. - 집단 간 평균 차이 검정에 사용되는 통계 기법은?
정답: 분산분석
해설: ANOVA는 여러 집단의 평균 차이를 검정합니다.
이제 어떤 데이터에 어떤 분석을 써야 할지 감이 잡히시죠? 실제 ADsP 시험에서는 데이터 유형에 따라 적절한 분석 기법을 고르는 문제가 꼭 등장하니, 위 테이블은 꼭 암기해두세요.
자주 등장하는 키워드: 적용 조건, 분석기법 구분, 연속형 vs 범주형 변수
6. 실전 모의고사 문제 세트 + 해설 [모의고사 포함]
자, 이제까지 배운 회귀, 분산분석, 상관, 카이제곱 개념들을 바탕으로 실전처럼 연습해볼 시간이에요. ADsP에서 자주 나오는 문제 유형을 토대로 혼합형 모의고사 5문항을 준비했어요. 각 문제를 풀어보고, 해설을 통해 자신의 이해도를 체크해보세요!
- 다음 중 회귀분석에 대한 설명으로 옳지 않은 것은?
① 독립변수가 연속형일 때 사용한다
② 예측에 사용될 수 있다
③ 변수 간 인과관계를 파악할 수 있다
④ 집단 간 평균 차이를 검정한다
정답: ④
해설: 집단 간 평균 차이는 ANOVA의 목적입니다. - 피어슨 상관계수가 -0.92일 때 올바른 해석은?
① 두 변수는 매우 강한 음의 상관관계를 가진다
② 상관관계는 없지만 인과관계는 존재한다
③ 두 변수는 완전히 독립적이다
④ 두 변수는 정비례 관계다
정답: ①
해설: -0.9 이상은 강한 음의 상관관계를 의미합니다. - 세 그룹의 시험 점수 평균이 서로 다른지 알아보려 한다. 적절한 분석 기법은?
① 회귀분석
② 분산분석
③ 상관분석
④ 카이제곱 검정
정답: ②
해설: 세 집단 평균 차이 → 분산분석(ANOVA) - 다음 중 카이제곱 검정의 주요 전제 조건으로 올바르지 않은 것은?
① 기대빈도는 5 이상이어야 함
② 자료는 연속형이어야 함
③ 관측치는 독립적이어야 함
④ 범주형 데이터여야 함
정답: ②
해설: χ² 검정은 범주형 자료에 사용하는 분석입니다. - X와 Y가 모두 연속형일 때, 관계 분석을 위한 가장 적절한 기법은?
① 회귀분석 또는 상관분석
② 카이제곱 검정
③ 분산분석
④ 로지스틱 회귀
정답: ①
해설: 둘 다 연속형이면 상관 또는 회귀분석을 사용합니다.
모의고사 문제를 통해 이해도를 점검해보셨나요? 정답률이 낮다면 다시 각 개념 정리를 복습해보는 것도 좋아요. ADsP 시험은 개념 이해 + 조건 판별 + 해석력이 동시에 요구되므로, 반복 연습이 핵심입니다.
이번 단락에서 다시 한 번 회귀분석, ANOVA, 상관계수, 카이제곱 같은 핵심 키워드를 자연스럽게 복습할 수 있었죠? 다음 단계에서는 총정리를 통해 전략을 세워볼 거예요!
🧩 마무리: 통계 분석 마스터 전략
여기까지 따라오신 여러분 정말 수고 많으셨어요! 🤗 통계 분석 파트, 특히 회귀, 분산분석, 상관분석, 카이제곱은 ADsP 자격증 시험뿐 아니라 실제 데이터 분석 실무에서도 아주 자주 활용되는 핵심 도구입니다. 각각의 분석 기법이 언제, 어떤 조건에서 쓰이는지를 명확히 구분하고, 해석에 능숙해지는 것이 가장 중요해요.
단기 학습 전략으로는 각 기법별 공식, 적용 조건, 해석 포인트를 노트에 정리하고 문제 풀이를 통해 반복하는 방식이 좋아요.
장기 전략으로는 실제 데이터를 이용해 분석 도구(R, Python 등)를 활용해 보는 걸 추천드려요. 개념이 실전으로 연결되는 순간, 비로소 통계 분석이 진짜 내 것이 되거든요.
그리고 기출문제는 반드시 풀어보셔야 해요. 출제 의도를 파악하는 데 큰 도움이 되고, 실제 시험장에서 당황하지 않을 수 있어요.
통계 분석은 단순히 암기하는 영역이 아니라, 문제를 바라보는 시선을 키워야 하는 분야예요. 각 기법이 ‘무엇을 묻는지’를 먼저 이해하고 접근하면, 훨씬 수월하게 다가갈 수 있습니다.