Notice
Recent Posts
Recent Comments
Link
반응형
«   2025/05   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
Archives
Today
Total
관리 메뉴

firstStep

[ADsP - 데이터 분석] PCA·FA·MDS, 시계열 ARIMA·ETS 본문

ADsP

[ADsP - 데이터 분석] PCA·FA·MDS, 시계열 ARIMA·ETS

자격증원톱 2025. 5. 21. 08:55
반응형

3-4 다변량·시계열
PCA·FA·MDS부터 ARIMA·ETS까지! 다변량 분석과 시계열 완전 정복

데이터 분석을 조금이라도 공부해본 분들이라면 한 번쯤 들어봤을 이름들 있죠. PCA, FA, MDS... 그리고 시계열 예측의 핵심인 ARIMA와 ETS 모델까지. 🤯 하지만 문제는 "대충 어떤 건지는 아는데, 왜 쓰는지, 어떻게 쓰는지는 잘 모르겠어요"라는 분들이 정말 많다는 거예요. 특히 ADsP 시험을 준비하는 분들이라면, 이 영역에서 헷갈리면 전체 흐름을 잡기 어려워집니다.

이번 포스트에서는 PCA(주성분분석), FA(요인분석), MDS(다차원 척도법)부터 시계열 예측 모델 ARIMA와 ETS까지 ADsP에서 자주 등장하는 핵심 개념들을 쏙쏙 정리해드릴게요. 물론, 이해를 도울 꼭 필요한 예제와 모의고사 문제까지 같이 준비했어요! 분석 초보자도 "이제 좀 보인다!" 할 수 있게 만들 거니까 끝까지 따라와 주세요. 😊

1. 주성분분석(PCA)의 개념과 활용 [모의고사 포함]

주성분분석(PCA, Principal Component Analysis)은 고차원의 데이터를 저차원으로 축소하면서도 그 안에 담긴 변동성(정보)을 최대한 보존하는 기법이에요. 쉽게 말하면, 여러 변수 중에서 중요한 방향(축)을 찾아 데이터를 재구성하는 방식이죠.

예를 들어 10개의 설문 문항을 분석하는데, 그 중 일부 문항은 비슷한 의미를 가지고 있을 수 있어요. 그걸 그냥 두고 분석하면 복잡하기만 하니까, PCA를 통해 핵심 정보만 남기고 차원을 줄여버리는 거죠. PCA는 변수들 간의 상관관계를 바탕으로 주성분을 찾아내는데, 이 주성분은 서로 직교(orthogonal)하다는 특징이 있어요.

PCA 수행 절차 🛠️

  1. 데이터 표준화 (z-score 정규화)
  2. 공분산 행렬 계산
  3. 고유값 및 고유벡터 계산
  4. 주성분 선택 (설명력 기준)
  5. 기존 데이터를 주성분 축으로 투영

PCA는 어디에 쓰이나요? 💡

  • 고차원 시각화 (2D/3D로 차원 축소해 보기 쉽게)
  • 머신러닝 전처리 단계에서 차원 축소
  • 데이터 탐색과 이상치 분석

📝 PCA 관련 ADsP 모의고사 문제

  1. PCA에서 첫 번째 주성분이 의미하는 것은 무엇인가요?
    ① 데이터의 평균값 ② 가장 큰 분산 방향 ③ 이상치 탐색 기준 ④ 고유값의 총합
  2. PCA의 장점으로 올바른 것은?
    ① 변수 간 독립성을 강화한다 ② 모든 분산을 제거한다 ③ 차원을 줄이면서 정보 손실을 최소화한다 ④ 데이터 스케일에 관계없이 적용 가능하다
  3. PCA 수행 시 데이터 표준화가 필요한 이유는?
    ① 계산 시간 단축 ② 정규성 확보 ③ 변수 간 단위 차이를 제거 ④ 고유벡터 계산 방지
  4. 주성분은 서로 어떤 관계를 가지나요?
    ① 상관 1 ② 독립 ③ 직교 ④ 무관
  5. PCA에서 사용하는 행렬은?
    ① 분산 행렬 ② 공분산 행렬 ③ 상관행렬 ④ 전이행렬

정답: ②, ③, ③, ③, ②
해설: PCA는 가장 큰 분산을 보존하는 방향을 기준으로 주성분을 추출하며, 주성분 간은 직교하고 공분산 행렬을 기반으로 계산됩니다. 변수 간 단위 차이가 큰 경우 왜곡되기 때문에 표준화가 필요합니다.

이번 내용에서 배운 PCA, 주성분분석, 차원축소는 단순한 이론이 아니라 실제 데이터 분석에서도 굉장히 많이 쓰이는 기법이에요. 다음 단계에서는 이와 유사하지만 조금 더 의미 중심인 분석법, FA(요인분석)을 다뤄볼게요!

2. 요인분석(FA)의 원리와 실전 적용 [모의고사 포함]

요인분석(FA, Factor Analysis)은 다수의 변수들이 공통된 몇 가지 요인(Factor)으로 설명될 수 있다는 전제하에, 그 숨겨진 요인을 추출하는 기법이에요. 겉으로 보기에 복잡해 보이는 데이터 구조 속에서 내면의 구조, 즉 패턴을 파악할 수 있게 도와주죠.

예를 들어, 학생들의 성격을 평가하는 설문에서 ‘내성적이다’, ‘혼자 있는 걸 좋아한다’, ‘사교성이 낮다’라는 항목들이 있다면, 이 항목들은 모두 ‘내향성’이라는 공통된 요인에 의해 영향을 받고 있을 가능성이 커요. FA는 이런 보이지 않는 요인을 수학적으로 찾아내는 데 초점을 맞춥니다.

PCA와 요인분석의 차이점은? 🤔

  • PCA는 분산을 최대한 보존하는 방향을 찾고, FA는 공통된 요인을 추출합니다.
  • PCA는 주성분 간 직교성이 보장되지만, FA는 요인 간 상관을 허용할 수도 있어요.

요인분석의 전개 절차 🧩

  1. 상관관계 기반으로 변수 간 패턴 탐색
  2. 요인 수 결정 (스크리 플롯, 고유값 기준)
  3. 요인 추출 (주축법, 최대우도법 등)
  4. 요인 회전 (Varimax, Promax 등)
  5. 해석 및 요인명 지정

📝 FA 관련 ADsP 모의고사 문제

  1. 요인분석의 주된 목적은?
    ① 분산 최소화 ② 변수 제거 ③ 공통 요인 추출 ④ 주성분 회전
  2. 요인 회전의 목적은?
    ① 계산 속도 향상 ② 해석 용이성 ③ 차원 축소 ④ 고유값 정렬
  3. FA와 PCA의 차이로 올바른 것은?
    ① PCA는 요인을 가정한다 ② FA는 공통요인 기반이다 ③ PCA는 회전을 필요로 한다 ④ FA는 직교 주성분을 사용한다
  4. FA 수행 시 사용하는 기법이 아닌 것은?
    ① 최대우도법 ② 주축법 ③ 최소제곱법 ④ 시계열회귀
  5. 요인 수 결정 기준으로 쓰이지 않는 것은?
    ① 스크리플롯 ② 고유값 ③ 변수수 ④ 누적설명력

정답: ③, ②, ②, ④, ③
해설: 요인분석은 변수들 간 공통요인을 찾아내는 데 목적이 있으며, 해석을 쉽게 하기 위해 회전을 수행합니다. 시계열회귀는 FA에서 사용하지 않으며, 변수 수는 요인 수 결정 기준이 아닙니다.

이번 파트에서 요인분석, FA, 공통요인이라는 키워드를 자연스럽게 익혔다면, 다음은 다차원 척도법(MDS)이라는 시각화 중심의 기법으로 넘어가 보죠! 이것도 ADsP 시험에서 꽤 자주 출제돼요. 👀

3. 다차원 척도법(MDS)의 이해와 시각화 [모의고사 포함]

다차원 척도법(MDS, Multidimensional Scaling)은 객체 간의 유사도나 거리 정보를 시각적으로 표현하기 위한 기법이에요. 우리가 가지고 있는 거리(또는 유사도) 행렬을 기준으로, 2차원 또는 3차원 공간에 객체들을 배치해서 시각적으로 "어떤 것들이 비슷한가?"를 한눈에 보여줍니다.

예를 들어볼게요. 친구 다섯 명이 있고, 각자 서로 친한 정도를 점수로 표현했어요. 이 데이터를 가지고 "누가 누구랑 가까운가?"를 2D 평면 위에 표현하면 MDS가 바로 그걸 해주는 분석 도구인 거죠. 어렵게 느껴질 수 있지만, 기본 개념은 정말 직관적이에요 — 거리만 있으면 됩니다!

MDS의 종류 🔍

  • Metric MDS: 유클리디안 거리 등 수치적 거리를 그대로 사용
  • Non-metric MDS: 순위(서열) 정보만 사용해 순위 보존에 초점

MDS는 어디에 쓰일까요? 🌐

  • 고객 인식 분석 (브랜드 간 유사도 평가)
  • 문화적/언어적 거리 시각화
  • 텍스트 분석에서 문서 간 유사도 표현

📝 MDS 관련 ADsP 모의고사 문제

  1. MDS의 주된 목적은?
    ① 변수 제거 ② 거리 기반 시각화 ③ 분산 분석 ④ 회귀 계수 추정
  2. 다차원 척도법에서 입력되는 정보는?
    ① 회귀계수 ② 상관행렬 ③ 거리 또는 유사도 ④ 분산분석표
  3. Metric MDS의 특징은?
    ① 서열 보존 ② 실제 거리 유지 ③ 주성분 분석 기반 ④ 요인 회전 포함
  4. 비메트릭 MDS는 어떤 데이터에 적합한가요?
    ① 수치 거리 기반 데이터 ② 분산이 큰 데이터 ③ 순위 기반 유사도 데이터 ④ 선형 회귀형 데이터
  5. MDS 결과 해석 시 고려해야 할 요소는?
    ① 좌표 해석 가능성 ② 요인 수 ③ 분산기여율 ④ 차원 회전값

정답: ②, ③, ②, ③, ①
해설: MDS는 거리 또는 유사도 정보를 기반으로 2D/3D 공간에 배치하는 시각화 기법입니다. Metric MDS는 실제 거리값을 보존하고, Non-metric MDS는 순위(서열) 보존에 초점이 맞춰져 있어요.

이제 MDS, 다차원 척도법, 유사도 시각화라는 핵심 키워드를 꽉 잡으셨죠? 이제 다변량 분석을 마무리하고, 시계열 분석의 세계로 넘어가 볼 시간입니다. 다음 섹션에서는 ADsP에서 자주 나오는 시계열 개념과 ARIMA 모델을 살펴볼게요. 📈

4. 시계열 분석이란? 필수 개념 정리 [모의고사 포함]

시계열(Time Series)이란 시간의 흐름에 따라 수집된 데이터를 말해요. 예를 들어 일일 기온, 주간 매출, 월별 방문자 수처럼 시간이 흐르며 변하는 값들을 분석하는 게 시계열 분석의 핵심이죠.

시계열 분석은 단순히 과거를 정리하는 데 그치지 않고, 미래를 예측하기 위해 사용됩니다. ADsP 시험에서도 이 개념은 ARIMAETS라는 두 가지 모델을 중심으로 출제돼요. 이번 파트에서는 그중에서도 먼저 ARIMA 모델부터 알아보겠습니다.

시계열 데이터의 구성요소 ⏳

  • 추세(Trend): 시간에 따라 증가하거나 감소하는 장기적 변화
  • 계절성(Seasonality): 일정 주기로 반복되는 패턴
  • 불규칙성(Irregularity): 예측할 수 없는 일시적 변동

ARIMA 모델이란 무엇인가요? 🔄

ARIMA는 AutoRegressive Integrated Moving Average의 약자예요. 이름만 보면 복잡해 보이지만, 세 가지 구성요소를 조합한 모델입니다:

  1. AR (자기회귀): 이전 시점 데이터의 영향
  2. I (차분): 비정상성을 제거하기 위한 변환
  3. MA (이동평균): 이전 오차들의 평균을 반영

ARIMA는 정상성(stationarity)이 중요한 전제 조건이기 때문에, 분석 전에는 꼭 데이터를 차분(diff) 처리해서 추세를 제거해줘야 해요.

📝 ARIMA 관련 ADsP 모의고사 문제

  1. ARIMA 모델의 'AR'은 무엇을 의미하나요?
    ① 시차 평균 ② 자기회귀 ③ 분산 이동 ④ 계절성
  2. ARIMA에서 'I'는 어떤 역할인가요?
    ① 오차 누적 ② 계절성 분리 ③ 차분 처리 ④ 주기 예측
  3. ARIMA 모델의 필수 전제는?
    ① 비선형성 ② 정상성 ③ 다변량성 ④ 고차원성
  4. ARIMA 모델의 주요 목적은?
    ① 시계열 분류 ② 시계열 예측 ③ 계절 분석 ④ 상관 해석
  5. ARIMA 모델에 대한 설명으로 옳지 않은 것은?
    ① 차분을 통해 추세를 제거할 수 있다 ② MA는 오차의 평균을 이용한다 ③ 항상 계절성을 포함한다 ④ p, d, q 세 개의 파라미터로 구성된다

정답: ②, ③, ②, ②, ③
해설: ARIMA는 '자기회귀(AR)', '차분(I)', '이동평균(MA)'의 세 가지 요소를 결합한 모델입니다. 계절성을 포함하지 않는 일반 ARIMA와, 계절성을 반영한 Seasonal ARIMA는 구분해서 알아둬야 해요.

지금까지 ARIMA, 시계열, 자기회귀, 정상성 등의 키워드를 익히셨다면, 이제 다음으로 넘어가 봐야겠죠? 다음 시간에는 ARIMA보다 직관적인 모델로 불리는 ETS(E,T,S) 모델을 함께 살펴보겠습니다! ⏲️📊

5. ETS 모델의 직관적 접근과 비교 분석 [모의고사 포함]

ARIMA가 너무 수식적이고 복잡하다고 느끼셨다면, 이번에는 더 직관적이고 실무적으로 많이 쓰이는 ETS 모델을 만나보세요. ETS는 Error(오차), Trend(추세), Seasonality(계절성)의 약자예요. 이름 그대로 세 가지 구성 요소를 조합해 시계열 예측을 수행하는 방식이랍니다.

ETS의 구성 요소 🔧

  • 오차 (Error): 예측값과 실제값의 차이, Additive(덧셈) 또는 Multiplicative(곱셈) 형태로 모델에 반영
  • 추세 (Trend): 데이터의 증가 또는 감소 방향성, 선형 혹은 지수 형태로 반영
  • 계절성 (Seasonality): 주기적으로 반복되는 패턴, Additive 또는 Multiplicative 적용

예를 들어, ETS(A,A,A)는 오차, 추세, 계절성이 모두 덧셈 형태로 적용된 모델이고, ETS(M,A,M)는 오차와 계절성이 곱셈 형태, 추세는 덧셈 형태로 표현된 모델이죠.

ARIMA vs ETS 비교 표 📊

항목 ARIMA ETS
모델 형태 통계 기반, 차분 중심 구성요소 조합 기반
추세 및 계절성 처리 직접 반영 어려움 직관적 조합 가능
사용 시기 복잡한 시계열, 과거 예측 단기 예측, 실무 활용

📝 ETS 관련 ADsP 모의고사 문제

  1. ETS 모델에서 T는 무엇을 의미하나요?
    ① 시차 ② 추세 ③ 평균 ④ 시점
  2. ETS(M,A,A)는 어떤 의미인가요?
    ① 모두 덧셈 모델 ② 오차 곱셈, 추세 덧셈, 계절 덧셈 ③ 추세 제거 모델 ④ MA 중심 모델
  3. ETS 모델의 주요 장점은?
    ① 복잡한 수식 ② 추세·계절 반영 용이성 ③ 고차원 예측 ④ 비정상성 모델링
  4. ETS는 어떤 유형의 데이터에 적합한가요?
    ① 이진 분류 ② 범주형 데이터 ③ 연속형 시계열 데이터 ④ 정규 분포
  5. ARIMA와 ETS의 공통점은?
    ① 회귀 기반 ② 비선형성 ③ 시계열 예측 목적 ④ 범주 분석

정답: ②, ②, ②, ③, ③
해설: ETS는 오차, 추세, 계절성을 조합하여 연속형 시계열 데이터를 예측합니다. 모델 자체가 시계열 예측에 최적화돼 있고, 구성 요소별 명확한 해석이 가능해 실무에서 많이 활용됩니다.

이제 ETS 모델, 시계열 예측, 구성요소 기반 예측까지 정리했어요! 여기까지 다변량 분석(PCA·FA·MDS)과 시계열 분석(ARIMA·ETS)의 주요 내용과 문제를 모두 정리했습니다. 이제 마무리와 함께 전체 전략을 다시 정리해볼게요. 💪

6. ETS 모델의 직관적 접근과 비교 분석 [모의고사 포함]

ETS 모델은 Error(오차), Trend(추세), Seasonality(계절성)의 세 가지 구성 요소를 기반으로 하는 시계열 예측 모델입니다. 그 구조는 직관적이면서도 다양한 형태의 시계열 데이터를 설명할 수 있어 실무에서도 널리 활용되고 있어요.

ETS의 특징은 오차, 추세, 계절성 각각에 대해 덧셈(Additive) 또는 곱셈(Multiplicative) 구조를 선택할 수 있다는 점입니다. 예를 들어 ETS(A,A,A)는 모든 요소가 덧셈으로 결합된 모델이고, ETS(M,A,M)은 오차와 계절성은 곱셈, 추세는 덧셈으로 구성돼 있어요.

예를 들어 소매 매출처럼 계절성이 분명하고 추세가 지속되는 경우, ETS는 ARIMA보다 훨씬 직관적인 예측 결과를 보여줍니다. 추세와 계절성을 별도로 조정할 수 있다는 점에서 데이터의 패턴을 분석하기도, 설명하기도 쉬워요.

ARIMA와 ETS는 어떻게 다를까? 🔍

  • ARIMA는 시계열 데이터를 수학적으로 분석하고, ETS는 데이터 패턴을 직관적으로 해석해요.
  • ETS는 계절성과 추세가 분명한 데이터에 강하고, ARIMA는 복잡한 잔차 구조를 다루는 데 강점을 보여요.

📝 ETS 모델 관련 ADsP 모의고사 문제

  1. ETS에서 "S"는 어떤 구성 요소를 의미하나요?
    ① 선형성 ② 계절성 ③ 순환성 ④ 스케일
  2. ETS 모델이 ARIMA보다 유리한 상황은?
    ① 오차가 랜덤할 때 ② 계절 패턴이 명확할 때 ③ 데이터가 정규분포일 때 ④ 이진 분류일 때
  3. ETS(M,A,M)에서 'M'은 어떤 의미인가요?
    ① 덧셈형 적용 ② 곱셈형 적용 ③ 차분 적용 ④ 평균값 유지
  4. ETS의 핵심 구조는 무엇을 기반으로 조합되나요?
    ① 자기회귀 ② 오차, 추세, 계절성 ③ 잔차제거 ④ 분산분석
  5. ARIMA와 ETS의 공통점은?
    ① 범주형 분석 ② 시계열 분류 ③ 미래 예측 목적 ④ 비정상성 유지

정답: ②, ②, ②, ②, ③
해설: ETS는 시계열 데이터의 구성 요소를 분리해 예측하는 방식으로, 계절성과 추세가 강한 데이터를 다루기에 유리합니다. 'M'은 Multiplicative(곱셈형) 구조를 의미하며, ARIMA와 마찬가지로 미래 값을 예측하는 데 활용됩니다.

이번 섹션에서는 ETS 모델, 추세 예측, 계절성 분석이라는 키워드를 익혔어요. 이제 PCA부터 ETS까지 다변량 분석과 시계열 분석의 모든 주제를 마쳤습니다. 다음은 전체 내용을 정리하며, ADsP 합격 전략 및 마무리 인사이트를 전해드릴게요. 📚

📌 마무리하며 – 다변량 & 시계열 분석 완전 정복 전략

지금까지 PCA, FA, MDS, ARIMA, ETS까지 다변량 분석과 시계열 예측의 핵심 개념을 정리해봤습니다. 사실 처음 접하면 다소 어렵게 느껴질 수 있지만, '이해'와 '암기'를 분리해서 학습하는 것이 포인트예요.

 

단기 전략으로는 각 분석 기법의 정의, 목적, 적용 조건만 먼저 외워두세요. 장기 전략으로는 다양한 실전 예제를 직접 그려보며 시각화하는 감각을 익히는 게 좋아요. 그리고 꼭 기출문제와 모의고사를 통해 반복 학습해 주세요. 유형이 거의 고정돼 있으니까요.

 

반응형