Notice
Recent Posts
Recent Comments
Link
반응형
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

firstStep

[ADsP - 데이터 분석] ADsP 연관 규칙 분석 완전 정복 : Apriori & FP-Growth 쉽게 배우기 본문

ADsP

[ADsP - 데이터 분석] ADsP 연관 규칙 분석 완전 정복 : Apriori & FP-Growth 쉽게 배우기

자격증원톱 2025. 5. 26. 09:00
반응형

3-5 정형 데이터 마이닝
ADsP 연관 규칙 분석 완전 정복 🔍 Apriori & FP-Growth 쉽게 배우기

혹시 이런 적 있으신가요? 쇼핑몰에서 책 한 권을 샀을 뿐인데, “이 책을 구매한 고객은 이런 책도 샀어요”라는 추천을 보고 나도 모르게 또 클릭하게 되는 경험. 사실 이런 추천의 배경에는 연관 규칙 분석이라는 멋진 데이터 마이닝 기법이 숨겨져 있답니다. AprioriFP-Growth 알고리즘은 바로 그런 ‘숨은 패턴’을 찾아내는 핵심 도구죠.

 

이번 포스트에서는 ADsP 시험에도 자주 등장하는 이 연관 규칙 분석 기법들을 아주 쉽게, 예제와 함께 설명드릴게요. 특히 초보자도 이해할 수 있게 데이터마이닝의 핵심 원리부터 차근차근 풀어보려고 해요. 그리고 마무리에는 [모의고사 포함] 파트도 준비했으니, 학습 점검까지 한 번에 끝내세요! 😊

1. 연관 규칙 분석이란? 🧠 [모의고사 포함]

연관 규칙 분석(Association Rule Mining)은 말 그대로 어떤 항목이 다른 항목과 얼마나 자주 함께 나타나는지를 분석하는 기법이에요. 흔히 장바구니 분석(Basket Analysis)이라고도 불리며, 고객이 어떤 제품을 함께 구매하는지를 분석해 마케팅 전략에 활용합니다.

예를 들어, 고객 A가 우유식빵을 자주 함께 구매한다면, 이 둘 사이에는 연관 규칙이 있다고 볼 수 있어요. 더 나아가 “우유를 산 사람은 식빵도 살 확률이 높다”는 식의 마케팅 추천으로도 이어질 수 있죠.

연관 규칙의 기본 용어 정리

  • 지지도(Support): 전체 거래 중 A와 B가 함께 등장한 비율
  • 신뢰도(Confidence): A가 등장했을 때 B도 등장한 비율
  • 향상도(Lift): A와 B의 동시 발생이 독립적인 상황보다 얼마나 더 자주 일어나는지

어디에 활용될까? 연관 규칙 분석 실전 예시

  1. 전자상거래: 추천 시스템 (ex. “이 제품을 본 고객은 이런 제품도 봤어요”)
  2. 약국·병원: 증상과 질병 간 연관성 분석
  3. 은행·카드사: 고객 소비 패턴과 이상거래 탐지

이처럼 연관 규칙 분석은 고객 행동 이해데이터 기반 전략 수립에 아주 강력한 무기랍니다.

연관 규칙 분석 퀴즈 📝 모의고사 5문항

  1. 지지도(Support)는 어떤 의미를 가지는가?
    ⓐ A 발생 비율
    ⓑ B 발생 비율
    ⓒ A와 B가 함께 발생한 비율
    ⓓ A 발생 후 B가 발생한 비율
    정답: ⓒ – 전체 거래에서 A와 B가 함께 등장한 비율입니다.
  2. 신뢰도(Confidence)는 어떤 관계를 나타내는가?
    ⓐ A 발생 후 B도 발생할 확률
    ⓑ A 또는 B 중 하나만 발생한 비율
    ⓒ B가 발생하면 A도 발생할 확률
    ⓓ A와 B가 항상 동시에 발생하는 비율
    정답: ⓐ – A를 조건으로 B가 얼마나 자주 등장하는지입니다.
  3. Lift 값이 1보다 클 경우 어떤 의미인가요?
    ⓐ A와 B는 독립적이다
    ⓑ A가 있으면 B는 발생하지 않는다
    ⓒ A와 B는 음의 상관관계를 가진다
    ⓓ A가 있으면 B 발생 가능성이 높다
    정답: ⓓ – 1보다 크면 A와 B는 양의 연관성을 갖습니다.
  4. 연관 규칙 분석의 가장 대표적인 활용 예는?
    ⓐ 뉴스 기사 추천
    ⓑ 고객 행동 분석
    ⓒ 주식 시장 예측
    ⓓ 로그 분석
    정답: ⓑ – 고객의 구매 패턴을 분석하는 데 자주 사용돼요.
  5. Lift는 다음 중 어떤 값을 기준으로 해석되는가?
    ⓐ 0
    ⓑ 1
    ⓒ 50
    ⓓ 100
    정답: ⓑ – Lift = 1이면 독립, 1보다 크면 양의 상관, 작으면 음의 상관입니다.

이제 연관 규칙 분석의 개념과 핵심 용어는 확실히 잡으셨죠? 다음 파트에서는 본격적으로 Apriori 알고리즘의 원리와 계산 방법을 함께 배워볼게요. 실제 ADsP 모의고사에서도 자주 등장하는 부분이라 집중해서 보셔야 해요!

#연관규칙분석 #장바구니분석 #Apriori #FP-Growth #ADsP기출 #데이터마이닝기법

2. Apriori 알고리즘의 원리와 적용법 🔍 [모의고사 포함]

Apriori 알고리즘은 연관 규칙 분석을 대표하는 고전적인 알고리즘입니다. 이름부터 ‘A priori’라는 라틴어에서 왔는데요, 미리 알고 있다는 뜻이에요. 여기서 ‘미리 안다’는 건 빈번하게 등장하는 아이템 집합은 그 부분 집합도 반드시 자주 등장한다는 전제를 말하죠.

Apriori 알고리즘의 3단계 구조

  1. 1️⃣ 빈번 항목 집합 생성 – 최소 지지도 기준을 넘는 아이템 집합 추출
  2. 2️⃣ 후보 집합 확장 – n개의 항목 집합으로부터 n+1 집합 생성
  3. 3️⃣ 연관 규칙 생성 – 신뢰도, 향상도를 기준으로 규칙 도출

이 알고리즘은 모든 아이템 조합을 하나하나 체크하지 않기 때문에, 계산량을 줄이고 효율적으로 유의미한 규칙만 찾아낼 수 있다는 장점이 있습니다. 물론, 데이터 규모가 커질수록 속도 문제가 생길 수도 있어요.

📊 간단한 예제로 이해하는 Apriori

다음은 5개의 거래 데이터를 기반으로 한 예시입니다.

거래 ID 구매 항목
T1 우유, 빵
T2 우유, 기저귀, 맥주
T3 우유, 빵, 기저귀, 맥주
T4 빵, 기저귀
T5 우유, 빵, 기저귀, 맥주

이 데이터로부터 "기저귀 → 맥주" 같은 유의미한 규칙을 추출할 수 있고, Apriori는 이를 위해 반복적으로 항목 집합을 생성하고 필터링하는 과정을 거칩니다.

Apriori 알고리즘 실전 문제 📘

  1. Apriori 알고리즘의 핵심 전제는?
    ⓐ 모든 항목을 무작위로 조합한다
    ⓑ 높은 향상도를 기준으로 필터링한다
    ⓒ 빈번한 아이템 집합의 부분 집합도 빈번하다
    ⓓ 거래 ID를 기준으로 군집화한다
    정답: ⓒ – 이것이 바로 Apriori의 기본 가정입니다.
  2. Apriori가 연산을 줄이기 위해 사용하는 방법은?
    ⓐ 딥러닝 모델
    ⓑ 데이터 축소
    ⓒ 후보 집합 제한
    ⓓ 확률 기반 필터링
    정답: ⓒ – 후보 집합을 생성할 때 비효율적인 조합은 제외합니다.
  3. 다음 중 Apriori의 단점으로 적절한 것은?
    ⓐ 속도가 빠르다
    ⓑ 데이터가 작을수록 효과적이다
    ⓒ 연산량이 많다
    ⓓ 의사결정나무와 결합이 쉽다
    정답: ⓒ – 데이터가 클 경우 연산량이 많아 성능 저하가 발생할 수 있습니다.
  4. Apriori에서 연관 규칙은 언제 생성되는가?
    ⓐ 항목 집합이 모두 탐색된 후
    ⓑ 지지도와 신뢰도 조건을 만족할 때
    ⓒ 향상도가 1보다 클 때만
    ⓓ 모든 조합이 포함될 때
    정답: ⓑ – 일정 기준을 만족해야만 규칙이 생성됩니다.
  5. Apriori 알고리즘은 다음 중 어떤 분야에서 주로 사용되는가?
    ⓐ 이상 탐지
    ⓑ 연관 규칙 분석
    ⓒ 클러스터링
    ⓓ 시계열 예측
    정답: ⓑ – 장바구니 분석, 마케팅 등에서 연관 규칙을 추출하는 데 특화되어 있죠.

Apriori 알고리즘은 느리지만 안정적이고 해석이 쉬운 장점이 있어요. 다음 파트에서는 Apriori의 한계를 극복한 FP-Growth 알고리즘을 소개할게요. 기대해주세요!

#Apriori알고리즘 #연관규칙분석 #장바구니분석 #데이터마이닝기법 #ADsP모의고사

3. FP-Growth 알고리즘의 구조와 장점 🌲 [모의고사 포함]

FP-Growth는 Apriori 알고리즘의 느린 속도와 반복적인 데이터 스캔 문제를 개선하기 위해 등장한 고속 연관 규칙 탐색 알고리즘입니다. 이름에서 알 수 있듯이 ‘FP’는 Frequent Pattern의 약자로, 빈번한 패턴을 효율적으로 찾아내는 데 중점을 둡니다.

Apriori는 모든 후보 집합을 일일이 생성하고, 조건에 맞는지 확인하는 과정이 반복되지만, FP-Growth는 한 번의 스캔으로 FP-트리(FP-Tree)를 만든 뒤, 트리를 압축해 빈번한 항목을 추출합니다. 그 덕분에 속도 면에서 확연한 이점을 가지고 있죠.

FP-Growth의 구조 요약 ✨

  1. 1️⃣ 빈번한 항목 집합 추출 – 최소 지지도를 기준으로 필터링
  2. 2️⃣ FP-트리 생성 – 빈번한 항목을 기준으로 트리 구조로 정리
  3. 3️⃣ 조건부 패턴 트리 구성 – 각 항목의 조건부 패턴을 재귀적으로 탐색
  4. 4️⃣ 빈번 패턴 생성 – 조건부 트리에서 최종 연관 규칙 추출

FP-Growth의 장점 👍

  • 속도가 빠르다: 전체 데이터를 반복적으로 스캔하지 않고 트리 기반 구조로 압축함
  • 메모리 효율성: 중복 항목을 공유 노드로 묶어 메모리 사용량을 줄임
  • 복잡한 데이터에서도 유효: 트리 기반이기 때문에 대규모 데이터셋에서도 좋은 성능을 보임

FP-Growth 알고리즘 실전 문제 🧩

  1. FP-Growth는 어떤 방식으로 연관 규칙을 찾는가?
    ⓐ 반복적 후보 집합 탐색
    ⓑ 전체 탐색 기반 브루트 포스
    ⓒ FP-트리 기반 빈번 패턴 탐색
    ⓓ 시간 순서 기반 룰 추출
    정답: ⓒ – FP-Growth는 트리 구조를 사용하여 효율적으로 패턴을 찾습니다.
  2. Apriori 대비 FP-Growth의 주요 장점은?
    ⓐ 연산이 직관적이다
    ⓑ 패턴의 수가 적다
    ⓒ 후보 집합 생성을 생략할 수 있다
    ⓓ 트랜잭션 간 유사도 분석에 특화되어 있다
    정답: ⓒ – FP-Growth는 후보 집합 생성 없이 트리 기반 탐색이 가능해요.
  3. FP-트리는 어떤 방식으로 구성되는가?
    ⓐ 고정된 이진 트리
    ⓑ 동적 연결 리스트
    ⓒ 빈번 항목 기반 압축 트리
    ⓓ 해시 테이블 기반 룩업
    정답: ⓒ – 빈번 항목들을 압축하여 트리 구조로 표현합니다.
  4. FP-Growth가 효과적인 데이터 환경은?
    ⓐ 연속형 변수 데이터
    ⓑ 소규모 트랜잭션
    ⓒ 대규모 범주형 트랜잭션 데이터
    ⓓ 정규분포된 수치 데이터
    정답: ⓒ – 대용량 트랜잭션 데이터에서 특히 효율적입니다.
  5. FP-Growth와 가장 관련 있는 구조는?
    ⓐ KNN 그래프
    ⓑ 연결 리스트
    ⓒ FP-트리
    ⓓ 신경망 노드
    정답: ⓒ – 알고리즘 이름 자체가 FP-Tree에서 왔죠.

FP-Growth는 특히 데이터가 많을수록, 속도가 중요할수록 더욱 빛을 발하는 알고리즘이에요. 다음 파트에서는 Apriori와 FP-Growth를 비교하면서 언제 어떤 알고리즘을 선택해야 할지 전략적으로 알아볼게요!

#FP-Growth #FP트리 #연관규칙분석 #ADsP기출 #데이터마이닝추천

4. Apriori vs FP-Growth: 차이점과 선택 기준 ⚖️ [모의고사 포함]

Apriori와 FP-Growth는 모두 연관 규칙 분석을 위한 알고리즘이지만, 내부 작동 방식과 성능에 있어 확연한 차이가 있습니다. 데이터를 분석할 때 어떤 알고리즘을 써야 할지 고민된다면, 이 비교를 통해 방향을 잡아보세요!

🚀 핵심 비교표

비교 항목 Apriori FP-Growth
방식 반복적 후보 집합 생성 트리 기반 조건부 패턴 마이닝
데이터 스캔 횟수 다회 스캔 2회 (빈번 항목, 트리 구성)
성능 데이터 증가에 따라 느려짐 대용량 데이터에서도 빠름
메모리 사용 많이 사용 압축 구조로 절약
구현 난이도 쉬움 어려움

🔍 어떤 알고리즘을 선택해야 할까?

  • 데이터가 적고 알고리즘을 직관적으로 이해하고 싶다면 Apriori
  • 대규모 데이터에서 속도와 효율이 중요하다면 FP-Growth

비교 퀴즈 🧠 [모의고사]

  1. Apriori와 FP-Growth의 가장 큰 구조적 차이는?
    ⓐ 트리 사용 여부
    ⓑ 수치 계산 방식
    ⓒ 시계열 적용 여부
    ⓓ 데이터 정규화 여부
    정답: ⓐ – FP-Growth는 트리 구조를 사용합니다.
  2. FP-Growth의 주요 장점이 아닌 것은?
    ⓐ 빠른 연산 속도
    ⓑ 트리 기반 압축
    ⓒ 구현이 간단함
    ⓓ 반복적 스캔 회피
    정답: ⓒ – Apriori보다 구현이 더 복잡합니다.
  3. 데이터가 작고 단순할 때 더 적합한 알고리즘은?
    ⓐ K-Means
    ⓑ FP-Growth
    ⓒ SVM
    ⓓ Apriori
    정답: ⓓ – Apriori는 소규모 데이터에 적합합니다.
  4. 트랜잭션 수가 수십만 이상인 대규모 환경에 적합한 알고리즘은?
    ⓐ Apriori
    ⓑ FP-Growth
    ⓒ 로지스틱 회귀
    ⓓ k-NN
    정답: ⓑ – FP-Growth는 대규모 트랜잭션에 강합니다.
  5. Apriori와 FP-Growth 모두에 적용되는 공통 지표는?
    ⓐ 오차 제곱합
    ⓑ 지지도·신뢰도·향상도
    ⓒ AUC
    ⓓ 정밀도와 재현율
    정답: ⓑ – 연관 규칙 분석 공통 지표입니다.

두 알고리즘은 장단점이 뚜렷하기 때문에 상황에 맞게 유연하게 선택하는 것이 중요합니다. 다음 파트에서는 실제 장바구니 분석 사례를 통해 이 알고리즘들이 어떻게 활용되는지 함께 살펴볼게요!

#Apriori #FPGrowth #연관분석 #비교정리 #ADsP기출문제

5. 장바구니 분석 사례로 이해하는 연관 규칙 🛒 [모의고사 포함]

“기저귀를 산 고객은 맥주도 같이 샀다.” 이 유명한 예시는 연관 규칙 분석의 대표적인 사례입니다. 실제로 한 마트에서 남성 고객이 기저귀를 사면서 맥주를 함께 구매하는 경향이 발견되었고, 그 결과 해당 상품을 나란히 배치했더니 매출이 증가했다고 해요. 이런 식의 분석이 바로 장바구니 분석입니다.

🧾 실제 시나리오로 보는 분석 사례

고객 ID 구매 항목
C001 우유, 빵, 달걀
C002 빵, 달걀
C003 우유, 달걀
C004 우유, 빵
C005 빵, 달걀

이 데이터에서 빵 → 달걀이라는 연관 규칙이 높은 지지도신뢰도를 보인다고 하면, 마트에서는 이 둘을 함께 진열하거나 할인 프로모션을 구성할 수 있겠죠.

🛠 연관 규칙 분석의 실전 적용 분야

  • 전자상거래 추천 시스템 – “이 제품을 본 고객은 이런 제품도 샀어요”
  • 의료 데이터 분석 – 증상과 처방, 약물 간 상관관계 파악
  • 금융 거래 분석 – 카드 사용 패턴, 의심 거래 탐지

💡 실전 퀴즈 [모의고사]

  1. 장바구니 분석은 어떤 기법을 활용하는가?
    ⓐ 회귀 분석
    ⓑ 연관 규칙 분석
    ⓒ 군집 분석
    ⓓ 시계열 분석
    정답: ⓑ – 장바구니 분석은 연관 규칙 분석의 대표 응용 사례입니다.
  2. “빵 → 달걀”에서 지지도란?
    ⓐ 달걀 구매 비율
    ⓑ 전체 거래 중 빵과 달걀을 함께 구매한 비율
    ⓒ 빵을 산 고객 중 달걀을 산 비율
    ⓓ 전체 달걀 구매 고객 수
    정답: ⓑ – 전체 거래 중 두 항목이 함께 등장한 비율입니다.
  3. “빵 → 달걀”에서 신뢰도란?
    ⓐ 달걀 구매 비율
    ⓑ 전체 거래 수
    ⓒ 빵을 산 고객 중 달걀도 산 비율
    ⓓ 달걀만 산 고객 수
    정답: ⓒ – 신뢰도는 전제가 있을 때 결과가 나올 확률입니다.
  4. 장바구니 분석의 목적은?
    ⓐ 데이터 시각화
    ⓑ 상품 분류
    ⓒ 추천 마케팅 전략 수립
    ⓓ 매출 보고서 작성
    정답: ⓒ – 상품 배치, 할인 기획 등에 전략적으로 활용됩니다.
  5. 장바구니 분석이 잘 작동하지 않는 경우는?
    ⓐ 트랜잭션 수가 너무 적은 경우
    ⓑ 연속형 데이터가 있는 경우
    ⓒ 고객이 한 번만 방문한 경우
    ⓓ 위 모두
    정답: ⓓ – 적은 데이터, 단발성 구매 등은 연관 규칙 탐색에 불리합니다.

이처럼 실제 비즈니스 환경에서 연관 규칙 분석은 ‘숨어 있는 기회’를 찾는 도구로 강력하게 쓰이고 있어요. 다음 파트에서는 그동안 배운 내용을 ADsP 기출 및 모의고사 문제를 통해 복습해볼게요!

#장바구니분석 #연관규칙 #기저귀맥주사례 #ADsP연관분석 #마케팅활용

6. ADsP 기출&모의고사로 복습하기 📝 [모의고사 포함]

지금까지 배운 연관 규칙 분석, Apriori, FP-Growth 알고리즘은 ADsP 시험에서 단골로 출제되는 주제입니다. 특히 지지도(Support), 신뢰도(Confidence), 향상도(Lift)의 개념은 거의 매회 등장한다고 봐도 무방하죠.

이제는 기출 문제 및 모의고사 형식으로 내용을 복습하면서 마무리해볼 시간이에요. 실제 시험 난이도에 맞춰 준비했으니 자신의 이해도를 확인해보세요!

ADsP 연관 규칙 분석 기출 모의고사 📚

  1. 다음 중 연관 규칙 분석에서 '향상도(Lift)'가 1보다 작을 경우 의미는?
    ⓐ A와 B는 양의 상관관계를 가진다
    ⓑ A와 B는 독립이다
    ⓒ A가 발생하면 B가 반드시 발생한다
    ⓓ A가 발생할 경우 B의 발생 가능성이 낮아진다
    정답: ⓓ – 향상도가 1보다 작으면 A가 발생해도 B는 덜 자주 발생하는 것으로 해석합니다.
  2. 연관 규칙 "A → B"의 신뢰도는 다음 중 무엇을 의미하는가?
    ⓐ B가 나타나는 전체 비율
    ⓑ A와 B가 동시에 나타나는 비율
    ⓒ A가 발생했을 때 B도 발생한 비율
    ⓓ B가 발생했을 때 A도 발생한 비율
    정답: ⓒ – 신뢰도는 조건부 확률로, A를 전제로 B가 발생할 확률입니다.
  3. Apriori 알고리즘의 전제 조건으로 적절한 것은?
    ⓐ 후보 집합을 최소화한다
    ⓑ 빈번한 항목의 모든 부분집합도 빈번하다
    ⓒ 지지도와 향상도만 사용한다
    ⓓ 트리 구조를 활용한다
    정답: ⓑ – Apriori의 핵심은 '항목 집합의 하위 집합도 반드시 자주 등장함'이라는 전제입니다.
  4. FP-Growth는 Apriori에 비해 어떤 면에서 더 효율적인가?
    ⓐ 트리 구조 없이 연산이 가능하다
    ⓑ 더 적은 항목을 분석한다
    ⓒ 후보 집합 생성을 생략하여 빠르게 처리한다
    ⓓ 트랜잭션 수가 적을 때 성능이 뛰어나다
    정답: ⓒ – FP-Growth는 후보 집합을 생성하지 않기 때문에 더 빠릅니다.
  5. 장바구니 분석의 대표적 활용 예로 적절하지 않은 것은?
    ⓐ 추천 상품 제안
    ⓑ 고객 이탈 예측
    ⓒ 상품 배치 전략 수립
    ⓓ 공동 마케팅 기획
    정답: ⓑ – 고객 이탈 예측은 보통 이진 분류 문제로 다룹니다.

이 문제들을 풀어보셨다면, 이제 연관 규칙 분석에 대한 감이 꽤 잡히셨을 거예요! 👏 실제로 ADsP 시험에서는 수치 계산보다는 개념 이해와 적용 판단을 묻는 문제가 자주 나와요. 따라서 용어의 정의, 알고리즘의 차이점, 상황별 활용 방법을 명확히 기억하는 것이 핵심입니다.

#ADsP기출 #연관규칙복습 #Apriori #FPGrowth #데이터마이닝 #지지도신뢰도향상도

🔚 마무리: 연관 규칙 분석을 완벽히 이해하는 전략

연관 규칙 분석은 데이터 속에 숨어 있는 관계를 찾아 비즈니스 전략에 적용할 수 있는 실용적인 도구입니다. 특히 장바구니 분석처럼 고객의 행동을 예측하고, 추천 시스템에 접목시키기 위한 핵심 기술로 널리 사용되고 있어요.

 

이번 포스트에서는 Apriori 알고리즘FP-Growth 알고리즘의 작동 원리, 차이점, 그리고 실전 적용 예제까지 단계별로 학습했어요. 지지도, 신뢰도, 향상도 개념을 정확히 이해하고 계시다면 ADsP 시험 문제도 더 이상 어렵지 않을 겁니다!

📌 학습 전략 인사이트

  • ADsP 시험에서는 정의와 개념 이해 중심으로 문제 출제 → 용어 정확히 암기!
  • FP-Growth vs Apriori 비교 정리는 시험 전날 다시 확인할 것
  • 실생활 예제(기저귀와 맥주, 빵과 달걀 등)로 감 잡기 → 암기보다 이해가 핵심!
  •  

이제 여러분도 연관 규칙 분석 마스터라고 자신 있게 말할 수 있어요. 다음 글에서 더 유익한 개념으로 다시 만나요! 🙌

 

반응형