ADsP

[ADsP - 데이터 분석] 군집 분석 완전 정복: K-means, 계층 군집, DBSCAN 제대로 이해하기!

자격증원톱 2025. 5. 23. 09:00
반응형

3-5 정형 데이터 마이닝
📊 군집 분석 완전 정복
: K-means, 계층 군집, DBSCAN 제대로 이해하기!

데이터 분석에서 군집 분석은 꼭 한 번쯤은 마주치는 중요한 기법입니다. 특히 ADsP 시험에서도 비정형 데이터 분석보다는 정형 데이터를 활용한 군집화가 핵심으로 등장하죠. 그런데 말입니다. 단순히 ‘비슷한 애들끼리 묶는다’라는 개념만 알면 끝일까요? 절대 아니죠.

그룹핑 방법도 다르고, 거리 계산도 다르고, 심지어 결과 시각화 방식도 천차만별이거든요. 그래서 이번 글에서는 K-means, 계층 군집(Hierarchical Clustering), DBSCAN이라는 대표적인 세 가지 군집 기법을 비교하면서 확실히 잡아볼 거예요. 각 방법이 어떤 방식으로 군집을 나누고, 어떤 데이터에 적합한지, 그리고 시험에선 어떻게 나오는지까지 모두 다뤄봅니다.

그리고 끝에는 실전 대비를 위한 [모의고사 포함] 문제들도 준비했으니, 놓치지 마세요! ADsP 합격을 위한 이론 + 실전의 완벽 콤보, 지금 바로 시작합니다!

1. K-means 군집 분석 🧠 [모의고사 포함]

군집 분석을 이야기할 때 가장 먼저 언급되는 알고리즘이 바로 K-means입니다. 이름 그대로 ‘K개의 중심(Mean)을 기준으로 데이터를 나눈다’는 뜻인데요, 직관적이고 빠르게 결과를 도출할 수 있어 입문자에게 가장 인기 있는 군집 방법 중 하나예요.

🔍 K-means 알고리즘 동작 방식

  1. K(군집 수)를 먼저 설정합니다.
  2. 랜덤으로 K개의 중심점을 정합니다.
  3. 각 데이터를 가장 가까운 중심점에 할당합니다.
  4. 할당된 군집을 기준으로 중심점을 새롭게 계산합니다.
  5. 중심점이 더 이상 변하지 않을 때까지 반복합니다.

이 과정은 매우 단순하지만, 효과적입니다. 특히 수치형 데이터에 강하며, 비슷한 패턴을 가지는 데이터 그룹 찾기에 탁월해요. 하지만 약점도 있어요. 초기 중심 설정에 따라 결과가 달라지기도 하고, 비선형 경계를 가진 데이터에는 부적합하죠.

🧰 실생활에서의 K-means 예시

  • 고객 구매 패턴에 따라 소비자 그룹 분류
  • 웹사이트 방문자 행동 패턴 분석

📝 K-means 관련 ADsP 모의고사

  1. K-means 알고리즘에서 군집 수를 결정하는 방식은?
    ① 군집 간 거리
    ② 실루엣 계수
    ③ 덴드로그램
    ④ 결정 트리
  2. K-means는 다음 중 어떤 데이터에 적합한가?
    ① 범주형
    ② 시계열
    ③ 수치형
    ④ 텍스트형
  3. K-means의 단점으로 적절하지 않은 것은?
    ① 초기 중심에 민감하다
    ② 군집 수를 미리 알아야 한다
    ③ 이상치에 강하다
    ④ 비선형 구조를 잘 반영하지 못한다
  4. K-means 결과 시각화를 위한 방법은?
    ① PCA 축소 후 2D 시각화
    ② 카이제곱 분포
    ③ 회귀 직선
    ④ 박스플롯
  5. K-means의 반복 종료 조건은?
    ① 중심점이 바뀌지 않을 때
    ② 사용자가 중단할 때
    ③ 군집 수가 증가할 때
    ④ 데이터 개수가 홀수일 때

정답: ②, ③, ③, ①, ①
해설: 실루엣 계수는 군집 수 평가 지표이며, 수치형 데이터에 강하고, 이상치에 약하며, PCA로 시각화가 가능하고 중심점이 바뀌지 않을 때 종료됩니다.

다음 섹션에서는 계층 군집 분석에 대해 다룰 예정입니다. 데이터를 한꺼번에 나누지 않고 점진적으로 군집을 합치거나 나누는 방식이죠. K-means와 어떤 차이가 있는지 꼭 비교해보세요!

2. 계층적 군집 분석 🪜 [모의고사 포함]

K-means는 시작부터 군집 수를 정해야 해서 좀 부담스러웠다면, 계층적 군집 분석(Hierarchical Clustering)은 다릅니다. 처음엔 각 데이터를 하나의 군집으로 보고, 비슷한 것끼리 차근차근 병합하거나, 큰 덩어리에서 나눠나가는 방식이에요. 우리 인간이 사고하는 방식과 좀 비슷하다고나 할까요?

🔍 계층 군집 알고리즘의 종류

  • 병합형(Agglomerative): 아래에서 위로 → 데이터를 병합하며 군집 형성
  • 분할형(Divisive): 위에서 아래로 → 전체를 나누며 세분화

가장 일반적인 방식은 병합형이고, ADsP에서도 이 방식이 주로 언급됩니다. 덴드로그램(Dendrogram)이라는 나무 구조 시각화를 통해 각 군집이 어떻게 합쳐졌는지를 보여주는 게 포인트죠.

📊 거리 측정과 군집 연결 방식

거리 측정이 계층 군집의 핵심입니다. 이걸 기반으로 ‘누가 더 가까운가’를 판단하거든요. 주요 방식은 다음과 같습니다:

  1. 단일 연결법(Single linkage) – 가장 가까운 두 점 사이의 거리
  2. 완전 연결법(Complete linkage) – 가장 먼 두 점 사이의 거리
  3. 평균 연결법(Average linkage) – 군집 간 평균 거리
  4. 중심 연결법(Centroid linkage) – 중심점 간 거리

이런 거리 계산 방식이 다르면 군집 결과도 달라지니, 분석 목적에 맞는 걸 골라야 해요. 예를 들어, 노이즈에 민감하지 않게 하려면 완전 연결법이 좋고, 계산 속도와 직관성이 중요하면 평균 연결법을 씁니다.

📝 계층 군집 관련 ADsP 모의고사

  1. 계층적 군집 분석에서 덴드로그램은 무엇을 나타내는가?
    ① 군집 내 중심점
    ② 군집의 크기
    ③ 군집 간 병합 과정
    ④ 군집 수의 평균
  2. 단일 연결법의 특징으로 옳은 것은?
    ① 가장 먼 두 점 사이 거리 사용
    ② 가장 가까운 두 점 사이 거리 사용
    ③ 중심점 거리 사용
    ④ 평균 거리 사용
  3. 다음 중 계층 군집 분석에 해당하지 않는 것은?
    ① 단일 연결
    ② 평균 연결
    ③ K-means
    ④ 완전 연결
  4. 계층 군집 분석에서 분석가가 직접 설정해야 하는 것은?
    ① 초기 중심점
    ② 군집 수
    ③ 거리 기준
    ④ 손실 함수
  5. 계층 군집 결과 해석 시 사용하는 그래프는?
    ① 히스토그램
    ② 덴드로그램
    ③ 산점도
    ④ ROC 곡선

정답: ③, ②, ③, ③, ②
해설: 덴드로그램은 군집 병합 과정을 보여주며, 단일 연결은 가장 가까운 거리, K-means는 비계층적, 거리 기준은 사용자가 설정하며, 시각화는 덴드로그램으로 합니다.

다음은 밀도 기반 군집화DBSCAN입니다. K-means와 계층 군집과는 전혀 다른 방식으로, 노이즈나 복잡한 형태의 데이터에 강력한 알고리즘이죠. 계속해서 함께 가볼까요?

3. DBSCAN 밀도 기반 군집화 🛰️ [모의고사 포함]

K-means나 계층 군집이 군집의 개수나 병합 순서에 의존한다면, DBSCAN(Density-Based Spatial Clustering of Applications with Noise)은 완전히 새로운 접근을 합니다. 바로 데이터의 밀도에 기반해 군집을 찾는 방식이죠. 군집이라는 개념조차도 '몇 개'가 아니라 '조밀한 지역이 어디인가'에 따라 자연스럽게 정의돼요.

📌 DBSCAN의 주요 개념

  • eps(ε): 반경 거리, 이 안에 있는 이웃을 탐색
  • minPts: 군집 형성을 위한 최소 이웃 수
  • Core Point: 반경 내 이웃이 minPts 이상인 점
  • Border Point: Core Point 주변에 있지만 Core는 아닌 점
  • Noise Point: 어떤 군집에도 속하지 않는 외딴 점

📈 DBSCAN의 장점과 한계

DBSCAN은 군집 수를 미리 정하지 않아도 된다는 점이 아주 매력적입니다. 또 이상치(Nosie)를 자연스럽게 처리할 수 있어서, 현실 데이터에서 매우 유용해요. 그러나 eps와 minPts를 적절히 설정하는 것이 까다롭고, 밀도가 일정하지 않은 데이터에는 다소 불안정할 수 있다는 한계도 있어요.

📝 DBSCAN 관련 ADsP 모의고사

  1. DBSCAN에서 eps는 무엇을 의미하는가?
    ① 군집 수
    ② 중심점
    ③ 반경 거리
    ④ 평균 거리
  2. DBSCAN의 장점으로 올바른 것은?
    ① 군집 수를 미리 지정해야 한다
    ② 이상치 탐지가 어렵다
    ③ 밀도 기준으로 군집 형성
    ④ 덴드로그램이 필요하다
  3. DBSCAN에서 군집 형성에 기여하는 주요 요소는?
    ① 중심점과 거리
    ② eps와 minPts
    ③ 덴드로그램
    ④ 결정트리와 규칙
  4. 다음 중 DBSCAN의 한계는?
    ① 군집 수를 자동 탐색
    ② 이상치 제거 가능
    ③ 밀도 설정의 민감성
    ④ 다양한 거리 함수 사용 불가
  5. DBSCAN에서 군집에 속하지 않는 데이터를 무엇이라 하는가?
    ① Core Point
    ② Border Point
    ③ Noise Point
    ④ Average Point

정답: ③, ③, ②, ③, ③
해설: eps는 반경 거리이고, DBSCAN은 밀도 기반 군집이며, 주요 파라미터는 eps와 minPts, 단점은 민감도, Noise Point는 군집에 포함되지 않는 점을 뜻합니다.

자, 이제 세 가지 군집 알고리즘의 원리와 특징을 하나씩 익혔죠? 다음 단계에서는 이 세 가지를 한눈에 비교하고 어떤 상황에 어떤 방법이 적합한지 알아보는 실전 팁을 정리해볼게요.

4. 군집 알고리즘 비교와 활용 전략 🔍

K-means, 계층적 군집, DBSCAN — 각각 배워봤지만 실전에서 어떤 걸 선택해야 할지 막막하신가요? 걱정 마세요. 지금부터는 이 세 가지 알고리즘의 특징, 장단점, 추천 상황을 비교해서 정리해드릴게요.

📊 알고리즘 비교 표

구분 K-means 계층 군집 DBSCAN
군집 수 설정 필수 선택 가능 불필요
구조 구 형태 나무 구조 밀도 기반
이상치 처리 취약 취약 강함 (Noise 식별)
해석 용이성 높음 덴드로그램 활용 중간
계산 복잡도 낮음 높음 중간

🧩 상황별 추천 알고리즘

  • K-means 👉 군집 수가 명확하고 계산 자원이 적을 때
  • 계층 군집 👉 군집 관계의 계층 구조를 분석하고 싶을 때
  • DBSCAN 👉 복잡한 데이터 형태, 이상치가 많을 때

군집 알고리즘은 '하나만 잘하면 된다'가 아니라, 상황에 따라 쓰임새가 다르다는 걸 꼭 기억하세요. 데이터를 잘 관찰하고, 여러 알고리즘을 시도해보는 게 핵심입니다!

5. 군집 결과 시각화 팁 🎨

군집 분석만큼 결과 시각화가 중요한 분야도 드물어요. 데이터를 그룹화한 뒤 그 군집이 실제로 잘 나눠졌는지, 어떤 특징을 갖는지 보려면 시각화는 필수죠. 그런데 실제 시험에서도, 실무에서도 “결과 해석이 어렵다”는 말이 많이 나오잖아요?

📌 대표적인 군집 시각화 방법

  • 산점도 (Scatter Plot) + 라벨링 : 가장 기본적이지만 강력한 시각화 도구
  • PCA (주성분분석) 또는 t-SNE를 통한 차원 축소 후 시각화
  • 덴드로그램(Dendrogram) : 계층 군집 구조를 시각적으로 표현
  • Silhouette Plot : 군집 품질 평가 + 시각화 한 번에!

시각화는 단순한 그림 그리기가 아니라, 모델을 이해하고, 개선 방향을 찾는 통찰의 출발점이에요. 실제 ADsP에서도 PCA나 덴드로그램 기반 시각화는 기출로 자주 출제되니 꼭 기억해두세요.

🖼️ 시각화 꿀팁 요약

  1. 차원 축소가 필요한 경우, PCA 또는 t-SNE를 사용하자
  2. 군집 수가 많을 땐 색상을 명확하게 구분하자
  3. 군집 내 분포 확인을 위해 히스토그램/박스플롯도 유용하다
  4. DBSCAN의 Noise는 다른 색 또는 점선으로 구분하자

군집을 해석하는 능력은 단순한 기술이 아니라, 데이터 분석가의 핵심 역량이에요. 시각화는 그 능력을 뽐낼 수 있는 무대라는 것, 잊지 마세요!

6. 마무리 요약 및 실전 전략 💡 [모의고사 포함]

여기까지 따라오신 여러분, 정말 고생 많으셨습니다! 지금까지 K-means, 계층 군집, DBSCAN의 기본 개념부터 동작 방식, 활용 전략, 시각화까지 꼼꼼히 살펴봤어요. 이제는 단순히 암기하는 게 아니라, 데이터에 따라 어떤 방법이 더 적합할지 스스로 판단할 수 있는 실력이 생기셨을 거예요.

🧠 핵심 요약!

  • K-means: 간단하고 빠르지만, 군집 수를 정해야 하고 이상치에 약해요.
  • 계층 군집: 덴드로그램 기반으로 군집의 구조를 시각화하기 좋지만 계산이 복잡해요.
  • DBSCAN: 밀도 기반으로 이상치에 강하고 군집 수 설정이 필요 없지만 파라미터 설정이 어렵습니다.

🎯 실전 전략 (ADsP 대비)

  1. 군집 분석 문제는 알고리즘의 특징과 한계에 대한 이해를 묻습니다.
  2. 시각화 기법(PCA, 덴드로그램, 실루엣 플롯)도 자주 출제되니 꼭 정리해두세요.
  3. K-means는 중심 기반, 계층 군집은 거리 기반, DBSCAN은 밀도 기반이라는 차이를 기억하세요.

📝 종합 모의고사 문제 (복습용)

  1. 다음 중 이상치 탐지에 가장 강한 군집 알고리즘은?
    ① K-means
    ② 계층 군집
    ③ DBSCAN
    ④ SOM
  2. 덴드로그램을 통해 결과를 분석할 수 있는 군집 방법은?
    ① K-means
    ② 계층 군집
    ③ DBSCAN
    ④ LDA
  3. 다음 중 군집 수를 반드시 지정해야 하는 알고리즘은?
    ① DBSCAN
    ② 계층 군집
    ③ K-means
    ④ Autoencoder
  4. DBSCAN에서 군집 형성의 기준이 되는 두 파라미터는?
    ① 거리와 중심점
    ② 거리와 군집 수
    ③ eps와 minPts
    ④ 평균 거리와 maxPts
  5. 차원 축소를 통해 군집 시각화를 가장 많이 할 때 사용하는 기법은?
    ① 회귀 분석
    ② PCA
    ③ 시계열 분석
    ④ 카이제곱 검정

정답: ③, ②, ③, ③, ②
해설: DBSCAN은 노이즈에 강하고, 덴드로그램은 계층 군집에서만 쓰이며, K-means는 군집 수를 미리 정해야 하고, DBSCAN은 eps와 minPts로 군집을 형성하며, PCA는 시각화에 널리 쓰입니다.

🔖 관련 키워드 리캡

  • 정형 데이터 마이닝
  • K-means 알고리즘
  • 계층 군집 분석
  • DBSCAN
  • eps, minPts
  • 덴드로그램
  • Silhouette
  • 군집 시각화

👉 다음 포스트에서는 연관 분석(Apriori, FP-Growth)을 다룰 예정입니다. 마트 장바구니 분석부터 추천 시스템까지, 데이터 분석의 진짜 재미를 느낄 수 있는 영역이니 기대해주세요!

📌 마무리하며 – 군집 분석, 이제 정말 자신 있으시죠?

지금까지 우리는 정형 데이터 마이닝에서의 군집 분석 3대장, K-means, 계층 군집, DBSCAN을 꼼꼼하게 살펴봤습니다. 각각의 알고리즘은 쓰임새가 뚜렷하고, 분석 목적에 따라 선택이 달라지죠. 단순히 이론만 외우기보다, 데이터와 상황에 맞는 전략적 선택이 진짜 실력입니다.

ADsP 시험에서도 군집 알고리즘은 자주 출제되는 영역이므로, 오늘 정리한 내용을 자주 복습해보시고, 직접 손으로 시각화해보는 것도 추천드려요. 이론과 실습이 만날 때, 비로소 진짜 내 것이 되니까요.

📈 학습 전략 인사이트

  • 장기 전략: 각 군집 알고리즘을 Python 코드로 직접 실습해보며 구조 파악
  • 단기 전략: 군집별 비교 포인트를 표로 정리해서 암기력 높이기
  • 기출 활용: 덴드로그램, PCA, 실루엣 계수 관련 문제 풀이 반복
  • 실무 연결 팁: DBSCAN은 IoT, 고객 이상 패턴 탐지 분야에서 많이 쓰여요

마지막으로, 놓치지 말아야 할 건 “데이터에 따라 최적의 알고리즘은 달라진다”는 사실입니다. 정답은 하나가 아니라, 문제를 얼마나 잘 해석하느냐에 달려 있어요.

 

반응형