[ADP] 4과목) 5장 정형 데이터 마이닝

자격증/ADP

[ADP] 4과목) 5장 정형 데이터 마이닝 - 5절 군집분석

e_on_ 2025. 7. 26. 17:41

728x90

# 군집 분석

: 측정된 유사성을 통해 데이터를 그룹화 하여 데이터의 숨겨진 패턴을 찾는 방법

: 비지도 학습

# 유사도 측정

-> 거리 기반으로 측정

- 연속형 변수

1) 유클라디안 거리

: 두 점 사이의 거리(가장 짧은 거리)

https://en.wikipedia.org/wiki/Euclidean_distance

2) 맨하탄 거리

: 격자 구조에서 한 점에서 다른 점까지 이동 시, 수평 or 수직으로만 이동할 수 있는 경우의 거리

https://en.wikipedia.org/wiki/Taxicab_geometry

3) 민코우스키 거리

: 유클라디안 거리와 맨해튼 거리를 일반화한 형태

(거리 계산 방식 조절을 위한 매개변수 r을 포함)

https://en.wikipedia.org/wiki/Minkowski_distance

4) 마할라노비스 거리

: 데이터 집합의 통계적 분포(공분산 행렬, Convariance matrix, )를 고려하여 거리를 측정(공분산 행렬의 역행렬, )

: 데이터의 분포에서 표준편차를 조사한 후, 이를 정규화 하여 유클리드 거리를 계산한 것

https://angeloyeo.github.io/2022/09/28/Mahalanobis_distance.html, https://my-mindpalace.tistory.com/37

5) 체비셰프 거리

: 두 포인트 사이의 가장 큰 차이를 거리로 측정(가로, 세로, 대각선으로 이동할 수 있음)

6) 표준화 거리

: 데이터 스케일 차이 제거 후 유클라디안 거리 적용, 분산 적용 O

7) 캔버라 거리

: 차이의 비율을 기반으로 두 점 사이의 거리를 계산

: 두 점 사이의 차이에 대한 절대값을 두점의 합으로 나눈 값의 합

- 범주형 변수

1) 코사인 유사도

: 범주형 데이터를 이진 벡터로 변환 후 코사인 유사도를 사용하여 두 벡터 간의 각도를 측정

: 유사도와 각도는 반비례

: 유사도는 −1에서 1까지의 값을 가지며, −1은 서로 완전히 반대되는 경우, 0은 서로 독립적인 경우, 1은 서로 완전히 같은 경우를 의미

: 거리 = 1 - 유사도

2) 자카드 유사도

: 두 세트간의 교집합 크기를 합집합 크기로 나눈 값

: 0 과 1 사이의 값을 가지며 두 집합이 동일할 때 1, 공통된 원소가 하나도 없을 때 0

: 거리 = 1 - 유사도

# 군집 분석 분류

: 계층적 군집분석 / 비계층적 군집분석

- 계층적 군집 분석(Hierarchical Clustering)

: 데이터들을 점진적으로 병합하거나 나누어 군집을 형성하는 방식

1) 합병적 방법

: 초기에 각각의 데이터를 하나의 군집으로 간주 -> 가까운 데이터부터 순차적으로 병합

: Down - Top 방식

2) 분리형 방법

: 모든 데이터 포인트를 포함하는 하나의 군집에서 시작 -> 군집을 점차 세분화해 나가는 방식

: Top - Down 방식

# 계층적 군집 분석 : 군집 간 유사도 측정 방법

최단연결법	두 군집 간의 가장 가까운 데이터 쌍의 거리(최단경로)
최장연결법	두 군집 내에서 가장 멀리 떨어져 있는 데이터 쌍의 거리(최장경로)
평균연결법	두 군집의 모든 데이터들 간의 평균 거리
와드연결법	두 군집을 병합할 때 군집 내의 분산 증가를 최소화하는 방식 (군집 내의 오차 제곱합의 증가가 최소가 되는 방식)

# 군집 개수 결정 : 덴드로그램

: 계층적 군집 분석의 결과를 시각적으로 표현해줌

https://dashee87.github.io/data%20science/general/Clustering-with-Scikit-with-GIFs/

- 비계층적 군집 분석()

: 구하고자 하는 군집의 수를 사전에 설정하여 정해진 군집의 수만큼 형성하는 방법

1) K-means 군집 분석

: 군집의 수(k)는 미리 설정, ~~연속형 변수에서 사용 가능~~

: 초기중심점은 머리 떨어져 있는 것이 바람직함

: 탐욕적 알고리즘(오차 제곱합을 최소화 하는 방법으로 군집을 형성)

2) DBSCAN

: 밀도 기반 군집분석

: 데이터 분포가 기하학 적이거나, 노이즈가 포함된 데이터 셋에 효과적

: 초기 군집 수를 설정할 필요가 없음

3) 혼합 분포 군집(Mixture Distribution Clustering)

: 혼합분포? 여러 분포를 확률적으로 선형 결합한 분포, 데이터가 여러 개의 서로 다른 확률분포의 혼합으로 구성되어 있다고 가정

: 모형 기반 군집 방법, 모형을 기반으로 데이터를 군집하는 것

: 각 데이터가 혼합분포 중 어느 모형으로부터 나왓을 확률이 높은지에 따라 군집의 분류가 이뤄짐

: 초기 군집 수를 설정할 필요가 없음

4) EM 알고리즘

: 혼합 모델의 파라미터 추정 시 사용

: E와 M 두가지 단계

: Expectation 단계 - 데이터 포인트가 주어진 분포에 속할 확률을 계산

: Maximization 단계 - 계산된 확률을 통해 모델 파라미터를 업데이트

5) SOM(Self Organizing Map, 자기조직화지도)

: 신경망 기반 군집화

: 입력층(입력벡터를 받는 층)과 경쟁층(2차원 격자로 구성된 층)으로 이루어져 있음

: 고차원 데이터를 저차원에 매핑 -> 데이터의 위치 관계 보존 O, 시각적 이해가 쉬움

: 경쟁학습(승자 독식 구조)

: 단 하나의 전방패스 -> 수행 속도 빠름

https://ratsgo.github.io/machine%20learning/2017/05/01/SOM/#

- 초록색 노드(𝑥𝑖)는 𝑛차원 입력벡터의 각 요소
- 주황색 노드(𝑤𝑗)는 2차원 격자
저차원 격자 하나에는 여러 개의 입력벡터들이 속할 수 있음. 여기에 속한 입력벡터들끼리는 서로 위치적인 유사도를 가집니다(=가까운 곳에 있음).

그럼 임의의 입력벡터가 주어졌을 때 2차원상 어떤 격자에 속하는지?
위 그림 기준으로 𝑗번째 격자는 원데이터 공간에 존재하는 𝑛차원 벡터 [𝑤𝑗1,𝑤𝑗2,…,𝑤𝑗𝑛]에 대응
다시 말해 2차원상 격자가 위 그림처럼 25개라면 그에 해당하는 𝑛차원 크기의 격자벡터도 25개 있음

# 군집화 평가: 실루엣 계수

: 군집 내의 데이터들이 다른 군집에 비해 얼마나 잘 분리되어 있는지를 측정

: -1 ~ 1 사이의 값

- 1 : 군집화가 잘 되어있음

- 0 : 군집 간 구분이 불분명함

- -1 : 군집화가 전혀 이루어지지 않음

https://losskatsu.github.io/machine-learning/silhouette-score/#3-실루엣-스코어의-값의-범위

같은 클러스터에 속한 데이터들과의 평균 거리

다른 클러스터에 있는 데이터와의 평균 거리

다른 클러스터와의 평균 거리 중 최소 값

b-a를 a와 b의 값 충 최대 값으로 나눔

728x90

저작자표시 비영리 변경금지 (새창열림)

'자격증 > ADP' 카테고리의 다른 글

[ADP] 5과목) 1장 시각화 인사이트 프로세스 (5)	2025.07.27
[ADP] 4과목) 5장 정형 데이터 마이닝 - 6절 연관분석 (2)	2025.07.27
[ADP] 4과목) 5장 정형 데이터 마이닝 - 4절 인공신경망 분석 (0)	2025.07.23
[ADP] 4과목) 5장 정형 데이터 마이닝 - 3절 앙상블 분석 (1)	2025.07.23
[ADP] 1과목) 2장 데이터의 가치와 미래 - 1. 빅데이터의 이해 (0)	2025.07.23

현재글[ADP] 4과목) 5장 정형 데이터 마이닝 - 5절 군집분석

이온