Density-Based Spatial Clustering of Application with Noise
밀집된 데이터 포인트를 그룹화하는 기법이에요. 저밀도 영역은 클러스터 경계를 형성해요. 노이즈와 아웃라이어를 효과적으로 처리할 수 있어요.
밀도가 높은 지역에서 클러스터를 형성하는 방법이에요. 데이터 포인트가 특정 밀도 기준을 초과하면 클러스터로 간주돼요. 노이즈에 강하고 다양한 형태의 클러스터를 발견할 수 있어요.
Distribution-based Clustering
분포 기반 클러스터링은 데이터의 확률 분포를 모델링하여 유사한 데이터 포인트를 그룹화하는 방법이에요. 이 기법은 주로 Gaussian 혼합 모델과 같은 통계적 접근을 사용해요. 결과적으로, 각 클러스터는 특정한 분포로 표현되며 명확한 경계를 가지지 않을 수 있어요.
이 기법은 데이터를 계층적으로 묶어 주는 방식이에요. 유사한 데이터 포인트들을 그룹화하여 덴드로그램 형태로 시각화할 수 있어요. 클러스터의 수를 미리 정하지 않아도 되기 때문에 유연한 분석이 가능해요.
k-Nearest Neighbor 방법은 데이터 포인트 간의 거리를 기반으로 유사한 샘플을 그룹핑해요. 새로운 데이터가 주어지면 가장 가까운 k개의 이웃을 찾아 분류하거나 예측을 해요. 이 방식은 레이블이 없는 데이터에서도 유용하게 활용될 수 있어요.
데이터를 군집으로 나누는 알고리즘이에요. 각 군집은 중심점(centroid)을 기준으로 형성돼요. 데이터 포인트는 가장 가까운 중심점에 할당돼요.