[Machine Learning]

비지도 학습의 일부입니다.

비슷한 위치에 있는 데이터를 그룹화하고 클러스터링합니다.

두 개의 변수에 속한 데이터 값을 그룹화할 때

클러스터링은 대상 레이블 없이 여러 데이터 값으로만 가능합니다.

데이터를 관찰하고 유사한 유클리드 거리 값으로 데이터를 그룹화하는 과정을 수행합니다.

K-Means 알고리즘 단계

1단계. 클러스터 수를 결정합니다. 케이

2단계. 임의의 k-포인트를 각 클러스터의 중심으로 선택합니다.

3단계. 고정 중심에 가까운 데이터를 할당하여 k개의 클러스터를 구축합니다.

4단계. 각 클러스터의 새 중심을 계산합니다.

5단계. 각 데이터 항목을 새 이웃의 중심으로 다시 매핑합니다.

6단계. 4단계부터 반복합니다.

k의 최적 수

ELBOW METHOD: 최적의 클러스터 수를 달성하기 위한 기법

클러스터 내의 제곱합을 반환합니다. (Cluster Sum of Squares의 약어 WCSS 내에서)

WCSS는 각 데이터 좌표와 중심점 사이의 거리를 계산하고 제곱합니다.

각 클러스터에 대해 동일한 계산을 수행합니다.

계산된 모든 값을 합산하여 얻습니다.

클러스터 수가 적을수록 클러스터 내의 제곱합이 커집니다.

이는 각 데이터 좌표의 거리가 중심에서 훨씬 멀기 때문입니다.

클러스터 수가 증가함에 따라 WCSS 값은 점차 감소합니다. 각 데이터 좌표와 중심 사이의 거리가 짧아지기 때문입니다.

모든 제곱 값을 더해도 값이 증가하지 않습니다.

따라서 클러스터 수가 증가할수록 최적 K는 감소하고 이후의 변화가 미미해지는 시작점이 최적이 된다.