예를 들어 Scikit-Learn의 make_moons 함수에서 생성된 일부 데이터를 자세히 살펴보겠습니다. 우리는 눈으로 할 수 있습니다 : 직관적 인 관점에서, 우리는 일부 점에 대한 클러스터링 할당이 다른 것보다 더 확실 할 것으로 예상 할 수 있습니다 : 예를 들어, 우리가 완료되지 않을 수 있도록, 두 중간 클러스터 사이에 매우 약간의 중복이있는 것으로 보인다 그들 사이의 포인트의 클러스터 어구에 대한 자신감. 안타깝게도 k-means 모델에는 클러스터 할당의 확률이나 불확실성에 대한 본질적인 측정값이 없습니다(부트스트랩 접근 방식을 사용하여 이러한 불확실성을 추정할 수 있음). 이를 위해, 우리는 모델을 일반화에 대해 생각해야한다. k-means에 대한 중요한 관찰은 이러한 클러스터 모델이 원형이어야 한다는 것입니다: k-means는 직사각형 또는 타원형 클러스터를 차지하는 기본 제공 방법이 없습니다. 예를 들어 동일한 데이터를 가져와 변환하면 클러스터 할당이 뒤섞이게 됩니다. 또한 다양한 모멘트에 최적으로 가중치를 두면 모멘트 조건에 균일하게 가중치를 두는 추정기보다 중요한 효율성 향상을 제공한다는 것을 설명했습니다. 예를 들어 각 지점의 크기를 예측의 확실성에 비례하여 이러한 불확실성을 시각화할 수 있습니다. 다음 그림을 보면 클러스터 할당의 이러한 불확실성을 반영하는 클러스터 간의 경계에 있는 지점이 정확히 있음을 알 수 있습니다.

파이썬에는 GMM을 구현하는 가우시안 혼합물 클래스가 있습니다. 예를 들어, 각 점의 거리를 가장 가까운 클러스터 중심에 집중하지 않고 비교하여 클러스터 할당의 불확실성을 측정할 수 있습니다. 또한 클러스터 경계가 원이 아닌 타원으로 허용하여 순환되지 않는 클러스터를 고려할 수도 있습니다. 그것은 이들이 클러스터링 모델, 가우시안 혼합물 모델의 다른 유형의 두 가지 필수 구성 요소 밝혀. 몬테 카를로에 대한 아래 코드는 몬테 카를로 시뮬레이션에 의한 효율성 비교, mlexp에 의한 최대 가능성 추정: 카이 제곱 예제 및 Stata를 사용한 몬테 카를로 시뮬레이션을 기반으로 합니다. 이 코드를 다운로드하려면 gmmchi2sim.do 클릭하십시오. 여기서 16개의 가우시안이 혼합된 것은 분리된 데이터 클러스터를 찾는 것이 아니라 입력 데이터의 전체 분포를 모델링하는 역할을 합니다. 이것은 GMM이 입력과 유사하게 분산된 새로운 임의 데이터를 생성하는 레시피를 제공한다는 것을 의미하는 분포의 생성 모델입니다. 예를 들어, 이 16개 구성 요소 GMM에서 가져온 400개의 새로운 포인트가 원래 데이터에 맞습니다: 입력 데이터에 의해 정의된 분포에서 새 샘플을 만들기 위해 GMM을 데이터의 생성 모델로 사용하는 간단한 예제를 보았습니다.

 

Comments are closed.

Set your Twitter account name in your settings to use the TwitterBar Section.