마할라노비스 거리는 군집분석에서 가장 많이 사용되는 거리개념으로서, 두 지점의 단순한 거리뿐만이 아니라, 변수의 특성을 나타내는 표준편차와 상관계수가 함께 고려된다는 특징을 가지고 있다.
군집분석을 실시하는 대부분 경우, 군집분석을 실시하기 전에 모든 변수들을 평균이 0이고 분산이 1의 변환된 변수로 표준화시킨다
마할라노비스 거리는 변수들 사이의 표준편차와 상관관계를 고려하여 만들어진 거리로서, 만일 모든 변수가 표준화되어 있고 모든 변수들이 서로 독립적인 관계를 가지고 있다면, 마할라노비스 거리는 앞에서 정의된 유클리디안 거리와 일치하게 된다.
아래 그림과 같은 점 A,B,C 가 있다고 하자.
공분산 행렬(Covariance Matrix)은 아래와 같다라고 하자.
A, B, C 각각의 위치는 다음과 같다.
A(0.5, 0.5)
B(0, 1)
C(1.5, 1.5)
마할라노비스 거리 구하는 공식은 아래와 같다.
먼저, 공분산 행렬의 역행렬을 구하자. 2차 정방행렬의 역행렬 구하는 공식은 다음과 같다.
위식에 의해 공분산 행렬의 역행렬을 구하면
마할라노비스 거리 공식에 의해 A,B의 거리와 A,C의 거리를 구해보자.
유클리안 거리와 비교해서 결과가 반대로 나왔음을 알 수 있다. 즉, 상관에 따른 거리가 변할 수 있음을 나타낸다.
댓글 없음:
댓글 쓰기