거리, 유사성, 분포와 불확실성을 측정하기 위한 수학적 도구들

거리, 방향, 상관관계, 집합의 겹침, 시계열 패턴, 분포의 형태와 불확실성을 측정하는 대표적인 도구들을 정리한다.

각 항목은 수학적 모델, 측정 대상, 설명, 사용 사례 순으로 기록한다.


TL;DR

값과 위치

  • 직선거리: 유클리드 거리
  • 성분별 차이의 합: 맨해튼 거리
  • 가장 큰 성분 차이: 체비쇼프 거리
  • 성분 차이의 강조 수준: 민코프스키 거리
  • 분산과 상관관계를 고려한 거리: 마할라노비스 거리

방향과 관계

  • 벡터의 방향: 코사인 유사도
  • 선형적 동조 관계: 피어슨 상관계수
  • 순위의 단조 관계: 스피어만 순위상관계수
  • 한 변수가 다른 변수에 제공하는 정보량: 상호정보량

겹침과 일치

  • 집합의 교집합 비율: 자카드 유사도
  • 공통 영역 중심의 겹침: 다이스 계수
  • 서로 다른 위치의 수: 해밍 거리
  • 삽입·삭제·치환 횟수: 편집 거리

시간과 순서

  • 시간축이 다른 패턴의 정렬: 동적 시간 왜곡
  • 시차에 따른 신호 유사성: 교차상관

단일 분포의 특성

  • 퍼짐 정도: 분산, 표준편차
  • 비대칭성: 왜도
  • 꼬리와 극단값의 성향: 첨도
  • 불확실성과 평균 정보량: 엔트로피
  • 범주의 혼합 정도: 지니 불순도

확률분포 간 차이

  • 실제 분포에 대한 예측 비용: 교차 엔트로피
  • 분포를 대체할 때의 정보 손실: KL 발산
  • 대칭적인 정보 차이: Jensen–Shannon 발산
  • 분포 질량의 이동 비용: Wasserstein 거리
  • 분포의 겹침 정도: Bhattacharyya 거리
  • 대칭적이고 제한된 분포 거리: Hellinger 거리

형상과 점 집합

  • 최악 지점의 불일치: Hausdorff 거리
  • 평균적인 최근접점 불일치: Chamfer 거리
  • 진행 순서를 고려한 곡선 차이: Fréchet 거리

목적별 관계

  • 과업에 맞게 학습한 거리 또는 유사성: 학습된 유사성

1. 값과 위치

1.1 유클리드 거리 (Euclidean Distance)

수학적 모델

$$d(\mathbf{x},\mathbf{y})=\sqrt{\sum_i (x_i-y_i)^2}$$

측정 대상
두 점 사이의 직선거리.

설명
두 벡터의 좌표 차이에 대한 \(L_2\) norm이다. 각 차이를 제곱하므로 큰 오차가 상대적으로 더 크게 반영되며, 회전에는 불변이지만 변수의 단위와 스케일에는 민감하다. 서로 다른 단위의 특성을 함께 사용할 때는 표준화나 정규화 여부가 결과를 크게 바꿀 수 있다.

사용 사례
좌표 비교, 최근접 이웃, K-means 군집화, 수치 특징 비교.


1.2 맨해튼 거리 (Manhattan Distance)

수학적 모델

$$d(\mathbf{x},\mathbf{y})=\sum_i |x_i-y_i|$$

측정 대상
성분별 차이의 절댓값 합.

설명
두 벡터의 좌표 차이에 대한 \(L_1\) norm이다. 성분별 절댓값 차이를 그대로 합하므로 유클리드 거리보다 단일 큰 오차의 영향이 완만하고, 희소 벡터에서 차이가 발생한 성분 수와 크기를 비교적 직접적으로 반영한다. 다만 좌표축의 선택과 스케일에는 여전히 민감하다.

사용 사례
격자형 경로 탐색, 희소 벡터, 최근접 이웃, 로봇 경로 계획.


1.3 체비쇼프 거리 (Chebyshev Distance)

수학적 모델

$$d(\mathbf{x},\mathbf{y})=\max_i |x_i-y_i|$$

측정 대상
성분별 차이 중 가장 큰 값.

설명
두 벡터의 좌표 차이에 대한 \(L_\infty\) norm이다. 여러 성분 중 가장 큰 차이 하나가 전체 거리를 결정하므로, 평균적인 차이보다 최악의 성분 오차를 제한해야 할 때 적합하다. 반대로 나머지 성분의 누적 차이는 값에 반영되지 않는다.

사용 사례
최대 허용 오차, 제조 품질 관리, 다차원 제약 검사.


1.4 민코프스키 거리 (Minkowski Distance)

수학적 모델

$$d_p(\mathbf{x},\mathbf{y})=\left(\sum_i |x_i-y_i|^p\right)^{1/p}$$

측정 대상
성분 차이를 반영하는 강도.

설명
\(p\ge 1\)에서 정의되는 \(L_p\) 거리의 일반형이다. \(p=1\)이면 맨해튼 거리, \(p=2\)이면 유클리드 거리이며, \(p\to\infty\)에서는 체비쇼프 거리로 수렴한다. \(p\)가 커질수록 큰 성분 차이를 더 강조하므로, \(p\)의 선택은 어떤 오차 형태를 중요하게 볼지 결정한다.

사용 사례
K-nearest neighbors, 거리 함수 설계, 하이퍼파라미터 조정.


1.5 마할라노비스 거리 (Mahalanobis Distance)

수학적 모델

$$d_M(\mathbf{x},\boldsymbol{\mu})=\sqrt{(\mathbf{x}-\boldsymbol{\mu})^\top\mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})}$$

측정 대상
분산과 변수 간 상관관계를 고려한 이례성.

설명
좌표 차이를 공분산 구조로 정규화한 거리다. 분산이 큰 방향의 편차는 작게, 분산이 작은 방향의 편차는 크게 평가하며 변수 간 상관관계도 함께 반영한다. 위 식은 관측 \(\mathbf{x}\)와 기준 평균 \(\boldsymbol{\mu}\) 사이의 거리이며, 두 관측 사이에는 다음 형태를 사용할 수 있다.

$$d_M(\mathbf{x},\mathbf{y})=\sqrt{(\mathbf{x}-\mathbf{y})^\top\mathbf{\Sigma}^{-1}(\mathbf{x}-\mathbf{y})}$$

이 경우 어떤 데이터에서 추정한 공분산 \(\mathbf{\Sigma}\)를 기준으로 사용할지 명시해야 한다. 공분산 행렬이 특이하거나 추정 데이터가 부족하면 역행렬이 불안정해질 수 있어 regularization이나 의사역행렬이 필요할 수 있다.

사용 사례
이상치 탐지, 센서 검증, 다변량 분류, 품질 관리, 상태 추정.


2. 방향과 관계

2.1 코사인 유사도 (Cosine Similarity)

수학적 모델

$$s_{\cos}(\mathbf{x},\mathbf{y})=\frac{\mathbf{x}^{\top}\mathbf{y}}{\|\mathbf{x}\|_2\|\mathbf{y}\|_2}$$

측정 대상
두 벡터 사이의 방향 차이.

설명
두 벡터를 단위 길이로 정규화한 뒤 내적을 계산한다. 따라서 벡터의 크기는 제거되고 방향 또는 성분 비율의 유사성이 남는다. 일반적인 실수 벡터에서는 값이 \([-1,1]\)에 놓이며, 모든 성분이 음수가 아닌 벡터에서는 주로 \([0,1]\) 범위에 나타난다.

영벡터에는 정의할 수 없으며, 높은 값이 크기·정보량·의미적 동일성까지 보장하지 않는다. 흔히 \(1-s_{\cos}\)를 cosine distance라고 부르지만 일반적으로 metric은 아니다. 단위 구면 위의 각거리 \(\arccos(s_{\cos})\)는 방향 사이의 거리를 직접 나타낸다. 임계값은 벡터를 만든 모델과 데이터 분포에 맞춰 정해야 한다.

사용 사례
키워드 검색, 문서 검색, 추천 시스템, 임베딩 검색, RAG 후보 검색.


2.2 피어슨 상관계수 (Pearson Correlation Coefficient)

수학적 모델

$$\rho_{X,Y}=\frac{\operatorname{cov}(X,Y)}{\sigma_X\sigma_Y}$$

측정 대상
두 변수의 선형적 동조 관계.

설명
각 변수의 평균을 제거하고 표준편차로 정규화한 뒤 선형적 동조성을 측정한다. 값은 \(-1\)에서 \(1\) 사이이며, 절댓값이 클수록 강한 선형 관계를 뜻한다. 분산이 0인 변수에는 정의되지 않고, 이상치에 민감하며, 강한 비선형 관계는 낮게 평가될 수 있다. 상관은 인과를 의미하지 않는다.

사용 사례
시계열 비교, 변수 관계 분석, 금융 데이터, 센서 간 관계 분석.


2.3 스피어만 순위상관계수 (Spearman Rank Correlation)

수학적 모델

$$\rho_s=\operatorname{corr}\left(\operatorname{rank}(X),\operatorname{rank}(Y)\right)$$

측정 대상
두 변수 순위의 단조 관계.

설명
원래 값 대신 순위를 사용해 두 변수의 단조 관계를 측정한다. 선형이 아니어도 한 변수가 증가할 때 다른 변수도 일관되게 증가하거나 감소하면 높은 절댓값을 가질 수 있다. 값의 간격 정보는 사라지며, 동순위가 많을 때는 순위 부여 방식과 보정이 결과에 영향을 준다.

사용 사례
순위 비교, 설문 분석, 추천 순위 평가, 단조 관계 분석.


2.4 상호정보량 (Mutual Information)

수학적 모델

$$I(X;Y)=\sum_{x,y}p(x,y)\log\frac{p(x,y)}{p(x)p(y)}$$

또는 다음과 같이 결합분포와 주변분포 곱 사이의 KL 발산으로 표현할 수 있다.

$$I(X;Y)=D_{\mathrm{KL}}\left(p(x,y)\middle\|p(x)p(y)\right)$$

측정 대상
한 변수를 관측했을 때 다른 변수의 불확실성이 얼마나 감소하는가.

설명
두 변수의 통계적 의존성을 정보량으로 나타낸다. 두 변수가 독립이면 \(0\)이며, 피어슨 상관계수와 달리 선형 관계에 한정되지 않아 비선형 의존성도 포착할 수 있다.

값의 크기는 변수의 엔트로피와 로그의 밑에 영향을 받는다. 서로 다른 데이터 쌍의 의존성을 직접 비교할 때는 normalized mutual information을 사용하기도 한다. 연속변수에서는 결합밀도 추정이나 이산화 방법에 따라 추정값이 달라질 수 있다.

사용 사례
특징 선택, 영상 정합, 변수 의존성 분석, 클러스터링 평가, 정보 이론.


3. 겹침과 일치

3.1 자카드 유사도 (Jaccard Similarity)

수학적 모델

$$J(A,B)=\frac{|A\cap B|}{|A\cup B|}$$

측정 대상
두 집합의 전체 항목 중 공통 항목의 비율.

설명
교집합의 크기를 합집합의 크기로 나눈 집합 유사도다. 항목의 빈도와 순서는 무시하고 존재 여부만 반영한다. 두 집합이 같으면 \(1\), 공통 원소가 없으면 \(0\)이다. 두 집합이 모두 비어 있을 때는 분모가 0이므로 응용에서 값을 별도로 정의해야 한다.

사용 사례
태그 비교, 구매 목록, 문서 단어 집합, 중복 문서 탐지.


3.2 다이스 계수 (Dice Coefficient)

수학적 모델

$$D(A,B)=\frac{2|A\cap B|}{|A|+|B|}$$

측정 대상
공통 영역을 강조한 집합의 겹침.

설명
교집합을 두 집합 크기의 평균에 대해 정규화한 겹침 척도다. 자카드 유사도와 같은 순서를 보존하며 \(D=2J/(1+J)\)의 관계를 갖지만, 같은 겹침에 대해 다이스 값이 더 크게 나타난다. 특히 전경 영역이 작은 분할 문제에서 공통 영역을 강조하는 평가에 자주 사용한다.

사용 사례
의료 영상 분할, 객체 영역 평가, 이미지 마스크 비교.


3.3 해밍 거리 (Hamming Distance)

수학적 모델

$$d_H(\mathbf{x},\mathbf{y})=\sum_i \mathbf{1}(x_i\neq y_i)$$

측정 대상
같은 위치에서 값이 다른 항목의 수.

설명
길이가 같은 두 시퀀스를 위치별로 비교해 값이 다른 위치의 수를 센다. 차이의 크기나 삽입·삭제는 고려하지 않으므로, 위치 대응이 이미 정해진 이진 코드나 범주형 시퀀스에 적합하다. 길이가 다른 시퀀스에는 그대로 적용할 수 없다.

사용 사례
오류 검출, 비트열 비교, 통신 시스템, 유전자 서열 비교.


3.4 편집 거리 (Edit Distance)

수학적 모델
삽입, 삭제, 치환에 필요한 최소 연산 횟수.

측정 대상
한 문자열을 다른 문자열로 변환하는 데 필요한 수정량.

설명
삽입, 삭제, 치환의 최소 비용으로 두 문자열의 형태적 차이를 측정한다. 대표적인 Levenshtein distance는 각 연산 비용을 1로 두지만, 응용에 따라 가중치를 달리할 수 있다. 문자열 길이가 달라도 비교할 수 있으나 의미적 유사성이나 문맥은 직접 반영하지 않는다.

사용 사례
오타 교정, 검색어 자동 완성, 문자열 매칭, DNA 서열 비교.


4. 시간과 순서

4.1 동적 시간 왜곡 (Dynamic Time Warping, DTW)

수학적 모델

$$DTW(X,Y)=\min_{\pi}\sum_{(i,j)\in\pi} d(x_i,y_j)$$

측정 대상
시간축이 다른 두 시계열의 패턴 차이.

설명
두 시계열 사이의 비선형 시간 정렬 경로를 찾아 누적 거리를 최소화한다. 길이나 진행 속도가 달라도 유사한 국소 패턴을 대응시킬 수 있지만, 제약이 약하면 서로 다른 패턴도 과도하게 정렬될 수 있다. warping window, 경로 제약, 길이 정규화 여부가 결과 해석에 중요하다.

사용 사례
음성 인식, 동작 분석, 심전도, 웨어러블 센서, 기계 상태 진단.


4.2 교차상관 (Cross-Correlation)

수학적 모델

$$R_{xy}[k]=\sum_n x[n]y[n+k]$$

측정 대상
시차에 따른 두 신호의 유사성.

설명
한 신호를 시차 \(k\)만큼 이동시키며 두 신호의 곱을 합산한다. 최대값이 나타나는 시차는 두 신호가 가장 잘 정렬되는 지연의 후보가 된다. 원식은 신호의 평균과 크기에 영향을 받으므로, 형태 비교에는 평균 제거와 정규화가 포함된 normalized cross-correlation을 사용하기도 한다.

시차의 부호와 인덱스 방향은 분야별 정의에 따라 달라질 수 있다. 복소 신호에서는 일반적으로 한 신호에 켤레복소수를 적용한다. 같은 신호를 자기 자신과 비교하면 자기상관(autocorrelation)이 되며, 주기성과 시간 의존성 분석에 사용한다.

사용 사례
신호 동기화, 시간 지연 추정, 음향 위치 추정, 센서 분석, 주기 탐지.


5. 단일 분포의 특성

5.1 분산 (Variance)

수학적 모델

$$\operatorname{Var}(X)=\mathbb{E}\left[(X-\mu)^2\right]$$

측정 대상
평균을 중심으로 한 값의 퍼짐.

설명
값이 평균에서 떨어진 제곱 편차의 기대값이다. 큰 편차를 강하게 반영하며 결과 단위는 원래 단위의 제곱이다. 모집단 분산과 표본 분산은 분모가 다르며, 표본에서 모집단 분산을 추정할 때는 일반적으로 \(n-1\) 보정을 사용한다.

사용 사례
통계 분석, 센서 노이즈, 위험 분석, 품질 관리.


5.2 표준편차 (Standard Deviation)

수학적 모델

$$\sigma=\sqrt{\operatorname{Var}(X)}$$

측정 대상
평균으로부터의 전형적인 변동 규모.

설명
분산의 제곱근으로, 데이터와 같은 단위에서 퍼짐을 표현한다. 평균 주변의 전형적인 변동 규모를 요약하지만, 비대칭 분포나 두꺼운 꼬리에서는 중심과 산포를 충분히 설명하지 못할 수 있다. 이상치에 강한 대안으로 MAD나 IQR을 함께 고려할 수 있다.

사용 사례
실험 결과 요약, 금융 변동성, 센서 오차, 품질 관리.


5.3 왜도 (Skewness)

수학적 모델

$$\gamma_1=\mathbb{E}\left[\left(\frac{X-\mu}{\sigma}\right)^3\right]$$

측정 대상
분포의 비대칭성.

설명
표준화된 3차 중심모멘트로 분포의 비대칭성을 요약한다. 양수는 대체로 오른쪽 꼬리, 음수는 왼쪽 꼬리가 더 긴 분포를 뜻한다. 표본 왜도에는 여러 보정식이 존재하며, 이상치와 표본 크기에 민감하므로 값 하나만으로 분포 형태를 단정하지 않는 편이 좋다.

사용 사례
소득 분포, 금융 수익률, 데이터 전처리, 분포 진단.


5.4 첨도 (Kurtosis)

수학적 모델

$$\gamma_2=\mathbb{E}\left[\left(\frac{X-\mu}{\sigma}\right)^4\right]$$

측정 대상
분포의 꼬리와 극단값 발생 성향.

설명
표준화된 4차 중심모멘트로 꼬리의 무게와 극단값 발생 성향을 반영한다. 정규분포의 첨도는 \(3\)이며, 이를 뺀 초과 첨도는 정규분포를 \(0\)으로 둔다. 표본 첨도는 극단값에 매우 민감하므로 충분한 표본과 함께 해석해야 한다.

사용 사례
금융 위험, 신호 처리, 이상치 탐지, 분포 진단.


5.5 엔트로피 (Entropy)

수학적 모델

$$H(P)=-\sum_x P(x)\log P(x)$$

측정 대상
확률분포의 불확실성 또는 평균 정보량.

설명
이산 확률분포에서 결과를 관측하기 전의 평균 불확실성 또는 평균 정보량을 나타낸다. 확률이 한 결과에 집중되면 낮고, 가능한 결과에 고르게 분산될수록 높다. 로그의 밑에 따라 단위가 달라지며, 연속분포의 differential entropy는 이산 엔트로피와 해석 및 성질이 다르다.

사용 사례
데이터 압축, 정보 이득, 의사결정나무, 언어 모델, 불확실성 분석.


5.6 지니 불순도 (Gini Impurity)

수학적 모델

$$G=1-\sum_k p_k^2$$

측정 대상
범주가 섞여 있는 정도.

설명
분포에서 임의로 선택한 항목을 해당 분포에 따라 무작위로 라벨링할 때 오분류될 확률로 해석할 수 있다. 한 범주에 모두 집중되면 \(0\)이고, 범주가 균등할수록 커진다. 최대값은 범주 수에 따라 달라지므로 서로 다른 범주 수의 문제를 단순 비교할 때는 주의가 필요하다.

사용 사례
의사결정나무, 분류 데이터 분할, 범주 혼합도 측정.


6. 확률분포 간 차이

6.1 교차 엔트로피 (Cross-Entropy)

수학적 모델

$$H(P,Q)=-\sum_x P(x)\log Q(x)$$

측정 대상
실제 분포 \(P\)를 예측 분포 \(Q\)로 표현할 때의 평균 비용.

설명
실제 분포 \(P\)에서 발생한 결과를 예측 분포 \(Q\)의 코드로 표현할 때 필요한 평균 정보량이다. \(P\)가 고정되면 교차 엔트로피 최소화는 \(D_{\mathrm{KL}}(P\|Q)\) 최소화와 같다. 실제로 가능한 사건에 \(Q(x)=0\)을 부여하면 손실이 무한대로 발산할 수 있어 수치적으로는 clipping이나 안정화가 필요하다.

사용 사례
분류 손실함수, 신경망 학습, 언어 모델, 확률 예측.


6.2 KL 발산 (Kullback–Leibler Divergence)

수학적 모델

$$D_{\mathrm{KL}}(P\|Q)=\sum_x P(x)\log\frac{P(x)}{Q(x)}$$

측정 대상
분포 \(P\)를 \(Q\)로 대체할 때의 추가 정보량.

설명
분포 \(P\)를 기준으로 \(Q\)를 사용할 때 추가로 필요한 평균 정보량이다. 항상 0 이상이지만 대칭적이지 않고 삼각부등식을 만족하지 않아 metric은 아니다. \(P(x)>0\)인데 \(Q(x)=0\)이면 무한대로 발산하며, 비교 방향에 따라 의미와 값이 달라진다.

사용 사례
변분 추론, 확률 모델, 생성 모델, 분포 근사, 정보 이론.


6.3 Jensen–Shannon 발산 (Jensen–Shannon Divergence)

수학적 모델

$$D_{\mathrm{JS}}(P,Q)=\frac{1}{2}D_{\mathrm{KL}}(P\|M)+\frac{1}{2}D_{\mathrm{KL}}(Q\|M),$$$$M=\frac{P+Q}{2}.$$

측정 대상
두 확률분포의 대칭적인 정보 차이.

설명
두 분포의 혼합분포 \(M\)을 기준으로 각각의 KL 발산을 평균한 대칭적 척도다. KL 발산보다 안정적이며, 로그 밑이 2일 때 값은 \(0\)과 \(1\) 사이로 제한된다. 발산 자체는 metric이 아니지만 제곱근은 metric이 된다.

사용 사례
텍스트 분포 비교, 생성 모델 평가, 분포 군집화, 변화 탐지.


6.4 Wasserstein 거리 (Wasserstein Distance)

수학적 모델

대표적인 \(1\)-Wasserstein 거리는 다음과 같다.

$$W_1(P,Q)=\inf_{\gamma\in\Pi(P,Q)}\mathbb{E}_{(x,y)\sim\gamma}[d(x,y)]$$

일반적인 \(p\)-Wasserstein 거리는 다음과 같이 쓸 수 있다.

$$W_p(P,Q)=\left(\inf_{\gamma\in\Pi(P,Q)}\mathbb{E}_{(x,y)\sim\gamma}[d(x,y)^p]\right)^{1/p}$$

측정 대상
한 분포를 다른 분포로 옮기는 최소 비용.

설명
두 분포 사이에서 확률 질량을 이동시키는 최소 운송 비용을 측정한다. 확률 질량의 양뿐 아니라 이동 거리까지 반영하므로 지지집합이 겹치지 않는 분포도 의미 있게 비교할 수 있다. 반면 바탕 공간의 거리 정의가 필요하고, 고차원에서는 계산 비용과 표본 복잡도가 커질 수 있다.

사용 사례
생성 모델, 이미지 히스토그램, 도메인 적응, 최적 수송.


6.5 Bhattacharyya 거리 (Bhattacharyya Distance)

수학적 모델

$$BC(P,Q)=\sum_x \sqrt{P(x)Q(x)},$$$$D_B(P,Q)=-\ln BC(P,Q).$$

측정 대상
두 확률분포의 겹침 정도.

설명
Bhattacharyya coefficient는 두 분포의 겹침을 측정하고, 거리는 그 계수에 음의 로그를 취한다. 겹침이 클수록 계수는 \(1\)에 가까워지고 거리는 \(0\)에 가까워진다. 대칭적이지만 일반적으로 삼각부등식을 만족하지 않으므로 엄밀한 metric은 아니다.

사용 사례
패턴 인식, 클래스 분리도, 히스토그램 비교, 신호 분류.


6.6 Hellinger 거리 (Hellinger Distance)

수학적 모델

$$H(P,Q)=\frac{1}{\sqrt{2}}\left(\sum_x\left(\sqrt{P(x)}-\sqrt{Q(x)}\right)^2\right)^{1/2}$$

측정 대상
두 확률분포 사이의 대칭적이고 정규화된 차이.

설명
확률의 제곱근을 취한 뒤 유클리드 거리를 계산한 형태다. 값은 \(0\)과 \(1\) 사이에 놓이며, 두 분포가 같으면 \(0\), 서로 겹치지 않으면 \(1\)이다. 대칭적이고 삼각부등식을 만족하는 metric이다.

Bhattacharyya coefficient와는 다음 관계를 갖는다.

$$H(P,Q)^2=1-BC(P,Q)$$

KL 발산과 달리 비교 방향에 의존하지 않고 값이 제한되어 있어 분포 비교 결과를 상대적으로 안정적으로 해석할 수 있다.

사용 사례
확률분포 비교, 통계적 추론, 생성 모델 평가, 분포 변화 탐지.


7. 형상과 점 집합

7.1 Hausdorff 거리 (Hausdorff Distance)

수학적 모델

$$d_H(A,B)=\max\left\{h(A,B),\,h(B,A)\right\},$$$$h(A,B)=\sup_{a\in A}\inf_{b\in B}d(a,b).$$

측정 대상
두 점 집합에서 가장 크게 어긋난 지점.

설명
각 집합의 모든 점에 대해 상대 집합의 최근접점 거리를 구한 뒤, 두 방향에서의 최댓값을 취한다. 따라서 두 집합 중 가장 크게 어긋난 지점이 전체 값을 결정한다. 최악의 불일치를 검출하는 데 적합하지만 이상치와 부분 누락에 매우 민감하다.

사용 사례
형상 비교, 윤곽선 매칭, 점군 처리, 영상 정합, 의료 영상.


7.2 Chamfer 거리 (Chamfer Distance)

수학적 모델

$$d_{\mathrm{CD}}(A,B)=\frac{1}{|A|}\sum_{a\in A}\min_{b\in B}d(a,b)+\frac{1}{|B|}\sum_{b\in B}\min_{a\in A}d(a,b)$$

측정 대상
두 점 집합의 평균적인 최근접점 차이.

설명
각 점에서 상대 집합의 최근접점까지 거리를 구해 양방향으로 합산하거나 평균한다. Hausdorff 거리보다 평균적인 정합 상태를 반영하고 이상치 한 점의 영향은 작지만, 일대일 대응과 질량 보존을 보장하지 않는다.

거리의 제곱 여부와 정규화 방식에 따라 정의가 달라질 수 있으므로 구현과 실험에서 사용한 형태를 명시해야 한다. 이름과 달리 일반적인 Chamfer distance는 항상 metric의 조건을 만족하는 것은 아니다.

사용 사례
점군 비교, 3D 형상 복원, 생성 모델 평가, 표면 비교.


7.3 Fréchet 거리 (Fréchet Distance)

수학적 모델

두 연속 곡선 \(f:[0,1]\to S\), \(g:[0,1]\to S\)에 대해 다음과 같이 정의할 수 있다.

$$d_F(f,g)=\inf_{\alpha,\beta}\max_{t\in[0,1]}d\left(f(\alpha(t)),g(\beta(t))\right)$$

여기서 \(\alpha\)와 \(\beta\)는 곡선의 진행 순서를 보존하는 연속적인 재매개화다.

측정 대상
진행 순서를 고려한 두 곡선 또는 궤적의 차이.

설명
점 집합만 비교하지 않고 각 곡선을 따라 이동하는 순서를 함께 반영한다. Hausdorff 거리는 동일한 점 집합이면 순서가 달라도 같게 볼 수 있지만, Fréchet 거리는 경로의 진행 구조가 다르면 차이를 반영한다.

연속 Fréchet 거리와 이산 궤적에 사용하는 discrete Fréchet distance가 구분된다. 시간이나 진행 속도는 재매개화로 조정할 수 있지만, 점의 순서를 뒤집지는 않는다.

사용 사례
궤적 비교, 경로 유사성, 필기 인식, 지도 매칭, 동작 분석.


8. 학습 기반 거리와 유사성

8.1 Metric Learning과 학습된 유사성 (Learned Similarity)

수학적 모델

임베딩 모델, metric learning, contrastive loss, triplet loss, Siamese network 등으로 학습한다.

Triplet loss의 한 예는 다음과 같다.

$$\mathcal{L}=\max\left(0,\,d(a,p)-d(a,n)+m\right)$$

측정 대상
특정 과업이 요구하는 의미에서의 유사성.

설명
어떤 쌍을 가깝게, 어떤 쌍을 멀게 둘지 학습 데이터와 손실함수로 정한다. 학습된 임베딩에 고정된 거리나 유사도를 적용할 수도 있고, 모델이 두 입력의 관계 점수를 직접 출력할 수도 있다. 결과의 의미는 학습 목표, 음성·양성 샘플 구성, 데이터 분포에 종속되므로 다른 과업으로 일반화된다고 가정하기 어렵다.

사용 사례
얼굴 인식, 문장 매칭, 검색 재정렬, 상품 추천, 멀티모달 검색.


선택 시 확인할 점

1. 단일 대상을 측정하는가, 둘을 비교하는가

  • 단일 대상: 분산, 표준편차, 왜도, 첨도, 엔트로피, 지니 불순도
  • 두 대상 비교: 거리, 유사도, 상관계수, 상호정보량, 발산

2. 크기와 방향 중 무엇이 중요한가

  • 크기 차이: 유클리드 거리 등
  • 방향 차이: 코사인 유사도

3. 단위와 스케일이 같은가

거리 기반 측정은 변수의 단위와 범위에 민감하다. 정규화와 표준화는 서로 다른 변수를 비교 가능한 스케일로 맞추지만, 원래 크기 정보도 함께 바꾼다. 보정 여부는 단순한 전처리가 아니라 측정 기준의 일부로 기록하는 편이 좋다.

4. 평균과 최악 중 무엇을 볼 것인가

  • 평균적인 불일치: Chamfer 거리
  • 최악의 불일치: Hausdorff 거리

5. 점수를 확률로 해석할 수 있는가

코사인 유사도, 자카드 유사도, 상관계수는 값의 범위가 제한되어 있어도 확률은 아니다. 같은 수치라도 척도와 데이터 분포에 따라 의미가 다르므로, 임계값은 실제 양성·음성 분포나 검증 데이터에 근거해 정한다.

6. 거리, 유사도, 발산을 구분해야 하는가

일반적인 metric은 비음수성, 동일성, 대칭성, 삼각부등식을 만족한다. KL 발산은 비대칭적인 발산이고, 코사인 유사도는 방향 유사도다. 이를 거리 기반 인덱스나 알고리즘에 사용할 때는 필요한 수학적 조건을 만족하는지 확인해야 한다.


정리

  • 값과 위치: 유클리드, 맨해튼, 체비쇼프, 민코프스키, 마할라노비스
  • 방향과 관계: 코사인, 피어슨, 스피어만, 상호정보량
  • 겹침과 일치: 자카드, 다이스, 해밍, 편집 거리
  • 시간과 순서: DTW, 교차상관
  • 단일 분포의 특성: 분산, 표준편차, 왜도, 첨도, 엔트로피, 지니 불순도
  • 분포 간 차이: 교차 엔트로피, KL, Jensen–Shannon, Wasserstein, Bhattacharyya, Hellinger
  • 형상과 점 집합: Hausdorff, Chamfer, Fréchet
  • 학습 기반 관계: metric learning, 학습된 유사성