센서 정보의 통계적 신뢰와 한계

피셔 정보와 크래머-라오 하한으로 이해하는 추정의 정밀도

현실의 센서나 측정 시스템은 언제나 잡음과 불완전성을 동반합니다. GPS, 레이더, 카메라, 의료기기, 산업용 계측기 등 어떤 시스템이든 측정값은 참값을 직접 보여주지 않고, 항상 어느 정도의 불확실성을 포함한 관측치만을 제공합니다. 이로부터 자연스럽게 다음과 같은 질문이 생깁니다.

이 측정값은 어디까지 믿을 수 있는가?
지금 가진 데이터로 얻을 수 있는 최선의 정밀도는 어느 정도인가?

이 질문을 해소하기 위해 사용 가능한 통계학적인 도구는 바로 피셔 정보(Fisher Information) 와 크래머-라오 하한(Cramér–Rao Lower Bound, CRLB) 입니다. 피셔 정보는 데이터가 우리가 알고자 하는 모수에 대해 얼마나 많은 정보를 담고 있는지를 나타내며, 크래머-라오 하한은 그 데이터로 부터 어떠한 불편추정량도 넘을 수 없는 이론적 분산의 한계를 보여줍니다. 즉, CRLB는 어떤 알고리즘도 이 이상은 도달할 수 없다는 이론적 한계를 보여주는 기준이 됩니다.

이러한 부분에서 CRLB는 단순히 수학적 공식이 아니라, 센서 설계, 실험 계획, 알고리즘 평가, 비용 대비 성능 판단까지 연결 될 수 있는 매우 실용적인 개념입니다.¹²

요약(TL;DR)
피셔 정보 $I(\theta)$: 데이터가 우리가 알고자 하는 모수(Parameter)에 대해 얼마나 많은 정보를 담고 있는가?
크래머-라오 하한(CRLB): 어떤 불편추정량(Unbiased Estimator)도 넘을 수 없는 이론적 분산의 최저 한계.
둘은 다음의 역관계로 표현됩니다.
$$ \mathrm{Var}(\hat{\theta}) \ge \frac{1}{I(\theta)} $$
이 식은 다음을 의미합니다.
정보량이 클수록($I(\theta) \uparrow$), 달성 가능한 최소 오차는 줄어듭니다($\text{Lower Bound} \downarrow$). 반대로 데이터 자체에 정보가 부족하면, 아무리 정교한 알고리즘을 써도 일정 수준 이하로 오차를 줄일 수 없습니다 (추정문제는 알고리즘이 아닌 데이터에서 한계가 이미 결정).

1. 왜 단순 오차 분석만으로는 부족할까?

실제 시스템에서는 측정 오차가 작아 보인다고 해서 그것이 충분히 신뢰할 만한 결과라는 뜻은 아닙니다. 오차가 작게 보이는 이유가 정말 데이터가 풍부해서일 수도 있지만, 반대로 특정 방향의 정보가 부족한데도 최적화가 그럴듯한 숫자를 만들어냈기 때문일 수도 있습니다.

예를 들어, GPS 신호가 약하거나 관측 위성 수가 적은 환경에서는 위치 추정이 불안정해집니다. 즉 관측 데이터 속에 포함된 정보량 자체가 부족하다면, 아무리 좋은 알고리즘이라도 일정 수준 이하로 오차를 낮출 수 없다는 것입니다.

따라서 추정 문제를 다룰 때는 단순히 “결과가 얼마나 좋아 보이는가"가 아니라, 다음을 함께 확인하여야 합니다.

데이터가 모수에 대해 얼마나 민감한가?
노이즈가 얼마나 큰가 ?
정보가 특정 방향에서 퇴화하지는 않았는가?
이론적으로 가능한 최저 오차가 얼마인가?

이런 관점에서 피셔 정보와 CRLB는 “결과값의 품질”을 넘어 “데이터가 허용하는 믿음의 경계”를 보여주는 도구로 활용 됩니다.

2. 피셔 정보와 CRLB

2.1 피셔 정보: 데이터의 ‘정보량 (민감도 기반)’

2.1.1 확률모형과 로그-우도

관측 데이터 $X$ 가 모수 $\theta$ 에 의해 결정되는 확률분포 $f(x;\theta)$ 를 따른다고 합시다. 이때 로그-우도 함수는 다음과 같이 정의됩니다.

$$ \ell(\theta; x) = \log f(x;\theta) $$

로그를 취하는 이유는 계산을 단순하게 만들고, 곱 형태의 우도를 합 형태로 바꾸기 위해서 입니다.

2.1.2 스코어 함수

모수 $\theta$ 에 대한 로그-우도의 민감도를 나타내는 양을 스코어 함수(score function) 라고 합니다.

$$ u(x;\theta) = \frac{\partial}{\partial \theta}\log f(x;\theta) $$

이 값은 “$\theta$ 를 조금 바꿨을 때 현재 데이터의 설명 가능성이 얼마나 달라지는가”를 나타냅니다. 즉, 데이터가 모수 변화에 민감할수록 스코어 함수의 값은 커질 수 있습니다.

통계적 정칙 조건(Regularity Conditions) 아래에서 스코어 함수의 평균은 0 입니다.

$$ \mathbb{E}[u(X;\theta)] = 0 $$

이는 “이는 참값 근처에서 데이터의 기울기 평균이 상쇄된다”는 뜻으로 해석할 수 있습니다.²³

2.1.3 피셔 정보의 정의

피셔 정보는 스코어 함수의 제곱 기댓값으로 정의됩니다.

$$I(\theta)=\mathbb{E}\left[\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)^2\right]$$

스코어 함수의 평균이 0이므로, 이는 곧 스코어 함수의 분산과 같습니다.

$$ I(\theta) = \mathrm{Var}(u(X;\theta)) $$

따라서 피셔 정보는 “데이터가 모수 변화에 얼마나 예민하게 반응하는가”의 척도라고 볼 수 있습니다.

2.1.4 이계도함수 형태

정규성 조건 하에서는 피셔 정보를 다음과 같이도 쓸 수 있습니다.

$$ I(\theta)=-\mathbb{E}\left[\frac{\partial^2}{\partial \theta^2}\log f(X;\theta)\right] $$

이 식은 특히 직관적인데, 로그-우도 곡선이 참값 근처에서 뾰족하면 뾰족할수록 이계도함수의 절댓값이 커지고, 피셔 정보도 커진다는 뜻입니다.

즉,

우도 곡선이 날카롭다 $\rightarrow$ 참값을 더 잘 식별한다 $\rightarrow$ 정보량이 크다
우도 곡선이 평평하다 $\rightarrow$ 여러 후보 값이 비슷해 보인다 $\rightarrow$ 정보량이 작다

2.1.5 독립 표본의 경우

서로 독립인 $n$ 개의 관측치 $X_1,\dots,X_n$ 에 대해 전체 우도는 곱으로, 로그-우도는 합으로 쓸 수 있습니다.

$$\ell_n(\theta)=\sum_{i=1}^{n}\log f(X_i;\theta)$$

따라서 전체 스코어 함수는

$$ u_n(\theta)=\sum_{i=1}^{n}\frac{\partial}{\partial \theta}\log f(X_i;\theta) $$

이고, 독립성에 의해 피셔 정보는 더해집니다.

$$ I_n(\theta) = n I_1(\theta) $$

즉, 표본 수가 늘어나면 정보량은 선형적으로 증가합니다. 이 때문에 일반적으로 데이터가 많아질수록 추정 정확도는 좋아집니다. 하지만 이것은 어디까지나 원래 정보가 존재하는 방향에 대해서만 성립한다는 점이 중요합니다.

2.2. 크래머-라오 하한: 추정량의 이론적 최소 분산

이제 $\hat{\theta}$ 가 $\theta$ 의 불편추정량이라고 합시다.

$$ \mathbb{E}[\hat{\theta}] = \theta $$

그러면 크래머-라오 하한은 다음과 같이 주어집니다.

$$ \mathrm{Var}(\hat{\theta}) \ge \frac{1}{I(\theta)} $$

이는 어떤 불편추정량도 피셔 정보의 역수보다 더 작은 분산을 가질 수 없다는 뜻입니다. 즉, CRLB는 추정량의 품질을 평가하는 절대적 기준이 됩니다.
※ 단, CRLB는 정칙 조건(regularity conditions)과 불편성 가정 하에서 성립합니다.

추정량의 분산이 CRLB에 가깝다 $\rightarrow$ 매우 효율적인 추정량이다.
추정량의 분산이 CRLB보다 훨씬 크다 $\rightarrow$ 아직 개선의 여지가 있거나, 추정 방식이 비효율적이다.

다만 주의할 점은, CRLB는 기본적으로 불편추정량 에 대한 하한이라는 것입니다. 실무에서는 편향을 조금 허용하면서 분산을 줄이는 방법( 슈타인 추정량(Stein’s estimator) 이나 릿지 회귀(Ridge Regression) 처럼 약간의 편향을 주고 분산을 획기적으로 줄이는 기법)도 자주 쓰이므로, CRLB는 모든 상황의 절대 법칙이라기보다 “불편성 아래에서의 기준선(=CRLB는 불편 추정량의 한계일 뿐, 전체 오차(MSE)의 최소화는 아님)”으로 이해하는 것이 정확합니다.²¹

2.3. 수식적 전개: CRLB의 핵심 유도

이 부분이 피셔 정보와 CRLB의 관계를 가장 선명하게 보여줍니다.

2.3.1 불편성 조건 미분

불편추정량 $\hat{\theta}(X)$ 에 대해

$$ \mathbb{E}[\hat{\theta}(X)] = \theta $$

가 성립한다고 합시다.

이를 적분 형태로 쓰면

$$ \int \hat{\theta}(x) f(x;\theta)\,dx = \theta $$

양변을 $\theta$ 에 대해 미분하면

$$ \int \hat{\theta}(x)\frac{\partial}{\partial \theta}f(x;\theta)\,dx = 1 $$

여기서

$$ \frac{\partial}{\partial \theta}f(x;\theta)=f(x;\theta)\frac{\partial}{\partial \theta}\log f(x;\theta) $$

이므로,

$$ \int \hat{\theta}(x) f(x;\theta)\frac{\partial}{\partial \theta}\log f(x;\theta)\,dx = 1 $$

즉,

$$ \mathbb{E}[\hat{\theta}(X)u(X;\theta)] = 1 $$

를 얻습니다.

2.3.2 공분산 형태로 정리

스코어 함수의 평균은 0이므로,

$$ \mathbb{E}[u(X;\theta)] = 0 $$

따라서

$$ \mathrm{Cov}(\hat{\theta},u)=\mathbb{E}[\hat{\theta}u]-\mathbb{E}[\hat{\theta}]\mathbb{E}[u]=1 - \theta\cdot 0=1 $$

즉,

$$ \mathrm{Cov}(\hat{\theta},u(X;\theta)) = 1 $$

가 됩니다.

이 식은 매우 중요한데, 불편추정량은 스코어 함수와 일정한 공분산 구조를 가져야 한다는 뜻이며, 이것이 분산 하한을 만들어내는 핵심 연결고리입니다.

2.3.3 코시-슈바르츠 부등식 적용

이제 코시-슈바르츠 부등식을 적용합니다.

$$ \mathrm{Cov}(A,B)^2 \le \mathrm{Var}(A)\mathrm{Var}(B) $$

여기서 $A=\hat{\theta}$, $B=u(X;\theta)$ 로 두면

$$ \mathrm{Cov}(\hat{\theta},u)^2\le\mathrm{Var}(\hat{\theta})\mathrm{Var}(u) $$

앞에서 구한 관계를 대입하면

$$ 1^2 \le \mathrm{Var}(\hat{\theta})\,\mathrm{Var}(u) $$

그런데 $\mathrm{Var}(u)=I(\theta)$ 이므로

$$ 1 \le \mathrm{Var}(\hat{\theta}) I(\theta) $$

따라서,

$$ \mathrm{Var}(\hat{\theta}) \ge \frac{1}{I(\theta)} $$

이로써 CRLB가 도출되었습니다.

2.3.4 등호 조건의 의미

코시-슈바르츠 부등식에서 등호가 성립하려면 $\hat{\theta}$ 와 $u(X;\theta)$ 가 선형 종속이어야 합니다. 즉, 어떤 상수 $a,b$ 가 존재하여

$$ \hat{\theta}(X) = a\,u(X;\theta) + b $$

와 같은 구조가 되어야 합니다.
이는 CRLB에 도달하는 추정량이 매우 특별한 구조를 가진다는 뜻이며, 실제로 CRLB를 달성하는 추정량은 존재하더라도 제한적인 경우에만 가능하다는 점입니다.

3. 예제로 보는 피셔 정보와 CRLB

가장 간단한 예로 정규분포 평균 추정을 봅시다.

$$ X_1,\dots,X_n \sim \mathcal{N}(\mu,\sigma^2) $$

라고 하고, $\sigma^2$ 는 알려져 있다고 가정하고, 이때 추정하려는 모수는 $\mu$ 입니다.

3.1 로그-우도

정규분포의 로그-우도는 상수항을 제외하면

$$ \ell(\mu)=-\frac{1}{2\sigma^2}\sum_{i=1}^{n}(x_i-\mu)^2 $$

입니다.

3.2 스코어 함수

이를 $\mu$ 에 대해 미분하면

$$ u(\mu)=\frac{\partial}{\partial \mu}\ell(\mu)=\frac{1}{\sigma^2}\sum_{i=1}^{n}(x_i-\mu) $$

3.3 피셔 정보

한 번 더 미분하면

$$ \frac{\partial^2}{\partial \mu^2}\ell(\mu)=-\frac{n}{\sigma^2} $$

따라서 피셔 정보는

$$ I(\mu)=-\mathbb{E}\left[\frac{\partial^2}{\partial \mu^2}\ell(\mu)\right]=\frac{n}{\sigma^2} $$

입니다.

3.4 CRLB

그러므로 평균에 대한 CRLB는

$$ \mathrm{Var}(\hat{\mu}) \ge \frac{\sigma^2}{n} $$

가 됩니다.

그런데 표본평균 $\bar{X}$의 분산은 실제로

$$ \mathrm{Var}(\bar{X}) = \frac{\sigma^2}{n} $$

이므로, 표본평균은 CRLB를 달성합니다.

즉, 이 경우 표본평균은 주어진 조건에서 더 이상 개선할 수 없는 최적의 불편추정량입니다. 이 예제는 CRLB가 단순한 추상 개념이 아니라 실제로 도달 가능한 성능 기준임을 잘 보여줍니다.²¹

3.4.1 왜 표본평균이 CRLB를 달성하는가?

정규분포 평균 추정에서는 스코어 함수가 표본평균과 직접 연결되기 때문에 앞에서 구한 스코어 함수는 다음과 같습니다.

$$ u(\mu)=\frac{1}{\sigma^2}\sum_{i=1}^{n}(x_i-\mu)=\frac{n}{\sigma^2}(\bar{x}-\mu) $$

이를 정리하면

$$\bar{x}=\mu + \frac{\sigma^2}{n}u(\mu)$$

가 됩니다.

즉, 표본평균은 스코어 함수의 선형 함수 형태를 정확히 가지고 있습니다. 그런데 앞에서 본 것처럼 CRLB의 등호 조건은 추정량이 스코어 함수와 선형 종속일 때 성립한다고 하였습니다. 따라서 정규분포 평균 문제에서 표본평균이 CRLB를 달성하는 것은 자연스러운 결과로 데이터의 정보 구조와 추정량의 형태가 완벽하게 맞아떨어진다고 볼 수 있습니다.

3.4.2 MLE와 효율성의 관계

정규분포 평균 문제에서는 표본평균이 최대우도추정량(MLE) 이기 때문에 다음 세 가지가 일치합니다.

표본평균
MLE
CRLB를 달성하는 효율적 추정량

하지만 이 세 가지가 항상 완전히 같은 것은 아닙니다.

일반적으로 MLE는 큰 표본에서 좋은 성질을 가집니다. 적절한 정규성 조건 아래에서, 표본 수 $n$ 이 커지면 MLE는 점근적으로 정규분포를 따르며 다음과 같은 공분산을 갖습니다.

$$ \hat{\theta}_{\mathrm{MLE}} \overset{approx}{\sim} \mathcal{N}\left(\theta,\; I_n(\theta)^{-1}\right) $$

즉, 큰 표본에서는 MLE의 분산이 CRLB에 점점 가까워집니다. 이 성질을 보통 점근적 효율성(asymptotic efficiency) 이라고 부릅니다.¹⁴

요약하면 다음과 같습니다.

어떤 문제에서는 MLE가 정확히 CRLB를 달성한다.
더 일반적으로는, MLE는 표본 수가 충분히 크면 CRLB에 가까워지는 경우가 많다.
하지만 작은 표본, 편향, 모델 미스매치, 제약조건이 있는 경우에는 MLE가 항상 최적이라고 말할 수는 없다.

따라서, CRLB는 “최적 성능의 기준선”입니다. MLE는 많은 경우 그 기준선에 가까워지는 대표적인 추정 방법 입니다.

4. 물리적 의미: 곡률, 복원력, 그리고 선명도

피셔 정보를 직관적으로 이해하는 가장 좋은 방법 중 하나는 곡률(curvature) 로 보는 것입니다.

$$ I(\theta)=-\mathbb{E}\left[\frac{\partial^2}{\partial \theta^2}\log f(X;\theta)\right] $$

로그-우도 함수를 “가능한 모수 후보들에 대한 지형”이라고 생각해 봅시다.

주변이 뾰족한 산이면, 조금만 벗어나도 우도가 급격히 감소한다. 즉, 참값을 매우 명확히 식별할 수 있다.
주변이 완만한 언덕이면, 주변 값들이 다 비슷하게 그럴듯해 보인다. 즉, 참값이 무엇인지 확신하기 어렵다.

이런 관점에서 피셔 정보는 데이터가 가진 복원력 으로도 이해할 수 있습니다. 정보가 크면 노이즈에 의해 조금 흔들려도 다시 참값 근처로 돌아오는 힘이 강합니다. 반대로 정보가 작으면 작은 잡음에도 추정값이 크게 흔들립니다.

5. 다변수 경우와 정보 퇴화(degeneracy)

실제 센서 문제에서는 보통 하나의 모수가 아니라 여러 변수 벡터 $\theta \in \mathbb{R}^d$ 를 동시에 추정합니다. 이 경우 피셔 정보는 행렬 형태가 됩니다.

$$ \mathbf{I}(\theta)=\mathbb{E}\left[\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)\left(\frac{\partial}{\partial \theta}\log f(X;\theta)\right)^T\right] $$

이때 CRLB는 행렬 형태로 다음과 같이 주어집니다.

$$ \mathrm{Cov}(\hat{\theta}) \succeq \mathbf{I}(\theta)^{-1} $$

여기서 $\succeq$ 는 좌변과 우변의 차가 양의 준정부호(positive semi-definite)임을 뜻합니다. 이 식은 각 방향마다 오차 하한이 존재함을 의미합니다 (= 모든 방향에서 분산이 하한보다 크거나 같다). 그런데 만약 특정 방향의 정보가 부족하면 $\mathbf{I}(\theta)$ 는 특이(singular)하거나 거의 특이가 될 수 있습니다.

이 경우 나타나는 현상은 다음과 같습니다.

어떤 방향의 CRLB가 매우 커진다.
해당 방향의 추정은 본질적으로 불안정해진다.
데이터 개수만 늘려서는 해결되지 않을 수 있다.

즉, 정보 퇴화는 “데이터가 적다”는 문제보다 더 근본적인 “관측 구조 자체가 그 방향을 구분하지 못한다”는 문제입니다.

이제 이러한 다변수 정보 구조와 퇴화 현상을 실제 시스템에 대입해 보면, 피셔 정보와 CRLB가 왜 단순한 통계 공식이 아니라 센서 시스템 해석의 언어인지 더 분명해집니다. 그 대표적인 예가 바로 GPS이다. GPS는 위성 기하, 측정 노이즈, 방향별 정보 불균형이 모두 드러나는 전형적인 추정 문제이기 때문입니다.

6. GPS 사례로 보는 피셔 정보와 CRLB

피셔 정보와 CRLB의 의미를 설명하기에 GPS는 매우 좋은 예시입니다.

GPS는 여러 위성으로부터 수신한 신호의 의사거리(pseudo-range) 를 바탕으로 사용자의 위치를 추정합니다. 이때 측정의 질은 위성 배치, 신호 세기, 반사 환경, 수신기 노이즈 등에 의해 결정됩니다.

핵심은 단순한데, 사용자의 위치가 조금 바뀌었을 때 각 위성까지의 측정값이 얼마나 민감하게 달라지는가, 그리고 그 변화가 노이즈에 비해 얼마나 선명한가가 위치 추정의 정확도를 결정합니다. 즉, 위치 추정의 정확도는 추정 알고리즘 이전에 이미 관측 기하(geometry)와 측정 노이즈에 의해 결정됩니다.

6.1 의사거리 측정 모델

사용자 위치를 $\mathbf{p} = [x, y, z]^T$ 라 하고, $i$ 번째 위성의 위치를 $\mathbf{s}_i = [x_i, y_i, z_i]^T$ 라 합시다.
가장 단순한 거리 측정 모델은 다음과 같습니다.

$$ \rho_i = \|\mathbf{p} - \mathbf{s}_i\| + b + \varepsilon_i $$

여기서

$\rho_i$ : $i$ 번째 위성으로부터의 의사거리 측정값
$b$ : 수신기 시계 바이어스(clock bias)
$\varepsilon_i$ : 측정 잡음

입니다.

실제 GPS에서는 대기 오차, 멀티패스, 위성 시계 오차 등도 포함되지만, 여기서는 구조를 이해하기 위해 단순화된 형태 입니다.

6.2 선형화와 Jacobian

추정 문제는 보통 기준 추정점 $\mathbf{p}_0$ 근처에서 선형화해서 다룹니다.
거리 함수

$$ h_i(\mathbf{p}) = \|\mathbf{p} - \mathbf{s}_i\| $$

를 위치에 대해 미분하면,

$$ \frac{\partial h_i}{\partial \mathbf{p}}=\frac{\mathbf{p} - \mathbf{s}_i}{\|\mathbf{p} - \mathbf{s}_i\|}=\mathbf{u}_i^T $$

를 얻습니다.

여기서 $\mathbf{u}_i$ 는 사용자에서 위성 방향으로의 단위벡터와 부호 차이만 있는 기하학적 방향 벡터로 볼 수 있습니다.
시계 바이어스까지 포함한 상태벡터를

$$ \mathbf{x} = [x, y, z, b]^T $$

라고 두면, $i$ 번째 측정의 Jacobian 행은 다음처럼 쓸 수 있습니다.

$$ \mathbf{h}_i=\begin{bmatrix}u_{ix} & u_{iy} & u_{iz} & 1\end{bmatrix} $$

따라서 전체 측정 모델은 선형화 후

$$ \Delta \boldsymbol{\rho}=\mathbf{H}\Delta \mathbf{x} + \boldsymbol{\varepsilon} $$

형태가 되며, 여기서 $\mathbf{H}$ 는 각 위성에 대한 Jacobian 행들을 쌓아 만든 행렬입니다.

6.3 GPS에서의 피셔 정보 행렬

만약 측정 잡음이 평균 0, 공분산 $\mathbf{R}$ 를 갖는 가우시안 잡음이라고 하면,

$$ \boldsymbol{\varepsilon} \sim \mathcal{N}(\mathbf{0}, \mathbf{R}) $$

선형 가우시안 모델에서 피셔 정보 행렬은 다음과 같이 주어집니다.

$$ \mathbf{I}(\mathbf{x}) = \mathbf{H}^T \mathbf{R}^{-1}\mathbf{H} $$

이 식은 GPS에서 피셔 정보의 의미를 매우 직관적으로 보여줍니다.

$\mathbf{H}$ : 위성 기하 구조가 얼마나 좋은가
$\mathbf{R}^{-1}$ : 각 측정이 얼마나 신뢰할 만한가
$\mathbf{H}^T \mathbf{R}^{-1}\mathbf{H}$ : 기하 구조와 측정 품질을 함께 반영한 전체 정보량

즉, 위성 배치가 좋고 잡음이 작을수록 피셔 정보는 커집니다.

6.4 GPS 위치 추정의 CRLB

크래머-라오 하한에 따르면, 어떤 불편추정량이라도 그 공분산은 다음보다 작을 수 없습니다.

$$ \mathrm{Cov}(\hat{\mathbf{x}}) \succeq \mathbf{I}(\mathbf{x})^{-1}=(\mathbf{H}^T\mathbf{R}^{-1}\mathbf{H})^{-1} $$

즉,

$$ \mathrm{Cov}(\hat{\mathbf{x}}) \succeq (\mathbf{H}^T \mathbf{R}^{-1}\mathbf{H})^{-1} $$

이 행렬의 대각 원소들은 각 좌표축 방향의 최소 분산 하한을 의미합니다.
예를 들어,

$(1,1)$ 원소는 $x$ 방향 오차 하한
$(2,2)$ 원소는 $y$ 방향 오차 하한
$(3,3)$ 원소는 $z$ 방향 오차 하한

에 대응합니다.

따라서 GPS에서 위치 불확실성이 원형 또는 타원형 영역으로 나타나는 이유는, 실제로 각 방향의 분산 하한이 서로 다를 수 있기 때문입니다.

6.5 등방성 잡음의 단순화

만약 각 위성 측정의 잡음이 서로 독립이고 분산이 동일하여

$$ \mathbf{R} = \sigma_\rho^2 \mathbf{I} $$

라고 하면, 피셔 정보 행렬은 더 단순하게

$$ \mathbf{I}(\mathbf{x})=\frac{1}{\sigma_\rho^2}\mathbf{H}^T\mathbf{H} $$

가 됩니다.

따라서 CRLB는

$$ \mathrm{Cov}(\hat{\mathbf{x}}) \succeq \sigma_\rho^2 (\mathbf{H}^T\mathbf{H})^{-1} $$

로 쓸 수 있습니다.

이 식은 두 가지를 아주 명확하게 보여줍니다.

첫째, 거리 측정 노이즈 분산 $\sigma_\rho^2$ 가 커질수록 위치 추정 하한도 비례해서 커집니다.
즉, 신호가 깨끗하지 않으면 아무리 좋은 알고리즘을 써도 정확도는 근본적으로 제한됩니다.

둘째, 기하 구조를 나타내는 $\mathbf{H}^T\mathbf{H}$ 가 나빠지면 하한이 커집니다.
즉, 위성들이 하늘에서 고르게 퍼져 있지 않고 한쪽에 몰려 있으면 위치 구분 능력이 떨어집니다.

6.6 DOP와의 연결

GPS에서는 흔히 DOP(Dilution of Precision)라는 개념을 사용합니다.
이는 위성 기하가 위치 정확도에 어떤 영향을 주는지를 나타내는 척도입니다.

위의 단순화된 모델에서

$$ \mathrm{Cov}(\hat{\mathbf{x}}) \succeq \sigma_\rho^2 (\mathbf{H}^T\mathbf{H})^{-1} $$

이므로, 사실상 DOP는 $(\mathbf{H}^T\mathbf{H})^{-1}$ 의 구조와 직접 연결됩니다.

위성 배치가 좋으면 DOP가 작고,
피셔 정보는 커지며,
CRLB는 작아진다.

반대로,

위성 배치가 나쁘면 DOP가 커지고,
피셔 정보는 작아지며,
위치 추정 오차 하한은 커진다.

즉,

위성들이 한쪽에 몰려 있어 기하 구조가 나쁘면 $\mathbf{I}(\mathbf{x})$의 특정 방향 고유값이 매우 작아지며, 해당 방향의 CRLB가 폭발적으로 증가합니다. 이를 정보 퇴화라고 합니다. 이렇게 보면 DOP는 GPS 공학에서 피셔 정보와 CRLB의 직관적 요약값이라고도 볼 수 있습니다.

6.7 정보가 충분한 환경

하늘이 넓게 트여 있고 위성이 여러 방향에 고르게 분포해 있으며 신호 세기가 좋다면, 사용자가 조금만 움직여도 각 위성으로부터의 거리 측정이 민감하게 변합니다.

즉,

$\mathbf{H}$ 의 기하 구조가 좋고,
$\mathbf{R}$ 의 노이즈 수준이 낮으며,
$\mathbf{I}(\mathbf{x}) = \mathbf{H}^T\mathbf{R}^{-1}\mathbf{H}$ 가 커진다.

이 경우 CRLB는 작아지고, 위치 추정의 이론적 최소 오차 반경도 작아집니다.

6.8 정보가 부족한 환경

고층 건물 사이의 도심, 실내 근처, 악천후 환경에서는 신호 반사와 차폐가 심해집니다.
이때는 측정 잡음이 증가하고, 관측값이 위치 변화에 덜 민감해집니다.

즉,

멀티패스와 차폐로 인해 $\mathbf{R}$ 이 커지고,
위성 배치가 불리해 $\mathbf{H}$ 의 조건이 나빠지며,
결과적으로 $\mathbf{I}(\mathbf{x})$ 는 작아진다.

그 결과

$$ (\mathbf{H}^T\mathbf{R}^{-1}\mathbf{H})^{-1} $$

은 커지고, 위치 추정의 최소 오차 하한도 증가합니다. 이 상황에서 지도 앱의 위치가 파란 점이 아니라 넓은 원처럼 보이는 것은, 현재 관측 조건이 허용하는 통계적 신뢰 반경이 커졌다는 사실과 잘 대응됩니다.

6.9 퇴화 상황과 센서 융합

터널, 협곡, 혹은 위성 기하가 불리한 상황에서는 특정 방향의 정보가 심하게 약해질 수 있습니다. 이 경우 피셔 정보 행렬 $\mathbf{I}(\mathbf{x})$ 의 일부 고유값이 매우 작아집니다.

이는 곧 그 방향의 CRLB가 매우 커짐을 의미합니다. 즉, 어떤 축에 대해서는 위치 추정이 본질적으로 불안정해집니다.

이럴 때 GPS만으로는 안정적인 추정이 어렵기 때문에, 실제 시스템은 다음과 같은 보강을 사용합니다.

IMU
휠 오도메트리
지도 정보
비전/라이다 기반 위치 추정

이 과정을 피셔 정보 관점에서 보면, 다른 센서가 추가 정보를 공급하여 전체 정보 행렬을 보강하는 것으로 해석할 수 있습니다.

독립적인 정보원이 추가되면 전체 피셔 정보는 대략 합 형태로 누적됩니다.

$$ \mathbf{I}_{\text{total}}=\mathbf{I}_{\text{GPS}}+\mathbf{I}_{\text{IMU}}+\mathbf{I}_{\text{vision}}+\cdots $$

따라서 GPS만으로는 약했던 방향도 다른 센서가 보완하면 전체 CRLB를 낮출 수 있게됩니다.

즉, 센서 융합은 단순히 “센서 수를 늘리는 것”이 아니라, 부족한 방향의 정보량을 수학적으로 보강하여 신뢰 가능한 추정을 가능하게 만드는 과정입니다. 참고로, 칼만 필터(Kalman Filter)의 정보 행렬 업데이트(Information Filter form) 가 정확히 피셔 정보의 합산 과정과 일치합니다.

핵심 요약 (Key Insight)
피셔 정보($I(\theta)$): 데이터가 모수 변화에 대해 얼마나 ‘예민’한가? (곡선의 뾰족함)
CRLB: 아무리 천재적인 알고리즘을 가져와도 넘을 수 없는 ‘정밀도의 벽’.
피셔 정보는 데이터의 정보량 이고, CRLB는 그 정보가 허용하는 최저 오차 이다.**
GPS처럼 실제 센서 시스템에서는 측정 노이즈와 기하 구조가 함께 이 값을 결정하며, 정보가 부족한 방향은 단순히 데이터 수를 늘리는 것만으로는 해결되지 않는다.

7. 실무적 해석: 무엇을 판단할 수 있는가?

피셔 정보와 CRLB는 단순한 이론 개념이 아니라 실무에서 다음과 같은 의사결정 기준으로 사용됩니다.

7.1 알고리즘 평가

새로운 추정 알고리즘을 제안했다면, 그 성능이 CRLB에 얼마나 가까운지를 보는 것은 매우 강력한 벤치마크가 됩니다. 이미 CRLB에 근접해 있다면 알고리즘 자체보다 데이터 품질 개선이 더 중요할 수 있습니다.

7.2 하드웨어 설계

센서 배치, 표본 수, 샘플링 주파수, SNR 등을 바꾸었을 때 피셔 정보가 얼마나 증가하는지를 보면 하드웨어 개선의 효과를 정량적으로 비교할 수 있습니다.

7.3 비용 대비 효율

이론적 하한이 이미 충분히 높다면, 더 비싼 후처리나 복잡한 최적화를 붙여도 기대 효과가 제한적일 수 있습니다. 반대로 피셔 정보가 낮은 원인이 관측 구조의 문제라면, 센서 추가나 배치 변경이 훨씬 효과적일 수 있습니다.

7.4 과잉 신뢰 방지

CRLB가 크다는 것은 “현재 데이터로는 애초에 매우 정확한 추정이 불가능하다”는 뜻입니다. 이 경우 결과값을 단정적으로 해석하는 것은 위험하며, 시스템 차원에서 신뢰도 표시나 보수적 판단이 필요합니다.

8. 맺음말

추정 문제의 핵심은 단순히 “어떤 알고리즘을 사용할 것인가”에 있지 않습니다. 그보다 먼저, 현재 데이터가 모수에 대해 얼마나 많은 정보를 담고 있는가 를 생각해보아야 합니다. 피셔 정보는 그 정보량을 측정하는 도구이고, 크래머-라오 하한은 그 정보가 허용하는 정밀도의 최저 한계를 보여줍니다. 따라서 이 둘은 센서 데이터의 신뢰성을 해석하는 가장 기본적인 통계적 언어라고 할 수 있습니다. 결국 측정 시스템을 이해한다는 것은 단순히 숫자를 읽는 일이 아니라, 그 숫자가 어떤 불확실성과 어떤 정보 구조 위에서 만들어졌는지를 이해하는 일입니다.

피셔 정보와 CRLB는 바로 그 경계를 수학적으로 그려주는 도구입니다.

Everything has context.

참고문헌

Steven M. Kay, Fundamentals of Statistical Signal Processing, Volume I: Estimation Theory, Prentice Hall, 1993. ↩︎ ↩︎ ↩︎ ↩︎
George Casella and Roger L. Berger, Statistical Inference, 2nd ed., Duxbury, 2001. ↩︎ ↩︎ ↩︎ ↩︎
Harald Cramér, Mathematical Methods of Statistics, Princeton University Press, 1946. ↩︎
H. L. Van Trees, Detection, Estimation, and Time Series Analysis, Wiley. ↩︎

센서 정보의 통계적 신뢰와 한계#

피셔 정보와 크래머-라오 하한으로 이해하는 추정의 정밀도#

1. 왜 단순 오차 분석만으로는 부족할까?#

2. 피셔 정보와 CRLB#

2.1 피셔 정보: 데이터의 ‘정보량 (민감도 기반)’#

2.1.1 확률모형과 로그-우도#

2.1.2 스코어 함수#

2.1.3 피셔 정보의 정의#

2.1.4 이계도함수 형태#

2.1.5 독립 표본의 경우#

2.2. 크래머-라오 하한: 추정량의 이론적 최소 분산#

2.3. 수식적 전개: CRLB의 핵심 유도#

2.3.1 불편성 조건 미분#

2.3.2 공분산 형태로 정리#

2.3.3 코시-슈바르츠 부등식 적용#

2.3.4 등호 조건의 의미#

3. 예제로 보는 피셔 정보와 CRLB#

3.1 로그-우도#

3.2 스코어 함수#

3.3 피셔 정보#

3.4 CRLB#

3.4.1 왜 표본평균이 CRLB를 달성하는가?#

3.4.2 MLE와 효율성의 관계#

4. 물리적 의미: 곡률, 복원력, 그리고 선명도#

5. 다변수 경우와 정보 퇴화(degeneracy)#

6. GPS 사례로 보는 피셔 정보와 CRLB#

6.1 의사거리 측정 모델#

6.2 선형화와 Jacobian#

6.3 GPS에서의 피셔 정보 행렬#

6.4 GPS 위치 추정의 CRLB#

6.5 등방성 잡음의 단순화#

6.6 DOP와의 연결#

6.7 정보가 충분한 환경#

6.8 정보가 부족한 환경#

6.9 퇴화 상황과 센서 융합#

7. 실무적 해석: 무엇을 판단할 수 있는가?#

7.1 알고리즘 평가#

7.2 하드웨어 설계#

7.3 비용 대비 효율#

7.4 과잉 신뢰 방지#

8. 맺음말#

참고문헌#

센서 정보의 통계적 신뢰와 한계

피셔 정보와 크래머-라오 하한으로 이해하는 추정의 정밀도

1. 왜 단순 오차 분석만으로는 부족할까?

2. 피셔 정보와 CRLB

2.1 피셔 정보: 데이터의 ‘정보량 (민감도 기반)’

2.1.1 확률모형과 로그-우도

2.1.2 스코어 함수

2.1.3 피셔 정보의 정의

2.1.4 이계도함수 형태

2.1.5 독립 표본의 경우

2.2. 크래머-라오 하한: 추정량의 이론적 최소 분산

2.3. 수식적 전개: CRLB의 핵심 유도

2.3.1 불편성 조건 미분

2.3.2 공분산 형태로 정리

2.3.3 코시-슈바르츠 부등식 적용

2.3.4 등호 조건의 의미

3. 예제로 보는 피셔 정보와 CRLB

3.1 로그-우도

3.2 스코어 함수

3.3 피셔 정보

3.4 CRLB

3.4.1 왜 표본평균이 CRLB를 달성하는가?

3.4.2 MLE와 효율성의 관계

4. 물리적 의미: 곡률, 복원력, 그리고 선명도

5. 다변수 경우와 정보 퇴화(degeneracy)

6. GPS 사례로 보는 피셔 정보와 CRLB

6.1 의사거리 측정 모델

6.2 선형화와 Jacobian

6.3 GPS에서의 피셔 정보 행렬

6.4 GPS 위치 추정의 CRLB

6.5 등방성 잡음의 단순화

6.6 DOP와의 연결

6.7 정보가 충분한 환경

6.8 정보가 부족한 환경

6.9 퇴화 상황과 센서 융합

7. 실무적 해석: 무엇을 판단할 수 있는가?

7.1 알고리즘 평가

7.2 하드웨어 설계

7.3 비용 대비 효율

7.4 과잉 신뢰 방지

8. 맺음말

참고문헌