Cramer-Rao’s theorem

  • ????????????????????

Cramer-Rao’s theorem について.簡単に言うと確率モデルのパラメータを推定する際の精度の理論的限界を定める定理(もちろんこの定理を適用するためにはいくつかの仮定=前提条件があるのですが).1パラメータのケースは 『Casella & Berger 本』 に書いてあるけれど,パラメータが1次元より大きなときについては書いてなかったので考えてみた.

(自分のメモをブログに転載しただけなのであまりフレンドリーな書き方ではないかもしれませんが,いつか誰かの役に立つかもしれないので残しておきます.昔に書いた関連エントリはコチラ

考えている状況とか、記号の定義とか

\(\boldsymbol X\) を \(f(\boldsymbol X|\boldsymbol\theta)\) に従う確率変数とする.\(\boldsymbol{\theta}\) は分布の母数.\(\boldsymbol\tau(\boldsymbol\theta)\) は母数を一対一変換するような微分可能な関数.\(\boldsymbol W(\boldsymbol X)\) は \(\boldsymbol\tau(\boldsymbol\theta)\) の不偏推定量,つまり
\begin{align}
E_{X|\theta}(\boldsymbol W(\boldsymbol X))&=\boldsymbol\tau(\boldsymbol\theta)
\end{align}
が成立するとする.ようするに \(\boldsymbol W\) は観測されたデータをモデルパラメータに変換する写像(アルゴリズム)と考えればよい.\(\boldsymbol W(\boldsymbol X)\) は確率変数なので,バラつきがある.つまり推定されたモデルパラメータ自身が確率変数になっている.このバラつきが大きいと精度の良い推定は望むべくも無い.そこでパラメータのバラつきを評価するの理論的な限界(下限)を定めるための定理が Cramer-Rao.推定量といってもいろいろあって,「データがどんな値をとってもパラメータは0!」と決め打ちしてしまうアルゴリズムも考えられる.こういう推定量はバラつきはゼロだけど精度がいいとは言えない.不偏推定量という制約条件を課しているのはこのようなおかしな推定量を排除して「筋の良いもの」だけを相手にするための仕掛けと考えればいい.

この定理があってはじめて,「よい推定方法とは何か?」という問いに答えられるようになる.すなわちその答えは「不偏でかつバラつきの理論的限界を達成するような推定量」こそが最良である,となる.

定理;一般化されたクラメール・ラオの下限

\(I(\boldsymbol\theta)\) をフィッシャー情報量とするとき,
\begin{align}
\mathrm{Cov}_{\boldsymbol{\theta}}
\left(\boldsymbol{W}(\boldsymbol X)\right)\geq \frac {\partial \boldsymbol{\tau}
\left(\boldsymbol{\theta}\right)} {\partial \boldsymbol{\theta}}
[I\left(\boldsymbol{\theta}\right)]^{-1}
\left( \frac {\partial
\boldsymbol{\tau}\left(\boldsymbol{\theta}\right)}
{\partial \boldsymbol{\theta}}\right)^T
\end{align}
が成り立つ.ただし,\(A\ge B\) は \(A-B\) が半正定値行列であることを意味している.

以下、証明っぽいもの。

Lemma 1; シュワルツの不等式,多変数・共分散バージョン

一般に,\(n\)次元確率変数 \(X, Y\) に対して
\begin{align}
C_{YY}\ge C_{YX}C_{XX}^{-1}C_{XY}
\end{align}
が成り立つ.ただし,
\begin{align}
C_{XY}&=\text{Cov}(X,Y)=\int (x-\bar x)(y-\bar y)^Tf(x,y)dxdy
\end{align}
となる \(n\times n\) 行列(いわゆる相互共分散).

以下証明.\(V[X]:=\text{Cov}[X,X]\) としておく(つまり \(V[X]\) は \(X\) がベクトルなら行列になる。).
\begin{align}
Z:=Y-C_{YX}C_{XX}^{-1}X
\end{align}
とする.\(\text{Cov}(AX,Y)=AC_{XY}, \text{Cov}(X,BY)=C_{XY}B^T, C_{YX}^T=C_{XY}\) に注意して \(C_{ZZ}\) を計算してみる.
\begin{align}
C_{ZZ}&=V[Y-C_{YX}C_{XX}^{-1}X]\\
&=C_{YY}-\text{Cov}(Y,C_{YX}C_{XX}^{-1}X)
-\text{Cov}(C_{YX}C_{XX}^{-1}X,Y)
+V[C_{YX}C_{XX}^{-1}X]\\
&=C_{YY}-\text{Cov}(Y,X)C_{XX}^{-1}C_{YX}^T
-C_{YX}C_{XX}^{-1}\text{Cov}(X,Y)
+V[C_{YX}C_{XX}^{-1}X]\\
&=C_{YY}-C_{YX}C_{XX}^{-1}C_{YX}^T
-C_{YX}C_{XX}^{-1}C_{XY}
+C_{YX}C_{XX}^{-1}C_{XX}C_{XX}^{-1}C_{YX}^T\\
&=C_{YY}-C_{YX}C_{XX}^{-1}C_{YX}^T
\end{align}
ここで \(C_{ZZ}\) は正定値行列なので
\begin{align}
C_{YY}&\ge C_{YX}C_{XX}^{-1}C_{YX}^T
\end{align}
となる.

Lemma 2; 共分散行列の性質

もし,\(E[X]=\boldsymbol 0\) または \(E[Y]=\boldsymbol 0\) ならば \(C_{XY}=E[XY^{\;T}]\) となる.ほとんど自明だけど,一応証明.
\begin{align}
C_{XY}&=\int(x-\bar x)(y-\bar y)^Tf(x,y)dxdy\\
&=\int (xy^T-\bar xy^T-x\bar y^T-\bar x\bar y^T)f(x,y)dxdy\\
&=\int xy^Tf(x,y)dxdy=E[XY^{\;T}]
\end{align}

証明

第一ステップ

\(\boldsymbol\tau\) のヤコビ行列を計算してみる.最初の等号の部分で \(\boldsymbol W(\boldsymbol X)\) が \(\boldsymbol\tau(\boldsymbol\theta)\) の不偏推定量であることを使っている.
\begin{align}
\frac{\partial\boldsymbol\tau}{\partial\boldsymbol\theta}=\nabla_\theta^T E_{X|\theta}(\boldsymbol W(\boldsymbol X))
&=\int \boldsymbol W(\boldsymbol x)\cdot\nabla_\theta^T f(\boldsymbol x|\boldsymbol\theta)d\boldsymbol x\\
&=E_{X|\theta}\bigg[\boldsymbol W(\boldsymbol X)\cdot \nabla_\theta^T f(\boldsymbol
x|\boldsymbol\theta)/f(\boldsymbol X|\boldsymbol\theta)\bigg]\\
&=E_{X|\theta}\bigg[\boldsymbol W(\boldsymbol X)\cdot \nabla_\theta^T\log f(\boldsymbol X|\boldsymbol\theta)\bigg]
\end{align}

第二ステップ

\(\nabla_\theta\log f(\boldsymbol X|\boldsymbol\theta)\) の期待値ベクトルについて考える.表記を簡単にするため,\(l(\boldsymbol X|\boldsymbol\theta):=\log f(\boldsymbol X|\boldsymbol\theta)\) とする.微分と積分が交換できることを暗に仮定する(cf. ルベーグの収束定理).
\begin{align}
E_{X|\theta}[\nabla_\theta l(\boldsymbol X|\boldsymbol\theta)]
&=E_{X|\theta}\bigg[\frac{\nabla_\theta f(\boldsymbol X|\boldsymbol\theta)}{f(\boldsymbol
X|\boldsymbol\theta)}\bigg]\\
&=\int\nabla_\theta f(\boldsymbol X|\boldsymbol\theta)d\boldsymbol X\\
&=\nabla_\theta\int f(\boldsymbol X|\boldsymbol\theta)d\boldsymbol X=\nabla_\theta 1 =0
\end{align}
従って,Lemma 2 より
\begin{align}
&V[\nabla_\theta l(\boldsymbol X|\boldsymbol\theta)]
=E[\nabla_\theta l(\boldsymbol X|\boldsymbol\theta)\cdot\nabla_\theta^Tl(\boldsymbol X|\boldsymbol\theta)]
=I(\boldsymbol\theta)\\
&\text{Cov}[\boldsymbol W(\boldsymbol X),\nabla_\theta^Tl(\boldsymbol X|\boldsymbol\theta)]
=E[\boldsymbol W(\boldsymbol X)\cdot\nabla_\theta^Tl(\boldsymbol X|\boldsymbol\theta)]
\end{align}
となる.ただし,\(I(\boldsymbol\theta)\) は Fisher’s information matrix.

第三ステップ

多変数シュワルツの不等式において \(X=\nabla_\theta l(\boldsymbol X|\boldsymbol\theta)\), \(Y=\boldsymbol W(\boldsymbol X)\) としてみる.
\begin{align}
V(\boldsymbol W(\boldsymbol X))
&\ge\text{Cov}[\boldsymbol W(\boldsymbol X),\nabla_\theta^Tl(\boldsymbol X|\boldsymbol\theta)]
\cdot V[\nabla_\theta l(\boldsymbol X|\boldsymbol\theta)]^{-1}
\cdot\text{Cov}[\nabla_\theta l(\boldsymbol X|\boldsymbol\theta), \boldsymbol W(\boldsymbol X)]\\
&=E[\boldsymbol W(\boldsymbol X)\cdot\nabla_\theta^Tl(\boldsymbol X|\boldsymbol\theta)]\cdot
I(\boldsymbol\theta)^{-1}\cdot E[\nabla_\theta l(\boldsymbol
X|\boldsymbol\theta)\cdot \boldsymbol W^T(\boldsymbol X)]\\
&=E[\boldsymbol W(\boldsymbol X)\cdot\nabla_\theta^Tl(\boldsymbol X|\boldsymbol\theta)]\cdot
I(\boldsymbol\theta)^{-1}\cdot E[\boldsymbol W(\boldsymbol X)\cdot\nabla_\theta^T l(\boldsymbol
X|\boldsymbol\theta)]^T\\
&=\bigg(\frac{\partial\boldsymbol\tau}{\partial\boldsymbol\theta}\bigg)
I(\boldsymbol\theta)^{-1}
\bigg(\frac{\partial\boldsymbol\tau}{\partial\boldsymbol\theta}\bigg)^T
\end{align}
ということで,まとめると
\begin{align}
V(\boldsymbol W(\boldsymbol X))\ge\bigg(\frac{\partial\boldsymbol\tau}{\partial\boldsymbol\theta}\bigg)
I(\boldsymbol\theta)^{-1}
\bigg(\frac{\partial\boldsymbol\tau}{\partial\boldsymbol\theta}\bigg)^T
\end{align}
となることがわかった.証明おしまい.

iid のケースの Cramer-Rao’s theorem

iid な確率変数がたくさんあるようなケースではより強い命題が成立する.このことは上述の場合の系として導かれる.

\(X_1,\cdots,X_n\) をそれぞれ \(f(x|\boldsymbol\theta)\) に従う \(d\) 次元の iid 確率変数とする.それらをまとめた \(nd\) 次元の確率変数ベクトルを \(\boldsymbol X\) とする.\(\boldsymbol W(\boldsymbol X)\) を \(\boldsymbol\tau(\boldsymbol\theta)\) の不偏推定量とする.\(I(\boldsymbol\theta)\) を分布 \(f(\cdot|\boldsymbol\theta)\) のフィッシャー情報量とするとき,
\begin{align}
\mathrm{Cov}_{\boldsymbol{\theta}}
\left(\boldsymbol{W}(\boldsymbol X)\right)\geq \frac1n\cdot\frac {\partial \boldsymbol{\tau}
\left(\boldsymbol{\theta}\right)} {\partial \boldsymbol{\theta}}
[I\left(\boldsymbol{\theta}\right)]^{-1}
\left( \frac {\partial
\boldsymbol{\tau}\left(\boldsymbol{\theta}\right)}
{\partial \boldsymbol{\theta}}\right)^T
\end{align}
が成り立つ.つまり,推定量のバラつき(の下限)はデータが増えるほど小さくなる(つまり推定値が安定する).

証明

前述の定理は \(X_1,\cdots,X_n\) の同時分布
\begin{align}
g(\boldsymbol X|\boldsymbol\theta)&=\prod_{i=1}^nf(X_i|\boldsymbol\theta)
\end{align}
に関しては成立する.従って,

\begin{align}
E_{X|\theta}[\nabla_\theta \log g(\boldsymbol X|\boldsymbol\theta)\cdot\nabla_\theta^T
\log g(\boldsymbol X|\boldsymbol\theta)]
=n E_{X|\theta}[\nabla_\theta \log f(X|\boldsymbol\theta)\cdot\nabla_\theta^T
\log f(X|\boldsymbol\theta)]
\end{align}
を示せばOK.各変数の独立性より
\begin{align}
&E_{X|\theta}\bigg[\nabla_\theta\log f(X_i|\boldsymbol\theta)
\cdot\nabla_\theta^T\log f(X_j|\boldsymbol\theta)\bigg]\\
=&
E_{X_i|\theta}\bigg[\nabla_\theta\log f(X_i|\boldsymbol\theta)\bigg]
\cdot E_{X_j|\theta}\bigg[\nabla_\theta^T\log f(X_j|\boldsymbol\theta)\bigg]=O
\quad\text{(zero matrix)}
\end{align}
となる.ここでもお決まりの微分と積分の交換をしている.
\begin{align}
\nabla_\theta \log g(\boldsymbol X|\boldsymbol\theta)\cdot\nabla_\theta^T
\log g(\boldsymbol X|\boldsymbol\theta)&=
\nabla_\theta\bigg[\sum_{i=1}^n\log f(X_i|\boldsymbol\theta)\bigg]\cdot\nabla_\theta^T
\bigg[\sum_{j=1}^n\log f(X_j|\boldsymbol\theta)\bigg]\\
&= \sum_{i=1}^n\sum_{j=1}^n\nabla_\theta[\log f(X_i|\boldsymbol\theta)]\cdot\nabla_\theta^T
[\log f(X_j|\boldsymbol\theta)]
\end{align}
これを \(\boldsymbol X\) で期待値を取れば上で示したように \(i\ne j\) の部分はゼロになるので
\begin{align}
E_{X|\theta}[\nabla_\theta \log g(\boldsymbol X|\boldsymbol\theta)\cdot\nabla_\theta^T
\log g(\boldsymbol X|\boldsymbol\theta)]
&=\sum_{i=1}^nE_{X_i|\theta}[\nabla_\theta\log f(X_i|\boldsymbol\theta)
\cdot\nabla_\theta^T\log f(X_i|\boldsymbol\theta)]\\
&=nE_{X|\theta}[\nabla_\theta\log f(X|\boldsymbol\theta)]=nI(\boldsymbol\theta)
\end{align}
となることがわかった.従って iid のケースのクラメール・ラオの定理が証明された.

参考文献

Statistical Inference; G.C. Casella,Roger L. Berger
(ただしここに書いてあるのはパラメータが1次元のときの証明だけっぽい)

はてなブックマーク - Cramer-Rao’s theorem
Pocket

  • Krswtkm

    ちなみに,等号成立はどんな時かご存知でしたらご教授願います.