指数型分布族のメモ

  • ????????????????????

モチベーション

推定や検定の理論を扱うときに、正規分布の場合~、ポアソン分布の場合~、みたいに分布ごとに性質を調べてたんじゃやってられない、ということで、さまざまな密度関数をある種のクラスとしてまとめて考えることで、一般論を展開したい。そのための枠組みの一つが指数型分布族。

実際、指数型分布族に該当する分布は推定や検定などで「極めていいかんじの」性質を持っている。一方で実用上よく使う分布の多くが、指数型分布族というクラスを「継承」している(ほとんどが、と言ってしまってもいいかもしれないが、機械学習系の確率モデルには当てはまらないことが多い)。

要するに、指数型分布族の理論について知っていれば、実用上よく使う分布たちが極めてよい性質を持っていることが統一的に理解できる。ちなみに、GLM(一般化線形モデル)も基本的には指数型分布族前提で定式化されている。

適当に書いて見ましたが、こんなところでしょうか。。。

定義

n次元の確率変数 \(X\) が d-パラメータの指数型分布族に従うとは、あるパラメトリゼーション \(\boldsymbol{\theta}\) と d 個の関数 \(T_i:\mathbb{R^n}\to\mathbb{R}\hspace{5pt}(i=1\cdots d)\) が存在して、\(X\) の密度関数が
\begin{align*}
f(x|\boldsymbol{\theta}):=h(x)\cdot\exp\big(\boldsymbol{\theta}\cdot\boldsymbol{T}(x)-A(\boldsymbol\theta)\big)
\end{align*}
と書けること。\(h, A\) はそれぞれスカラー値をとる関数。\(T_i(\cdot)\) は十分統計量と呼ばれる。

指数型分布族の分布の例

正規分布、ポアソン分布、指数分布、ガンマ分布、ディリクレ分布、負の二項分布などなど。数え出したらきりがない。

指数型分布族でない分布の例

一様分布、コーシー分布など。混合ガウス分布とか隠れマルコフモデルとか、その手のいわゆる「特異モデル」は該当しない。

Natural exponential family

分布族を
\begin{align*}
f(x|\boldsymbol{\theta}):=h(x)\cdot\exp\big(\boldsymbol{\theta}\cdot x-A(\boldsymbol\theta)\big)
\end{align*}
に限定したものが natural exponential family。

平均と共分散の計算

指数分布族に従う d 次元確率変数 \(T(X)=(T_1(X),\cdots,T_d(X))\) の平均と共分散は
\begin{align*}
E(T_i(X))&=\frac{\partial A}{\partial\theta_i}\\
Cov(T_i(X),T_j(X))&=\frac{\partial^2 A}{\partial\theta_i\partial\theta_j}
\end{align*}
となる。なぜなら、正規化条件
\begin{align*}
1=\int h(x)\cdot\exp\big(\boldsymbol{\theta}\cdot\boldsymbol{T}(x)-A(\boldsymbol\theta)\big)dx
\end{align*}
の両辺を \(\theta_i\) で微分すれば
\begin{align*}
0=E_\theta(T_i(X))-\frac{\partial A}{\partial\theta_i}\cdot1
\end{align*}
となり、もう一度、今度は \(\theta_j\) で微分すれば
\begin{align*}
0=&\int T_i(x)T_j(x)\cdot h(x)\cdot\exp\big(\boldsymbol{\theta}\cdot\boldsymbol{T}(x)-A(\boldsymbol\theta)\big)dx\\
&-\frac{\partial A}{\partial \theta_j}\int T_i(x)\cdot h(x)\cdot\exp\big(\boldsymbol{\theta}\cdot\boldsymbol{T}(x)-A(\boldsymbol\theta)\big)dx
-\frac{\partial^2 A}{\partial\theta_i\partial\theta_j}\\
=&E(T_i(X)T_j(X))-E(T_i(X))E(T_j(X))-\frac{\partial^2 A}{\partial\theta_i\partial\theta_j}\\
=&Cov(T_i(X),T_j(X))-\frac{\partial^2 A}{\partial\theta_i\partial\theta_j}
\end{align*}
ということでOK(積分と極限の交換の条件とかは無視してしまいましたが)。

はてなブックマーク - 指数型分布族のメモ
Pocket