分布の混合による負の二項分布の生成

  • ????????????????????

ポアソン分布 (poisson distribution) は平均値 \(\lambda>0\) を唯一のパラメータとする離散確率分布ですが、これをガンマ分布 (gamma distribution) で混合してみることを考えます。つまりポアソン分布を \(p(x|\lambda)\)、ガンマ分布を \(q(\lambda|a,b)\) として、\begin{align*}r(x|a,b):=\int_0^\infty p(x|\lambda) q(\lambda|a,b)d\lambda\end{align*}を計算すると何が起こるのか、という話です。

確率変数を「サイコロをふる」ことに例えれば、上の積分で書かれている離散確率分布 \(r(x|a,b)\) は、まずはじめにガンマ分布のサイコロを振って平均値を求め、その平均値を使ったポアソン分布のサイコロをふる、という二段階でランダムな値が決定される、ということです。これが確率分布を混合するということのイメージでしょうか[1]

さて、混合の結果、\(r(x|a,b)\) は負の二項分布 (negative binomial distribution) になります。負の二項分布は(いろいろなパラメータ化があるけども)\[r(x|a,p)=\begin{pmatrix}x+a-1\\a\end{pmatrix}\,\,p^x(1-p)^a\]という感じで定義される離散分布です。\(a\) は一般には正の整数で \(p\) は確率値です。

この証明は以下の通り。ポアソン分布は\begin{align*}p(x|\lambda)=\frac{\lambda^x}{x!}e^{-\lambda}\end{align*}で、ガンマ分布は\begin{align*}q(\lambda|a,b)=\frac{b^a}{\Gamma(a)}\lambda^{a-1}e^{-bx}\end{align*}です(\(\Gamma(\cdot)\) はガンマ関数)。これを直接計算すると\begin{align*}
r(x|a,b)
&=\int \frac{\lambda^x}{x!}e^{-\lambda}\frac{b^a}{\Gamma(a)}\lambda^{a-1}e^{-b\lambda}d\lambda\\
&=\frac{b^a}{x!\Gamma(a)}\int\lambda^{x+a-1}e^{-\lambda(1+b)}d\lambda\\
&=\frac{b^a}{x!\Gamma(a)}\int\bigg(\frac{\mu}{1+b}\bigg)^{x+a-1}e^{-\mu}\frac{d\mu}{1+b}\\
&=\frac{b^a}{x!\Gamma(a)(1+b)^{x+a}}\Gamma(x+a)\\
&=\frac{\Gamma(x+a)}{\Gamma(x+1)\Gamma(a)}b^a(1+b)^{-x-a}\\
&=\frac{\Gamma(x+a)}{\Gamma(x+1)\Gamma(a)}p^x(1-p)^a
\end{align*}
となります。ただし途中で \(\mu=(1+b)\lambda\) 、最後に \(b=(1-p)/p\) と変数変換しています。また \(x!=\Gamma(x+1)\) を使っています。

もし \(a\) が正の整数ならば二項係数を使って、
\[r(x|a,p)=\begin{pmatrix}x+a-1\\a\end{pmatrix}\,\,p^x(1-p)^a\]
となります。その前のガンマ関数を使ったバージョンは、(一般には正の整数とされている)パラメータ \(a\) を実数に拡張したものといえます。

パラメータ \(a\) が実数だと通常の意味では解釈が困難になりますが、GLM で誤差がポアソン分布としたとき(=ポアソン回帰)に overdispersion になってしまうときは、負の二項分布を誤差分布として \(a\) に相当するパラメータ[2]を調整することで overdispersion を回避することができます(このへんの話はいつか書きたいですね)。こういうケースでは実数で定義されていると便利なんですね。

以上でおしまいです。こういう~分布と~分布を混合すると~分布になる、みたいな話を時間のあるときにまとめていこうと思います。

はてなブックマーク - 分布の混合による負の二項分布の生成
Pocket

  1. [1] 英語では mixture distribution とか compound distribution とか言ったりするらしい。
  2. [2] 実際には GLM のときはパラメトリゼーションが違うからこの言い方は厳密ではないのだけど。