対数線形モデルとエントロピー最大化の関係

昔の勉強ノートを引っ張りだしてくるシリーズ.

機械学習の対数線形モデルが最大エントロピー法とも呼ばれる,みたいな記述は頻繁に目にするし,統計力学のボルツマン分布の話とか考慮すれば,なんとなくそうなってそうな気はするけど,実際どうなの?というのを (たんに好奇心を満たすために) 調べてみた.実用上は何の意味ないと思う.

対数尤度関数に L1 正則化項を加えるタイプの目的関数を使った場合,もはやエントロピーは最大化されない,とかそういうわりとどうでもいいことがわかったりするかもしれない.

概要

「言語処理のための機械学習入門 (→ amazon) 」などに出てくるタイプの対数線形モデルの係数の最尤推定量が,エントロピーを「ある制約条件下」で最大化した場合のラグランジュ未定乗数に対応することを説明する (クロス表の対数線形モデルとはたぶん別物).

ただし,記号が煩雑になるのを避けるため,対数線形モデルとほぼ同一の構造を持ち,記号が煩雑でない条件付きロジットモデルがエントロピー最大化と等価であることを見る.

本文の最後に対数線形モデルと等価なエントロピー最大化問題を示す.多少ややこしくなるが,同じ方針で証明可能.
“対数線形モデルとエントロピー最大化の関係”の続きを読む

多項ロジットモデル、条件付きロジットモデル

ロジットモデル・ファミリーに関するメモです。添字は次の意味とします。

  • i=1,2,…,I 個人
  • j=1,2,…,J カテゴリー(選択肢)

Quantitative models in marketing research の pp.77 にはこんな記述がある(抄訳):

一般にマーケティングの際には大きく3タイプに分類される説明変数に出会う.
1つ目は個人の間で異なり,選択肢の間では同一な変数だ.例えば,年齢,収入,性別などがそうだ.これは \(X_i\) と記述する.
2つ目は個人の間で異なり,さらに選択肢の間でも異なるような変数だ.個人 i にとっての特定の購入機会における商品 j の価格などが例として考えられる.これは \(W_{ij}\) などと記述される.
3つ目は個人の間では同じだが,選択肢の間で異なるような変数だ.これは1パッケージあたり何個詰めか,などの例が考えられる.これは \(Z_j\) と書くことにする.

大雑把に言えばこの3つはデモグラフィック,シチュエーション,製品スペックに対応していると理解すればよさそう。
“多項ロジットモデル、条件付きロジットモデル”の続きを読む

ネスティッドロジットモデルとIIA特性 (2)

離散選択モデルに関するこのブログ内の記事はこちら
[タグ : DiscreteChoiceModel]

前回はIIA特性について書いたので、今回はネスティッドロジットモデル (入れ子型ロジットモデル, Nested logit model, NLM)について書いてみようと思います。 “ネスティッドロジットモデルとIIA特性 (2)”の続きを読む

ネスティッドロジットモデルとIIA特性

離散選択モデルに関するこのブログ内の記事はこちら
[タグ : DiscreteChoiceModel]

以前、ロジットモデルとログサム変数についてのエントリーを書きました(その1その2)。このエントリーではネスティッドロジットモデル (入れ子型ロジットモデル, Nested logit model, NLM)について書いてみようと思います。NLM について考えるためには「そもそもなぜロジットモデルじゃいけないの?」ということを理解しなければいけませんが、これは巷でも言われているとおり、IIA 特性というロジットモデルの問題点について理解する必要があります。

選択肢の類似性

例題を使って考えてみましょう。

ある小さな町のオフィス街には牛丼屋しかありません。ランチの選択肢としては「牛丼」「弁当持参」の二つの選択肢しかなく、半分の人は牛丼を、残りの半分の人は弁当を持参していました。そんなある日、この小さな町のオフィス街に新しい牛丼屋が誕生しました。働いている人たちは「別の店作ってくれよ」と思いましたが、こればかりはどうしようもありません。さて、新しい牛丼屋ができた後のランチの選択の割合はどのように変化したでしょうか?

さて、常識的に考えると、この問題の答えは弁当持参の人があいかわらず半数近くで、「牛丼」というカテゴリーでレッドオーシャン(激しい競争)になる、と考えるのが妥当でしょう。典型的な回答は

牛丼屋A:25%, 牛丼屋B:25%, 弁当持参:50%

となるでしょう。新しい牛丼屋の味が気に入った弁当持参の人たちがいるとするならば、多少は牛丼に流れるので

牛丼屋A:26%, 牛丼屋B:26%, 弁当持参:48%

という回答もアリでしょう。選択肢が三つになったのだから

牛丼屋A:33.3%, 牛丼屋B:33.3%, 弁当持参:33.3%

という回答も考えられますが、普通、この回答はどこかおかしい、と考えるでしょう。これがおかしい、と思うのは上の状況では私たちは「選択肢の類似性」を暗黙的に仮定していたからなのです。ようするに「今まで弁当持参していた人は牛丼屋がもうひとつできたぐらいで行動を変えたりしない」ということですね。

“ネスティッドロジットモデルとIIA特性”の続きを読む

ロジットモデルとログサム変数について (2)

離散選択モデルに関するこのブログ内の記事はこちら
[タグ : DiscreteChoiceModel]

前回のエントリーではロジットモデルと Gumbel 分布の関係について書きました。今回はロジットモデルに関連したログサム変数についてです。

ログサム変数

ロジットモデルに対応したログサム変数はロジットモデルの正規化項の対数
\begin{align*}
V^*=\frac1\beta\ln\bigg(\sum_i \exp(\beta V_i)\bigg)
\end{align*}のように定義されます。ここで \(V_i\) はロジットモデルに現れる非ランダム効用の項で、\(\beta\) は分散パラメータ(逆温度)です。
なんだか不思議な形をしていますね。

しかし物理次元は V の次元になっていて、しかもよく見てみるとなんらかの平均操作を行っているような式の形になっています。どういうことかというと、一般化平均の式
\begin{align*}
\displaystyle f^{-1}\bigg(\frac1n\sum_if(x_i)\bigg)
\end{align*}において f を指数関数だと思った式と定数項を除いて同じ形になっている、という意味です(ちなみに f(x)=x とすれば普通の平均で、f(x)=1/x とすれば調和平均)。
このログサム変数にはいったいどのような意味があるのでしょうか?

“ロジットモデルとログサム変数について (2)”の続きを読む

ロジットモデルとログサム変数について (1)

離散選択モデルに関するこのブログ内の記事はこちら
[タグ : DiscreteChoiceModel]

このエントリーではもっとも基本的な離散選択モデルであるロジットモデルからスタートして、ログサム変数について考えてみます。

離散選択モデル

n 個の選択肢のなかから一つを選択するという意思決定の問題を考えてみます。
ロジットモデルでは選択をする人(意思決定者)は n 個の選択肢の効用が最大の選択肢を選択すると仮定します。
各選択肢 i の効用は
\begin{align*}U_i=V_i+\varepsilon\end{align*}とあらわされます。ここで \(V_i\) は効用の非ランダム成分で \(\varepsilon\) は平均がゼロな効用のランダム成分です(どんな分布に従うかについては後述)。
もしランダム成分がなければ常に最大の \(V_i\) をもつ選択肢が選ばれますが、ランダム効用を考えると選択もランダムになります。このランダム成分の誤差項の分布の違いによってさまざまな確率モデルが導出されます。

“ロジットモデルとログサム変数について (1)”の続きを読む