尤度・最尤推定量とは？

今回は尤度（ゆうど）についてまとめてみました。

「尤度」や「最尤推定量」は統計学やデータサイエンスを勉強しているとたまに目にしますが、スルーしてしまっている方も多いのではないでしょうか。ベイズ統計とも関わりが強い概念と思います。

ここでは初心者でもわかるように尤度についてまとめます。

尤度とは
最尤推定量を求める
1. 数式

尤度とは

一言で言うと、実データと推定データ（確率分布）の当てはまりの良さを数値化したものです。

尤度を計算するにはいくつかの段階を経る必要があります、特に下記の2行目にある確率分布を設定する点がポイントです。

・あるデータが存在する
・(key!!)そのデータを最も表しそう（予測できそうな）な確率分布、パラメータ（平均や分散）を決める
・確率分布が実データをどの程度表したかを表すのが尤度である

データ例

例で考えた方がわかりやすいと思います。

被験者：無作為に選んだ50人
計測データ：店A (マックでも何でもOK) に行った回数

としましょう。

実データが下記のようだったと仮定します（各人が店Aに行った回数を羅列しています）

被験者50名の店Aへの訪問回数
2 2 4 6 4 5 2 3 1 2 0 4 3 3 3 3 4 2 7 2 4 3 3 3 4 3 7 5 3 1 7 6 4 6 5 2 4 7 2 2 6 2 4 5 4 5 1 3 2 3 —– ①

作図するとこんな感じ

次に、この実データを表す確率分布を決めます。確率分布には正規分布、二項分布、などいろいろあります、ここではポアソン分布を採用します（確率分布の詳細については省略します）。

ポアソン分布を作成すると下記のような図になりました。

見た目上、作成したポアソン分布は実データに似ていますね。
でも、その見た目が似ているという直感を数値で客観的に示したいですよね。

これを客観的に数値化したものが尤度です。

尤度の計算方法

「実データの全サンプルの個別数値（上記①）」が「作成したポアソン分布の中で発生する確率」の積和をとることで尤度を求めることができます。

例えば、実データ①の最初の３つを見ると2 2 4になっています。ポアソン分布上での横軸が2を取る確率が0.18、4を取る確率が0.19だったとします。その場合、2 2 4部分の尤度(L: Likelihood)は
$$
L = 0.18 \times 0.18 \times 0.19
$$
で求めることができます。

一般化した数式にすると、
$$
\prod_{i} p(y_i \mid \lambda)
$$

このギリシャ文字の記号は「プロダクト」といい、後に続く数の積を取ります。
また、ポアソン分布の平均値をλ、個別データ（被験者ごとの店Aに行った回数）をyiで示しています。
例えば、p(y1|λ) = 0.1でp(y2|λ) = 0.2、p(y3|λ) = 0.3ならば、
$$
L = 0.1 \times 0.2 \times 0.3
$$
となります。

ただ、尤度は小数点の桁数が大きくなり扱いづらいです。そこで対数をとります。

対数尤度：対数化して扱いやすく

eを底とした自然対数で表すと、0がどんなに多くても（例えば0.00…..001のように）-90とか-100とかの整数で表すことができます。

Point
・この自然対数が大きいほど、確率分布が実データを良い精度で表しています。
・言い換えると尤度が0に近いほど、確率分布が実データを良い精度で表しています

要するに、尤度が0に近い = 対数尤度が高い確率分布であるほど、実データを精度高く再現していると言えます。

確率分布にポアソン分布を設定した場合は、確率密度関数は下記のような式になります、
平均λのポアソン分布がyiに当たる確率

$$
p(y_i \mid \lambda) = \frac{\lambda^{y_i} \exp(-\lambda)}{y_i!} 　　　　　　　　②
$$

これに対数をかけると
$$
\log(L) = \log \left( \prod_{i} \frac{\lambda^{y_i} \exp(-\lambda)}{y_i!} \right)
$$

$$
\log(L) = \sum_i \left( y_i \log \lambda – \lambda – \sum_{k=1}^{y_i} \log k \right)　　　③$$

となります。ここでは分母のyi!部分はkの総和として表されています

最尤推定量を求める

尤度が高い (0に近い) ほど、設定した確率分布が実データを高い精度で表現していることを今まで説明しました。
実は、確率分布はパラメータという値を変化することでその形状を自在に変化できるのです。ポアソン分布では、平均値がパラメータで、形状を変えることができます。

詳しくはこちらなどご参照ください。

以上の前提の中で、最も高い尤度を出せるパラメータ数値を最尤推定量と言います。

数式

ポアソン分布では、推定すべきパラメータは平均λです。
上記③数式のLog(L)から、Log(L)が最大になるようなλを求めるためには、λでの偏微分を行います。その結果、求められたλを最尤推定量といいます。
$$
\frac{\partial \log(L)}{\partial \lambda}
= \sum_i \left( \frac{y_i}{\lambda} – 1 \right)
= \frac{1}{\lambda} \sum_i y_i – N
$$

ここでのNは全サンプルです。これの解が0である場合、
$$
\hat{\lambda} = \frac{1}{N} \sum_i y_i
$$

これは、全部のyiの和をNで割っている、つまりデータ平均です。
このように、ポアソン分布の場合、データの平均 = 最尤推定量になりました。

つまり、ポアソン分布の場合、データの平均値をパラメータλに入れるのが最も高い尤度を出せる。
最尤推定量を求めることができました！