Subscribed unsubscribe Subscribe Subscribe

交差エントロピーの導出

確率分布 q が、正しい確率分布 p と異なるほど大きい値になります。  

{ \displaystyle
H(p, q)=-\sum_{x}p(x)\log q(x)
}

○ 交差エントロピーの導出

交差エントロピーは、「情報量」の「期待値」です。

{ \displaystyle
\begin{eqnarray*}
H(p, q)&=&期待値 \\
 &=&\sum_{x} 確率 * 実現値 \\
 &=&\sum_{x} 確率 * 情報量 \\
 &=&\sum_{x} p(x)*(-\log q(x)) \\
 &=&-\sum_{x} p(x)\log q(x)
\end{eqnarray*}
}

以下、「1 情報量」、「2 期待値」、「3 エントロピー」、「4 交差エントロピー」をキーワードにして、順番に見て行きましょう。

1 情報量

純粋に発生確率が小さいものは大きい値、発生確率が大きいものは小さい値になります。

情報量の意味と対数関数を使う理由 | 高校数学の美しい物語

○ 例:16枚のカード(3が書かれたカードの位置)

個人的に必要なメモリの bit 数となんとなく考えています。メモリ空間の bit として考えられるのは、このカードの例だけですが…

0, 1, 2, … 15 が書かれた 16 枚のカードが裏返しにして置いてあります。この中から 1 枚引いて 3 が書かれたカードの場所を特定するには情報量は幾つ必要でしょうか?

{ \displaystyle
\begin{align*}
I(x) &= -\log P(x) \\
\\
I(16) &= -\log P(16) \\
 &=-\log {\frac {1}{16}} \\ 
 &=4
\end{align*}
}

 

答えは 4 です。4 bit あれば、4 bit のメモリ空間があれば、配られた 16 枚のカードの中から、その場所が特定できます。

○ 例:16枚のカード(カードの位置の情報量の和)

0, 1, 2, … 15 が書かれた 16 枚のカードについて、すべてのカードの場所を特定にするには情報量はいくつ必要でしょうか?

{ \displaystyle
4 [bit/枚] * 16 [枚] = 64 [bit]
}

 

答えは 64 です。64 bit のメモリがあれば配れた 16 枚のカードの位置をすべて記録できます。

2 期待値

{ \displaystyle
\begin{eqnarray*}
期待値&=&\sum_{x} 確率 * 実現値 \\
\end{eqnarray*}
}

期待値と分散に関する公式一覧

期待値は、確率変数の実現値を, 確率の重みで平均した値である。期待値

確率変数は実際に結果が出るまで値がわからないですが、得られた値を確立変数の実現値という。4.4.3 確率分布

3 エントロピー

{ \displaystyle
\begin{eqnarray*}
H(p)&=&期待値 \\
 &=&\sum_{x} 確率 * 実現値 \\
 &=&\sum_{x} 確率 * 情報量 \\
 &=&\sum_{x}p(x)*(-\log p(x)) \\
 &=&-\sum_{x}p(x)\log p(x)
\end{eqnarray*}
}

エントロピーは、必要な情報量の期待値です。

{\Omega} を、台が有限集合である確率空間とする。 {\displaystyle \Omega } 上の確率分布 Pが与えられたとき、各事象 {\displaystyle A\in \Omega } の選択情報量 {\displaystyle -\log P(A)} の期待値

○ 例: 抽選の問題

平均情報量/エントロピー

4 交差エントロピー

{ \displaystyle
\begin{eqnarray*}
H(p)&=&期待値 \\
 &=&\sum_{x} 確率 * 実現値 \\
 &=&\sum_{x} 確率 * 情報量 \\
 &=&\sum_{x}p(x)*(-\log q(x)) \\
 &=&-\sum_{x}p(x)\log q(x)
\end{eqnarray*}
}

交差エントピーは、間違った確率分布 q を元にした必要な情報量の期待値です。

交差エントロピー … とは … 符号化方式が、真の確率分布 {\displaystyle p} ではなく、ある所定の確率分布 {\displaystyle q} に基づいている場合に、とりうる複数の事象の中からひとつの事象を特定するために必要となるビット数の平均値を表す。交差エントロピー

○ 式の意味

確率分布 q が、正しい確率分布 p と異なるほど大きい値になります。

間違った確率分布を元にすると、正しい確率分布とかけ離れた分だけ、必要になる情報量が増えることを示しています。

p(x) > q(x), p(x) < q(x) の2つに場合分けして、その性質を見ていきましょう。  

(i) p(x) > q(x) の場合
- log q(x) の値が - log p(x) より、大きくなります。これは - log q(x) の方が必要な情報量が増え、下式の左辺が大きくることを意味します。

{ \displaystyle
-p(x)\log q(x) > -p(x)\log p(x)
}

 

(ii) p(x) < q(x) の場合
- log q(x) の値が - log p(x) より、小さくなります。これは - log p(x) の方が必要な情報量が増え、下式の右辺が大きくなることを意味します。

ただし、発生する確率が小さいので(p(x) < q(x) なので)、 (i) p(x) > q(x) の時に増えた量を打ち消すほど、下式の右辺 -p(x)/log p(x) 増加量はありません。

{ \displaystyle
-p(x)\log q(x) < -p(x)\log p(x)
}

○ 最小値

交差エントロピーは、正しい確率分布 p と同じ時、最小値になります。

どちらも {\displaystyle p=q} であるとき最小値となり… 交差エントロピー

また、実際に代入するとわかりますが、q が p と同じ時、交差エントロピーの値はエントロピーの値と同じになります。

ディープラーニングでよく使われる理由

ディープラーニングにおいて、よく損失関数として使用されます。これはソフトマックス関数と交差エントロピーを合成した関数を微分すると簡単かつ直感的にわかりやすい式が出てくるためです。

○ 参考文献

情報理論を視覚的に理解する (3/4) | コンピュータサイエンス | POSTD

Remove all ads