Informacja wzajemna

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Informacja wzajemna – pojęcie z zakresu teorii informacji, będące miarą zależności pomiędzy dwiema zmiennymi losowymi. Zwykle podaje się ją w bitach, co oznacza, że wylicza się ją przy użyciu logarytmów o podstawie 2.

Intuicyjnie informacja wzajemna mierzy, ile informacji o X można poznać, znając Y, czyli o ile poznanie jednej z tych zmiennych zmniejsza niepewność o drugiej. Jeśli zmienne X i Y są niezależne, to ich wzajemna informacja jest zerowa (znajomość jednej nie mówi niczego o drugiej). Jeśli X i Y są identyczne, to każda zawiera pełną wiedzę o drugiej. Wtedy informacja wzajemna jest równa entropii X (albo Y – skoro są identyczne, to ich entropia jest taka sama).

Definicja[edytuj | edytuj kod]

Formalnie informacja wzajemna między dwiema dyskretnymi zmiennymi losowymi X i Y może być zdefiniowana jako:

 I(X;Y) = \sum_{y \in Y} \sum_{x \in X} p(x,y) \log \frac{p(x,y)}{p(x)\,p(y)},

gdzie p(x,y) oznacza wspólny rozkład prawdopodobieństwa (ang. joint probability distribution) X i Y, a p(x) i p(y) oznaczają prawdopodobieństwa w rozkładach zmiennych X i Y.

W przypadku ciągłych rozkładów sumowanie należy zastąpić przez całkowanie:

 I(X;Y) = \int\limits_Y \int\limits_X p(x,y) \log \frac{p(x,y)}{p(x)\,p(y)} \; dx \,dy, \!

gdzie p(x,y) oznacza funkcję gęstości prawdopodobieństwa dwóch zmiennych, a p(x) i p(y) są gęstościami prawdopodobieństwa X i Y.

Informacja wzajemna jest zerowa wtedy i tylko wtedy, gdy zmienne X i Y są niezależne. Łatwo zauważyć implikację w jedną stronę: jeśli są niezależne, to p(x,y)=p(x) \cdot p(y), a więc:

 \log \frac{p(x,y)}{p(x)\,p(y)} = \log 1 = 0. \!

Powiązania z innymi funkcjami[edytuj | edytuj kod]

Informację wzajemną można zdefiniować równoznacznie jako:

I(X;Y)  =  H(X) - H(X|Y) \,
 = H(Y) - H(Y|X) \,
 = H(X) + H(Y) - H(X,Y) \,

gdzie H(X) i H(Y) oznaczają entropie, H(X|Y) i H(Y|X) oznaczają entropie warunkowe, a H(X,Y) entropię produktową.

Warto zauważyć że H(X|X) = 0 \,, a więc H(X) = I(X;X) \,. Podobnie jeśli Y jest funkcją X, to znajomość X determinuje wartość Y, i wtedy I(X;Y) = H(Y) \,.

Zastosowanie informacji wzajemnej[edytuj | edytuj kod]

W wielu zastosowaniach ważne jest maksymalizowanie informacji wzajemnej, co często oznacza minimalizowanie entropii warunkowej. Przykłady: