Dywergencja Kullbacka-Leiblera

Dywergencja Kullbacka-Leiblera (zwana też entropią względną lub relatywną entropią)^[1] jest miarą stosowaną w statystyce i teorii informacji do określenia rozbieżności między dwoma rozkładami prawdopodobieństwa $p$ i $q.$ Czasem zwana jest też odległością Kullbacka-Leiblera, nie jest to jednak prawdziwa metryka, gdyż nie jest symetryczna $(d_{KL}(p,q)\neq d_{KL}(q,p))$ ani nie spełnia nierówności trójkąta^[2]^[3].

Definicja

Dywergencja Kullbacka-Leiblera dana jest wzorem^[2]^[3]:

d_{KL}(p,q)=\sum _{i}p(i)\log _{2}{\frac {p(i)}{q(i)}},

dla rozkładów dyskretnych, oraz

d_{KL}(p,q)=\int \limits _{-\infty }^{\infty }p(x)\log _{2}{\frac {p(x)}{q(x)}}\;dx,

dla rozkładów ciągłych. Dla przykładu, w typowym zastosowaniu $p$ reprezentuje dane rzeczywiste, zaś $q$ teoretyczny model.

Entropia względna przyjmuje zawsze wartości nieujemne, przy czym 0 wtedy i tylko wtedy, gdy porównywane rozkłady są identyczne. $d_{KL}$ jest jedyną wartością tego typu charakteryzującą się pewnymi użytecznymi właściwościami charakteryzującymi miary entropii (m.in. jest ciągła i addytywna)^[4]^[5].

Oryginalna propozycja

Dywergencja K-L została przedstawiona przez S. Kullbacka i R.A. Leiblera w pracy z 1951^[6], i w podręczniku z 1959; skupiali się oni na poniższej symetrycznej postaci^[7]:

d_{KL}(p,q)+d_{KL}(q,p).

Jak zwraca uwagę Kullback, podobną wartość wykorzystywało wcześniej m.in. małżeństwo Jeffreys^[8]. W 1987 zadeklarował, że spośród dziewięciu stosowanych wówczas dla tego wskaźnika nazw osobiście preferuje termin ang. discrimination information^[9].

Uogólnienia i związki

Dywergencja Kullbacka-Leiblera jest przypadkiem dywergencji Bregmana i $f$ -dywergencji^[10]. Informacja wzajemna to dywergencja ze wspólnego rozkładu do produktu rozkładów^[11]^[12]:

{\begin{aligned}\operatorname {I} (X;Y)&=d_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))\\&=\operatorname {E} _{X}\{d_{\text{KL}}(P(Y\mid X)\parallel P(Y))\}\\&=\operatorname {E} _{Y}\{d_{\text{KL}}(P(X\mid Y)\parallel P(X))\}.\end{aligned}}

Interpretacja i zastosowania

Dywergencja K-L może być rozumiana jako generalizacja entropii Shannona^[4], oraz negatywna postać uogólnionej entropii Boltzmanna^[13]. Może reprezentować na przykład zmianę (przyrost lub stratę) lub różnicę (niedobór lub nadmiar) informacji pomiędzy dwoma rozkładami.

Jej minimalizacja jest stosowana na przykład przy wyborze optymalnych modeli statystycznych oraz systemów kodowania.

Choć $d_{kl}$ nie jest pseudoodległością, jej hesjan wyznacza tensor metryczny określany jako miara informacji Fishera.

Kryteria informacyjne

Wybór modeli statystycznych na podstawie $d_{KL}$ pozwalają zrealizować tzw. kryteria informacyjne. Akaike zauważył, że pomimo iż w praktyce hipotetyczny prawdziwy model jest nieznany i niedostępny jako odniesienie, to wyraża się jako nieokreślona stała, co nadal pozwala na dokonanie optymalizacji^[13]^[14]:

d_{KL}(p_{?},q)={\text{const}}-E_{f}[log(q|x)].

Po przekształceniach i uwzględnieniu poprawki na obciążenie oszacowania, wartością asymptotycznie minimalizującą oczekiwane $d_{KL}$ (maksymalizującą relatywną entropię) i pozwalającą na porównywanie alternatywnych modeli jest tzw. kryterium informacyjne Akaikego:

{\text{AIC}}=-2\ln(L(\theta |x)+2K,

gdzie $L$ to funkcja wiarygodności, a $K$ to liczba estymowanych parametrów modelu. W intuicji oferowanej przez Bozdogana, pierwszy wyraz wzoru odpowiada oczekiwanemu niedopasowaniu modelu badawczego do danych spoza próby, i do prawdziwego modelu, a drugi złożoności, przekładającej się na nadmierne dopasowanie do próby^[13]. Wybór modelu wiąże się bowiem w praktyce z balansowaniem między tymi problemami (z kompromisem między obciążeniem a wariancją)^[15].

W późniejszej literaturze przedstawiono kolejne propozycje kryteriów informacyjnych, opartych na tej samej zasadzie, z dodatkowymi doprecyzowaniami, na przykład kryterium Schwarza lub Watanabe-Akaikego^[13]^[16].

Zobacz też

dywergencja Jensena-Shannona

Przypisy

↑ TadeuszT. Inglot TadeuszT., Teoria informacji a statystyka matematyczna, „Mathematica Applicanda”, 42 (1), 2014, s. 115–115, DOI: 10.14708/ma.v42i1.521 [dostęp 2020-10-14] (pol.).
↑ ^a ^b David John CameronD.J.C. MacKay David John CameronD.J.C., Information theory, inference, and learning algorithms, Cambridge, UK: Cambridge University Press, 2003, s. 34, ISBN 0-521-64298-1, OCLC 52377690 [dostęp 2019-04-04] .
↑ ^a ^b Christopher MichaelCh.M. Bishop Christopher MichaelCh.M., Pattern recognition and machine learning, New York: Springer, 2006, s. 55, ISBN 0-387-31073-8, OCLC 71008143 [dostęp 2019-04-04] .
↑ ^a ^b ArthurA. Hobson ArthurA., Bin-KangB.K. Cheng Bin-KangB.K., A comparison of the Shannon and Kullback information measures, „Journal of Statistical Physics”, 7 (4), 1973, s. 301–310, DOI: 10.1007/BF01014906, ISSN 0022-4715 [dostęp 2019-04-04] (ang.).
↑ ImreI. Csiszar ImreI., Why Least Squares and Maximum Entropy? An Axiomatic Approach to Inference for Linear Inverse Problems, „The Annals of Statistics”, 19 (4), 1991, s. 2032–2066, ISSN 0090-5364, JSTOR: 2241918 [dostęp 2019-04-04] .
↑ S.S. Kullback S.S., R.A.R.A. Leibler R.A.R.A., On Information and Sufficiency, „The Annals of Mathematical Statistics”, 22 (1), 1951, s. 79–86, DOI: 10.1214/aoms/1177729694, ISSN 0003-4851 [dostęp 2019-04-04] (ang.).
↑ SolomonS. Kullback SolomonS., Information theory and statistics, Gloucester, Mass.: Peter Smith, 1959, s. 6, 22, ISBN 0-8446-5625-9, OCLC 4140346 [dostęp 2019-04-04] .
↑ HaroldH. Jeffreys HaroldH., Bertha SwirlesB.S. Jeffreys Bertha SwirlesB.S., Methods of Mathematical Physics (3rd.ed.), Cambridge University Press, 1956 [dostęp 2019-04-04] .
↑ Letters to the Editor, „The American Statistician”, 41 (4), 1987, s. 338–341, DOI: 10.1080/00031305.1987.10475510, ISSN 0003-1305 [dostęp 2019-04-04] (ang.).
↑ A.A. Cichocki A.A., S.S. Amari S.S., Information geometry of divergence functions, „Bulletin of the Polish Academy of Sciences. Technical Sciences”, 58 (nr 1), 2010, s. 183–195, ISSN 0239-7528 [dostęp 2019-04-04] (ang.).
↑ XiaocongX. Xu XiaocongX. i inni, Multimodal registration of remotely sensed images based on Jeffrey’s divergence, „ISPRS Journal of Photogrammetry and Remote Sensing”, 122, 2016, s. 97–115, DOI: 10.1016/j.isprsjprs.2016.10.005 [dostęp 2019-04-04] (ang.).
↑ NicolasN. Veyrat-Charvillon NicolasN., François-XavierF.X. Standaert François-XavierF.X., Mutual Information Analysis: How, When and Why? ChristopheCh. Clavier, KrisK. Gaj (red.), t. 5747, Berlin, Heidelberg: Springer Berlin Heidelberg, 2009, s. 429–443, DOI: 10.1007/978-3-642-04138-9_30, ISBN 978-3-642-04137-2 [dostęp 2019-04-04] .
↑ ^a ^b ^c ^d HamparsumH. Bozdogan HamparsumH., Model selection and Akaike’s Information Criterion (AIC): The general theory and its analytical extensions, „Psychometrika”, 52 (3), 1987, s. 345–370, DOI: 10.1007/BF02294361, ISSN 0033-3123 [dostęp 2019-04-04] (ang.).
↑ HirotoguH. Akaike HirotoguH., Information Theory and an Extension of the Maximum Likelihood Principle, EmanuelE. Parzen, KunioK. Tanabe, GenshiroG. Kitagawa (red.), New York, NY: Springer New York, 1998, s. 199–213, DOI: 10.1007/978-1-4612-1694-0_15, ISBN 978-1-4612-7248-9 [dostęp 2019-04-04] .
↑ Scott I.S.I. Vrieze Scott I.S.I., Model selection and psychological theory: A discussion of the differences between the Akaike information criterion (AIC) and the Bayesian information criterion (BIC)., „Psychological Methods”, 17 (2), 2012, s. 228–243, DOI: 10.1037/a0027127, ISSN 1939-1463, PMID: 22309957, PMCID: PMC3366160 [dostęp 2019-04-04] (ang.).
↑ SumioS. Watanabe SumioS., Asymptotic Equivalence of Bayes Cross Validation and Widely Applicable Information Criterion in Singular Learning Theory, „arXiv:1004.2316 [cs]”, 14 kwietnia 2010, arXiv:1004.2316 [dostęp 2019-04-04] .

[TInglot2014-1] TadeuszT. Inglot TadeuszT., Teoria informacji a statystyka matematyczna, „Mathematica Applicanda”, 42 (1), 2014, s. 115–115, DOI: 10.14708/ma.v42i1.521 [dostęp 2020-10-14] (pol.).

[:0-2] David John CameronD.J.C. MacKay David John CameronD.J.C., Information theory, inference, and learning algorithms, Cambridge, UK: Cambridge University Press, 2003, s. 34, ISBN 0-521-64298-1, OCLC 52377690 [dostęp 2019-04-04] .

[:1-3] Christopher MichaelCh.M. Bishop Christopher MichaelCh.M., Pattern recognition and machine learning, New York: Springer, 2006, s. 55, ISBN 0-387-31073-8, OCLC 71008143 [dostęp 2019-04-04] .

[:3-4] ArthurA. Hobson ArthurA., Bin-KangB.K. Cheng Bin-KangB.K., A comparison of the Shannon and Kullback information measures, „Journal of Statistical Physics”, 7 (4), 1973, s. 301–310, DOI: 10.1007/BF01014906, ISSN 0022-4715 [dostęp 2019-04-04] (ang.).

[5] ImreI. Csiszar ImreI., Why Least Squares and Maximum Entropy? An Axiomatic Approach to Inference for Linear Inverse Problems, „The Annals of Statistics”, 19 (4), 1991, s. 2032–2066, ISSN 0090-5364, JSTOR: 2241918 [dostęp 2019-04-04] .

[6] S.S. Kullback S.S., R.A.R.A. Leibler R.A.R.A., On Information and Sufficiency, „The Annals of Mathematical Statistics”, 22 (1), 1951, s. 79–86, DOI: 10.1214/aoms/1177729694, ISSN 0003-4851 [dostęp 2019-04-04] (ang.).

[7] SolomonS. Kullback SolomonS., Information theory and statistics, Gloucester, Mass.: Peter Smith, 1959, s. 6, 22, ISBN 0-8446-5625-9, OCLC 4140346 [dostęp 2019-04-04] .

[8] HaroldH. Jeffreys HaroldH., Bertha SwirlesB.S. Jeffreys Bertha SwirlesB.S., Methods of Mathematical Physics (3rd.ed.), Cambridge University Press, 1956 [dostęp 2019-04-04] .

[9] Letters to the Editor, „The American Statistician”, 41 (4), 1987, s. 338–341, DOI: 10.1080/00031305.1987.10475510, ISSN 0003-1305 [dostęp 2019-04-04] (ang.).

[10] A.A. Cichocki A.A., S.S. Amari S.S., Information geometry of divergence functions, „Bulletin of the Polish Academy of Sciences. Technical Sciences”, 58 (nr 1), 2010, s. 183–195, ISSN 0239-7528 [dostęp 2019-04-04] (ang.).

[11] XiaocongX. Xu XiaocongX. i inni, Multimodal registration of remotely sensed images based on Jeffrey’s divergence, „ISPRS Journal of Photogrammetry and Remote Sensing”, 122, 2016, s. 97–115, DOI: 10.1016/j.isprsjprs.2016.10.005 [dostęp 2019-04-04] (ang.).

[12] NicolasN. Veyrat-Charvillon NicolasN., François-XavierF.X. Standaert François-XavierF.X., Mutual Information Analysis: How, When and Why? ChristopheCh. Clavier, KrisK. Gaj (red.), t. 5747, Berlin, Heidelberg: Springer Berlin Heidelberg, 2009, s. 429–443, DOI: 10.1007/978-3-642-04138-9_30, ISBN 978-3-642-04137-2 [dostęp 2019-04-04] .

[:2-13] HamparsumH. Bozdogan HamparsumH., Model selection and Akaike’s Information Criterion (AIC): The general theory and its analytical extensions, „Psychometrika”, 52 (3), 1987, s. 345–370, DOI: 10.1007/BF02294361, ISSN 0033-3123 [dostęp 2019-04-04] (ang.).

[14] HirotoguH. Akaike HirotoguH., Information Theory and an Extension of the Maximum Likelihood Principle, EmanuelE. Parzen, KunioK. Tanabe, GenshiroG. Kitagawa (red.), New York, NY: Springer New York, 1998, s. 199–213, DOI: 10.1007/978-1-4612-1694-0_15, ISBN 978-1-4612-7248-9 [dostęp 2019-04-04] .

[15] Scott I.S.I. Vrieze Scott I.S.I., Model selection and psychological theory: A discussion of the differences between the Akaike information criterion (AIC) and the Bayesian information criterion (BIC)., „Psychological Methods”, 17 (2), 2012, s. 228–243, DOI: 10.1037/a0027127, ISSN 1939-1463, PMID: 22309957, PMCID: PMC3366160 [dostęp 2019-04-04] (ang.).

[16] SumioS. Watanabe SumioS., Asymptotic Equivalence of Bayes Cross Validation and Widely Applicable Information Criterion in Singular Learning Theory, „arXiv:1004.2316 [cs]”, 14 kwietnia 2010, arXiv:1004.2316 [dostęp 2019-04-04] .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]