Kompromis między obciążeniem a wariancją

Z Wikipedii, wolnej encyklopedii
Wykres przedstawiający liniowe komponenty błędu modelu, oraz ich sumę, w zależności od złożoności modelu. Złożony model jest z konstrukcji funkcji błędu mało obciążony, ale ma dużą wariancję – i vice versa.
Błąd modelu dekomponuje się na jego obciążenie i wariancję, oraz błąd nieredukowalny. Minimalizacja błędu modelu wiąże się z wyważeniem kompromisu pomiędzy komponentem obciążenia i wariancji.
Wykres przedstawiający błąd modelu, w zależności od jego złożoności, w próbie treningowej, i nowych danych.
Wraz ze wzrostem liczby stopni swobody modelu (na osi X), jego dopasowanie w próbie która służy do pierwszej estymacji polepsza się (niebieska linia), ale dopasowanie do nowych danych z całej populacji zmniejsza się tylko do pewnego momentu, aby odtąd wzrastać (czerwona linia). Jest to zjawisko nadmiernego dopasowania do próby treningowej i ilustracja kompromisu między obciążeniem a wariancją.

Kompromis między obciążeniem a wariancją (in. przetarg, dylemat, ang. bias-variance tradeoff) – problem leżący u podstaw modelowania w statystyce i uczeniu maszynowym, który polega na sprzeczności między redukcją obciążenia i wariancji estymatorów statystycznych. Do wysokiego błędu modelu poza próbą treningową może prowadzić zarówno jego nadmierne uproszczenie (wysokie obciążenie), jak i nadmiernie szczegółowa wrażliwość (wysoka wariancja). Choć obciążenie jest z zasady niepożądane, niepożądana jest także wariancja estymatora. Estymator o najmniejszym obciążeniu nie musi być w praktyce najlepszym narzędziem wobec badanego problemu, co obrazuje np. paradoks Steina.

Opis tego problemu oferuje matematyczną formalizację takich zjawisk jak nadmierne dopasowanie, które motywują stosowanie przeciwdziałających mu narzędzi takich jak statystyki odpornościowe, regularyzacja, metody zespołowe czy bagging[1]. Występuje we wszystkich postaciach uczenia nadzorowanego; przywołano go także do wyjaśnienia efektywności heurystyk poznawczych stosowanych przez ludzi[2].

Choć przykłady tego zjawiska były znane już wcześniej, jego konceptualizację jako „kompromis” wprowadzili do nauki S. Geman, E. Bienenstock i R. Doursat w 1992 r., w publikacji dotyczącej błędu uczenia sieci neuronowych[3].

Dekompozycja błędu na obciążenie i wariancję modelu[edytuj | edytuj kod]

Funkcja oczekiwanego błędu średniokwadratowego estymatora poddaje się matematycznej dekompozycji na sumę trzech komponentów: obciążenia i wariancji modelu, oraz błędu nieredukowalnego –, tj. wariancji charakteryzującej pomiary, a nie model statystyczny.

Przy notacji, w której prawdziwa funkcja jej obserwacja z błędem losowym oraz estymator

gdzie obciążenie estymatora to:

a jego wariancja:

Złożoność modelu[edytuj | edytuj kod]

Obciążenie i wariancja modelu są funkcją jego złożoności, której zgeneralizowaną miarą może być efektywna liczba parametrów (in. efektywna liczba stopni swobody) Dla modelu liniowego w którym to macierz o wymiarach N × N, efektywna liczba parametrów jest zdefiniowana jako ślad tej macierzy, W mierze tej regresja z regularyzacją ma mniejszą efektywną liczbę parametrów (efektywną liczbę stopni swobody) niż zwykła regresja. Model o wysokiej efektywnej liczbie parametrów cechuje się większą wariancją i niższym obciążeniem – i vice versa. Miara ten pozwala zoptymalizować złożoność modelu np. przy pomocy kryterium informacyjnego Akaike (AIC) lub bayesowskiego kryterium informacyjnego Schwarza (BIC)[1].

Wyprowadzenie dla błędu średniokwadratowego w modelu liniowym[edytuj | edytuj kod]

Z definicji, dla dowolnej zmiennej losowej

Po prostym przekształceniu:

Ponieważ jest deterministyczne.

Stąd, ponieważ i wynika

Ponadto, ponieważ

Jako że oraz są niezależne, możemy napisać:

Zastosowanie[edytuj | edytuj kod]

Kompromis między obciążeniem a wariancją przedstawia konceptualizację podstawowego problemu statystyki i uczenia maszynowego jakim jest wybór modelu o optymalnej efektywności. Techniki pozwalające poradzić sobie z kompromisem to m.in. regularyzacja, sprawdzian krzyżowy, optymalizacja kryteriów informacyjnych takich jak AIC czy BIC, oraz bagging (bootstrap) i metody zespołowe[1].

Przypisy[edytuj | edytuj kod]

  1. a b c 7. Model Assessment and Selection, [w:] Trevor Hastie, Robert Tibshirani, Jerome Friedman, The elements of statistical learning: data mining, inference, and prediction, Second edition, New York, ISBN 978-0-387-84857-0, OCLC 300478243 [dostęp 2019-02-21].
  2. Gerd Gigerenzer, Henry Brighton, Homo Heuristicus: Why Biased Minds Make Better Inferences, „Topics in Cognitive Science”, 1 (1), 2009, s. 107–143, DOI10.1111/j.1756-8765.2008.01006.x [dostęp 2019-02-21] (ang.).
  3. S. Geman, E. Bienenstock, R. Doursat, Neural Networks and the Bias/Variance Dilemma, „Neural Computation”, 4 (1), 1992, s. 1–58, DOI10.1162/neco.1992.4.1.1, ISSN 0899-7667 [dostęp 2019-02-21].