Macierz układu
Macierz układu[1] (także macierz modelu[2], macierz regresorów, macierz planu eksperymentu, macierz zmiennych objaśniających[3], macierz obserwacji[4], macierz projektowa[5], ang. design matrix) – wykorzystywana w modelowaniu statystycznym macierz zawierająca wartości zmiennych objaśniających dla zebranych obserwacji, najczęściej oznaczana przez X. Macierz układu stosowana jest np. w analizie regresji lub w analizie wariancji[6][7][8]. Każdy wiersz reprezentuje pojedynczy obiekt, a kolejne kolumny odpowiadają zmiennym. Macierz może zawierać zmienne ilościowe, a także zero-jedynkowe zmienne sztuczne wskazujące na przynależność obiektu do danej grupy; może również zawierać kolumnę z samymi jedynkami.
Zaletą koncepcji macierzy układu jest to, że może ona znaleźć zastosowanie dla wielu różnych planów eksperymentalnych i modeli statystycznych, w tym dla analizy wariancji, analizy kowariancji i regresji liniowej.
Definicja
[edytuj | edytuj kod]Macierz układu to macierz , w której (element w j-tej kolumnie i-tego rzędu macierzy ) zawiera wartość j-tej zmiennej powiązanej z i-tym obiektem.
Model regresji liniowej można przedstawić w formie macierzowej:
gdzie X jest macierzą układu, jest wektorem współczynników modelu (po jednym dla każdej zmiennej), jest wektorem błędów losowych ze średnią zerową, a y jest wektorem zawierającym wartości zmiennej objaśnianej dla każdego obiektu.
Wymiary
[edytuj | edytuj kod]Macierz układu ma wymiary n × p, gdzie n jest liczbą zaobserwowanych obiektów, a p jest liczbą zmiennych (cech) zmierzonych dla każdego obiektu[9][10].
Różne wiersze mogą na przykład odpowiadać kolejnym powtórzeniom eksperymentu, podczas gdy kolumny odpowiadają poszczególnym zmiennym (na przykład zastosowanym zabiegom). Załóżmy na przykład, że w eksperymecnie dziesięciu osobom zostaną zadane 4 pytania. Macierz danych M byłaby macierzą o wymiarach 10×4 (10 wierszy i 4 kolumny). W wierszu i w kolumnie j znajdzie się odpowiedź i-tej osoby na j-te pytanie.
Przykłady
[edytuj | edytuj kod]Średnia arytmetyczna
[edytuj | edytuj kod]Macierz układu średniej arytmetycznej jest wektorem kolumnowym jedynek.
Prosta regresja liniowa
[edytuj | edytuj kod]Prosta regresja liniowa to regresja z pojedynczą zmienną objaśniającą:
gdzie jest wyrazem wolnym (stałą, punktem przecięcia linii regresji z osią y), a określa nachylenie (jest współczynnikiem kierunkowym) linii regresji. Załóżmy, że mamy 7 obserwacji (i = 1, 2, …, 7). Model taki można przedstawić w postaci macierzowej w następujący sposób:
Macierz, której kolumny w tym przykładzie to jedynki i x, jest macierzą układu. Pierwsza kolumna w macierzy układu zawiera same jedynki i umożliwia oszacowanie wyrazu wolnego, podczas gdy druga kolumna zawiera wartości zmiennej objaśniającej x powiązane z odpowiednimi wartościami y.
Regresja wielokrotna
[edytuj | edytuj kod]Załóżmy ponownie, że dane składają się z siedmiu obserwacji i dla każdej zaobserwowanej wartości zmiennej objaśnianej (), obserwuje się również wartości dwóch zmiennych objaśniających wi oraz xi:
Model ten można zapisać w postaci macierzowej w następujący sposób:
Macierz 7×3 zawierająca jedynki, wartości wi i xi jest macierzą układu.
Jednoczynnikowa analiza wariancji
[edytuj | edytuj kod]Załóżmy, że mamy model analizy wariancji (ANOVA) z trzema grupami i siedmioma obserwacjami. Zbiór danych zawiera trzy pierwsze obserwacje należące do pierwszej grupy, dwie kolejne obserwacje należące do drugiej grupy i dwie ostatnie obserwacje należące do trzeciej grupy. Model, który ma być dopasowany, sprowadza się do estymacji średniej w każdej grupie:
W formie macierzowej można go zapisać w następujący sposób:
W tym modelu reprezentuje średnią w -tej grupie.
Jednoczynnikowa analiza wariancji z grupą odniesienia
[edytuj | edytuj kod]Model ANOVA można równoważnie zapisać z wykorzystaniem parametrów grupowych oznaczających odstępstwo od jakiegoś poziomu odniesienia. Zwykle za odniesienie przyjmuje się jedną z rozważanych grup. Ma to sens na przykład w kontekście porównywania wielu grup poddawanych leczeniu z grupą kontrolną („grupą odniesienia”, „grupą referencyjną”). W tym przykładzie jako grupę odniesienia wskazano grupę 1. Równanie wygląda w następujący sposób:
przy czym wynosi zero. W formie macierzowej takie równanie można przedstawić w nastepujący sposób:
W tym modelu jest średnią grupy odniesienia, zaś jest różnicą pomiędzy średnią w grupie a średnią grupy odniesienia. Parametr nie jest uwzględniony w macierzy, ponieważ z konieczności wynosi zero.
Przypisy
[edytuj | edytuj kod]- ↑ design matrix | ISI [online], isi-web.org [dostęp 2024-06-29] .
- ↑ Komisja Egzaminacyjna dla Aktuariuszy (KNF), LXXXIX Egzamin dla Aktuariuszy. Sesja egzaminacyjna w dniu 17 października 2023 r. Modelowanie [online], 2023 (pol.).
- ↑ Jacek Osiewalski , Wykłady Jacka Osiewalskiego z Ekonometrii zebrane ku pouczeniu i przestrodze, Błażej Mazur (red.), 2001 (pol.).
- ↑ Komisja Egzaminacyjna dla Aktuariuszy (KNF), LXXXV Egzamin dla Aktuariuszy. Sesja egzaminacyjna w dniu 9 czerwca 2022 r. Modelowanie [online], 2023 (pol.).
- ↑ Matematyczny Słownik Angielsko - Polski [online], www.bazawiedzy24.pl [dostęp 2024-06-24] .
- ↑ B. S. Everitt: Cambridge Dictionary of Statistics. Wyd. 2nd. Cambridge, UK: Cambridge University Press, 2002. ISBN 0-521-81099-X.
- ↑ Neil H. Timm: Applied Multivariate Analysis. Springer Science & Business Media, 2007, s. 107. ISBN 978-0-387-22771-9.
- ↑ George E.P. Box , George C. Tiao , Bayesian inference in statistical analysis, Wiley classics library, New York Chichester Brisbane [etc]: J. Wiley and sons, 1992, ISBN 978-0-471-57428-6 [dostęp 2024-06-29] .
- ↑ Richard A Johnson: Applied Multivariate Statistical Analysis. Pearson, 2001, s. 111–112. ISBN 0-13-187715-1.
- ↑ Basic Concepts for Multivariate Statistics p.2.