Z Wikipedii, wolnej encyklopedii
Rozkład Dirichleta
Gęstość prawdopodobieństwa Kilka wykresów gęstości prawdopodobieństwa dla rozkładu Dirichleta, kiedy
K
=
3
{\displaystyle K=3}
dla różnych parametrów wektorów
α
.
{\displaystyle \alpha .}
Zgodnie z kierunkiem wskazówek zegara od górnego lewego:
α
=
{\displaystyle \alpha ={}}
(6; 2; 2), (3; 7; 5), (6; 2; 6), (2; 3; 4).
Parametry
K
⩾
2
{\displaystyle K\geqslant 2}
ilość kategorii (całkowitych)
α
1
,
…
,
α
K
{\displaystyle \alpha _{1},\dots ,\alpha _{K}}
parametry skupienia, gdzie
α
i
>
0
{\displaystyle \alpha _{i}>0}
Nośnik
x
1
,
…
,
x
K
{\displaystyle x_{1},\dots ,x_{K}}
gdzie
x
i
∈
[
0
,
1
]
{\displaystyle x_{i}\in [0,1]}
oraz
∑
i
=
1
K
x
i
=
1
{\displaystyle \sum _{i=1}^{K}x_{i}=1}
Gęstość prawdopodobieństwa
1
B
(
α
)
∏
i
=
1
K
x
i
α
i
−
1
{\displaystyle {\frac {1}{\mathrm {B} ({\boldsymbol {\alpha }})}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1}}
gdzie
B
(
α
)
=
∏
i
=
1
K
Γ
(
α
i
)
Γ
(
∑
i
=
1
K
α
i
)
{\displaystyle \mathrm {B} ({\boldsymbol {\alpha }})={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma {\big (}\sum _{i=1}^{K}\alpha _{i}{\big )}}}}
gdzie
α
=
(
α
1
,
…
,
α
K
)
{\displaystyle {\boldsymbol {\alpha }}=(\alpha _{1},\dots ,\alpha _{K})}
Wartość oczekiwana (średnia)
E
[
X
i
]
=
α
i
∑
k
α
k
{\displaystyle \operatorname {E} [X_{i}]={\frac {\alpha _{i}}{\sum _{k}\alpha _{k}}}}
E
[
ln
X
i
]
=
ψ
(
α
i
)
−
ψ
(
∑
k
α
k
)
{\displaystyle \operatorname {E} [\ln X_{i}]=\psi (\alpha _{i})-\psi (\textstyle \sum _{k}\alpha _{k})}
Moda
x
i
=
α
i
−
1
∑
i
=
1
K
α
i
−
K
,
α
i
>
1.
{\displaystyle x_{i}={\frac {\alpha _{i}-1}{\sum _{i=1}^{K}\alpha _{i}-K}},\quad \alpha _{i}>1.}
Wariancja
V
a
r
[
X
i
]
=
α
i
(
α
0
−
α
i
)
α
0
2
(
α
0
+
1
)
,
{\displaystyle \mathrm {Var} [X_{i}]={\frac {\alpha _{i}(\alpha _{0}-\alpha _{i})}{\alpha _{0}^{2}(\alpha _{0}+1)}},}
gdzie
α
0
=
∑
i
=
1
K
α
i
{\displaystyle \alpha _{0}=\sum _{i=1}^{K}\alpha _{i}}
C
o
v
[
X
i
,
X
j
]
=
−
α
i
α
j
α
0
2
(
α
0
+
1
)
(
i
≠
j
)
{\displaystyle \mathrm {Cov} [X_{i},X_{j}]={\frac {-\alpha _{i}\alpha _{j}}{\alpha _{0}^{2}(\alpha _{0}+1)}}~~(i\neq j)}
Entropia
H
(
X
)
=
log
B
(
α
)
+
(
α
0
−
K
)
ψ
(
α
0
)
−
∑
j
=
1
K
(
α
j
−
1
)
ψ
(
α
j
)
{\displaystyle H(X)=\log \mathrm {B} (\alpha )+(\alpha _{0}-K)\psi (\alpha _{0})-\sum _{j=1}^{K}(\alpha _{j}-1)\psi (\alpha _{j})}
Rozkład Dirichleta – rodzina ciągłych rozkładów prawdopodobieństwa wielu zmiennych , określona wektorem
α
{\displaystyle {\boldsymbol {\alpha }}}
dodatnich liczb rzeczywistych . Stanowi uogólnienie rozkładu beta w przestrzeni wielu zmiennych.
Rozkład Dirichleta jest często używany w rachunku prawdopodobieństwa wraz z twierdzeniem Bayesa jak rozkład aprioryczny i faktycznie rozkład Dirichleta jest rozkładem komunigacyjnym rozkładu dyskretnego. W efekcie funkcja rozkładu zwraca przekonanie, że prawdopodobieństwo
K
{\displaystyle K}
możliwych zdarzeń losowych wynosi
x
i
,
{\displaystyle x_{i},}
biorąc pod uwagę, że każde zdarzenie zostało zaobserwowane
α
i
−
1
{\displaystyle \alpha _{i}-1}
razy.
Wielowymiarowym uogólnieniem rozkładu Dirichleta jest proces Dirichleta.
Wykres ilustruje jak zmienia się logarytm funkcji rozkładu kiedy
K
=
3
{\displaystyle K=3}
i zmieniany jest wektor
α
{\displaystyle \alpha }
od
α
=
{\displaystyle \alpha ={}}
(0,3, 0,3, 0,3) do (2,0, 2,0, 2,0), zachowując wszystkie
α
i
{\displaystyle \alpha _{i}}
równe sobie nawzajem.
Rozkład Dirichleta rzędu
K
⩾
2
{\displaystyle K\geqslant 2}
z parametrami
α
1
,
…
,
α
K
>
0
{\displaystyle \alpha _{1},\dots ,\alpha _{K}>0}
ma funkcję rozkładu prawdopodobieństwa w mierze Lebesgue’a dla przestrzeni euklidesowej
R
K
−
1
{\displaystyle \mathrm {R} ^{K-1}}
określoną zależnością:
f
(
x
1
,
…
,
x
K
−
1
;
α
1
,
…
,
α
K
)
=
1
B
(
α
)
∏
i
=
1
K
x
i
α
i
−
1
,
{\displaystyle f(x_{1},\dots ,x_{K-1};\alpha _{1},\dots ,\alpha _{K})={\frac {1}{\mathrm {B} (\alpha )}}\prod _{i=1}^{K}x_{i}^{\alpha _{i}-1},}
na otwartym zbiorze
(
K
−
1
)
{\displaystyle (K{-}1)}
-wymiarowego sympleksu określonego jako:
x
1
,
…
,
x
K
−
1
>
0
x
1
+
…
+
x
K
−
1
<
1
x
K
=
1
−
x
1
−
…
−
x
K
−
1
{\displaystyle {\begin{aligned}&x_{1},\dots ,x_{K-1}>0\\&x_{1}+\ldots +x_{K-1}<1\\&x_{K}=1-x_{1}-\ldots -x_{K-1}\end{aligned}}}
oraz zero poza.
Stałą normalizującą jest wielomianowa funkcja B , którą można wyrazić w zależności od funkcji gamma :
B
(
α
)
=
∏
i
=
1
K
Γ
(
α
i
)
Γ
(
∑
i
=
1
K
α
i
)
,
α
=
(
α
1
,
…
,
α
K
)
.
{\displaystyle \mathrm {B} ({\boldsymbol {\alpha }})={\frac {\prod _{i=1}^{K}\Gamma (\alpha _{i})}{\Gamma \left(\sum _{i=1}^{K}\alpha _{i}\right)}},\qquad {\boldsymbol {\alpha }}=(\alpha _{1},\dots ,\alpha _{K}).}
Nośnikiem rozkładu Dirichleta jest zbiór
K
{\displaystyle K}
-wymiarowych wektorów
x
{\displaystyle {\boldsymbol {x}}}
określonych liczbami rzeczywistymi w zakresie (0,1), tak więc
‖
x
‖
1
=
1
,
{\displaystyle \|{\boldsymbol {x}}\|_{1}=1,}
co znaczy, że suma wszystkich składowych jest 1. Mogą być one przedstawiane jako prawdopodobieństwa
K
{\displaystyle K}
-wymiarowego zdarzenia. Należy zauważyć, iż w praktyce zbiór punktów w nośnika dla
K
{\displaystyle K}
-wymiarowego rozkładu Dirichleta jest zamkniętym zbiorem
(
K
−
1
)
{\displaystyle (K{-}1)}
-sympleksów, znajdujących się w przestrzeni
K
{\displaystyle K}
-wymiarowej. Przykładowo dla
K
=
3
{\displaystyle K=3}
jest to trójkąt równoboczny zawarty w trójwymiarowej przestrzeni z wierzchołkami (1;0;0), (0;1;0) oraz (0;0;1), „dotykający” każdej z osi w odległości 1 od początku układu współrzędnych .
Rozkłady statystyczne
Rozkłady ciągłe
Rozkłady dyskretne