Rozkład Zipfa

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacji, wyszukiwania
Rozkład Zipfa
Funkcja rozkładu prawdopodobieństwa
Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Obydwie skale logarytmiczne. Oś pozioma to indeks k . Funkcja jest zdefiniowana tylko dla całkowitych wartości k. Łączące linie nie oznaczają tu ciągłości.
Dystrybuanta
Dystrybuanta dla N=10
Dystrybuanta dla N=10
Parametry s>0\, (liczba rzeczywista)
N \in \{1,2,3\ldots\}
Nośnik k \in \{1,2,\ldots,N\}
Funkcja rozkładu prawdopodobieństwa \frac{1/k^s}{H_{N,s}}
Dystrybuanta \frac{H_{k,s}}{H_{N,s}}
Wartość oczekiwana (średnia) \frac{H_{N,s-1}}{H_{N,s}}
Moda 1\,
Entropia \frac{s}{H_{N,s}}\sum_{k=1}^N\frac{\ln(k)}{k^s}
+\ln(H_{N,s})
Funkcja tworząca momenty \frac{1}{H_{N,s}}\sum_{n=1}^N \frac{e^{nt}}{n^s}
Funkcja charakterystyczna \frac{1}{H_{N,s}}\sum_{n=1}^N \frac{e^{int}}{n^s}
Odkrywca George Kingsley Zipf (1935, 1949)

Prawo Zipfa − w korpusie języka naturalnego, częstotliwość występowania słów jest odwrotnie proporcjonalna do pozycji w rankingu. Jest to równoważne występowaniu wśród słów pewnego dyskretnego rozkładu prawdopodobieństwa zwanego rozkładem Zipfa.

Ranking powstaje w wyniku zliczenia częstotliwości występowania słów oraz posortowania malejąco powstałej listy. Pierwsze słowo występować będzie około dwa razy częściej niż drugie słowo z rankingu. Podobna reguła dotyczy też np. liczby ludności miast.

Zobacz też[edytuj | edytuj kod]