Calgary Corpus

Z Wikipedii, wolnej encyklopedii

Calgary Corpus (korpus calgary) – zestaw tekstu i plików binarnych używany do testowania algorytmów kompresji.

Stworzyli go Ian Witten i Tim Bell w latach 80. i był powszechnie używany w 90. XX wieku. W 1997 został zastąpiony przez Canterbury Corpus, ale Calgary Corpus wciąż istnieje dla porównania i jest wciąż użyteczny. Jego główną zaletą jest łatwość porównania z algorytmami, dla których znane są wyniki dla tego korpusu.

Mimo dużej popularności jest to już korpus nieco przestarzały, jego pliki mają małe rozmiary i niektóre z nich są w formatach już niestosowanych.