Normalizacja tekstu

Normalizacja tekstu – proces przetwarzania tekstów, nadający mu spójną formę, ułatwiającą dalszą interpretację. Często stosowana jako etap wstępny do późniejszego parsowania. Założeniem normalizacji jest zmiana formy przetwarzanego tekstu z formy pisanej na mówioną. W takim ujęciu zagadnienie to przypomina tłumaczenie automatyczne, gdzie tłumaczony jest tekst pisany na tekst mówiony.

Rodzaje normalizacji[edytuj | edytuj kod]

zmiana wielkości liter (na małe lub wielkie),
normalizacja skrótów,
normalizacja wyrażeń numerycznych,
normalizacja znaków specjalnych,
zmiana znaków interpunkcyjnych,
usuwanie (lub zmienianie) znaków diakrytycznych.

Przykłady[edytuj | edytuj kod]

Zam. na os. Jana III Sobieskiego 45A/2.

Zamieszkały na osiedlu Jana trzeciego Sobieskiego czterdzieści pięć A przez dwa.

Ile to jest: 2+2*2?

Ile to jest: dwa plus dwa razy dwa?

7 IV odbędzie się 4. Olimpiada Matematyczna dla dzieci w wieku od 11-16 lat.

Siódmego kwietnia odbędzie się czwarta Olimpiada Matematyczna dla dzieci w wieku od jedenastu do szesnastu lat.

telefon: (+48) 12-12-12

telefon: plus czterdzieści osiem dwanaście dwanaście dwanaście

1000$

tysiąc dolarów

Wykorzystanie korpusów[edytuj | edytuj kod]

Ciągi znaków zamieniane są na wyrazy w oparciu o uprzednio zdefiniowane reguły. Problem jednak stanowią ciągi znaków o wielu interpretacjach, czyli homografy. W takim przypadku, nie znając kontekstu, dany ciąg znaków może być niepoprawnie zinterpretowany. Przykładowo, skrót p. może oznaczać zarówno pan, jak i patrz, a 10 08 94 może przedstawiać datę lub numer telefonu. W celu klasyfikacji takich ciągów znaków, wykorzystywane są drzewa decyzyjne budowane etapami:

Wydobycie wszystkich wystąpień homografu z korpusu.
Oznaczenie każdego wystąpienia jego klasą.
Wydobycie wszystkich cech kontekstowych które zidentyfikują obecną klasę.
Tworzenie drzewa klasyfikacji (albo listy decyzji) do klasyfikowania wystąpień.

Zastosowanie[edytuj | edytuj kod]

generowanie syntezy mowy,
rozpoznawanie mowy,
tłumaczenie automatyczne,
optymalizacja baz danych,
kompresja

Linki zewnętrzne[edytuj | edytuj kod]

Wstępne przetwarzanie tekstu w German Festival (IMS Stuttgart). staff.amu.edu.pl. [zarchiwizowane z tego adresu (2008-03-19)].
Przykład zastosowania normalizacji