Bank drzew

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj
Struktura drzewiasta dla zdania Janek widzi Marysię
S – Sentence (zdanie)
N – Noun (rzeczownik)
VP – Verb Phrase (fraza czasownikowa)
V – Verb (czasownik)
N – Noun (rzeczownik)

Bank drzew jest to korpus, w którym każde zdanie zostało sparsowane. Struktura zdania jest zazwyczaj reprezentowana w postaci drzewa. Stąd też pochodzi nazwa. Zdania w banku powinny być autentyczne nie zaś spreparowane sztucznie.

Banki drzew mogą być tworzone ręcznie, gdzie lingwiści oznaczają każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie analizator składniowy oznacza każde zdanie, a lingwiści sprawdzają i ewentualnie je poprawiają. W praktyce budowa banku drzew jest zadaniem bardzo pracochłonnym i może zająć wiele lat.

Bank drzew jest językowym zasobem, który dostarcza przypisów do języka naturalnego na różnych poziomach strukturalnych: na poziomie słowa, frazy, zdania, a czasami także na poziomie struktury funkcja-argument.

Zastosowania banków drzew[edytuj | edytuj kod]

Banki drzew mogą służyć między innymi do analizy zjawisk syntaktycznych i do testowania parserów. Na jego podstawie można analizować częstość występowania różnych form gramatycznych, a także odkrywać nowe.

Można wymienić kilka różnych podejść do zastosowań banków drzew:

  • źródła danych dla narzędzi automatycznego przetwarzania języków naturalnych
  • źródła danych dla porównywania parserów
  • źródła danych do syntaktycznej analizy złożonego tekstu
  • dowód poprawności twierdzeń[1]

Mimo, że twórcy większości banków drzew deklarują, że ich banki drzew będą używane do prawie wszystkich wymienionych wyżej celów, głęboka analiza pokazuje, że jest to wyjątkowo trudne, jeśli nie niemożliwe.

Polski Bank Drzew[edytuj | edytuj kod]

W chwili obecnej polski bank drzew jest w trakcie tworzenia. Jego tworzeniem zajmuje się Instytut Podstaw Informatyki PAN. Zakończenie projektu planowane jest na 2011 rok.[2]

Zobacz też[edytuj | edytuj kod]

Przypisy

  1. Takie zastosowanie jest rzadko stwierdzone jawnie, ale często stanowi dodatkową motywację do budowania banków drzew.
    Zobacz: http://www.linguateca.pt/documentos/SantosPROPOR2003Timber.rtf (en)
  2. IPI PAN - Projekty badawcze finansowane z krajowych środków publicznych. [dostęp 2009-01-17].

Bibliografia[edytuj | edytuj kod]

  • "M. Marciniak, A. Mykowiecka, A. Przepiórkowski & A. Kupść, An HPSG-Annotated test Suite for Polish LREC 2000"