Bank drzew

Z Wikipedii, wolnej encyklopedii
Struktura drzewiasta dla zdania Janek widzi Marysię
S – Sentence (zdanie)
N – Noun (rzeczownik)
VP – Verb Phrase (fraza czasownikowa)
V – Verb (czasownik)
N – Noun (rzeczownik)

Bank drzewkorpus, w którym każde zdanie zostało sparsowane. Struktura zdania jest zazwyczaj reprezentowana w postaci drzewa – stąd też pochodzi nazwa. Zdania w banku powinny być autentyczne, nie zaś spreparowane sztucznie.

Banki drzew mogą być tworzone ręcznie, gdzie lingwiści oznaczają każde zdanie strukturą syntaktyczną, lub półautomatycznie, gdzie analizator składniowy oznacza każde zdanie, a lingwiści sprawdzają i ewentualnie je poprawiają. W praktyce budowa banku drzew jest zadaniem bardzo pracochłonnym i może zająć wiele lat.

Bank drzew jest językowym zasobem, który dostarcza przypisów do języka naturalnego na różnych poziomach strukturalnych: na poziomie słowa, frazy, zdania, a czasami także na poziomie struktury funkcja-argument.

Zastosowania banków drzew[edytuj | edytuj kod]

Banki drzew mogą służyć między innymi do analizy zjawisk syntaktycznych i do testowania parserów. Na jego podstawie można analizować częstość występowania różnych form gramatycznych, a także odkrywać nowe.

Można wymienić kilka różnych podejść do zastosowań banków drzew:

  • źródła danych dla narzędzi automatycznego przetwarzania języków naturalnych
  • źródła danych dla porównywania parserów
  • źródła danych do syntaktycznej analizy złożonego tekstu
  • dowód poprawności twierdzeń[1]

Mimo że twórcy większości banków drzew deklarują, że ich banki drzew będą używane do prawie wszystkich wymienionych wyżej celów, głęboka analiza pokazuje, że jest to wyjątkowo trudne, jeśli nie niemożliwe.

Polski Bank Drzew[edytuj | edytuj kod]

Obecnie[kiedy?] polski bank drzew jest w trakcie tworzenia. Jego tworzeniem zajmuje się Instytut Podstaw Informatyki PAN. Zakończenie projektu planowane jest na 2011 rok.[2]

Zobacz też[edytuj | edytuj kod]

Przypisy[edytuj | edytuj kod]

  1. Takie zastosowanie jest rzadko stwierdzone jawnie, ale często stanowi dodatkową motywację do budowania banków drzew.
    Zobacz: http://www.linguateca.pt/documentos/SantosPROPOR2003Timber.rtf (en)
  2. IPI PAN – Projekty badawcze finansowane z krajowych środków publicznych. [dostęp 2009-01-17]. [zarchiwizowane z tego adresu (2011-01-30)].

Bibliografia[edytuj | edytuj kod]

  • "M. Marciniak, A. Mykowiecka, A. Przepiórkowski & A. Kupść, An HPSG-Annotated test Suite for Polish LREC 2000"