Text Retrieval Conference

Z Wikipedii, wolnej encyklopedii
Skocz do: nawigacja, szukaj

Text REtrieval Conference (TREC) jest to seria warsztatów skupiająca się na wyszukiwaniu informacji w różnych obszarach badawczych lub ścieżkach (tracks). TREC jest współfinalizowane przez National Institute of Standards and Technology (NIST) oraz Disruptive Technology Office departamentu obrony USA. TREC powstało w 1992 jako cześć programu TIPSTER. Zadaniem TREC jest wspieranie i popieranie badań związanych z wyszukiwaniem informacji poprzez zapewnienie infrastruktury niezbędnej do ewaluacji metod wyszukiwania tekstu na dużą skalę[1].

Każda ścieżka (track) to wyzwanie dla biorących udział grup. Ścieżki zawierają problemy związane z wyszukiwaniem tekstu. W zależności od ścieżki, problemem mogą być pytania, tematy itp. Dzięki systemowi punktowemu oprogramowanie biorące udział w teście może być w łatwy sposób porównane. Po ogólnym przedstawieniu wyników ewaluacji, warsztaty przewidują możliwość konwersacji uczestników na temat planów badawczych obecnych oraz przyszłych.


Dostępne ścieżki (tracks)[edytuj | edytuj kod]

  • Ścieżka blogowa (Blog Track) - Cel: badanie informacji w blogosferze.
  • Ścieżka chemiczna(Chemical Track) - Cel: rozwój i porównywanie technologii odpowiedzialnej za przeszukiwanie na dużą skalę dokumentów chemicznych, patentów. Od 2009 roku.
  • Ścieżka podmiotu (Entity Track) - Cel: badanie wspólnych potrzeb informacyjnych. Od 2009 roku.
  • Ścieżka prawna (Legal Track) - Cel: rozwój technologii wyszukiwania dokumentów prawniczych.
  • Ścieżka miliona pytań (Million Query Track) - Cel: testowanie hipotezy, że biblioteka zbudowana z wielu nieocenionych tematów jest lepszym narzędziem niż biblioteka zbudowana z użyciem tradycyjnych łączeń TREC.
  • Ścieżka informacji zwrotnej (Relevance Feedback Track) - Cel: zapewnienie podłoża pod badanie wpływu różnych czynników na trafność informacji zwrotnej.
  • Ścieżka webowa (Web Track) - Cel: badanie zachowania przy wyszukiwaniu informacji z sieci.
  • Ścieżka odpowiedzi na pytanie (Question Answering) - Cel: zdobycie większej ilości informacji niż jest w stanie przedstawić pojedynczy dokument poprzez próbę udzielenia odpowiedzi na zadane pytanie.


Udział[edytuj | edytuj kod]

Konferencja składa się z różnorodnych, międzynarodowych grup naukowców i deweloperów. W roku 2003 udział wzięły 93 grupy ze sfery akademickiej i przemysłowej pochodzące z 22 różnych krajów.


Test miliona pytań (TREC 2008 Million Query Track)[edytuj | edytuj kod]

Na test miliona pytań składa się ogromna liczba pytań przygotowana przez organizatorów TREC. Poniżej kilka linijek z pliku zawierającego tematy pytań z roku 2007 (plik zawiera 10000 tematów)

227:women rights in 1840
297:turkey hunting in indiana
310:pyramid scheme
765:missouri tornado damage march 12 2006
4427:street parking rules
8064:world trade center tragedy
8821:2005 statistics of people arrested for marijuana

Tematy są więc bardzo różnorodne:

227: Prawa kobiet w roku 1840 
297: Polowanie na indyki w stanie Indiana
310: Schemat piramidy
765: Zniszczenia spowodowane przez tornado w Missouru 12 marca 2006 roku
4427: Zasady parkowania na ulicy
8064: Tragedia World Trade Center
8821: Statystyki dotyczące osób aresztowanych za posiadanie marihuany w roku 2005


Ścieżka odpowiedzi na pytanie (Question Answering Track)[edytuj | edytuj kod]

Zespoły biorące udział w Question Answering track testują systemy których celem jest odpowiadanie na pytania zadane przez użytkownika. Co roku TREC przygotowuje inny zestaw pytań. Po zakończeniu badania prezentowane są wyniki. Najlepszy system Question Answering to taki, który udzieli najwięcej prawidłowych odpowiedzi. Przykładowy fragment pliku z pytaniami z roku 2007 znajduje się poniżej:

<target id = "217" text = "Jay-Z">
    <qa>
        <q id = "217.1" type="FACTOID">
            What company produces his records?
        </q>
    </qa>

    <qa>
        <q id = "217.2" type="FACTOID">
            What is his real name?
        </q>
    </qa>

    <qa>
        <q id = "217.3" type="FACTOID">
            Who is he planning to marry?
        </q>
    </qa>

    <qa>
        <q id = "217.4" type="FACTOID">
            Which company is he president of?
        </q>
    </qa>

    <qa>
        <q id = "217.5" type="FACTOID">
            Where did he grow up?
        </q>
    </qa>

    <qa>
        <q id = "217.6" type="LIST">
            What are titles of albums featuring Jay-Z?
        </q>
    </qa>

    <qa>
        <q id = "217.7" type="OTHER">
            Other
        </q>
    </qa>
</target>

Wyniki "ścieżki odpowiedzi na pytanie" przedstawiane są w następującej formie (TREC-9):


Pierwsza i druga kolumna identyfikują system. Kolejna kolumna to MRR czyli Mean reciprocal rank, który wyrażany jest wzorem:

 \text{MRR} = \frac{1}{|Q|} \sum_{i=1}^{Q} \frac{1}{\text{rank}_i}. \!

Jeżeli MRR jest równe 1.0, znaczy to, że każda z pierwszych odpowiedzi zaproponowana przez system była poprawna.

Łatwo zauważyć, że im MRR jest bliższe 1.0 tym lepiej.

Ostatnia kolumna to procentowo wyrażona ilość błędnych odpowiedzi.


Przypisy

  1. The Text REtrieval Conference (TREC) (ang.). [dostęp 24 listopada 2009].

Linki zewnętrzne[edytuj | edytuj kod]