Libratus

Z Wikipedii, wolnej encyklopedii

Libratus (łac. zrównoważony) to program komputerowy wykorzystujący sztuczną inteligencję. Jest przeznaczony do grania w pokera w odmianę no-limit Texas hold'em. Twórcy Libratusa zamierzają go zastosować w innych niezwiązanych z pokerem dziedzinach.

Opis[edytuj | edytuj kod]

Testy Libratusa zostały przeprowadzone na superkomputerze "Bridges" w Pittsburgh Supercomputing Center. Według jednego z twórców Libratusa, profesora Tuomasa Sandholma, Libratus nie ma wbudowanej strategii, ale algorytm obliczający strategię[1]. Jest to tzw. metoda CFR + wprowadzona w 2014 r. Przez Oskari Tammelin[2]. Oprócz CFR + w Libratusie została zastosowana nowa technika opracowana przez Sandholm i jego doktoranta, Noama Browna, w celu rozwiązania problemu tzw. endgame (ang. gra końcowa). Ich nowa metoda nie posiada wcześniejszego standardu w programowaniu robotów zwanego "mapowaniem akcji".

Libratus został stworzony do gry tylko przeciwko jednemu graczowi ludzkiemu lub komputerowemu, jest to tak zwana gra Heads-Up.

Ludzie vs Sztuczna Inteligencja 2017[edytuj | edytuj kod]

W dniach od 11 do 31 stycznia 2017 r. Libratus został wystawiony w turnieju przeciwko czterem najwyższej klasy graczom pokera[3], a byli to Jason Les, Dong Kim, Daniel McAulay i Jimmy Chou. Aby uzyskać wyniki o większym znaczeniu statystycznym, rozegrano 120 000 rozdań, co stanowi 50% wzrost w stosunku do poprzedniego turnieju, w którym Claudico grał w 2015 roku. Aby zarządzać dodatkową liczbą rozdań, czas trwania turnieju został zwiększony z 13 do 20 dni.

Czterech graczy podzielono na dwie grupy – po dwóch graczy. Jeden z graczy grał w miejscu dostępnym dla ludzi, podczas gdy druga osoba z drużyny znajdował się w osobnej sali nazywanej "The Dungeon" (ang. loch), gdzie nie można było używać telefonów komórkowych ani innych urządzeń komunikacyjnych. Gracz z "podziemi" dostawał taką samą sekwencję kart, jaką Libratus "na powierzchni" i vice versa. Ta konfiguracja miała na celu wyeliminowanie efektu szczęścia.

Pula nagród w wysokości 200 000 $ została podzielona wyłącznie między ludzi. Każdy gracz otrzymał minimum 20 000 $, a reszta została rozdana w odniesieniu do ich sukcesu w walce ze sztuczną inteligencją. Jak wcześniej zapisano w regulaminie turnieju, sam Libratus nie otrzymał nagród, mimo że wygrał turniej.

Podczas turnieju Libratus rywalizował z graczami w ciągu dnia. Natomiast w nocy samodzielnie doskonalił swoją strategię, analizując wcześniejszą rozgrywkę i wyniki z dnia, w szczególności jej straty. W związku z tym był w stanie stale dopracowywać niedoskonałości, które ludzkie odkryli w swojej rozległej analizie jego gry. Wykorzystał on kolejne 4 miliony godzin obliczeniowych w superkomputerze Bridges do tego celu.

Siła sztucznej inteligencji[edytuj | edytuj kod]

Libratus prowadził z ludźmi od pierwszego dnia turnieju. Gracz Dong Kim wypowiedział się na temat Libratusa w ten sposób: "Do dzisiaj nie zdawałem sobie sprawy, jak dobre to jest, czułem się jakbym grał z kimś, kto oszukuje, jakby mógł zobaczyć moje karty. Nie oskarżam go o oszukiwanie. To było po prostu dobre."[4]

W 16. dniu konkursu Libratus po raz pierwszy przekroczył barierę wygranego 1 000 000 $. Pod koniec tego dnia miał więcej o 1 144 402 $ w porównaniu do rozpoczęcia turnieju. Ostatecznie Libratus wygrał od ludzi 1 766 250$ i tym samym hucznie wygrał. Ponieważ duża ciemna w rozgrywce została ustawiona na 100 $, wygrana Libratusa wynosi 14,7 dużych ciemnych na 100 rozdań. Jest to uważane za wyjątkowo wysoką wygraną w pokerze.

Wśród ludzi najlepszy był Dong Kim, MacAulay był drugi, Jimmy Chou trzeci, a Jason Les czwarty.

Miejsce Imię i Nazwisko Wynik (w żetonach)
1 Dong Kim -$85,649
2 Daniel MacAulay -$277,657
3 Jimmy Chou -$522,857
4 Jason Les -$880,087
W sumie: -$1,766,250

Inne możliwe zastosowania[edytuj | edytuj kod]

Pierwszym zastosowaniem Libratusa było granie w pokera, jednak jego projektanci mają o wiele większą misję dla sztucznej inteligencji[5]. Badacze zaprojektowali sztuczną inteligencję, aby móc nauczyć się jakiejkolwiek gry lub sytuacji, w której dostępne są niekompletne informacje, a "przeciwnicy" mogą ukrywać informacje lub nawet wprowadzać w błąd. Z tego powodu Sandholm i jego współpracownicy proponują zastosowanie tego systemu również w innych, rzeczywistych problemach, np. w cyberbezpieczeństwie, negocjacjach biznesowych lub medycynie[6].

Przypisy[edytuj | edytuj kod]

  1. Meet the New AI Challenging Human Poker Pros [online], IEEE Spectrum: Technology, Engineering, and Science News [dostęp 2018-02-05] (ang.).
  2. Noam Brown i Tuomas Sandholm, Safe and Nested Endgame Solving for Imperfect-Information Games, 2017.
  3. Carnegie Mellon University, Upping the Ante: Top Poker Pros Face Off vs. Artificial Intelligence – News – Carnegie Mellon University [online], [b.r.] [dostęp 2018-02-05] (ang.).
  4. Artificial Intelligence Is About to Conquer Poker—But Not Without Human Help, „WIRED” [dostęp 2018-02-05] (ang.).
  5. Will Knight, Why it’s a big deal that AI knows how to bluff in poker, „MIT Technology Review” [dostęp 2018-02-05] (ang.).
  6. Artificial Intelligence Wins $800,000 Against 4 Poker Masters [online], 27 stycznia 2017 [dostęp 2018-02-05] (ang.).