Badacze z OpenAI przedstawili w tym tygodniu wyniki badania nad sztuczną inteligencją, którą nauczyli grać w znaną wszystkim z dzieciństwa grę w chowanego. Właściwie nie nauczyli jej grać, tylko powiedzieli, jakie są zasady, a grać miała nauczyć się sama.
OpenAI jest jednym z czołowych na świecie ośrodków badań nad sztuczną inteligencją, znany m.in. ze znakomitego programu sztucznej inteligencji do gry w Dota 2 , w lutym zaprezentowali a program do pisania wiadomości na dowolny temat, tak doskonały, że nie ujawnili całego sposobu tworzenia go, żeby nie wywołać huraganu fake-newsów. Badanie nad grą w chowanego na szczęście nie ma takich złowrogich konsekwencji. Chyba nie ma, o czym na końcu.
Badacze stworzyli dwa zespoły postaci poruszanych sztuczną inteligencją, które rywalizowały ze sobą – zespół ukrywających się i zespół szukających, liczyły one od 1 do 3 osób. Zespoły dostały do dyspozycji przestrzeń z kilkoma ruchomymi obiektami: ściankami, klockami, pochylnią. Mogły te obiekty przesuwać albo unieruchamiać. Zespół szukający, tak jak w prawdziwej grze, musiał czekać kilkanaście sekund, zanim zaczynał poszukiwać przeciwników. I,co istotne, nie uczono ekip żadnych zachowań, natomiast nagradzano je i karano punktami za osiągnięcie bądź nieosiągnięcie celu, czyli ukrycie się/znalezienie ukrytych; jest to tak zwane uczenie ze wzmacnianiem (reinforcement learning). Rozegrano w sumie prawie pół miliarda (!) rozgrywek, zaczynając od momentu, gdy gracze nie mieli żadnych umiejętności ukrywania się i znajdywania.
Na stronie opisującej badanie możecie zobaczyć filmiki pokazujące, jak rozwijały się rozgrywki, jak zespoły uczyły się kolejnych strategii, naprawdę warto to obejrzeć. Na początku po prostu jedni gonili drugich, ale stopniowo ukrywający się zaczęli budować schronienia, szukający wykorzystywali pochylnie, żeby przekraczać ściany i tak dalej, aż ukrywający się nauczyli się unieruchamiania wszystkich obiektów i ukrywania się w zbudowanym schronieniu. Ukrywający się nauczyli się też współpracowania w sprawnym przesuwaniu obiektów.
Te złożone zachowania, przypomnijmy, nie zostały przez badaczy zaprogramowane. „Ludziki” dostały do wykonania cele i nagradzane były za ich osiąganie, a sposoby osiągania tych celów same sobie znajdywały. Wbrew pozorom, nie było to ćwiczenie z tworzenia zabawnej animacji, kierowanej sztuczną inteligencją. Chodzi o coś znacznie ważniejszego i całkowicie praktycznego.. . Jak powiedział jeden z badaczy, Bowen Baker, „chcemy, żeby ludzie wyobrazili sobie co się może wydarzyć, jeśli przeniesiemy taką rywalizację w znacznie bardziej skomplikowane środowisko. Zachowania graczy mogą pokazać nam rozwiązania problemów, na które sami byśmy nie wpadli”.
Już niedługo będziemy uczyć się od sztucznej inteligencji….