Naukowcy z Google Brain zaprezentowali badanie nad nowym chatbotem, który potrafi rozmawiać na rozmaite tematy w sposób niemal tak doskonały jak ludzie. Takich botów jest już kilka, Mitsuku, Cleverbot, XiaoIce, czy DialoGPT, od setek zwykłych botów różnią się tym, że są wszechstronne, a nie ograniczone do jednej dziedziny. Meena, tak nazywa się bot Google, jest od nich dużo lepszy.
Meena była uczona rozmawiania dzięki googlowej architekturze AI Transformer, której wersję stosowała firma OpenAI w znakomitym program GPT-2 przeznaczonym do tworzenia tekstów (o jego zastosowaniu pisałem tutaj). Meena jest niesłychanie rozbudowana, bardziej niż jakikolwiek dotychczasowy program: składa się z 14 modułów, jednego dekodującego dotychczasową konwersację i 13 tworzących nowe zdania, a jej sieć ma 2,6 miliarda połączeń (o 70% więcej niż GPT-2) . Uczyła się na podstawie ludzkich rozmów z sieci społecznościowych, których pobrała 341 GB (trzy razy więcej niż teksty, na których uczyła się GPT-2). Na blogu Google badacze pokazują kawałek rozmowy z czatbotem i on robi wrażenie.
Niestety, czatbot nie jest (na razie?) dostępny dla publiczności, jak twierdzą badacze z powodów bezpieczeństwa (czego nie wyjaśniają) i ponieważ nie są pewni, czy Meena nie ma uprzedzeń (np. inaczej traktuje kobiety albo czarnych). Tego się szybko nie da sprawdzić, a ponieważ Meena uczyła się na ludzkich rozmowach, całkiem możliwe, że jakieś uprzedzenia ma. W każdym razie nie możemy sobie z Meeną porozmawiać (po angielsku) ale badacze sugerują, że w najbliższych miesiącach ją udostępnią, żeby ułatwić dalsze badania.
Aby sprawdzić jakość rozmów prowadzonych przez Meenę i inne wspomniane na początku czatboty, badacze wymyślili pewną miarę i zatrudnili ludzi, którzy każdą odpowiedź botów oceniali na dwóch skalach: sensowności i konkretności. Używano od 1600 do 2400 wypowiedzi botów, pochodzących z około 10o różnych konwersacji. Dla porównania użyto rozmowy ludzi. Sensowność oznacza, że odpowiedź bota związana jest z tematem ostatnich siedmiu wypowiedzi człowieka (np. jeśli człowiek mówi „Lubię grać w tenisa” to odpowiedź „To piękna gra” jest sensowna, a odpowiedź „Kupujesz samochód?” jest bezsensowna”). Konkretność z kolei oznacza, że odpowiedź wiąże się precyzyjnie z wypowiedzią człowiek; w przytoczonym przykładzie odpowiedź „nie wiem, co o tym sądzić” będzie niekonkretna (chociaż sensowna), natomiast „Ja też lubię Federa” konkretna jak najbardziej.
Procent odpowiedzi sensownych dawał wskaźnik sensowności, procent konkretnych wskaźnik konkretności, a średnia obu wskaźników tworzyła wspomnianą na początku miarę, nazwaną przez badaczy Sensibleness and Specificity Average (SSA) czyli Średnia Sensowności i Konkretności. Wyniki są zdumiewające albo/i przerażające: ludzie mają wskaźnik 88% a Meena, w wersji podstawowej 72% zaś w wersji optymalizowanej aż 79%, wspomniane wcześniej boty konwersowały dużo gorzej (patrz rysunek).
Twórcy Meeny zapowiadają, że będą ja nadal doskonalić, uwzględniając również dopasowywanie się tematami do rozmówcy i wykorzystywanie zewnętrznych informacji.
Co oznacza w praktyce dzisiejsza różnica SSA między ludźmi a Meeną? W czasie długiej rozmowy, w której Meena wypowiada 100 stwierdzeń, o 14 razy częściej niż ludzie albo mówi coś niezbyt pasującego do tematu albo mówi rzeczy mało precyzyjne. W realu pewnie trochę brzmi jak roztargniony albo niezbyt bystry rozmówca. Jeśli zostanie jeszcze poprawiona, to jej wypowiedzi będą nie do odróżnienia od ludzkich.
Przypuszczam, że do takiego poziomu (w języku angielskim) Meena dojdzie nie dłużej niż w ciągu dwóch lat. Inni badacze z Google właśnie stworzyli właśnie Reformera, poprawioną architekturę Transformera, która uczyć się może na całych książkach, a nie na fragmentach tekstu wielkości kilkuset słów i w do uczenia wymaga znacznie mniejszych zasobów obliczeniowych.
To znaczy, że zda test Turinga, bo zadając jej pytania nie będziemy potrafili powiedzieć, czy odpowiada człowiek czy maszyna. Ale, na szczęście, wiemy, że Turing się pomylił – ten program nie będzie świadomy, a przynajmniej nie tak świadomy jak ludzie, bo rozmiar sieci neuronowej, na której powstała Meena, jest nieporównanie mniejszy niż nasz mózg: Meena ma 2,6 mld połączeń, my mamy miliard w każdym milimetrze naszej kory mózgowej.
A kiedy Google połączy to ze swoim systemem idealnie ludzkiej mowy, Duplexem, otrzymamy nie czatboty ale boty, które będą się w rozmowie wydawały ludźmi.
Za trzy lata po angielsku, a za 4 po polsku?
Blog Google tutaj, pełny artykuł z arxiv.org tutaj