Sieć neuronowa Yandex. Sztuczna inteligencja w poszukiwaniu. Jak Yandex nauczył się wykorzystywać sieci neuronowe do wyszukiwania według znaczenia, a nie słów. Nazywają się Legion

Władze miasta uruchomią sieć neuronową, która będzie rozpoznawać samochody po sylwetce, marce i światłach. Poinformowało o tym Centrum Zarządzania Ruchem Moskiewskiego Departamentu Transportu i Infrastruktury Drogowej.

Oczekuje się, że „inteligentny” system odciąży operatorów i poprawi jakość procesu wstępnego przetwarzania wykroczeń zarejestrowanych za pomocą automatycznych środków rejestracji wykroczeń drogowych. Sieć neuronowa będzie wykorzystywana w centrum rejestracji foto-wideo centrum przetwarzania danych, które przetwarza zdjęcia z kamer. Notabene codziennie trafia tam nawet 400 tys. materiałów.

Według eksperta w tej dziedzinie nowoczesne technologie Andriej Michajłyuk, Moskwa – lider w stosowaniu nowoczesnych technologii. Dodał, że do obsługi przypadków, w których kamera nie może rozpoznać numeru rejestracyjnego samochodu, potrzebny jest system neuronowy.

Czasem właściciele samochodów, aby uniknąć mandatu, zakrywają jedną lub więcej cyfr na tablicy rejestracyjnej – stwierdził ekspert. - Takie zdjęcia trafiają do pracowników do obróbki.

Jednocześnie zasoby ludzkie są ograniczone. Michajłyuk uważa, że przeniesienie tej funkcji na komputer jest całkiem logiczne.

Tego problemu nie powinna rozwiązywać osoba, ale system uczenia maszynowego” – zauważył.

Ekspert dodał też, że jego zdaniem takie zadanie dla sieci neuronowej jest dość prymitywne. Rzecz w tym, że liczba modeli samochodów jest ograniczona, a stabilne właściwości samochodu silnie zależą od kształtu samego samochodu i jego świateł.

Zatem jego zdaniem zadanie przypisane sieci neuronowej jest dość proste. Technicznie rzecz biorąc, taki system można opracować w ciągu kilku miesięcy; przeszkolenie sieci przy użyciu istniejących zdjęć zajmie trochę więcej czasu.

Ekspert podkreślił, że Rosja znacząco wyprzedza inne kraje świata pod względem wykorzystania nowoczesnych technologii wydawania kar. Jego zdaniem wszystko zależy od naszej mentalności.

W naszym kraju przepisy ruchu drogowego są łamane znacznie częściej niż w innych krajach” – wyjaśnił Andriej Michajłyuk. - Jeśli kamera zostanie zainstalowana w Europie, będzie nagrywać jedną karę miesięcznie, a jeśli kierowcy też o tym wiedzą, to nikt jej w ogóle nie będzie naruszał. Tutaj, w Rosji, sytuacja jest zupełnie inna.

W Moskwie działa obecnie 1,5 tys. kamer stacjonarnych rejestrujących naruszenia. W 2016 r. wydano 11,7 mln mandatów za pomocą rejestracji foto-wideo, w 2017 r. – 24,6 mln, a w ciągu dziesięciu miesięcy 2018 r. – ponad 25 mln. Warto zaznaczyć, że w Centrum Zarządzania Ruchem 280 pracowników zajmuje się sprawdzaniem informacji, poprawianiem błędów oraz monitorowaniem jakości nagrań foto i wideo.

Po otrzymaniu kolejnego „listu szczęścia” współczesny właściciel samochodu zawsze stara się dokładnie przestudiować czarno-białą fotografię i szczegółowo zapamiętać słup, na którym zawieszono kolejny aparat. Nie zawsze jednak da się uniknąć nowych kar. Jakie zatem siły i środki służą „wielkiemu bratu”, jak je rozliczyć i szybko podjąć niezbędne działania, aby nie otrzymać kolejnej kary? Izwiestia dowiedziała się, jak rodzi się decyzja w sprawie wykroczenia, jakie rodzaje systemów foto-wideo drogowych istnieją, a także próbowała dowiedzieć się, co zrobić, jeśli mandat został wydany przez pomyłkę.

Nazywają się Legion

Do tej pory w Moskwie zainstalowano łącznie około 167 tysięcy kamer, z czego prawie 2 tysiące systemów automatycznego rejestrowania wykroczeń drogowych monitoruje sytuację na drogach, a ich liczba stale rośnie. Obecnie 1,5 tys. stacjonarnych, ponad 30 mobilnych, prawie 400 mobilnych i kolejnych 110 kompleksów zainstalowanych w publicznym transporcie naziemnym pomaga w karaniu osób naruszających przepisy. Niewątpliwie trwają prace na szeroką skalę mające na celu poprawę sytuacji w zakresie bezpieczeństwa ruchu drogowego: w samym 2017 roku wykryto ponad 83 miliony wykroczeń przy użyciu urządzeń rejestrujących zdjęcia i wideo (rok wcześniej – nieco ponad 60 milionów), ale często zdarza się, że systemy automatyczne wypadek i niewinni kierowcy cierpią.

Pierwsze stacjonarne systemy foto-wideo rejestrujące wykroczenia drogowe pojawiły się na autostradach wyjazdowych stolicy już w latach 2006–2007 w ramach federalnego programu celowego „Poprawa bezpieczeństwa ruchu drogowego w latach 2006–2010”. Ponieważ od tego czasu sytuacja na drogach wyraźnie się poprawiła, fotoradary będą nadal instalowane.

Nowoczesne systemy potrafią nie tylko wykryć przekroczenie prędkości, jazdę poboczem czy wjazd na pasy komunikacji miejskiej, ale także zidentyfikować sprawców wykroczeń, którzy poruszają się po mieście bez obowiązkowego ubezpieczenia komunikacyjnego, zatrzymują się lub parkują w miejscach, gdzie trudno jest poruszać się bez samochodu, lub w miejscach, w których osoby niepełnosprawne zaniedbują wymagania znaków i oznaczeń drogowych itp. Niedawno w stolicy pojawiły się kamery drogowe monitorujące linię zatrzymania. A już w 2019 roku Państwowa Instytucja Publiczna „Centrum Organizacji Ruchu” (TsODD) zainstaluje 200 systemów monitorowania bezpieczeństwa najbardziej bezbronnych użytkowników dróg – kamery będą skierowane do kierowców, którzy nie przepuszczają pieszych na przejściach dla pieszych. Przypomnijmy, że kara za takie wykroczenie zgodnie z art. 12.18 Kodeksu wykroczeń administracyjnych wynosi od 1,5 tys. Do 2,5 tys. Rubli.

Pojawienie się zupełnie nowej kary dla kierowców jest tuż za rogiem - ogłosił to 12 listopada szef policji drogowej Michaił Czernikow. Inspektorat zamierza nakładać kary za niebezpieczną jazdę. Systemom rejestracji zdjęć i filmów najprawdopodobniej powierzone zostanie także monitorowanie lekkomyślnych zachowań i podejmowanie decyzji dla fanów gry w warcaby.

Strzał w plecy

W ramach koncepcji przekształcenia Moskwy w „inteligentne miasto” od 2011 roku stolica aktywnie wdraża inteligentny system transportowy (ITS), który gromadzi i analizuje informacje o obciążeniu i stanie sieci drogowej. „Rękami i oczami” ITS są kamery drogowe oraz inne oprogramowanie i sprzęt, które zapewniają gromadzenie, przetwarzanie, przechowywanie i aktualizację danych.

W Rosji stosowane są trzy rodzaje systemów: radarowy, laserowy i rejestrujący wideo. Mogą być zarówno stacjonarne, jak i mobilne. Systemy radarowe można wyróżnić wygląd(każde ma po dwoje „oczu” – na czujnik radarowy i na obiektyw kamery), a nagrywanie wideo polega na zamontowaniu na wysięgniku kilku kamer (po jednej na każdą listwę).

Średnio ogniskowa, przy której kamera „łapie” intruza, wynosi od 50 m do 500 m. Jednak próg maksymalnej prędkości, jaką urządzenie może zarejestrować, został znacznie podwyższony: zasięg nowoczesnych systemów wynosi 0–. 250 km/h, a nie 0–180 km/h, jak to było wcześniej.

Nowoczesne systemy nauczyły się rozpoznawać nawet brudne lub zdeformowane tablice rejestracyjne i rzadziej popełniają błędy. Na przykład błąd kompleksów Avtouragan, popularnych w Moskwie, w zależności od prędkości pojazd wynosi zaledwie 1–2 km/h, a różne modyfikacje kompleksu Strelka nie przekraczają 2 km/h. Nawiasem mówiąc, te ostatnie są wyposażone w specjalnego „dozorcy” - urządzenie, które może samodzielnie oczyścić oko aparatu, jeśli dostanie się na nie brud.

Ponadto teraz urządzenie może nie tylko sfotografować samochód od przodu, ale także wykryć prędkość, z jaką obiekt oddala się od kamery, śledzić trajektorię ruchu, mierzyć średnią prędkość pojazdu na danym obszarze, lub nawet działać na zasadzie „pit stopu”. W tym drugim przypadku dane sprawcy zostaną przekazane najbliższemu dyżurującemu funkcjonariuszowi policji drogowej z prośbą o zatrzymanie się.

Od września 2018 r. w Moskwie uruchomiono w trybie testowym sieć neuronową, która jest połączona z bazą MSW, przechowującą informacje o wszystkich zarejestrowanych samochodach. Tzw. maska pojazdu jest przechowywana w domenie publicznej i zawiera dane dotyczące marki i modelu samochodu, koloru nadwozia oraz numeru rejestracyjnego.

Zdaniem szefa wydziału transportu stolicy, Maksyma Liksutowa, wprowadzenie w mieście sieci neuronowej umożliwi wykrywanie przypadków wyłudzeń, czyli zamiany tablic rejestracyjnych czy kradzieży pojazdu. System jest w stanie automatycznie wykryć niezgodność samochodu z zamontowanymi na nim tablicami rejestracyjnymi i zasygnalizować policjantowi konieczność sprawdzenia samochodu.

Jak nie dać się złapać kamerze?

Przede wszystkim, aby uniknąć mandatu, nie należy oczywiście naruszać przepisów: przestrzegać przepisów ruchu drogowego, przestrzegać dopuszczalnej prędkości, kierować się znakami i oznaczeniami na asfalcie. Ponadto możesz dodatkowo zabezpieczyć się za pomocą detektora radarowego lub rejestratora wideo z detektorem radaru: urządzenia te monitorują sytuację w czasie rzeczywistym, odbierają sygnały z kamer policji drogowej i powiadamiają kierowcę sygnałem dźwiękowym.

Na rynkach urządzeń opartych na systemie Android lub Apple istnieje ogromna liczba aplikacji o podobnej funkcjonalności. Cena takich aplikacji, w zależności od ich możliwości i dokładności, waha się od 100 do 1650 rubli. Możesz też skorzystać z bezpłatnego nawigatora, po wcześniejszym włączeniu w ustawieniach funkcji powiadamiania dźwiękowego o kamerach i innych zdarzeniach drogowych. Warto jednak wziąć pod uwagę, że dane np. o nowych fotoradarach czy mobilnych posterunkach policji drogowej wprowadzają tam ci sami użytkownicy co Ty.

Jak udowodnić, że masz rację?

Możliwe i konieczne jest kwestionowanie błędnie wydanych mandatów za wykroczenia drogowe zarejestrowane przez kamery. Należy to jednak zrobić tylko wtedy, gdy masz absolutną pewność, że nie naruszyłeś i możesz to poprzeć znaczącymi dowodami.

Mechanizm zaskarżania decyzji jest następujący:

Od momentu otrzymania kary pieniężnej masz 10 dni na złożenie skargi (art. 30 ust. 3 Kodeksu administracyjnego);

Reklamację można złożyć osobiście (w centrach obsługi Transportu w Moskwie lub w recepcji MADI) lub elektronicznie (za pośrednictwem portalu Autocode lub elektronicznej recepcji moskiewskiego rządu);

Komplet dokumentów musi zawierać zarówno samą reklamację, podpisaną własnoręcznie, jak i dodatkowe materiały (zdjęcia, filmy lub inne dokumenty) potwierdzające informacje zawarte w Twoim odwołaniu;

Jeżeli do chwili złożenia skargi minęło już 10 dni wyznaczonych przez Kodeks wykroczeń administracyjnych, do pakietu dokumentów należy dołączyć wniosek o przywrócenie utraconego terminu na złożenie odwołania od decyzji w sprawie wykroczenia administracyjnego, który musi również być podpisany osobiście;

W skardze należy wskazać nazwę organu, do którego jest składana, datę, numer decyzji oraz argumenty potwierdzające bezprawność oskarżenia. Więcej szczegółowe instrukcje z przykładami tekstów skarg została opublikowana na oficjalnej stronie internetowej burmistrza Moskwy.

Na rozpatrzenie reklamacji przypada 10 dni, więc nadal musisz zapłacić karę, nawet jeśli została ona błędnie wystawiona. Warto także przygotować się na to, że decyzja będzie musiała zostać zaskarżona przez wyższe władze – najpierw w policji drogowej, a następnie w sądzie. Zasadą jest także przechowywanie nagrań z kamery samochodowej po podróży przez co najmniej kilka tygodni.

Według służby prasowej firmy Yandex za pomocą sieci neuronowej udało jej się znacznie zwiększyć rozdzielczość i poprawić jakość obrazu dziesięciu radzieckich kreskówek, które należą do najbardziej znanych.

W ciągu ostatnich kilku lat naukowcy tworzyli różne sieci neuronowe; szansa ta stała się dla nich dostępna dzięki wzrostowi mocy obliczeniowej komputerów i rozwojowi matematyki. Sieci neuronowe to systemy sztucznej inteligencji, które potrafią rozwiązywać nietrywialne problemy. Niektóre tak złożone sieci neuronowe potrafią nawet myśleć nieszablonowo, w ten sposób samodzielnie tworząc nowe dzieła sztuki i opracowując innowacyjne technologie.

Sieć neuronowa Yandex nazywa się DeepHD. Już wcześniej dobrze się sprawdziła, gdy wykorzystano ją do poprawy jakości filmów opowiadających o Wielkiej Wojnie Ojczyźnianej. Następnie siedem filmów uległo zmianom. Teraz kolej na sowiecką animację: Królowa Śniegu, Szkarłatny Kwiat, Kociak o imieniu Hau, Umka szuka przyjaciela, Calineczka itp.

Specjalny system sztucznej inteligencji zajmuje się wyłącznie poprawą jakości i nie wprowadza żadnych zmian w klatkach kreskówek. Jej zadaniem jest przywracanie szczegółów, które w zamyśle artystki zaginęły podczas przenoszenia kreskówek z filmu na format cyfrowy. Strona, na której znajduje się opis sieci neuronowej DeepHD, mówi o jej funkcjach. W sumie są cztery takie funkcje: usuwanie defektów i szumów, zachowanie szczegółów przy powiększaniu, doskonała praca ze strumieniami wideo i pojedynczymi obrazami, możliwość pracy w czasie rzeczywistym.

Podstawą technologii DeepHD są generatywne, przeciwstawne sieci neuronowe. W początkowej fazie jedna sieć neuronowa zajmuje się eliminowaniem defektów pojawiających się w filmie podczas jego kompresji. Drugi etap realizowany jest przez inną sieć neuronową, która odpowiada za powiększenie obrazu, a także utrzymanie wyrazistości szczegółów podczas takich zmian. Ze szczegółowym działaniem sieci neuronowej DeepHD można zapoznać się na oficjalnym blogu jej twórców.

Warto dodać, że w DeepHD widzowie mają dziś dostęp nie tylko do starych filmów i kreskówek, ale także do nowych filmów fabularnych i animowanych. Można je znaleźć poprzez zapytanie z dodatkiem „DeepHD”. Dziś można nawet oglądać kanały telewizyjne w wyższej jakości, stało się to możliwe dzięki zdolności sieci neuronowej do pracy w czasie rzeczywistym.

Czy podobała Ci się ta wiadomość? Następnie naciskać.

Dzisiaj ogłosiliśmy nowy algorytm wyszukiwania „Palech”. Zawiera wszystkie ulepszenia, nad którymi ostatnio pracowaliśmy.

Na przykład wyszukiwanie po raz pierwszy wykorzystuje sieci neuronowe do wyszukiwania dokumentów nie na podstawie słów użytych w zapytaniu i samym dokumencie, ale na podstawie znaczenia zapytania i tytułu.

Od wielu dziesięcioleci badacze borykają się z problemem wyszukiwania semantycznego, w ramach którego ranking dokumentów opiera się na znaczeniu semantycznym dla zapytania. A teraz staje się to rzeczywistością.

W tym poście postaram się trochę opowiedzieć o tym jak nam się to udało i dlaczego nie jest to kolejny algorytm uczenia maszynowego, ale ważny krok w przyszłość.

Sztuczna inteligencja czy uczenie maszynowe?

Prawie każdy zna tę nowoczesność Wyszukiwarki pracować z wykorzystaniem uczenia maszynowego. Dlaczego mielibyśmy osobno mówić o wykorzystaniu sieci neuronowych do swoich zadań? I dlaczego dopiero teraz, skoro szum wokół tego tematu nie ucichł od kilku lat? Spróbuję opowiedzieć o historii problemu.

Wyszukiwarka internetowa to złożony system, który pojawił się dawno temu. Na początku było to tylko wyszukiwanie stron, potem zamieniło się w narzędzie do rozwiązywania problemów, a teraz staje się pełnoprawnym asystentem. Im większy jest Internet i im więcej jest w nim ludzi, tym wyższe są ich wymagania, tym trudniejsze musi być wyszukiwanie.

Era naiwnych poszukiwań

Na początku było tylko wyszukiwanie słów – odwrócony indeks. W takim razie stron było za dużo, należało je uszeregować. Zaczęto brać pod uwagę różne komplikacje - częstotliwość słów, tf-idf.

Wiek linków

Potem stron o dowolnej tematyce było za dużo, nastąpił ważny przełom – zaczęto uwzględniać linki, pojawił się PageRank.

Wiek uczenia maszynowego

Internet zyskał znaczenie komercyjne i pojawiło się wielu oszustów próbujących oszukać proste algorytmy, które istniały wówczas. Nastąpił drugi ważny przełom - wyszukiwarki zaczęły wykorzystywać swoją wiedzę o zachowaniach użytkowników, aby zrozumieć, które strony są dobre, a które nie.

Gdzieś na tym etapie ludzki umysł nie był już wystarczający, aby dowiedzieć się, jak uszeregować dokumenty. Nastąpiło kolejne przejście – wyszukiwarki zaczęły aktywnie wykorzystywać uczenie maszynowe.

W Yandexie wynaleziono jeden z najlepszych algorytmów uczenia maszynowego – Matrixnet. Można powiedzieć, że w rankingu pomaga zbiorowa inteligencja użytkowników i „mądrość tłumu”. Informacje o witrynach i zachowaniach ludzi są przekształcane na wiele czynników, z których każdy jest wykorzystywany przez Matrixnet do budowania formuły rankingu. W rzeczywistości formuła rankingu jest pisana przez maszynę (okazało się, że ma około 300 megabajtów).

Jednak „klasyczne” uczenie maszynowe ma swoje granice: działa tylko wtedy, gdy jest dużo danych. Mały przykład. Miliony użytkowników wprowadza zapytanie [VKontakte], aby znaleźć tę samą witrynę. W tym przypadku ich zachowanie jest na tyle silnym sygnałem, że wyszukiwanie nie zmusza ludzi do patrzenia na wyniki, ale podpowiada adres od razu przy wpisywaniu zapytania.

Ale ludzie są bardziej złożeni i chcą od swoich poszukiwań coraz więcej. Obecnie aż 40% wszystkich żądań ma charakter unikalny, czyli nie powtarza się co najmniej dwa razy w ciągu całego okresu obserwacji. Oznacza to, że wyszukiwarka nie dostarcza wystarczających danych na temat zachowań użytkowników, a Matrixnet jest pozbawiony wartościowych czynników. Takie zapytania w Yandex nazywane są „długim ogonem”, ponieważ razem stanowią znaczną część trafień w naszym wyszukiwaniu.

Wiek sztucznej inteligencji

A teraz czas porozmawiać o najnowszym przełomie: kilka lat temu komputery stały się wystarczająco szybkie, a danych było wystarczająco dużo, aby korzystać z sieci neuronowych. Oparte na nich technologie nazywane są także inteligencją maszynową lub sztuczną inteligencją – ponieważ sieci neuronowe budowane są na obraz neuronów w naszym mózgu i starają się naśladować pracę niektórych jego części.

Inteligencja maszynowa jest znacznie lepsza od starszych metod w przypadku zadań, które może wykonać człowiek, takich jak rozpoznawanie mowy czy rozpoznawanie wzorców na obrazach. Ale w jaki sposób pomaga to w wyszukiwaniu?

Z reguły zapytania o niskiej częstotliwości i unikalne są dość trudne do wyszukania i znacznie trudniej jest znaleźć na nie dobrą odpowiedź. Jak to zrobić? Nie mamy żadnych wskazówek od użytkowników (który dokument jest lepszy, a który gorszy), więc aby rozwiązać problem wyszukiwania, musimy nauczyć się lepiej rozumieć zgodność semantyczną pomiędzy dwoma tekstami: zapytaniem i dokumentem.

Łatwo powiedzieć

Ściśle mówiąc, sztuczne sieci neuronowe są jedną z metod uczenia maszynowego. Ostatnio w ramach Małego ShAD poświęcono im wykład. Sieci neuronowe wykazują imponujące wyniki w zakresie analizy informacji naturalnych – dźwięku i obrazu. Dzieje się tak już od kilku lat. Ale dlaczego do tej pory nie były one tak aktywnie wykorzystywane w wyszukiwaniach?

Prosta odpowiedź jest taka, że mówienie o znaczeniu jest znacznie trudniejsze niż mówienie o obrazie lub o tym, jak zamienić dźwięki w zdekodowane słowa. Jednak w poszukiwaniu znaczenia sztuczna inteligencja tak naprawdę zaczęła wychodzić z obszaru, w którym od dawna króluje – wyszukiwania obrazów.

Kilka słów o tym, jak to działa w wyszukiwaniu obrazów. Robisz obraz i za pomocą sieci neuronowych przekształcasz go w wektor w przestrzeni N-wymiarowej. Weź prośbę (która może mieć formę tekstową lub inny obraz) i zrób z nią to samo. A potem porównujesz te wektory. Im bliżej siebie są, tym bardziej obraz odpowiada żądaniu.

OK, jeśli to działa w przypadku obrazów, dlaczego nie zastosować tej samej logiki do wyszukiwania w Internecie?

Diabeł tkwi w technologii

Sformułujmy problem w następujący sposób. Na wejściu mamy żądanie użytkownika i tytuł strony. Musisz zrozumieć, jak bardzo odpowiadają sobie znaczenie. W tym celu należy przedstawić tekst żądania i tekst tytułu w postaci takich wektorów, których mnożenie przez skalar będzie tym większe, im bardziej odpowiedni dla wniosku będzie dokument o danym tytule. Inaczej mówiąc, chcemy wytrenować sieć neuronową w taki sposób, aby dla tekstów o zbliżonym znaczeniu generowała wektory podobne, natomiast dla zapytań i nagłówków semantycznie niepowiązanych wektory powinny być inne.

Złożoność tego zadania polega na wyborze właściwej architektury i metody uczenia sieci neuronowej. Z publikacji naukowych znanych jest sporo podejść do rozwiązania tego problemu. Prawdopodobnie najprostszą metodą jest reprezentowanie tekstów w postaci wektorów za pomocą algorytmu word2vec (niestety, doświadczenie praktyczne podpowiada, że jest to raczej kiepskie rozwiązanie dla omawianego problemu).

DSSM

W 2013 roku badacze z Microsoft Research opisali swoje podejście, które nazwano Deep Structured Semantic Model.

Dane wejściowe modelu to teksty zapytań i nagłówków. Aby zmniejszyć rozmiar modelu, przeprowadza się na nich operację, którą autorzy nazywają haszowaniem słów. Do tekstu dodawane są znaczniki początku i końca, po czym jest on dzielony na trygramy literowe. Przykładowo dla zapytania [palekh] otrzymamy trygramy [pa, ale, lech, ex]. Ponieważ liczba różnych trygramów jest ograniczona, możemy przedstawić tekst żądania jako wektor o rozmiarze kilkudziesięciu tysięcy elementów (rozmiar naszego alfabetu do potęgi trzeciej). Elementy wektora odpowiadające trygramom żądania będą równe 1, reszta - 0. W istocie zaznaczamy w ten sposób wpis trygramów z tekstu do słownika składającego się ze wszystkich znanych trygramów. Porównując takie wektory, można dowiedzieć się jedynie o obecności identycznych trygramów w żądaniu i nagłówku, co nie jest szczególnie interesujące. Dlatego teraz należy je przekształcić w inne wektory, które będą już miały potrzebne nam właściwości bliskości semantycznej.

Po warstwie wejściowej, zgodnie z oczekiwaniami w głębokich architekturach, istnieje kilka ukrytych warstw zarówno dla żądania, jak i nagłówka. Ostatnia warstwa ma rozmiar 128 elementów i służy jako wektor służący do porównania. Wynik modelu jest wynikiem mnożenia przez skalar ostatniego wektora nagłówka i żądania (dokładniej obliczany jest cosinus kąta między wektorami). Model jest szkolony w taki sposób, że dla pozytywnych przykładów uczących wartość wyjściowa jest duża, a dla negatywnych – mała. Innymi słowy, porównując wektory ostatniej warstwy, możemy obliczyć błąd predykcji i zmodyfikować model tak, aby błąd się zmniejszał.

W Yandex aktywnie badamy również modele oparte na sztucznych sieciach neuronowych, dlatego zainteresowaliśmy się modelem DSSM. Następnie porozmawiamy o naszych eksperymentach w tym obszarze.

Teoria i praktyka

Cechą charakterystyczną algorytmów opisywanych w literaturze naukowej jest to, że nie zawsze działają one od razu po wyjęciu z pudełka. Faktem jest, że badacz „akademicki” i badacz przemysłowy znajdują się w znacząco odmiennych warunkach. Punktem wyjścia (bazowym), z którym autor publikacji naukowej porównuje swoje rozwiązanie, powinien być jakiś znany algorytm – zapewnia to powtarzalność wyników. Naukowcy wykorzystują wyniki wcześniej opublikowanego podejścia i pokazują, jak można je przewyższyć. Na przykład autorzy oryginalnego DSSM porównują swój model wykorzystując metrykę NDCG z algorytmami BM25 i LSA. W przypadku badacza stosowanego, który bada jakość wyszukiwania w prawdziwej wyszukiwarce, punktem wyjścia nie jest jeden konkretny algorytm, ale cały ranking jako całość. Celem dewelopera Yandex nie jest wyprzedzenie BM25, ale osiągnięcie poprawy na tle całego zestawu wcześniej wprowadzonych czynników i modeli. Zatem poziom bazowy dla badacza w Yandex jest niezwykle wysoki, a wiele algorytmów, które mają nowość naukową i wykazują dobre wyniki przy podejściu „akademickim”, okazują się w praktyce bezużyteczne, ponieważ tak naprawdę nie poprawiają jakości wyszukiwania.

W przypadku DSSM napotkaliśmy ten sam problem. Jak to często bywa, w warunkach „bojowych” dokładna realizacja modelu z artykułu dała dość skromne rezultaty. Zanim udało nam się uzyskać interesujące z praktycznego punktu widzenia wyniki, konieczne było dokonanie szeregu znaczących „modyfikacji plików”. Tutaj porozmawiamy o głównych modyfikacjach oryginalnego modelu, które pozwoliły nam zwiększyć jego moc.

Duża warstwa wejściowa

W oryginalnym modelu DSSM warstwą wejściową jest zbiór trygramów literowych. Jego rozmiar wynosi 30 000. Podejście trygramowe ma kilka zalet. Po pierwsze, jest ich stosunkowo niewiele, więc praca z nimi nie wymaga dużych zasobów. Po drugie, ich użycie ułatwia identyfikację literówek i błędnie napisanych słów. Jednak nasze eksperymenty wykazały, że reprezentowanie tekstów w postaci „worka” trygramów zauważalnie zmniejsza siłę wyrazu sieci. Dlatego radykalnie zwiększyliśmy rozmiar warstwy wejściowej, włączając, oprócz trygramów literowych, około 2 miliony dodatkowych słów i fraz. W ten sposób reprezentujemy teksty zapytań i nagłówków jako wspólny „worek” słów, bigramów słów i trygramów literowych.

Korzystanie z dużej warstwy wejściowej prowadzi do zwiększenia rozmiaru modelu, czasu uczenia i wymaga znacznie większych zasobów obliczeniowych.

Trudne do nauczenia: jak sieć neuronowa walczyła sama ze sobą i uczyła się na swoich błędach

Szkolenie oryginalnego DSSM polega na wystawieniu sieci na dużą liczbę pozytywnych i negatywnych przykładów. Przykłady te pochodzą z wyników wyszukiwania (najwyraźniej wykorzystano do tego wyszukiwarkę Bing). Pozytywne przykłady to tytuły klikniętych dokumentów wyszukiwania, negatywne przykłady to tytuły dokumentów, które nie zostały kliknięte. To podejście ma pewne wady. Faktem jest, że brak kliknięcia nie zawsze oznacza, że dokument jest nieistotny. Prawdziwe jest również stwierdzenie przeciwne - obecność kliknięcia nie gwarantuje trafności dokumentu. Zasadniczo, ucząc się w sposób opisany w oryginalnym artykule, staramy się przewidzieć atrakcyjność nagłówków, pod warunkiem, że będą one obecne w wynikach wyszukiwania. To oczywiście też nie jest złe, ale ma raczej pośredni związek z naszym głównym celem - nauczeniem się rozumienia bliskości semantycznej.

Podczas naszych eksperymentów odkryliśmy, że wynik można znacznie poprawić, jeśli zastosujemy inną strategię wyboru przykładów negatywnych. Aby osiągnąć nasz cel, dobrymi przykładami negatywnymi są te dokumenty, które z pewnością nie mają związku z zapytaniem, ale jednocześnie pomagają sieci neuronowej lepiej zrozumieć znaczenie słów. Skąd mogę je zdobyć?

Pierwsza próba

Najpierw weźmy tytuł losowego dokumentu jako negatywny przykład. Na przykład dla prośby [Malarstwo Palecha] losowy tytuł mógłby brzmieć „Przepisy drogowe Federacji Rosyjskiej 2016”. Oczywiście nie można całkowicie wykluczyć, że losowo wybrany spośród miliardów dokument będzie istotny dla wniosku, jednak prawdopodobieństwo tego jest na tyle małe, że można je pominąć. W ten sposób bardzo łatwo możemy uzyskać dużą liczbę przykładów negatywnych. Wydawałoby się, że teraz możemy nauczyć naszą sieć dokładnie tego, czego chcemy – odróżniania dobrych dokumentów, które interesują użytkowników, od dokumentów, które nie mają nic wspólnego z żądaniem. Niestety model wytrenowany na takich przykładach okazał się dość słaby. Sieć neuronowa to mądra rzecz i zawsze znajdzie sposób na uproszczenie swojej pracy. W tym przypadku po prostu zaczęła szukać tych samych słów w zapytaniach i nagłówkach: jest - dobra para, nieźle. Ale możemy to zrobić sami. Zależy nam na tym, aby sieć nauczyła się rozróżniać nieoczywiste wzorce.

Kolejna próba

Kolejnym eksperymentem było dodanie słów z zapytania do tytułów przykładów negatywnych. Przykładowo dla prośby [Malarstwo Palecha] losowy tytuł wyglądał następująco [Przepisy drogowe 2016 obrazu Federacji Rosyjskiej]. Nieco więcej trudności miała sieć neuronowa, ale mimo to szybko nauczyła się dobrze odróżniać pary naturalne od tych skompilowanych ręcznie. Stało się jasne, że stosując takie metody nie osiągniemy sukcesu.

Powodzenie

Wiele oczywistych rozwiązań staje się oczywistych dopiero po ich odkryciu. Tak też się stało i tym razem: po pewnym czasie odkryto, że Najlepszym sposobem generowanie negatywnych przykładów oznacza zmuszanie sieci do „walki” z samą sobą, uczenia się na własnych błędach. Spośród setek losowych nagłówków wybraliśmy ten, który obecna sieć neuronowa uznała za najlepszy. Ponieważ jednak nagłówek ten jest nadal losowy, jest wysoce prawdopodobne, że nie pasuje do żądania. I właśnie te nagłówki zaczęliśmy wykorzystywać jako negatywne przykłady. Innymi słowy, możesz pokazać sieci najlepsze losowe nagłówki, wytrenować ją, znaleźć nowe najlepsze losowe nagłówki, ponownie pokazać sieci i tak dalej. Powtarzając tę procedurę wielokrotnie, zaobserwowaliśmy, jak jakość modelu zauważalnie się poprawiła i coraz częściej najlepsze z losowych par upodabniały się do naprawdę pozytywnych przykładów. Problem został rozwiązany.

Podobny schemat szkolenia w literaturze naukowej nazywany jest zwykle twardym wydobywaniem negatywnym. Należy również zauważyć, że podobne rozwiązania stały się powszechne w środowisku naukowym w zakresie generowania realistycznie wyglądających obrazów. Ta klasa modeli nazywana jest Generatywnymi Sieciami Przeciwstawnymi.

Różne cele

Badacze z Microsoft Research wykorzystali kliknięcia dokumentów jako pozytywne przykłady. Jednakże, jak już wspomniano, jest to raczej niewiarygodny sygnał o zgodności semantycznej nagłówka z żądaniem. Ostatecznie naszym celem nie jest ranking najczęściej odwiedzanych witryn w wynikach wyszukiwania, ale znalezienie naprawdę przydatnych informacji. Dlatego jako cel szkoleniowy próbowaliśmy wykorzystać inne cechy zachowań użytkowników. Przykładowo jeden z modeli przewidywał, czy użytkownik pozostanie na stronie, czy ją opuści. Inną kwestią jest to, jak długo pozostanie na stronie. Jak się okazuje, można znacznie poprawić wyniki, jeśli zoptymalizuje się taką metrykę docelową, która wskazuje, że użytkownik znalazł to, czego potrzebował.

Zysk

OK, ale co nam to daje w praktyce? Porównajmy zachowanie naszego modelu neuronowego i prostego współczynnika tekstowego opartego na zgodności słów zapytania z tekstem - BM25. Przyszło do nas z czasów, gdy ranking był prosty, a teraz wygodnie jest go używać jako poziomu podstawowego.

Weźmy jako przykład zapytanie [Księga z Kells] i zobaczmy, jakie znaczenie mają czynniki przy różnych pozycjach. Aby to kontrolować, dodajmy do listy nagłówków wyraźnie nieistotny wynik.

Wszystkie czynniki w Yandex są znormalizowane do przedziału. Oczekuje się, że BM25 będzie miał wysokie wartości dla tytułów zawierających słowa zapytania. I jest całkiem przewidywalne, że współczynnik ten przyjmuje wartość zerową w przypadku tytułów, które nie mają słów wspólnych z żądaniem. Teraz zwróć uwagę, jak zachowuje się model neuronowy. Równie dobrze dostrzega związek żądania zarówno z rosyjskojęzycznym tytułem odpowiedniej strony z Wikipedii, jak i z tytułem artykułu na język angielski! Ponadto wydaje się, że model „dostrzegł” związek zapytania z tytułem, który nie wspomina o Księdze z Kells, lecz zawiera podobne sformułowanie („Ewangelie irlandzkie”). Wartość modelu dla nieistotnego tytułu jest znacznie niższa.

Zobaczmy teraz, jak zachowają się nasze czynniki, jeśli przeformułujemy prośbę bez zmiany jej znaczenia: [ewangelia z Kells].

W przypadku BM25 przeformułowanie zapytania zamieniło się w prawdziwą katastrofę - współczynnik w odpowiednich nagłówkach stał się zerowy. Nasz model wykazuje doskonałą odporność na przeformułowanie: odpowiednie nagłówki nadal mają wysoką wartość współczynnika, podczas gdy nieistotny nagłówek nadal ma niską wartość współczynnika. Wydaje się, że właśnie takiego zachowania oczekiwaliśmy od rzeczy, która twierdzi, że potrafi „rozumieć” semantykę tekstu.

Inny przykład. Prośba [historia, w której zmiażdżono motyla].

Jak widać, model neuronowy był w stanie wysoko ocenić tytuł z poprawną odpowiedzią, pomimo całkowitego braku wspólnych słów z zapytaniem. Co więcej, wyraźnie widać, że nagłówki, które nie odpowiadają na zapytanie, a mimo to są ze sobą powiązane znaczeniowo, otrzymują dość wysoką wartość współczynnika. To tak, jakby nasz model „przeczytał” historię Bradbury’ego i „wiedział”, że właśnie o to mu chodzi w prośbie!

Co dalej?

Jesteśmy na samym początku długiej i bardzo ciekawej podróży. Najwyraźniej sieci neuronowe mają ogromny potencjał poprawy rankingów. Główne kierunki wymagające aktywnego rozwoju są już jasne.

Przykładowo oczywiste jest, że tytuł zawiera niepełne informacje o dokumencie i dobrze byłoby nauczyć się budować model z pełnego tekstu (jak się okazało nie jest to zadanie zupełnie trywialne). Co więcej, możemy sobie wyobrazić modele, które mają znacznie bardziej złożoną architekturę niż DSSM - istnieją podstawy, aby sądzić, że w ten sposób będziemy w stanie lepiej obsługiwać niektóre konstrukcje języka naturalnego. Naszym długoterminowym celem jest stworzenie modeli, które będą w stanie „rozumieć” korespondencję semantyczną pomiędzy zapytaniami a dokumentami na poziomie porównywalnym do ludzkiego. Na drodze do tego celu będzie wiele trudności - im ciekawiej będzie przez to przejść. Obiecujemy porozmawiać o naszej pracy w tym obszarze. Śledź kolejne publikacje.

Pisarz science fiction Siergiej Łukjanenko wraz z siecią neuronową Yandex stworzył dzieło w stylu serii „Wieczory na farmie niedaleko Dikanki”. Pisarz opracował bohaterów i główne wątki fabularne, a następnie sieć neuronowa wygenerowała na tej podstawie historię „Zły kontrakt”, która trafiła do domeny publicznej.

Funkcje rozwojowe

Idea projektu należy do kanału TV-3. Okazją była premiera filmu „Gogol. Straszna zemsta”, którego premiera w Rosji zaplanowana jest na 30 sierpnia 2018 roku. Producent Valery Fedorovich zauważył, że proces tworzenia historii odpowiada sposobowi, w jaki Gogol pracował nad swoimi dziełami. Ale jeśli matka Mikołaja Wasiljewicza spisała legendy ludowe i wysłała je listami, to w tym przypadku informacja jest przetwarzana przez sieć neuronową, a folklorystyczne „pożywienie” zapewnia pisarz.

Program dodał wiele szczegółów i wątków do historii „Zły Traktat”, a także zapewnił język narracji podobny do języka Gogola. Wynik ten osiągnięto dzięki wstępnemu szkoleniu w oparciu o prozę rosyjską w ogóle, a następnie w szczególności o twórczość pisarza.

Opinia pisarza

Siergiej Łukjanenko ocenił wynik na dwa sposoby współpraca z Yandexem. Z jednej strony cieszy go fakt, że pomimo szybkiego rozwoju sieci neuronowych i sztucznej inteligencji potrzebny jest człowiek, który stworzy podstawy pracy twórczej. Z drugiej strony pisarza denerwuje fakt, że niektóre współczesne książki są napisane gorzej niż historia stworzona przez maszynę.