Autoritățile orașului vor lansa o rețea neuronală care va recunoaște mașinile după siluetă, marcă și lumini. Acest lucru a fost raportat la Centrul pentru Managementul Traficului al Departamentului de Transport și Infrastructură Rutieră al orașului Moscova.

Se presupune că sistemul „inteligent” va reduce sarcina operatorilor și va îmbunătăți calitatea preprocesării încălcărilor înregistrate prin mijloace automate de stabilire a infracțiunilor în domeniul traficului. Rețeaua neuronală va fi utilizată în centrul de înregistrare foto-video al TsODD, care prelucrează fotografiile de la camere. Apropo, până la 400 de mii de materiale sunt primite acolo zilnic.

Potrivit lui Andrey Mikhailyuk, expert în domeniul tehnologiilor moderne, Moscova este lider în domeniul aplicării tehnologiilor moderne. El a adăugat că este necesar un sistem neuronal pentru a gestiona cazurile în care camera nu poate recunoaște plăcuța de înmatriculare.

Uneori, proprietarii de mașini, pentru a evita o amendă, închid una sau mai multe cifre de pe număr, a spus expertul. - Astfel de imagini sunt trimise angajaților pentru prelucrare.

În același timp, resursa umană este limitată. Mikhailyuk crede că transferul acestei funcții pe computer este destul de logic.

O astfel de sarcină ar trebui rezolvată nu de o persoană, ci de un sistem de învățare automată, - a menționat el.

Expertul a mai adăugat că, în opinia sa, o astfel de sarcină pentru o rețea neuronală este destul de primitivă. Chestia este că numărul de modele de mașini este limitat, în timp ce caracteristicile stabile ale mașinii depind în mare măsură de forma mașinii în sine și de luminile sale.

Astfel, crede el, sarcina atribuită rețelei neuronale este destul de simplă. Din punct de vedere tehnic, un astfel de sistem poate fi dezvoltat în câteva luni și va dura ceva timp pentru a antrena rețeaua folosind fotografiile existente.

Expertul a subliniat că Rusia, în ceea ce privește utilizarea tehnologiilor moderne de emitere a amenzilor, este semnificativ înaintea altor țări din lume. Potrivit lui, totul ține de mentalitatea noastră.

Încălcăm regulile rutiere mult mai des decât în ​​alte țări, - a explicat Andrey Mikhailyuk. - Dacă o cameră este atârnată în Europa, atunci se va repara condiționat o amendă pe lună, iar dacă șoferii știu și despre asta, atunci nimeni nu o va încălca deloc. Avem o situație complet diferită în Rusia.

La Moscova, există în prezent 1,5 mii de camere staționare pentru remedierea încălcărilor. În 2016, cu ajutorul înregistrării foto-video, au fost emise 11,7 milioane de amenzi, în 2017 - 24,6 milioane, iar în zece luni din 2018 - peste 25 de milioane. De menționat că 280 de angajați din Centrul de management al traficului sunt angajați în verificarea informațiilor, corectarea erorilor și controlul calității înregistrărilor foto și video.

După ce a primit o altă „scrisoare de fericire”, un proprietar de mașină modern încearcă întotdeauna să studieze temeinic o fotografie alb-negru și să-și amintească în detaliu stâlpul de care a fost atârnată următoarea cameră. Cu toate acestea, nu este întotdeauna posibil să se evite noi amenzi. Deci ce fel de forțe și mijloace sunt în slujba „fratelui mai mare”, cum să le calculeze și să ia rapid măsurile necesare pentru a nu mai primi o altă amendă? Izvestia a aflat cum se naște o decizie cu privire la o infracțiune, ce tipuri de complexe rutiere există pentru înregistrarea foto și video și a încercat, de asemenea, să-și dea seama ce să facă dacă a fost emisă în mod eronat o amendă.

Numele lor este legiune

Până în prezent, la Moscova au fost instalate în total aproximativ 167.000 de camere, dintre care aproape 2.000 de complexe de înregistrare automată a încălcărilor rutiere monitorizează situația traficului, iar numărul acestora este în continuă creștere. În momentul de față, 1,5 mii staționari, peste 30 mobile, aproape 400 mobile și alte 110 complexe instalate pe transportul public terestru ajută la amendarea contravenienților. Fără îndoială, se desfășoară lucrări de amploare pentru îmbunătățirea situației în materie de siguranță rutieră: numai în 2017, au fost depistate peste 83 de milioane de infracțiuni folosind instrumente de înregistrare foto și video (cu puțin mai mult de 60 de milioane cu un an mai devreme), dar adesea se intampla ca sisteme automate eșuează și dăunează șoferilor nevinovați.

Primele complexe staționare pentru înregistrarea foto și video a încălcărilor rutiere au apărut pe autostrăzile de ieșire ale capitalei în 2006–2007, ca parte a programului-țintă federal „Îmbunătățirea siguranței rutiere în 2006–2010”. Întrucât situația pe șosele s-a îmbunătățit simțitor de atunci, se vor instala în continuare camere de rulare.

Complexele moderne sunt capabile nu numai să înregistreze vitezele, să conducă pe marginea drumului sau să conducă pe benzi pentru transportul public, ci și să calculeze contravenienții care se deplasează prin oraș fără OSAGO, opresc sau parchează în zonele în care este dificil de condus chiar și fără mașina lor, sau în locuri pentru persoanele cu dizabilități, neglijează cerințele indicatoarelor și marcajelor rutiere etc. Mai nou, în capitală au apărut camere de rulare care controlează linia de oprire. Și deja în 2019, Instituția Publică de Stat „Centrul de Organizare a Traficului” (TSODD) va instala 200 de complexe pentru monitorizarea siguranței celor mai vulnerabili utilizatori ai drumului - camerele vor fi orientate către șoferii care nu permit pietonilor să treacă pe o zebră. . Reamintim că amenda pentru o astfel de infracțiune în conformitate cu articolul 12.18 din Codul contravențiilor administrative variază de la 1,5 mii la 2,5 mii de ruble.

Nu departe este apariția unei amenzi complet noi pentru șoferi - despre asta pe 12 noiembrie, șeful poliției rutiere, Mihail Cernikov. Inspectoratul intenţionează să introducă o sancţiune pentru conducerea periculoasă. Pentru a controla dashingul și a lua decizii pentru fanii jocului „checkers”, cel mai probabil, li se vor încredința și complexe de înregistrare foto și video.

Trage în spate

Ca parte a conceptului de transformare a Moscovei într-un „oraș inteligent”, din 2011, în capitală a fost introdus activ un sistem de transport inteligent (ITS), care colectează și analizează informații despre încărcătura și starea rețelei rutiere. „Mâinile și ochii” ITS sunt camerele de trafic și alte instrumente software și hardware care colectează, procesează, stochează date și le țin la zi.

În Rusia sunt utilizate trei tipuri de sisteme: radar, laser și fixare video. Ele pot fi atât staționare, cât și mobile. Sistemele radar pot fi distinse prin aspect(au doi „ochi” - pentru senzorul radar și pentru obiectivul camerei), și înregistrare video a instalării mai multor camere pe braț (una pentru fiecare bandă).

În medie, distanța focală la care camera „prinde” intrusul este de la 50 m până la 500 m. Dar pragul maxim de viteză care poate fi înregistrat de dispozitiv a fost crescut semnificativ: raza sistemelor moderne este de 0-250 km / h, și nu 0-180 km/h, așa cum era înainte.

Complexele moderne au învățat să recunoască chiar și numerele murdare sau deformate și au devenit mai puțin probabil să facă greșeli. De exemplu, eroarea complexelor Avtohuragan, populare la Moscova, în funcție de viteza vehicul este de numai 1-2 km/h, iar diferitele modificări ale complexului Strelka nu depășesc 2 km/h. Acestea din urmă, apropo, sunt echipate cu un „ștergător” special - un dispozitiv care poate curăța în mod independent ochiul camerei dacă intră murdărie pe el.

În plus, acum dispozitivul nu poate doar să facă o fotografie integrală a unei mașini, ci și să detecteze viteza cu care un obiect se îndepărtează de cameră, să urmărească traiectoria mișcării, să măsoare viteza medie a unui vehicul într-un anumită zonă, sau chiar să lucreze conform principiului „pit stop”. În acest ultim caz, datele contravenientului vor fi transferate celui mai apropiat echipaj de poliție rutieră de serviciu cu cerere de oprire.

Din septembrie 2018, la Moscova a fost lansată o rețea neuronală în modul de testare, care este conectată la baza de date a Ministerului Afacerilor Interne, care stochează informații despre toate mașinile înmatriculate. Așa-numita mască de vehicul este stocată în domeniul public și conține date despre marca și modelul mașinii, culoarea caroseriei, numărul de înmatriculare.

Potrivit lui Maxim Liksutov, șeful departamentului de transport al capitalei, introducerea unei rețele neuronale în oraș va face posibilă depistarea cazurilor de fraudă, adică înlocuirea plăcuțelor de înmatriculare sau furtul unui vehicul. Sistemul este capabil să remedieze automat discrepanța dintre mașină și plăcuțele de înmatriculare instalate pe acesta și să dea un semnal polițistului că mașina trebuie verificată.

Cum să nu intri sub cameră?

În primul rând, pentru a nu primi o amendă, trebuie, desigur, să nu încalci: respectați regulile de circulație, respectați limita de viteză, respectați indicatoarele și marcajele aplicate pe asfalt. În plus, vă puteți proteja suplimentar cu ajutorul unui anti-radar sau a unui DVR cu un anti-radar: aceste dispozitive monitorizează situația în timp real, primind semnale de la camerele poliției rutiere și anunță șoferul cu un semnal sonor. .

Pe piețele pentru dispozitive bazate pe Android sau Apple, există un număr mare de aplicații cu funcționalități similare. Prețul pentru astfel de aplicații, în funcție de capacitățile și precizia lor, variază de la 100 la 1650 de ruble. Sau poți folosi navigatorul gratuit, după activarea funcției de notificare sonoră despre camere și alte evenimente din trafic din setări. Adevărat, trebuie avut în vedere că datele, de exemplu, despre camere noi sau posturi mobile ale poliției rutiere, sunt introduse acolo de aceiași utilizatori ca și dvs.

Cum să vă dovedesc cazul?

Este posibilă și necesară contestarea amenzilor emise eronat pentru încălcările rutiere înregistrate de camere. Cu toate acestea, acest lucru ar trebui făcut numai dacă sunteți absolut sigur că nu ați încălcat și puteți susține acest lucru cu dovezi solide.

Mecanismul de apel este următorul:

Aveți la dispoziție 10 zile pentru a depune plângere de la data primirii amenzii (art. 30.3 din Codul contravențional);

O reclamație poate fi depusă atât personal (la centrele de servicii de transport din Moscova sau la recepția MADI), cât și electronic (prin portalul Autocode sau recepția electronică a guvernului de la Moscova);

Setul de documente trebuie să conțină atât reclamația propriu-zisă, semnată de sine, cât și materiale suplimentare (fotografii, videoclipuri sau alte documente) care confirmă informațiile furnizate în contestație;

Dacă până la depunerea plângerii au trecut deja cele 10 zile alocate de Codul contravențional, la pachetul de documente trebuie atașată o cerere de restabilire a termenului nerespectat de contestație împotriva unei hotărâri cu privire la contravenție, care trebuie de asemenea, să fie semnate personal;

Plângerea trebuie să indice denumirea organului la care este depusă, data, numărul hotărârii și argumentele care dovedesc nelegalitatea învinuirii. Mai mult instrucțiuni detaliate cu exemple de texte de plângeri publicate pe site-ul oficial al primarului Moscovei.

Se acordă 10 zile pentru examinarea plângerii, prin urmare, mai este necesară plata unei amenzi, deși emisă în mod eronat. De asemenea, merită să ne pregătim pentru faptul că decizia va trebui contestată în instanțe superioare - mai întâi la poliția rutieră, apoi în instanță. Și faceți o regulă să păstrați înregistrările de la DVR după călătorie timp de cel puțin câteva săptămâni.

Potrivit serviciului de presă al companiei Yandex, cu ajutorul unei rețele neuronale, ea a reușit să mărească semnificativ rezoluția și să îmbunătățească calitatea imaginii a zece desene sovietice, care sunt printre cele mai faimoase.

În ultimii ani, oamenii de știință au creat diverse rețele neuronale, au o astfel de oportunitate datorită creșterii puterii de calcul a computerelor și dezvoltării matematicii. Rețelele neuronale sunt sisteme de inteligență artificială care pot rezolva probleme non-triviale. Unele dintre aceste rețele neuronale complexe pot chiar gândi în afara cutiei, creând astfel în mod independent noi opere de artă, dezvoltând tehnologii inovatoare.

Rețeaua neuronală de la Yandex se numește DeepHD. Anterior, reușise deja să se arate bine când a fost obișnuită să îmbunătățească calitatea filmelor care povesteau despre Marele Război Patriotic. Apoi șapte filme au fost supuse modificărilor. Acum a venit rândul animației sovietice: Regina Zăpezii, Floarea Stacojie, Un pisoi pe nume Woof, Umka isi cauta o prietena, Thumbelina etc.

Un sistem special de inteligență artificială este angajat exclusiv în îmbunătățirea calității și nu aduce nicio modificare a cadrelor desenelor animate. Sarcina ei este să restaureze detalii care au fost intenționate de artist, dar care au fost pierdute în timp ce desenele animate erau transferate din film în digital. Pe pagina unde există o descriere a rețelei neuronale DeepHD, se vorbește despre caracteristicile acesteia. Există patru astfel de caracteristici în total: eliminarea defectelor și a zgomotului, păstrarea detaliilor cu o creștere a expansiunii, lucru excelent cu fluxuri video și imagini individuale și capacitatea de a lucra în timp real.

Tehnologia DeepHD se bazează pe rețele neuronale adverse generative. În etapa inițială, o rețea neuronală se ocupă de eliminarea defectelor care apar pe videoclip în timpul comprimării acestuia. A doua etapă este realizată de o rețea neuronală diferită, care este responsabilă pentru creșterea imaginii, precum și pentru menținerea clarității detaliilor în timpul unor astfel de modificări. Puteți face cunoștință cu munca detaliată a rețelei neuronale DeepHD în blogul oficial al creatorilor săi.

Este demn de remarcat faptul că în DeepHD telespectatorii de astăzi au acces nu numai la filme și desene animate vechi, ci și la filme de lung metraj și animate noi. Le puteți găsi printr-o interogare de căutare cu adăugarea „DeepHD”. Astăzi puteți chiar să vizionați canale TV la calitate înaltă, acest lucru a devenit disponibil datorită capacității rețelei neuronale de a funcționa în timp real.

Ți-a plăcut această veste? Apoi presa.

Astăzi am anunțat un nou algoritm de căutare „Palekh”. Include toate îmbunătățirile la care am lucrat în ultima vreme.

De exemplu, căutarea folosește acum rețelele neuronale pentru prima dată pentru a găsi documente nu după cuvintele folosite în interogare și documentul în sine, ci după semnificația interogării și titlului.

De zeci de ani, cercetătorii s-au confruntat cu problema căutării semantice, în care documentele sunt clasificate în funcție de relevanța semantică pentru o interogare. Și acum devine realitate.

În această postare, voi încerca să vorbesc puțin despre cum am făcut-o și de ce acesta nu este doar un alt algoritm de învățare automată, ci un pas important în viitor.

Inteligență artificială sau învățare automată?

Aproape toată lumea știe că motoarele de căutare moderne funcționează cu ajutorul învățării automate. De ce ar trebui să vorbim separat despre utilizarea rețelelor neuronale pentru sarcinile sale? Și de ce abia acum, pentru că hype-ul în jurul acestui subiect nu s-a domolit de câțiva ani? Voi încerca să vă povestesc despre istoria problemei.

Căutarea pe internet este un sistem complex care a apărut cu foarte mult timp în urmă. La început a fost doar o căutare pe pagină, apoi s-a transformat într-un solutor de probleme, iar acum devine un asistent cu drepturi depline. Cu cât Internetul este mai mare și cu cât sunt mai mulți oameni în el, cu atât cerințele lor sunt mai mari, cu atât căutarea trebuie să devină mai dificilă.

Epoca căutărilor naive

La început a fost doar o căutare de cuvinte - un index inversat. Apoi erau prea multe pagini, trebuiau clasate. Au început să fie luate în considerare diverse complicații - frecvența cuvintelor, tf-idf .

Epoca legăturilor

Apoi au fost prea multe pagini pe orice subiect, a fost o descoperire importantă - au început să țină cont de linkuri, a apărut PageRank.

Epoca învățării automate

Internetul a devenit important din punct de vedere comercial și au fost mulți escroci care încercau să păcălească algoritmii simpli care existau la acea vreme. A existat o a doua descoperire majoră - motoarele de căutare au început să-și folosească cunoștințele despre comportamentul utilizatorilor pentru a înțelege care pagini sunt bune și care nu.

Undeva în această etapă, mintea umană nu mai era suficientă pentru a-și da seama cum să ierarhească documentele. Următoarea tranziție a avut loc - motoarele de căutare au început să folosească în mod activ învățarea automată.

Unul dintre cei mai buni algoritmi de învățare automată a fost inventat în Yandex - Matrixnet. Se poate spune că inteligența colectivă a utilizatorilor și „înțelepciunea mulțimii” ajută la clasare. Informațiile despre site-uri web și comportamentul oamenilor sunt convertite în mulți factori, fiecare dintre aceștia fiind folosit de Matrixnet pentru a construi o formulă de clasare. De fapt, formula de clasare este scrisă de o mașină (s-a dovedit a fi de aproximativ 300 de megaocteți).

Dar învățarea automată „clasică” are o limită: funcționează doar acolo unde există multe date. Un mic exemplu. Milioane de utilizatori introduc interogarea [vkontakte] pentru a găsi același site. În acest caz, comportamentul lor este un semnal atât de puternic încât căutarea nu obligă oamenii să se uite la problema, ci sugerează adresa imediat când introduc o interogare.

Dar oamenii sunt mai complexi și vor mai mult de la căutare. Acum până la 40% din toate solicitările sunt unice, adică nu se repetă de cel puțin două ori pe toată perioada de observație. Aceasta înseamnă că căutarea nu are suficiente date despre comportamentul utilizatorilor în cantități suficiente, iar Matrixnet este lipsit de factori valoroși. Astfel de solicitări în Yandex sunt numite „coadă lungă”, deoarece împreună reprezintă o proporție semnificativă de solicitări pentru căutarea noastră.

Era inteligenței artificiale

Și aici este momentul să vorbim despre cea mai recentă descoperire: acum câțiva ani, computerele devin suficient de rapide și există suficiente date pentru a folosi rețelele neuronale. Tehnologiile bazate pe acestea se mai numesc și inteligență mașină sau inteligență artificială – deoarece rețelele neuronale sunt construite după imaginea neuronilor din creierul nostru și încearcă să emuleze munca unora dintre părțile sale.

Inteligența mașinii este mult mai bună decât metodele mai vechi în îndeplinirea sarcinilor pe care le pot face oamenii, cum ar fi recunoașterea vorbirii sau a modelelor în imagini. Dar cum ajută acest lucru la căutare?

De regulă, interogările cu frecvență joasă și unice sunt destul de greu de găsit - găsirea unui răspuns bun pentru ele este mult mai dificilă. Cum să o facă? Nu avem indicii de la utilizatori (care document este mai bun și care este mai rău), așa că pentru a rezolva o problemă de căutare, trebuie să învățați să înțelegeți mai bine corespondența semantică dintre două texte: o interogare și un document.

Este ușor de spus

Strict vorbind, rețelele neuronale artificiale sunt una dintre metodele de învățare automată. Cel mai recent, le-a fost dedicată o prelegere în cadrul Small ShAD. Rețelele neuronale arată rezultate impresionante în analiza informațiilor naturale – sunet și imagini. Acest lucru se întâmplă de câțiva ani încoace. Dar de ce nu au fost folosite atât de activ în căutare până acum?

Răspunsul simplu este pentru că a vorbi despre sens este mult mai dificil decât a vorbi despre o imagine dintr-o imagine sau cum să transformi sunetele în cuvinte transcrise. Cu toate acestea, în căutarea semnificațiilor, inteligența artificială a început cu adevărat să vină din zona în care a fost mult timp rege - căutarea prin imagini.

Câteva cuvinte despre cum funcționează în căutarea de imagini. Faceți o imagine și utilizați rețele neuronale pentru a o transforma într-un vector în spațiul N-dimensional. Luați o cerere (care poate fi atât sub formă de text, cât și sub forma unei alte imagini) și faceți același lucru cu ea. Și apoi comparați acești vectori. Cu cât sunt mai aproape unul de celălalt, cu atât imaginea se potrivește mai mult cu interogarea.

Ok, dacă funcționează în imagini, de ce să nu aplici aceeași logică la căutările pe web?

Diavolul în tehnologie

Formulăm problema după cum urmează. Avem o cerere de utilizator și un titlu de pagină în intrare. Trebuie să înțelegeți cum se potrivesc unul cu celălalt ca semnificație. Pentru a face acest lucru, este necesar să se reprezinte textul cererii și textul titlului sub forma unor astfel de vectori, a căror multiplicare scalară ar fi cu atât mai mare, cu atât documentul cu titlul dat este mai relevant pentru cerere. . Cu alte cuvinte, dorim să antrenăm rețeaua neuronală în așa fel încât pentru texte similare să genereze vectori similari, iar pentru solicitări și titluri care nu au legătură semantic, vectorii ar trebui să fie diferiți.

Complexitatea acestei sarcini constă în selectarea arhitecturii și metodei corecte pentru antrenamentul rețelei neuronale. Din publicațiile științifice se cunosc destul de multe abordări pentru rezolvarea problemei. Probabil cea mai simplă metodă aici este reprezentarea textelor ca vectori folosind algoritmul word2vec (din păcate, experiența practică sugerează că aceasta este o soluție destul de slabă pentru problema în cauză).

DSSM

În 2013, cercetătorii de la Microsoft Research au descris abordarea lor, care a fost numită Deep Structured Semantic Model.

Textele cererilor și antetelor sunt alimentate la intrarea modelului. Pentru a reduce dimensiunea modelului, se efectuează asupra lor o operație, pe care autorii o numesc hashing de cuvinte. În text se adaugă markeri de început și de sfârșit, după care acesta este împărțit în trigrame alfabetice. De exemplu, pentru interogarea [palekh] vom obține trigramele [pa, ale, lekh, ex]. Deoarece numărul de trigrame diferite este limitat, putem reprezenta textul interogării ca un vector cu o dimensiune de câteva zeci de mii de elemente (dimensiunea alfabetului nostru este de 3 puteri). Elementele vectorului corespunzătoare trigramelor interogării vor fi egale cu 1, restul - 0. De fapt, în acest fel marchem apariția trigramelor din text într-un dicționar format din toate trigramele cunoscute. Dacă comparăm astfel de vectori, atunci putem afla doar despre prezența trigramelor identice în cerere și antet, ceea ce nu prezintă un interes deosebit. Prin urmare, acum trebuie convertiți în alți vectori care vor avea deja proprietățile de similaritate semantică de care avem nevoie.

După stratul de intrare, așa cum era de așteptat în arhitecturile profunde, există mai multe straturi ascunse atât pentru cerere, cât și pentru antet. Ultimul strat are 128 de elemente lungime și servește ca vector care este folosit pentru comparație. Ieșirea modelului este rezultatul înmulțirii scalare a ultimilor vectori de antet și de interogare (pentru a fi destul de precis, se calculează cosinusul unghiului dintre vectori). Modelul este antrenat în așa fel încât pentru exemplele de antrenament pozitive valoarea de ieșire este mare, iar pentru exemplele de antrenament negativ este mică. Cu alte cuvinte, comparând vectorii ultimului strat, putem calcula eroarea de predicție și putem modifica modelul în așa fel încât eroarea să scadă.

Noi, cei de la Yandex, cercetăm în mod activ modele bazate pe rețele neuronale artificiale, așa că am devenit interesați de modelul DSSM. În continuare, vom vorbi despre experimentele noastre în acest domeniu.

Teorie și practică

O proprietate caracteristică a algoritmilor descriși în literatura științifică este că aceștia nu funcționează întotdeauna de la cutie. Cert este că cercetătorul „academic” și cercetătorul din industrie se află în condiții semnificativ diferite. Ca punct de plecare (linie de bază), cu care autorul unei publicații științifice își compară decizia, ar trebui să acționeze un algoritm binecunoscut - acest lucru asigură reproductibilitatea rezultatelor. Cercetătorii iau rezultatele unei abordări publicate anterior și arată cum pot fi învinși. De exemplu, autorii DSSM original compară modelul lor NDCG cu algoritmii BM25 și LSA. În cazul unui cercetător aplicativ care se ocupă de calitatea căutării într-un motor de căutare real, punctul de plecare nu este un algoritm specific, ci întregul clasament în ansamblu. Scopul dezvoltatorului Yandex nu este de a depăși BM25, ci de a obține o îmbunătățire pe fundalul tuturor factorilor și modelelor implementate anterior. Astfel, linia de bază pentru un cercetător în Yandex este extrem de ridicată, iar mulți algoritmi care sunt noi din punct de vedere științific și care arată rezultate bune cu o abordare „academică” sunt inutili în practică, deoarece nu îmbunătățesc cu adevărat calitatea căutării.

În cazul DSSM, ne-am confruntat cu aceeași problemă. După cum se întâmplă adesea, în condiții de „luptă”, implementarea exactă a modelului din articol a arătat rezultate destul de modeste. Au fost necesare o serie de „îmbunătățiri ale fișierelor” semnificative înainte de a putea obține rezultate interesante din punct de vedere practic. Aici vom vorbi despre principalele modificări aduse modelului original, care ne-au permis să-l facem mai puternic.

Strat mare de intrare

În modelul DSSM original, stratul de intrare este un set de trigrame literale. Dimensiunea sa este de 30 000. Abordarea trigramă are mai multe avantaje. În primul rând, sunt relativ puține dintre ele, așa că lucrul cu ei nu necesită resurse mari. În al doilea rând, utilizarea lor simplifică identificarea greșelilor de scriere și a erorilor în cuvinte. Cu toate acestea, experimentele noastre au arătat că prezentarea textelor sub forma unei „pungi” de trigrame reduce semnificativ puterea expresivă a rețelei. Prin urmare, am mărit radical dimensiunea stratului de intrare, incluzând, pe lângă trigramele de litere, încă aproximativ 2 milioane de cuvinte și fraze. Astfel, prezentăm textele cererii și antetul ca o „pungă” comună de cuvinte, bigrame verbale și trigrame literale.

Utilizarea unui strat de intrare mare duce la o creștere a dimensiunii modelului, a duratei antrenamentului și necesită mult mai multe resurse de calcul.

Greu de învățat: cum o rețea neuronală s-a luptat cu ea însăși și a învățat din greșelile sale

Pregătirea DSSM-ului original constă în a arăta rețelei un număr mare de exemple pozitive și negative. Aceste exemple sunt luate din rezultatele căutării (se pare că Bing a fost folosit pentru asta). Exemplele pozitive sunt titlurile SERP-urilor pe care s-a făcut clic, exemplele negative sunt titlurile documentelor pe care nu s-a făcut clic. Această abordare are anumite dezavantaje. Faptul este că absența unui clic nu indică întotdeauna că documentul este irelevant. Afirmația inversă este de asemenea adevărată - prezența unui clic nu garantează relevanța documentului. În esență, prin învățarea în modul descris în articolul original, ne propunem să prezicăm atractivitatea titlurilor, având în vedere că acestea vor fi prezente în SERP. Acest lucru, desigur, nu este rău, dar are o relație destul de indirectă cu scopul nostru principal - să învățăm să înțelegem proximitatea semantică.

În timpul experimentelor noastre, am constatat că rezultatul poate fi îmbunătățit semnificativ dacă folosim o strategie diferită pentru alegerea exemplelor negative. Pentru a ne atinge scopul, exemplele negative bune sunt documente care sunt garantate a fi irelevante pentru interogare, dar în același timp ajută rețeaua neuronală să înțeleagă mai bine semnificația cuvintelor. De unde le pot lua?

Prima încercare

În primul rând, ca exemplu negativ, luați doar titlul unui document aleatoriu. De exemplu, pentru interogarea [pictură Palekh], titlul aleatoriu ar putea fi „Regulile drumului 2016 ale Federației Ruse”. Desigur, este imposibil să excludem complet faptul că un document selectat aleatoriu dintre miliarde va fi relevant pentru cerere, dar probabilitatea acestui lucru este atât de mică încât poate fi neglijat. În acest fel putem obține foarte ușor un număr mare de exemple negative. S-ar părea că acum putem învăța rețeaua noastră exact ceea ce ne dorim - să distingem documentele bune care interesează utilizatorii de documentele care nu au nicio legătură cu solicitarea. Din păcate, modelul instruit pe astfel de exemple s-a dovedit a fi destul de slab. O rețea neuronală este un lucru inteligent și va găsi întotdeauna o modalitate de a-și simplifica activitatea. În acest caz, ea tocmai a început să caute aceleași cuvinte în cereri și titluri: da - o pereche bună, nu - una proastă. Dar noi înșine putem face asta. Este important pentru noi ca rețeaua să învețe să distingă modele neevidente.

O altă încercare

Următorul experiment a fost adăugarea cuvintelor din cerere la titlurile exemplelor negative. De exemplu, pentru interogarea [Pictură Palekh], un titlu aleatoriu arăta ca [Regulile drumului 2016 Pictura RF]. Rețeaua neuronală a avut puțin mai multe dificultăți, dar, cu toate acestea, a învățat rapid să distingă bine perechile naturale de perechile realizate manual. A devenit clar că nu vom obține succes prin astfel de metode.

Succes

Multe soluții evidente devin evidente numai după ce sunt descoperite. Așa s-a întâmplat de data asta: după un timp s-a dovedit că Cel mai bun mod a genera exemple negative înseamnă a forța rețeaua să „lupte” împotriva ei însăși, să învețe din propriile greșeli. Dintre sutele de anteturi aleatorii, l-am ales pe cel pe care rețeaua neuronală actuală l-a considerat cel mai bun. Dar, deoarece acest antet este încă aleatoriu, este foarte probabil să nu se potrivească cu cererea. Și tocmai aceste titluri am început să le folosim ca exemple negative. Cu alte cuvinte, puteți arăta rețelei cele mai bune dintre titlurile aleatoare, o puteți antrena, puteți găsi noi cele mai bune titluri aleatorii, puteți afișa din nou rețelele și așa mai departe. Repetând această procedură din nou și din nou, am văzut cum calitatea modelului s-a îmbunătățit considerabil și din ce în ce mai des cele mai bune perechi aleatorii au devenit similare cu exemplele pozitive reale. Problema a fost rezolvata.

O astfel de schemă de instruire în literatura științifică este de obicei numită minare negativă dur. De asemenea, trebuie remarcat faptul că soluțiile similare ca concept au devenit larg răspândite în comunitatea științifică pentru generarea de imagini cu aspect realist, o clasă similară de modele fiind numită Generative Adversarial Networks.

scopuri diferite

Microsoft Research a folosit clicurile pe document ca exemple pozitive. Cu toate acestea, așa cum sa menționat deja, acesta este un semnal destul de nesigur despre corespondența semantică a antetului cu cererea. În final, sarcina noastră nu este să ridicăm cele mai vizitate site-uri în rezultatele căutării, ci să găsim informații cu adevărat utile. Prin urmare, am încercat să folosim alte caracteristici ale comportamentului utilizatorului ca scop de învățare. De exemplu, unul dintre modele a prezis dacă un utilizator va rămâne pe un site sau va pleca. Celălalt este cât timp va rămâne pe site. După cum s-a dovedit, puteți îmbunătăți semnificativ rezultatele dacă optimizați o valoare țintă care indică faptul că utilizatorul a găsit ceea ce avea nevoie.

Profit

Ok, ce ne oferă asta în practică? Să comparăm comportamentul modelului nostru neuronal și un factor text simplu bazat pe potrivirea cuvintelor de interogare și a textului - BM25. Ne-a venit din zilele în care clasarea era simplă, iar acum este convenabil să-l folosim ca nivel de bază.

Ca exemplu, să luăm interogarea [Book of Kells] și să vedem ce valoare iau factorii pe diferite antete. Pentru control, să adăugăm un rezultat evident irelevant la lista de titluri.

Toți factorii din Yandex sunt normalizați la interval . Este de așteptat ca BM25 să obțină scoruri mari pentru titlurile care conțin cuvinte de interogare. Și este destul de previzibil că acest factor primește o valoare zero pentru titlurile care nu au cuvinte comune cu cererea. Acum acordați atenție modului în care se comportă modelul neuronal. Recunoaște la fel de bine legătura unei interogări atât cu titlul în limba rusă al unei pagini relevante din Wikipedia, cât și cu titlul unui articol în engleză! În plus, se pare că modelul a „văzut” legătura cererii cu un titlu care nu menționează Cartea Kells, dar există o frază care este apropiată ca înțeles („Evangheliile irlandeze”). Valoarea modelului pentru un titlu irelevant este semnificativ mai mică.

Acum să vedem cum se vor comporta factorii noștri dacă reformulam interogarea fără a-i schimba sensul: [Evanghelia lui Kells].

Pentru BM25, reformularea interogării s-a transformat într-un adevărat dezastru - factorul a devenit zero pe rubricile relevante. Și modelul nostru arată o rezistență excelentă la reformulare: titlurile relevante au încă o valoare a factorului mare, iar un titlu irelevant are încă o valoare a factorului scăzută. Se pare că acesta este exact comportamentul pe care îl așteptam de la un lucru care pretinde că poate „înțelege” semantica textului.

Alt exemplu. Cerere [povestea în care fluturele a fost zdrobit].

După cum puteți vedea, modelul neuronal a reușit să acorde un rating ridicat titlului cu răspunsul corect, în ciuda absenței complete a cuvintelor comune cu interogarea. Mai mult, se vede clar ca anteturile care nu raspund cererii, dar inca legate de aceasta ca semnificatie, primesc o valoare a factorului destul de mare. Este ca și cum modelul nostru „a citit” povestea lui Bradbury și „știe” că tocmai despre asta este vorba!

Ce urmeaza?

Suntem la începutul unei călătorii lungi și foarte interesante. Aparent, rețelele neuronale au un mare potențial de îmbunătățire a clasamentelor. Principalele direcții care necesită dezvoltare activă sunt deja clare.

De exemplu, este evident că titlul conține informații incomplete despre document și ar fi bine să înveți cum să construiești un model din textul complet (după cum s-a dovedit, aceasta nu este o sarcină complet trivială). Mai mult, ne putem imagina modele având o arhitectură mult mai complexă decât DSSM - există motive să credem că în acest fel putem procesa mai bine unele constructe ale limbajului natural. Scopul nostru pe termen lung îl vedem în a crea modele care să poată „înțelege” corespondența semantică a interogărilor și documentelor la un nivel comparabil cu nivelul unei persoane. Vor fi multe dificultăți în drumul către acest obiectiv - cu atât mai interesant va fi să-l depășești. Promitem să vorbim despre munca noastră în acest domeniu. Urmărește următoarele postări.

Scriitorul de science fiction Serghei Lukyanenko, împreună cu rețeaua neuronală Yandex, a creat o lucrare în stilul ciclului Serile la fermă lângă Dikanka. Scriitorul a dezvoltat personajele și povestirile principale, iar apoi rețeaua neuronală a generat povestea „The Bad Contract”, care este în domeniul public, pe această bază.

Caracteristici de dezvoltare

Ideea proiectului aparține canalului TV-3. Motivul a fost lansarea filmului „Gogol. A Terrible Revenge ”, a cărei premieră în Rusia este programată pentru 30 august 2018. Producătorul Valery Fedorovich a remarcat că procesul de creare a poveștii corespunde modului în care Gogol a lucrat la lucrările sale. Dar dacă legendele populare pentru Nikolai Vasilyevich au fost scrise și trimise prin scrisori de către mamă, atunci în acest caz informațiile sunt procesate de rețeaua neuronală, iar scriitorul oferă folclor „hrană”.

Programul a adăugat o mulțime de detalii, povești la povestea „Tratat rău” și a oferit, de asemenea, un limbaj narativ similar cu cel al lui Gogol. Acest rezultat a fost obținut datorită pregătirii preliminare pe baza prozei rusești în general, și după aceea pe lucrările scriitorului în special.

Opinia scriitorului

Sergey Lukyanenko a apreciat rezultatul lucrului comun cu Yandex în două moduri. Pe de o parte, este mulțumit că, în ciuda dezvoltării rapide a rețelelor neuronale și a inteligenței artificiale, este nevoie de o persoană pentru a crea baza unei lucrări creative. Pe de altă parte, scriitorul este supărat că unele cărți moderne sunt scrise mai rău decât o poveste creată de o mașină.