Rrjeti nervor Yandex. Inteligjenca artificiale në kërkim. Si mësoi Yandex të përdorte rrjetet nervore për të kërkuar sipas kuptimit, jo me fjalë. Emri i tyre është legjion

Autoritetet e qytetit do të lançojnë një rrjet nervor që do të njohë makinat sipas siluetës, markës dhe dritave. Kjo u raportua në Qendrën për Menaxhimin e Trafikut të Departamentit të Transportit dhe Infrastrukturës Rrugore të qytetit të Moskës.

Supozohet se sistemi “smart” do të ulë ngarkesën e operatorëve dhe do të përmirësojë cilësinë e parapërpunimit të shkeljeve të evidentuara me mjete automatike të ndreqjes së kundërvajtjeve në fushën e trafikut. Rrjeti nervor do të përdoret në qendrën e regjistrimit foto-video të TsODD, e cila përpunon fotot nga kamerat. Meqë ra fjala, aty pranohen deri në 400 mijë materiale çdo ditë.

Sipas Andrey Mikhailyuk, një ekspert në fushën e teknologjive moderne, Moska është lider në fushën e aplikimit të teknologjive moderne. Ai shtoi se nevojitet një sistem nervor për të trajtuar rastet kur kamera nuk mund ta njohë targën.

Ndonjëherë pronarët e makinave, për të shmangur një gjobë, mbyllin një ose më shumë shifra në numër, tha eksperti. - Foto të tilla u dërgohen punonjësve për përpunim.

Në të njëjtën kohë, burimet njerëzore janë të kufizuara. Mikhailyuk beson se transferimi i këtij funksioni në kompjuter është mjaft logjik.

Një detyrë e tillë nuk duhet të zgjidhet nga një person, por nga një sistem mësimi i makinës, - vuri në dukje ai.

Eksperti shtoi gjithashtu se, sipas tij, një detyrë e tillë për një rrjet nervor është mjaft primitive. Puna është se numri i modeleve të makinave është i kufizuar, ndërsa karakteristikat e qëndrueshme të makinës varen shumë nga forma e vetë makinës dhe dritat e saj.

Kështu, beson ai, detyra që i është caktuar rrjetit nervor është mjaft e thjeshtë. Teknikisht, një sistem i tillë mund të zhvillohet brenda disa muajsh dhe do të duhet pak kohë për të trajnuar rrjetin duke përdorur fotografitë ekzistuese.

Eksperti theksoi se Rusia, për sa i përket përdorimit të teknologjive moderne për shqiptimin e gjobave, është dukshëm përpara vendeve të tjera në botë. Sipas tij, gjithçka ka të bëjë me mentalitetin tonë.

Ne shkelim rregullat e rrugës shumë më shpesh sesa në vendet e tjera, - shpjegoi Andrey Mikhailyuk. - Nëse një aparat fotografik është i varur në Evropë, atëherë ajo do të rregullojë me kusht një gjobë në muaj, dhe nëse edhe shoferët e dinë për të, atëherë askush nuk do ta shkelë fare. Ne kemi një situatë krejtësisht të ndryshme në Rusi.

Në Moskë, aktualisht ka 1.5 mijë kamera të palëvizshme për rregullimin e shkeljeve. Në vitin 2016, me foto-video incizim janë shqiptuar 11,7 milionë gjoba, në vitin 2017 – 24,6 milionë, dhe në dhjetë muajt e 2018 – mbi 25 milionë. Duhet theksuar se 280 punonjës në Qendrën e Menaxhimit të Trafikut janë të angazhuar për kontrollin e informacionit, korrigjimin e gabimeve dhe kontrollin e cilësisë së regjistrimit të fotove dhe videove.

Pasi ka marrë një tjetër "letër lumturie", një pronar makine moderne gjithmonë përpiqet të studiojë tërësisht një fotografi bardh e zi dhe të kujtojë me detaje të shkëlqyera shtyllën në të cilën ishte varur kamera tjetër. Megjithatë, nuk është gjithmonë e mundur të shmangen gjobat e reja. Pra, çfarë forcash dhe mjetesh janë në shërbim të "vëllait të madh", si t'i llogariten dhe të merren shpejt masat e nevojshme për të mos marrë një gjobë tjetër? Izvestia zbuloi se si lind një vendim për një kundërvajtje, cilat lloje të komplekseve rrugore për regjistrimin e fotografive dhe videove ekzistojnë, dhe gjithashtu u përpoq të kuptonte se çfarë të bënte nëse një gjobë lëshohej gabimisht.

Emri i tyre është legjion

Deri më sot, në Moskë janë instaluar gjithsej rreth 167,000 kamera, nga të cilat pothuajse 2,000 komplekse të regjistrimit automatik të shkeljeve të trafikut po monitorojnë situatën e trafikut dhe numri i tyre po rritet vazhdimisht. Për momentin, 1.5 mijë komplekse të palëvizshme, më shumë se 30 të lëvizshme, pothuajse 400 të lëvizshme dhe 110 komplekse të tjera të instaluara në transportin publik tokësor ndihmojnë për të gjobitur shkelësit. Padyshim që po punohet në shkallë të gjerë për të përmirësuar situatën me sigurinë rrugore: vetëm në vitin 2017 u zbuluan më shumë se 83 milionë shkelje duke përdorur mjete regjistrimi fotografish dhe video (pak më shumë se 60 milionë një vit më parë), por shpesh ndodh që sistemet automatike dështojnë dhe dëmtojnë shoferët e pafajshëm.

Komplekset e para të palëvizshme për regjistrimin fotografik dhe video të shkeljeve të trafikut u shfaqën në autostradat dalëse të kryeqytetit në 2006-2007 si pjesë e programit të synuar federal "Përmirësimi i sigurisë rrugore në 2006-2010". Duke qenë se situata në rrugë është përmirësuar dukshëm që nga ajo kohë, kamerat e qarkullimit do të vazhdojnë të vendosen.

Komplekset moderne janë në gjendje jo vetëm të regjistrojnë shpejtësinë, vozitjen përgjatë anës së rrugës ose vozitjen në korsi për transportin publik, por edhe të llogarisin shkelësit që lëvizin nëpër qytet pa OSAGO, ndalojnë ose parkojnë në zona ku është e vështirë të vozitësh edhe pa makinën e tyre, ose në vende për personat me aftësi të kufizuara, neglizhojnë kërkesat e sinjalistikës dhe shenjave rrugore, etj. Së fundmi në kryeqytet janë shfaqur kamerat e trafikut që kontrollojnë linjën e ndalimit. Dhe tashmë në vitin 2019, Institucioni Publik Shtetëror "Qendra për Organizimin e Trafikut" (TSODD) do të instalojë 200 komplekse për të monitoruar sigurinë e përdoruesve më të rrezikuar të rrugës - kamerat do të synojnë drejtuesit që nuk lejojnë këmbësorët të kalojnë në një zebër. . Kujtojmë se gjoba për një shkelje të tillë në përputhje me nenin 12.18 të Kodit të Kundërvajtjeve Administrative varion nga 1.5 mijë deri në 2.5 mijë rubla.

Jo larg është shfaqja e një gjobe krejtësisht të re për shoferët - për këtë më 12 nëntor, kreu i policisë së trafikut, Mikhail Chernikov. Inspektorati synon të vendosë sanksion për drejtim mjeti me rrezikshmëri. Për të kontrolluar nxitimin dhe për të marrë vendime për adhuruesit e lojës "damë", ka shumë të ngjarë, atyre do t'u besohen edhe komplekset e regjistrimit të fotografive dhe videove.

Të shtëna në shpinë

Si pjesë e konceptit të kthimit të Moskës në një "qytet të zgjuar", që nga viti 2011, në kryeqytet është futur në mënyrë aktive një sistem transporti inteligjent (ITS), i cili mbledh dhe analizon informacione për ngarkesën dhe gjendjen e rrjetit rrugor. "Duart dhe sytë" e ITS janë kamerat e trafikut dhe mjete të tjera softuerike dhe harduerike që mbledhin, përpunojnë, ruajnë të dhënat dhe i mbajnë ato të përditësuara.

Në Rusi përdoren tre lloje sistemesh: radar, lazer dhe fiksim video. Ato mund të jenë të palëvizshme dhe të lëvizshme. Sistemet e radarëve mund të dallohen nga pamjen(ata kanë dy "sy" - për sensorin e radarit dhe për lentet e kamerës), dhe regjistrim video të instalimit të disa kamerave në bum (një për secilën korsi).

Mesatarisht, gjatësia fokale në të cilën kamera "kap" ndërhyrës është nga 50 m në 500 m. Por pragu maksimal i shpejtësisë që mund të regjistrohet nga pajisja është rritur ndjeshëm: diapazoni i sistemeve moderne është 0-250 km. / orë, dhe jo 0-180 km/h, siç ishte më parë.

Komplekset moderne kanë mësuar të njohin edhe numrat e pistë ose të deformuar dhe janë bërë më pak të ngjarë të bëjnë gabime. Për shembull, gabimi i komplekseve Avtohuragan, të njohura në Moskë, në varësi të shpejtësisë automjetiështë vetëm 1-2 km / orë, dhe modifikimet e ndryshme të kompleksit Strelka nuk i kalojnë 2 km / orë. Këto të fundit, nga rruga, janë të pajisura me një "fshirës" të veçantë - një pajisje që mund të pastrojë në mënyrë të pavarur syrin e kamerës nëse papastërtia bie mbi të.

Për më tepër, tani pajisja jo vetëm që mund të bëjë një fotografi me fytyrën e plotë të një makine, por edhe të zbulojë shpejtësinë me të cilën një objekt po largohet nga kamera, të ndjekë trajektoren e lëvizjes, të masë shpejtësinë mesatare të një automjeti në një zonë të caktuar, apo edhe punë sipas parimit “pit stop”. Në rastin e fundit, të dhënat e shkelësit do t'i kalojnë ekuipazhit më të afërt të policisë rrugore në detyrë me kërkesë për ndalim.

Që nga shtatori 2018, një rrjet nervor është nisur në modalitetin e testimit në Moskë, i cili është i lidhur me bazën e të dhënave të Ministrisë së Punëve të Brendshme, e cila ruan informacione për të gjitha makinat e regjistruara. E ashtuquajtura maskë automjeti ruhet në domenin publik dhe përmban të dhëna për markën dhe modelin e makinës, ngjyrën e trupit, numrin e targës.

Sipas Maxim Liksutov, kreut të departamentit të transportit të kryeqytetit, futja e një rrjeti nervor në qytet do të bëjë të mundur zbulimin e rasteve të mashtrimit, domethënë zëvendësimit të targave ose vjedhjes së një automjeti. Sistemi është në gjendje të rregullojë automatikisht mospërputhjen midis makinës dhe targave të vendosura në të dhe t'i japë një sinjal punonjësit të policisë se makina duhet të kontrollohet.

Si të mos futeni nën kamerë?

Para së gjithash, për të shmangur marrjen e gjobës, natyrisht, nuk duhet të shkelni: të ndiqni rregullat e rrugës, të respektoni kufirin e shpejtësisë, të ndiqni shenjat dhe shenjat e aplikuara në asfalt. Përveç kësaj, ju mund të mbroheni edhe me ndihmën e një anti-radari ose një DVR me një anti-radar: këto pajisje monitorojnë situatën në kohë reale, duke marrë sinjale nga kamerat e policisë rrugore dhe njoftojnë shoferin me një sinjal zanor. .

Në tregjet për pajisjet e bazuara në Android ose Apple, ka një numër të madh aplikacionesh me funksionalitet të ngjashëm. Çmimi për aplikacione të tilla, në varësi të aftësive dhe saktësisë së tyre, varion nga 100 në 1650 rubla. Ose mund të përdorni navigatorin falas, pasi të aktivizoni funksionin e njoftimit të zërit për kamerat dhe ngjarjet e tjera të trafikut në cilësimet. Vërtetë, duhet të kihet parasysh se të dhënat, për shembull, për kamerat e reja ose postimet e policisë së trafikut celular, futen atje nga të njëjtët përdorues si ju.

Si ta provoni rastin tuaj?

Është e mundur dhe e nevojshme të kundërshtohen gjobat e lëshuara gabimisht për shkeljet e trafikut të regjistruara nga kamerat. Sidoqoftë, kjo duhet të bëhet vetëm nëse jeni absolutisht i sigurt se nuk keni bërë shkelje dhe mund ta mbështesni këtë me prova të forta.

Mekanizmi i ankesës është si më poshtë:

Keni 10 ditë kohë për të bërë ankim nga data e marrjes së gjobës (neni 30.3 i Kodit të Kundërvajtjeve Administrative);

Një ankesë mund të paraqitet personalisht (në qendrat e shërbimit të Transportit të Moskës ose pritjen MADI) dhe në mënyrë elektronike (përmes portalit Autocode ose pritjes elektronike të qeverisë së Moskës);

Seti i dokumenteve duhet të përmbajë si vetë ankesën, të nënshkruar nga vetë ai, ashtu edhe materiale shtesë (foto, video ose dokumente të tjera) që konfirmojnë informacionin e dhënë në ankesën tuaj;

Nëse deri në momentin e paraqitjes së ankesës, kanë kaluar tashmë 10 ditët e caktuara nga Kodi i Kundërvajtjeve Administrative, paketës së dokumenteve duhet t'i bashkëngjitet një peticion për të rikthyer afatin e humbur për ankim kundër një vendimi për kundërvajtje administrative, i cili duhet të të nënshkruhet edhe personalisht;

Në ankim duhet të shënohet emri i organit ku është depozituar, data, numri i vendimit dhe argumentet që vërtetojnë paligjshmërinë e akuzës. Më shumë udhëzime të hollësishme me shembuj të teksteve të ankesave të publikuara në faqen zyrtare të kryetarit të Moskës.

Janë caktuar 10 ditë për shqyrtimin e ankesës, prandaj, është ende e nevojshme të paguhet një gjobë, megjithëse e lëshuar gabimisht. Vlen gjithashtu të përgatitet për faktin se vendimi do të duhet të kundërshtohet në instanca më të larta - së pari në policinë e trafikut, dhe më pas në gjykatë. Dhe bëjeni rregull që të mbani regjistrime nga DVR pas udhëtimit për të paktën disa javë.

Sipas shërbimit për shtyp të kompanisë Yandex, me ndihmën e një rrjeti nervor, ajo arriti të rrisë ndjeshëm rezolucionin dhe të përmirësojë cilësinë e imazhit të dhjetë karikaturave sovjetike, të cilat janë ndër më të famshmet.

Gjatë viteve të fundit, shkencëtarët kanë krijuar rrjete të ndryshme nervore, ata kanë një mundësi të tillë për shkak të rritjes së fuqisë llogaritëse të kompjuterëve dhe zhvillimit të matematikës. Rrjetet nervore janë sisteme të inteligjencës artificiale që mund të zgjidhin probleme jo të parëndësishme. Disa nga këto rrjete nervore komplekse mund të mendojnë edhe jashtë kutisë, duke krijuar në mënyrë të pavarur vepra të reja arti, duke zhvilluar teknologji inovative.

Rrjeti nervor nga Yandex quhet DeepHD. Më parë, ajo tashmë kishte arritur të tregohej mirë kur u përdor për të përmirësuar cilësinë e filmave që tregonin për Luftën e Madhe Patriotike. Pastaj shtatë filma iu nënshtruan ndryshimeve. Tani radha i ka ardhur animacionit sovjetik: Mbretëresha e borës, Lulja e Skarlatit, Një kotele me emrin Woof, Umka kërkon një shoqe, Thumbelina, etj.

Një sistem special i inteligjencës artificiale është i angazhuar ekskluzivisht në përmirësimin e cilësisë dhe nuk bën asnjë ndryshim në kornizat e karikaturave. Detyra e saj është të rivendosë detajet që ishin menduar nga artistja, por që humbën ndërsa filmat vizatimorë po transferoheshin nga filmi në dixhital. Në faqen ku ka një përshkrim të rrjetit nervor DeepHD, ai flet për veçoritë e tij. Ka katër veçori të tilla në total: heqja e defekteve dhe zhurmës, ruajtja e detajeve me një rritje të zgjerimit, punë e shkëlqyer me transmetime video dhe imazhe individuale dhe aftësia për të punuar në kohë reale.

Teknologjia DeepHD bazohet në rrjetet nervore kundërshtare gjeneruese. Në fazën fillestare, një rrjet nervor merret me eliminimin e defekteve që shfaqen në video gjatë ngjeshjes së saj. Faza e dytë kryhet nga një rrjet nervor i ndryshëm, i cili është përgjegjës për zmadhimin e imazhit, si dhe ruajtjen e qartësisë së detajeve gjatë ndryshimeve të tilla. Ju mund të njiheni me punën e detajuar të rrjetit nervor DeepHD në blogun zyrtar të krijuesve të tij.

Vlen të përmendet se në DeepHD shikuesit sot kanë akses jo vetëm në filma dhe karikatura të vjetra, por edhe në filma të rinj artistikë dhe të animuar. Mund t'i gjeni përmes një pyetje kërkimi me shtimin e "DeepHD". Sot mund të shikoni edhe kanale televizive me cilësi të lartë, kjo është bërë e disponueshme falë aftësisë së rrjetit nervor për të punuar në kohë reale.

Ju pëlqeu ky lajm? Pastaj shtyp.

Sot ne shpallëm një algoritëm të ri kërkimi "Palekh". Ai përfshin të gjitha përmirësimet për të cilat kemi punuar së fundmi.

Për shembull, kërkimi tani përdor rrjetet nervore për herë të parë për të gjetur dokumente jo nga fjalët e përdorura në pyetje dhe nga vetë dokumenti, por nga kuptimi i pyetjes dhe titullit.

Për dekada, studiuesit janë përballur me problemin e kërkimit semantik, në të cilin dokumentet renditen bazuar në rëndësinë semantike për një pyetje. Dhe tani po bëhet realitet.

Në këtë postim, do të përpiqem të flas pak se si e bëmë dhe pse ky nuk është thjesht një tjetër algoritëm i mësimit të makinerive, por një hap i rëndësishëm në të ardhmen.

Inteligjenca artificiale apo mësimi i makinerive?

Pothuajse të gjithë e dinë atë moderne Motorë kërkimi punoni me mësimin e makinerive. Pse duhet të flasim veçmas për përdorimin e rrjeteve nervore për detyrat e tij? Dhe pse vetëm tani, sepse zhurma rreth kësaj teme nuk është ulur për disa vite? Do të përpiqem t'ju tregoj për historinë e çështjes.

Kërkimi në internet është një sistem kompleks që u shfaq shumë kohë më parë. Në fillim ishte vetëm një kërkim faqesh, më pas u kthye në një zgjidhës problemi dhe tani po bëhet një asistent i plotë. Sa më i madh të jetë interneti dhe sa më shumë njerëz në të, aq më të larta janë kërkesat e tyre, aq më i vështirë duhet të bëhet kërkimi.

Epoka e kërkimit naiv

Në fillim kishte vetëm një kërkim fjalësh - një indeks i përmbysur. Pastaj kishte shumë faqe, ato duhej të renditeshin. Filluan të merren parasysh komplikime të ndryshme - frekuenca e fjalëve, tf-idf .

Epoka e lidhjeve

Pastaj kishte shumë faqe për çdo temë, pati një përparim të rëndësishëm - ata filluan të merrnin parasysh lidhjet, u shfaq PageRank.

Epoka e Mësimit të Makinerisë

Interneti u bë i rëndësishëm komercialisht dhe kishte shumë mashtrues që përpiqeshin të mashtronin algoritmet e thjeshta që ekzistonin në atë kohë. Pati një zbulim të dytë të madh - motorët e kërkimit filluan të përdorin njohuritë e tyre për sjelljen e përdoruesve për të kuptuar se cilat faqe janë të mira dhe cilat jo.

Diku në këtë fazë, mendja e njeriut nuk mjaftonte më për të kuptuar se si të renditeshin dokumentet. Tranzicioni tjetër ndodhi - motorët e kërkimit filluan të përdorin në mënyrë aktive mësimin e makinerive.

Një nga algoritmet më të mira të mësimit të makinerive u shpik në Yandex - Matrixnet. Mund të thuhet se inteligjenca kolektive e përdoruesve dhe "mençuria e turmës" ndihmojnë në renditjen. Informacioni në lidhje me faqet e internetit dhe sjelljen e njerëzve konvertohet në shumë faktorë, secili prej të cilëve përdoret nga Matrixnet për të ndërtuar një formulë renditjeje. Në fakt, formula e renditjes është shkruar nga një makinë (ka rezultuar të jetë rreth 300 megabajt).

Por mësimi "klasik" i makinerive ka një kufi: funksionon vetëm aty ku ka shumë të dhëna. Një shembull i vogël. Miliona përdorues hyjnë në pyetjen [vkontakte] për të gjetur të njëjtin sajt. Në këtë rast, sjellja e tyre është një sinjal aq i fortë saqë kërkimi nuk i detyron njerëzit të shikojnë çështjen, por sugjeron adresën menjëherë kur futni një pyetje.

Por njerëzit janë më kompleksë dhe duan më shumë nga kërkimi. Tani deri në 40% e të gjitha kërkesave janë unike, domethënë, ato nuk përsëriten të paktën dy herë gjatë gjithë periudhës së vëzhgimit. Kjo do të thotë që kërkimi nuk ka të dhëna të mjaftueshme për sjelljen e përdoruesit në sasi të mjaftueshme, dhe Matrixnet është i privuar nga faktorë të vlefshëm. Kërkesa të tilla në Yandex quhen "bisht i gjatë", pasi së bashku ato përbëjnë një pjesë të konsiderueshme të kërkesave për kërkimin tonë.

Epoka e inteligjencës artificiale

Dhe këtu është koha për të folur për zbulimin e fundit: disa vite më parë, kompjuterët bëhen mjaft të shpejtë dhe ka të dhëna të mjaftueshme për të përdorur rrjetet nervore. Teknologjitë e bazuara në to quhen gjithashtu inteligjencë makinerike ose inteligjencë artificiale - sepse rrjetet nervore ndërtohen në imazhin e neuroneve në trurin tonë dhe përpiqen të imitojnë punën e disa pjesëve të tij.

Inteligjenca e makinerisë është shumë më e mirë se metodat e vjetra në kryerjen e detyrave që njerëzit mund të bëjnë, të tilla si njohja e të folurit ose modeleve në imazhe. Por si e ndihmon kjo kërkimin?

Si rregull, pyetjet me frekuencë të ulët dhe unike janë mjaft të vështira për t'u gjetur - gjetja e një përgjigje të mirë për to është shumë më e vështirë. Si ta bëjmë atë? Ne nuk kemi asnjë sugjerim nga përdoruesit (cili dokument është më i mirë dhe cili është më i keq), kështu që për të zgjidhur një problem kërkimi, duhet të mësoni të kuptoni më mirë korrespondencën semantike midis dy teksteve: një pyetje dhe një dokument.

Është e lehtë të thuhet

Në mënyrë të rreptë, rrjetet nervore artificiale janë një nga metodat e mësimit të makinerive. Së fundmi, atyre iu kushtua një leksion në kuadër të ShAD-së së Vogël. Rrjetet nervore tregojnë rezultate mbresëlënëse në fushën e analizës së informacionit natyror - tinguj dhe imazhe. Kjo po ndodh tash e disa vite. Por pse nuk janë përdorur aq aktivisht në kërkim deri më tani?

Përgjigja e thjeshtë është sepse të flasësh për kuptimin është shumë më e vështirë sesa të flasësh për një imazh në një foto, ose si t'i kthesh tingujt në fjalë të transkriptuara. Sidoqoftë, në kërkimin e kuptimeve, inteligjenca artificiale filloi me të vërtetë të vinte nga zona ku ajo ka qenë prej kohësh mbret - kërkimi me fotografi.

Disa fjalë se si funksionon në kërkimin e imazheve. Ju merrni një imazh dhe përdorni rrjetet nervore për ta transformuar atë në një vektor në hapësirën N-dimensionale. Merrni një kërkesë (e cila mund të jetë si në formë teksti ashtu edhe në formën e një fotografie tjetër) dhe bëni të njëjtën gjë me të. Dhe pastaj krahasoni këta vektorë. Sa më afër të jenë me njëri-tjetrin, aq më shumë fotografia përputhet me pyetjen.

Ok, nëse funksionon në imazhe, pse të mos aplikoni të njëjtën logjikë për kërkimet në ueb?

Djalli në teknologji

Ne e formulojmë problemin si më poshtë. Ne kemi një kërkesë përdoruesi dhe një titull faqeje në hyrje. Ju duhet të kuptoni se si ato korrespondojnë me njëri-tjetrin në kuptim. Për ta bërë këtë, është e nevojshme të paraqitet teksti i kërkesës dhe teksti i titullit në formën e vektorëve të tillë, shumëzimi skalar i të cilëve do të ishte sa më i madh, aq më i rëndësishëm është dokumenti me titullin e dhënë me kërkesën. . Me fjalë të tjera, ne duam të trajnojmë rrjetin nervor në atë mënyrë që për tekste të ngjashme të gjenerojë vektorë të ngjashëm, dhe për kërkesat dhe titujt e palidhur semantikisht, vektorët duhet të jenë të ndryshëm.

Kompleksiteti i kësaj detyre qëndron në zgjedhjen e arkitekturës dhe metodës së duhur për trajnimin e rrjetit nervor. Nga botimet shkencore njihen mjaft qasje për zgjidhjen e problemit. Ndoshta metoda më e thjeshtë këtu është përfaqësimi i teksteve si vektorë duke përdorur algoritmin word2vec (për fat të keq, përvoja praktike sugjeron se kjo është një zgjidhje mjaft e dobët për problemin në fjalë).

DSSM

Në vitin 2013, studiuesit nga Microsoft Research përshkruan qasjen e tyre, e cila u quajt Modeli Semantik i Strukturuar Thellë.

Tekstet e kërkesave dhe titujt futen në hyrjen e modelit. Për të zvogëluar madhësinë e modelit, mbi to kryhet një operacion, të cilin autorët e quajnë hashing të fjalëve. Shënuesit e fillimit dhe të fundit i shtohen tekstit, pas së cilës ai ndahet në trigrame alfabetike. Për shembull, për pyetjen [palekh] do të marrim trigramet [pa, ale, lekh, ex]. Meqenëse numri i trigrameve të ndryshëm është i kufizuar, ne mund ta paraqesim tekstin e pyetjes si një vektor prej disa dhjetëra mijëra elementësh (madhësia e alfabetit tonë është 3 fuqi). Elementet e vektorit që u korrespondojnë trigrameve të pyetjes do të jenë të barabarta me 1, pjesa tjetër - 0. Në fakt, në këtë mënyrë shënojmë paraqitjen e trigrameve nga teksti në një fjalor të përbërë nga të gjitha trigramet e njohura. Nëse krahasojmë vektorë të tillë, mund të mësojmë vetëm për praninë e trigrameve identike në kërkesë dhe kokë, e cila nuk është me interes të veçantë. Prandaj, tani ata duhet të shndërrohen në vektorë të tjerë që tashmë do të kenë vetitë e ngjashmërisë semantike që na duhen.

Pas shtresës hyrëse, siç pritej në arkitekturat e thella, ka disa shtresa të fshehura si për kërkesën ashtu edhe për kokën. Shtresa e fundit është e gjatë 128 elemente dhe shërben si vektor që përdoret për krahasim. Prodhimi i modelit është rezultat i shumëzimit skalar të vektorëve të kokës së fundit dhe pyetjes (për të qenë mjaft të saktë, llogaritet kosinusi i këndit midis vektorëve). Modeli është trajnuar në atë mënyrë që për shembujt pozitiv të trajnimit vlera e prodhimit është e madhe, dhe për shembujt negativ të trajnimit është e vogël. Me fjalë të tjera, duke krahasuar vektorët e shtresës së fundit, ne mund të llogarisim gabimin e parashikimit dhe të modifikojmë modelin në atë mënyrë që gabimi të ulet.

Ne në Yandex jemi gjithashtu duke hulumtuar në mënyrë aktive modele të bazuara në rrjetet nervore artificiale, kështu që u interesuam për modelin DSSM. Më tej, ne do të flasim për eksperimentet tona në këtë fushë.

Teoria dhe praktika

Një veti karakteristike e algoritmeve të përshkruara në literaturën shkencore është se ato nuk funksionojnë gjithmonë jashtë kutisë. Fakti është se studiuesi "akademik" dhe studiuesi nga industria janë në kushte shumë të ndryshme. Si pikënisje (bazë), me të cilën autori i një botimi shkencor krahason vendimin e tij, duhet të veprojë një algoritëm i njohur - kjo siguron riprodhueshmërinë e rezultateve. Studiuesit marrin rezultatet e një qasjeje të publikuar më parë dhe tregojnë se si mund të mposhten. Për shembull, autorët e DSSM origjinale krahasojnë modelin e tyre NDCG me algoritmet BM25 dhe LSA. Në rastin e një studiuesi të aplikuar që merret me cilësinë e kërkimit në një motor kërkimi të vërtetë, pikënisja nuk është një algoritëm specifik, por e gjithë renditja në tërësi. Qëllimi i zhvilluesit Yandex nuk është të kapërcejë BM25, por të arrijë një përmirësim në sfondin e të gjithë faktorëve dhe modeleve të implementuara më parë. Kështu, baza për një studiues në Yandex është jashtëzakonisht e lartë, dhe shumë algoritme që janë shkencërisht të reja dhe tregojnë rezultate të mira me një qasje "akademike" janë të padobishme në praktikë, pasi ato nuk përmirësojnë vërtet cilësinë e kërkimit.

Në rastin e DSSM u përballëm me të njëjtin problem. Siç ndodh shpesh, në kushte "luftarake", zbatimi i saktë i modelit nga artikulli tregoi rezultate mjaft modeste. U kërkuan një sërë "përmirësimesh" të rëndësishme të skedarëve përpara se të arrinim të merrnim rezultate që ishin interesante nga pikëpamja praktike. Këtu do të flasim për modifikimet kryesore të modelit origjinal, i cili na lejoi ta bëjmë atë më të fuqishëm.

Shtresë e madhe hyrëse

Në modelin origjinal DSSM, shtresa hyrëse është një grup trigramesh fjalë për fjalë. Madhësia e saj është 30 000. Qasja trigram ka disa përparësi. Së pari, ka relativisht pak prej tyre, kështu që puna me ta nuk kërkon burime të mëdha. Së dyti, përdorimi i tyre thjeshton identifikimin e gabimeve dhe gabimeve në fjalë. Megjithatë, eksperimentet tona kanë treguar se prezantimi i teksteve në formën e një "çante" me trigrame redukton ndjeshëm fuqinë shprehëse të rrjetit. Prandaj, ne rritëm rrënjësisht madhësinë e shtresës hyrëse, duke përfshirë, përveç trigrameve të shkronjave, rreth 2 milion fjalë dhe fraza të tjera. Kështu, tekstet e kërkesës dhe kreut i paraqesim si një "çantë" e përbashkët fjalësh, bigramesh foljore dhe trigrame fjalë për fjalë.

Përdorimi i një shtrese të madhe hyrëse çon në një rritje të madhësisë së modelit, kohëzgjatjes së trajnimit dhe kërkon shumë më shumë burime kompjuterike.

Vështirë për t'u mësuar: si një rrjet nervor luftoi me veten dhe mësoi nga gabimet e tij

Trajnimi i DSSM-së origjinale konsiston në shfaqjen e rrjetit të një numri të madh shembujsh pozitivë dhe negativë. Këta shembuj janë marrë nga rezultatet e kërkimit (me sa duket, Bing është përdorur për këtë). Shembujt pozitivë janë titujt e SERP-ve të klikuar, shembujt negativë janë titujt e dokumenteve që nuk janë klikuar. Kjo qasje ka disa të meta. Fakti është se mungesa e një klikimi nuk tregon gjithmonë se dokumenti është i parëndësishëm. Deklarata e kundërt është gjithashtu e vërtetë - prania e një klikimi nuk garanton rëndësinë e dokumentit. Në thelb, duke mësuar në mënyrën e përshkruar në artikullin origjinal, ne synojmë të parashikojmë atraktivitetin e titujve, duke qenë se ata do të jenë të pranishëm në SERP. Kjo, natyrisht, nuk është gjithashtu e keqe, por ka një lidhje mjaft indirekte me qëllimin tonë kryesor - të mësojmë të kuptojmë afërsinë semantike.

Gjatë eksperimenteve tona, ne zbuluam se rezultati mund të përmirësohet ndjeshëm nëse përdorim një strategji të ndryshme për zgjedhjen e shembujve negativë. Për të arritur qëllimin tonë, shembuj të mirë negativ janë dokumentet që garantohen të jenë të parëndësishme për pyetjen, por në të njëjtën kohë ndihmojnë rrjetin nervor për të kuptuar më mirë kuptimet e fjalëve. Ku mund t'i marr ato?

Së pari provoni

Së pari, si shembull negativ, merrni vetëm titullin e një dokumenti të rastësishëm. Për shembull, për pyetjen [pikturë Palekh], titulli i rastësishëm mund të jetë "Rregullat e rrugës 2016 të Federatës Ruse". Sigurisht, është e pamundur të përjashtohet plotësisht fakti që një dokument i zgjedhur rastësisht nga miliarda do të jetë i rëndësishëm për kërkesën, por probabiliteti i kësaj është aq i vogël sa mund të neglizhohet. Në këtë mënyrë shumë lehtë mund të marrim një numër të madh shembujsh negativë. Duket se tani ne mund t'i mësojmë rrjetit tonë saktësisht atë që duam - të dallojmë dokumentet e mira që interesojnë përdoruesit nga dokumentet që nuk kanë të bëjnë me kërkesën. Fatkeqësisht, modeli i trajnuar në shembuj të tillë doli të ishte mjaft i dobët. Një rrjet nervor është një gjë e zgjuar dhe gjithmonë do të gjejë një mënyrë për të thjeshtuar punën e tij. Në këtë rast, ajo sapo filloi të kërkonte të njëjtat fjalë në kërkesa dhe tituj: po - një palë e mirë, jo - një e keqe. Por ne mund ta bëjmë këtë vetë. Është e rëndësishme për ne që rrjeti të mësojë të dallojë modele jo të dukshme.

Një përpjekje tjetër

Eksperimenti tjetër ishte shtimi i fjalëve nga kërkesa në titujt e shembujve negativë. Për shembull, për pyetjen [pikturë Palekh], një titull i rastësishëm dukej si [Rregullat e rrugës 2016 pikturë RF]. Rrjeti nervor pati pak më shumë vështirësi, por, megjithatë, mësoi shpejt të dallonte mirë çiftet natyrore nga ato të bëra me dorë. U bë e qartë se ne nuk do të arrinim sukses me metoda të tilla.

Sukses

Shumë zgjidhje të dukshme bëhen të dukshme vetëm pasi zbulohen. Kështu ndodhi edhe këtë herë: pas një kohe doli që Menyra me e mire gjenerimi i shembujve negativë është të detyrosh rrjetin të "luftojë" kundër vetvetes, të mësojë nga gabimet e veta. Midis qindra titujve të rastësishëm, ne zgjodhëm atë që rrjeti aktual nervor e konsideroi më të mirën. Por, meqenëse ky titull është ende i rastësishëm, ka shumë të ngjarë që të mos përputhet me kërkesën. Dhe pikërisht këta tituj filluam të përdorim si shembuj negativë. Me fjalë të tjera, mund t'i tregoni rrjetit më të mirët nga titujt e rastësishëm, ta stërvitni atë, të gjeni tituj të rinj më të mirë të rastësishëm, t'i shfaqni përsëri rrjetet, e kështu me radhë. Duke e përsëritur këtë procedurë pa pushim, ne pamë se si cilësia e modelit u përmirësua dukshëm, dhe gjithnjë e më shpesh çiftet më të mira të rastit u bënë të ngjashme me shembujt e vërtetë pozitivë. Problemi u zgjidh.

Një skemë e tillë trajnimi në literaturën shkencore zakonisht quhet minierë e fortë negative. Duhet gjithashtu të theksohet se zgjidhjet e ngjashme në koncept janë bërë të përhapura në komunitetin shkencor për gjenerimin e imazheve me pamje realiste, një klasë e ngjashme modelesh quhen Rrjetet Generative Adversarial.

qëllime të ndryshme

Microsoft Research përdori klikimet e dokumenteve si shembuj pozitivë. Sidoqoftë, siç u përmend tashmë, ky është një sinjal mjaft i besueshëm në lidhje me korrespondencën semantike të kokës me kërkesën. Në fund, detyra jonë nuk është të ngremë faqet më të vizituara në rezultatet e kërkimit, por të gjejmë informacione vërtet të dobishme. Prandaj, ne u përpoqëm të përdorim karakteristika të tjera të sjelljes së përdoruesit si qëllim mësimor. Për shembull, një nga modelet parashikoi nëse një përdorues do të qëndronte në një faqe ose do të largohej. Tjetra është se sa kohë do të qëndrojë në sit. Siç doli, ju mund të përmirësoni ndjeshëm rezultatet nëse optimizoni një metrikë të synuar që tregon se përdoruesi gjeti atë që i duhej.

Fitimi

Ok, çfarë na jep kjo në praktikë? Le të krahasojmë sjelljen e modelit tonë nervor dhe një faktor teksti të thjeshtë bazuar në fjalët e pyetjeve dhe tekstin që përputhen - BM25. Na erdhi nga ditët kur renditja ishte e thjeshtë, dhe tani është e përshtatshme ta përdorim atë si një nivel bazë.

Si shembull, le të marrim pyetjen [Book of Kells] dhe të shohim se çfarë vlere marrin faktorët në tituj të ndryshëm. Për kontroll, le të shtojmë një rezultat dukshëm të parëndësishëm në listën e titujve.

Të gjithë faktorët në Yandex janë normalizuar në interval. Është mjaft e pritshme që BM25 të ketë rezultate të larta për titujt që përmbajnë fjalë pyetëse. Dhe është mjaft e parashikueshme që ky faktor të marrë një vlerë zero në titujt që nuk kanë fjalë të përbashkëta me kërkesën. Tani kushtojini vëmendje mënyrës sesi sillet modeli nervor. Ai njeh po aq mirë lidhjen e një pyetjeje si me titullin në gjuhën ruse të një faqeje përkatëse nga Wikipedia, ashtu edhe me titullin e një artikulli në anglisht! Veç kësaj, duket se modelja “e ka parë” lidhjen e kërkesës me një titull që nuk përmend Librin e Kells, por ka një frazë që është e afërt në kuptim (“ungjijtë irlandezë”). Vlera e modelit për një titull të parëndësishëm është dukshëm më e ulët.

Tani le të shohim se si do të sillen faktorët tanë nëse riformulojmë pyetjen pa ndryshuar kuptimin e tij: [Ungjilli i Kells].

Për BM25, riformulimi i pyetjes u shndërrua në një fatkeqësi të vërtetë - faktori u bë zero në titujt përkatës. Dhe modeli ynë tregon rezistencë të shkëlqyer riformulimi: titujt përkatës kanë ende një vlerë të lartë faktori dhe një titull i parëndësishëm ka ende një vlerë të ulët të faktorit. Duket se pikërisht këtë sjellje e prisnim nga një gjë që pretendon se mund të “kuptojë” semantikën e tekstit.

Një shembull tjetër. Kërkesë [historinë në të cilën flutura u shtyp].

Siç mund ta shihni, modeli nervor ishte në gjendje t'i jepte një rezultat të lartë titullit me përgjigjen e saktë, pavarësisht mungesës së plotë të fjalëve të zakonshme me pyetjen. Për më tepër, shihet qartë se titujt që nuk i përgjigjen kërkesës, por që ende lidhen me të në kuptim, marrin një vlerë faktori mjaft të lartë. Është sikur modelja jonë të "lexojë" historinë e Bradbury dhe "e di" se pikërisht për këtë bëhet fjalë!

Ç'pritet më tej?

Jemi në fillimin e një rrugëtimi të gjatë dhe shumë interesant. Me sa duket, rrjetet nervore kanë potencial të madh për përmirësimin e renditjes. Drejtimet kryesore që kanë nevojë për zhvillim aktiv janë tashmë të qarta.

Për shembull, është e qartë se titulli përmban informacion jo të plotë në lidhje me dokumentin, dhe do të ishte mirë të mësoni se si të ndërtoni një model nga teksti i plotë (siç doli, kjo nuk është një detyrë krejtësisht e parëndësishme). Më tej, mund të imagjinojmë modele që kanë një arkitekturë shumë më komplekse se DSSM - ka arsye të besohet se në këtë mënyrë ne mund të përpunojmë më mirë disa konstruksione të gjuhës natyrore. Ne e shohim qëllimin tonë afatgjatë në krijimin e modeleve që mund të "kuptojnë" korrespondencën semantike të pyetjeve dhe dokumenteve në një nivel të krahasueshëm me nivelin e një personi. Do të ketë shumë vështirësi në rrugën drejt këtij qëllimi - aq më interesante do të jetë ta kaloni atë. Ne premtojmë të flasim për punën tonë në këtë fushë. Ndiqni postimet e radhës.

Shkrimtari i trillimeve shkencore Sergei Lukyanenko, së bashku me rrjetin nervor Yandex, krijuan një vepër në stilin e ciklit Mbrëmjet në një fermë afër Dikanka. Shkrimtari zhvilloi personazhet dhe linjat kryesore të tregimeve, dhe më pas rrjeti nervor gjeneroi tregimin "Kontrata e keqe", e cila është në domenin publik, mbi këtë bazë.

Karakteristikat e zhvillimit

Ideja e projektit i përket kanalit TV-3. Arsyeja ishte publikimi i filmit “Gogol. Një Hakmarrje e tmerrshme ”, premiera e së cilës në Rusi është planifikuar për në 30 gusht 2018. Producenti Valery Fedorovich vuri në dukje se procesi i krijimit të tregimit korrespondon me mënyrën se si Gogol punoi në veprat e tij. Por nëse legjendat popullore për Nikolai Vasilyevich shkruheshin dhe dërgoheshin me letra nga nëna, atëherë në këtë rast informacioni përpunohet nga rrjeti nervor, dhe shkrimtari siguron "ushqimin" folklorik.

Programi shtoi shumë detaje, histori në tregimin "Bad Traaty", dhe gjithashtu ofroi një gjuhë narrative të ngjashme me atë të Gogolit. Ky rezultat u arrit falë trajnimit paraprak mbi bazën e prozës ruse në përgjithësi, dhe më pas në veprat e shkrimtarit në veçanti.

Mendimi i shkrimtarit

Sergey Lukyanenko vlerësoi rezultatin e punës së përbashkët me Yandex në dy mënyra. Nga njëra anë, ai është i kënaqur që, pavarësisht zhvillimit të shpejtë të rrjeteve nervore dhe inteligjencës artificiale, një person është i nevojshëm për të krijuar bazën e një pune krijuese. Nga ana tjetër, shkrimtari është i mërzitur që disa libra modernë janë shkruar më keq se një histori e krijuar nga një makinë.