Home » Analize »Media / Tech » Citesti:

Despre Hummingbird, noii algoritmi Google de cautare

Mihai Badici noiembrie 23, 2013 Analize, Media / Tech
3 comentarii 2,257 Vizualizari

La începutul lunii trecute, în garajul originar (garajul a devenit icon-ul clasic al startup-ului IT,  ajuns ulterior gigant – uneori, regret ca lucrez în camera mea!)  Google a anunțat noul algoritm de căutare numit Hummingbird, care, la data respectivă, funcționa deja de o lună.

Mărturisesc că nu sunt vreun mare specialist în SEO ( adica “search engine optimization” ), dar am fost oarecum interesat de subiect deoarece interferează cu domeniul inteligenței artificiale, domeniu în care am unele preocupări.  Si am intrat deseori în contact cu persoane care se ocupă de SEO, un domeniu oarecum conex.

Schimbarea pe care o aduce noul algoritm este majoră cel puțin prin schimbarea abordării operațiilor de căutare și indexare.

Google a folosit până acum celebrul PageRank, algoritmul inventat de Larry Page, care acordă scoruri unei pagini în funcție de numărul de link-uri pe care alte pagini le au către ea. Altfel spus, o pagină e cu atât mai relevantă cu cât mai multe pagini vorbesc despre ea. Acest algoritm ar trebui să funcționeze bine, cel puțin într-un context non-adversarial, adică într-un context în care creatorii de site-uri nu încearcă să manipuleze rezultatele. Această premisă a fost validă la începuturi, însă o dată cu răspândirea internetului și a marketingului pe internet, manipularea rezultatelor a devenit o regulă, de la inocentele „schimburi de bannere” sau de link-uri, la strategii complexe cu multiple redirectări, cu site-uri special concepute pentru a găzdui astfel de link-uri și multe altele pe care  alții le știu mai bine ca mine.

Google a operat în timp mai multe corecții în algoritmul original pentru a contracara acțiunile de manipulare a rezultatelor, pentru că deși în principiu o acțiune de SEO ese o acțiune normală și legitimă (un site care desfășoară acțiuni de promovare s-ar putea să fie oricum mai relevant decât unul care nu desfășoară fiind abandonat de ani de zile) rezultatul global este destul de neplăcut, producând o deteriorare a calității rezultatelor și eventual favorizând site-urile cu caracer comercial în dauna celor generale și informative, care dispun de mai puține fonduri pentru promovare.

Schimbarea fundamentală adusă de noul algoritm este însă la nivelul interpretării frazei de căutare.

Algoritmul cel vechi  nu presupunea nici o legătură între cuvintele din șirul căutat. Aceste cuvinte erau considerate independente, iar rezultatul era compus din pagini care conțineau aceste cuvinte. Se folosea ceea ce se numește un estimator naiv, care nu analizează conținutul propoziției , considerând cuvintele necorelate.  Rezultatul era uneori destul de imprevizibil și ducea la multe rezultate nerelevante;  eliminarea acestora a devenit însă, după listarea la bursă a Google, nu numai o cerință a utilizatorului comun, dar mai ales a celor care folosesc serviciile google de publicitate , aceasta fiind de asemenea contextuală. Ca o mică paranteză, acum câteva luni am căutat o placă RAID pentru un server mai vechi al unui client. Reclamele la plăci raid m-au însoțît câteva luni după aceea pe orice site cu publicitate.

Ori, schimbarea algoritmului tocmai asta încearcă. În loc să analizeze cuvintele individual, algoritmul încearcă o analiză semantică a frazei, pentru a determina ce anume vrem să aflăm de fapt.

Preocupările în domeniul analizei semantice a limbajului sunt vechi dar deocamdată nu foarte spectaculoase. În tot cazul, ele depind în mare măsură de cantitatea de date pe care mașina o are la dispoziție și o poate prelucra, iar la acest capitol Google e imbatabil.

Deocamdată hummingbird poate să răspundă la întrebări simple în limba engleză. Pentru asta, Google folosește un knowledge graph, o sursă de informații cu conținut semantic derivate, conform prezentarii din:  CIA World Factbook, Freebase și  Wikipedia .  Pe baza acestuia, o întrebare de tipul How old is Barack Obama nu va căuta site-uri care conțin cuvintele old, Barack și Obama, ci va „înțelege” că ne interesează un numar anume. Mai mult, How old is Barak Obama va produce exact aceleași rezultate ca Barack Obama age. Puteți încerca și cu alte personaje, atâta timp cât informațiile respective se găsesc în Knowledge Graph. În caz contrar, se pare că se aplică un algoritm clasic.

Schimbarea algoritmului în acest sens este un prim mic pas în sensul a ceea ce susțineam într-un articol anterior referitor la dispozitivele mobile ( îmi însușesc critica unui cititor, Data nu e căpitan ci lt-comandor).  Noul algoritm permite căutarea vocală directă cu propoziții de tipul Where is Pața Unirii? sau chiar When is Mircea Cartărescu birthday? Deocamdată, în limba engleză iar informația trebuie să fie disponibilă în Knowledge Graph ( deci una din misiunile de bază ale noilor SEO va fi să îmbogățească Wikipedia) . Însă probabil baza de date se va extinde din ce în ce mai mult – ceea ce va necesita în același timp și algoritmi de verificare a corectitudinii acestora.  Algoritmii de inteligență artificială au nevoie de date pentru etapa de învățare, dar Google are suficiente date. De asemenea e de așteptat ca și alți jucători – poate chiar Microsoft – să încerce să preia trendul; cum domeniul algoritmilor e încă nestabilizat, nu există un algoritm care să se detașeze ca fiind cel mai bun, așa ca nu se știe cine poate scoate din pălărie iepurele câștigător.  Există deja în piață unele încercări, însă nici una nu s-a evidențiat. În același timp, cu suficiente date la dispoziție, chiar și algoritmii clasici se pot dovedi destul de eficienți, ceea ce face lupta extrem de inegală pentru startup-uri, care nu au la dispoziție atâtea date pentru învățare și mai ales putere de calcul pentru a le prelucra.

Ai informatii despre tema de mai sus? Poti contribui la o mai buna intelegere a subiectului? Scrie articolul tau si trimite-l la editor[at]contributors.ro

Citeste mai multe despre:



Currently there are "3 comments" on this Article:

  1. Lucian Ilea spune:

    Articolele scrise pana acuma le puteti trimite la medievalia.ro si vor avea un enorm succes:)
    Ma veti convinge ca nu sunteti ramas in urma cand veti scrie despre Satoshi Nakamoto si monedele sale criptografice
    Bitcoin care acuma e 1000 de dolari cu o capitalizare totala de 12 miliarde de dolari
    Litecoin-argintul bitcoin-10 dolari pe moneda
    Feathercoin-5 dolari
    Namecoin-2 dolari
    Novacoin
    Netcoin
    Neocoin
    Phoenixcoin
    Florincoin:)))
    Worldcoin
    Globalcoin
    Megacoin
    Extremecoin
    Lucky Coin
    Anoncoin
    Bit Bar-de 240 de ori mai valoros ca si bitcoinul
    si asa mai departe
    Digital coin
    Securecoin
    Sexcoin
    Devcoin
    Terracoin-bronzul bitcoin

    • iosiP spune:

      Domnule Ilea,

      Pe puncte, ca n-are sens sa-mi pierd timpul:

      1. Domnul Badici scrie articole care intereseaza cititorii platformei contributors sub toate aspectele legate de influenta IT asupra “vietii virtuale”.

      2. Alte articole ale aceluiasi autor trateaza evolutia sectorului IT privit ca ramura economica, si particularitatile sale in contrast (sau dimpotriva, in aliniere) cu regulile generale de transfer al capitalului.

      3. O expunere legata de monedele virtuale – sub aspect informatic – depaseste cadrul acestei platforme si ar provoca (in cel mai bun caz) confuzie in randul cititorilor.

      4. O expunere legata de monedele virtuale – sub aspect social/legislativ/economic – nu intra in atributiile autorului, acesta fiind specialist IT si nu expert in politici monetare.

      5. BTC nu mai este de mult o noutate (peste jumatate din economiile mele sunt in BTC), deci discutia se poate alinia uneia privind civilizatia Cucuteni.

      6. In fine, agresivitatea n-a folosit nimanui! Inteleg ca activitatea in domeniul IT este stresanta iar “sindromul BOFH” face victime, dar vorba bunicii mele Safta Turing: “daca nu poti spune nimic bun mai bine taci”.

      My 10 bits!

  2. Mihai Badici Mihai Badici spune:

    O sa incerc si la Medievalia, pana atunci vedeti ca am scris despre Bitcoin acum cateva saptamani :)
    Scopul meu – evident- nu e sa concurez cu agentiile de presa si sa aduc cele mai noi stiri , ci sa incerc sa evidentiez unele tendinte din lumea IT. Chiar daca e un domeniu dinamic, un orizont de un an, chiar doi e rezonabil pentru a deslusi o tendinta, altfel risti sa nu vezi padurea din cauza copacilor. Din cele 21 (!) de monede enumerate, doar Bitcoin pare sa aiba viabilitate, de asta i-am si dedicat un articol. Multe flori sunt, dar putine…. :)



Comenteaza:







Do NOT fill this !

Autor

Mihai Badici


Mihai Badici

Absolvent al Facultății de Electronică si Telecomunicații București ( 1991) si doctorand al aceleiași facultăți. Administrator de sistem cu peste zece ani de experienț... Citeste mai departe


MIHAI MACI – Cel de-al doilea volum din Colectia Contributors.ro

"Atunci când abdică de la menirea ei, școala nu e o simplă instituție inerțială, ci una deformatoare. Și nu deformează doar spatele copiilor, ci, în primul rând, sufletele lor. Elevul care învață că poate obține note mari cu referate de pe internet e adultul de mâine care va plagia fără remușcări, cel care-și copiază temele în pauză va alege întotdeauna scurtătura, iar cel care promovează cu intervenții va ști că la baza reușitei stă nu cunoașterea, ci cunoștințele. Luate indi­vidual, lucrurile acestea pot părea mărunte, însă cumulate, ele dau măsura deformării lumii în care trăim și aruncă o umbră grea asupra viitorului pe care ni-l dorim altfel." - Mihai Maci

E randul tau

cu ani in urma un prieten cambodgian mi-a povestit cum a fost omorat pe taica-sau pe vremea khmerilo...

de: r2

la "Ce-ar fi să vorbim cu-adevărat corect politic despre Fidel Castro?"

Cauta articole

decembrie 2016
Lu Ma Mi Jo Vi Du
« Noi    
 1234
567891011
12131415161718
19202122232425
262728293031  

Valentin Naumescu – Marile schimbari. Crize si perspective in politica internationala. Editie bibliofila

contributors.ro

Contributors.ro este intr-o permanenta cautare de autori care pot da valoare adaugata dezbaterii publice. Semnaturile noi sunt binevenite cata vreme respecta regulile de baza ale site-ului. Incurajam dezbaterea relaxata, bazata pe forta argumentelor.
Contact: editor[at]contributors.ro

(An essay by Vladimir Tismaneanu and Marius Stan)