vineri, aprilie 19, 2024

Despre Hummingbird, noii algoritmi Google de cautare

La începutul lunii trecute, în garajul originar (garajul a devenit icon-ul clasic al startup-ului IT,  ajuns ulterior gigant – uneori, regret ca lucrez în camera mea!)  Google a anunțat noul algoritm de căutare numit Hummingbird, care, la data respectivă, funcționa deja de o lună.

Mărturisesc că nu sunt vreun mare specialist în SEO ( adica “search engine optimization” ), dar am fost oarecum interesat de subiect deoarece interferează cu domeniul inteligenței artificiale, domeniu în care am unele preocupări.  Si am intrat deseori în contact cu persoane care se ocupă de SEO, un domeniu oarecum conex.

Schimbarea pe care o aduce noul algoritm este majoră cel puțin prin schimbarea abordării operațiilor de căutare și indexare.

Google a folosit până acum celebrul PageRank, algoritmul inventat de Larry Page, care acordă scoruri unei pagini în funcție de numărul de link-uri pe care alte pagini le au către ea. Altfel spus, o pagină e cu atât mai relevantă cu cât mai multe pagini vorbesc despre ea. Acest algoritm ar trebui să funcționeze bine, cel puțin într-un context non-adversarial, adică într-un context în care creatorii de site-uri nu încearcă să manipuleze rezultatele. Această premisă a fost validă la începuturi, însă o dată cu răspândirea internetului și a marketingului pe internet, manipularea rezultatelor a devenit o regulă, de la inocentele „schimburi de bannere” sau de link-uri, la strategii complexe cu multiple redirectări, cu site-uri special concepute pentru a găzdui astfel de link-uri și multe altele pe care  alții le știu mai bine ca mine.

Google a operat în timp mai multe corecții în algoritmul original pentru a contracara acțiunile de manipulare a rezultatelor, pentru că deși în principiu o acțiune de SEO ese o acțiune normală și legitimă (un site care desfășoară acțiuni de promovare s-ar putea să fie oricum mai relevant decât unul care nu desfășoară fiind abandonat de ani de zile) rezultatul global este destul de neplăcut, producând o deteriorare a calității rezultatelor și eventual favorizând site-urile cu caracer comercial în dauna celor generale și informative, care dispun de mai puține fonduri pentru promovare.

Schimbarea fundamentală adusă de noul algoritm este însă la nivelul interpretării frazei de căutare.

Algoritmul cel vechi  nu presupunea nici o legătură între cuvintele din șirul căutat. Aceste cuvinte erau considerate independente, iar rezultatul era compus din pagini care conțineau aceste cuvinte. Se folosea ceea ce se numește un estimator naiv, care nu analizează conținutul propoziției , considerând cuvintele necorelate.  Rezultatul era uneori destul de imprevizibil și ducea la multe rezultate nerelevante;  eliminarea acestora a devenit însă, după listarea la bursă a Google, nu numai o cerință a utilizatorului comun, dar mai ales a celor care folosesc serviciile google de publicitate , aceasta fiind de asemenea contextuală. Ca o mică paranteză, acum câteva luni am căutat o placă RAID pentru un server mai vechi al unui client. Reclamele la plăci raid m-au însoțît câteva luni după aceea pe orice site cu publicitate.

Ori, schimbarea algoritmului tocmai asta încearcă. În loc să analizeze cuvintele individual, algoritmul încearcă o analiză semantică a frazei, pentru a determina ce anume vrem să aflăm de fapt.

Preocupările în domeniul analizei semantice a limbajului sunt vechi dar deocamdată nu foarte spectaculoase. În tot cazul, ele depind în mare măsură de cantitatea de date pe care mașina o are la dispoziție și o poate prelucra, iar la acest capitol Google e imbatabil.

Deocamdată hummingbird poate să răspundă la întrebări simple în limba engleză. Pentru asta, Google folosește un knowledge graph, o sursă de informații cu conținut semantic derivate, conform prezentarii din:  CIA World Factbook, Freebase și  Wikipedia .  Pe baza acestuia, o întrebare de tipul How old is Barack Obama nu va căuta site-uri care conțin cuvintele old, Barack și Obama, ci va „înțelege” că ne interesează un numar anume. Mai mult, How old is Barak Obama va produce exact aceleași rezultate ca Barack Obama age. Puteți încerca și cu alte personaje, atâta timp cât informațiile respective se găsesc în Knowledge Graph. În caz contrar, se pare că se aplică un algoritm clasic.

Schimbarea algoritmului în acest sens este un prim mic pas în sensul a ceea ce susțineam într-un articol anterior referitor la dispozitivele mobile ( îmi însușesc critica unui cititor, Data nu e căpitan ci lt-comandor).  Noul algoritm permite căutarea vocală directă cu propoziții de tipul Where is Pața Unirii? sau chiar When is Mircea Cartărescu birthday? Deocamdată, în limba engleză iar informația trebuie să fie disponibilă în Knowledge Graph ( deci una din misiunile de bază ale noilor SEO va fi să îmbogățească Wikipedia) . Însă probabil baza de date se va extinde din ce în ce mai mult – ceea ce va necesita în același timp și algoritmi de verificare a corectitudinii acestora.  Algoritmii de inteligență artificială au nevoie de date pentru etapa de învățare, dar Google are suficiente date. De asemenea e de așteptat ca și alți jucători – poate chiar Microsoft – să încerce să preia trendul; cum domeniul algoritmilor e încă nestabilizat, nu există un algoritm care să se detașeze ca fiind cel mai bun, așa ca nu se știe cine poate scoate din pălărie iepurele câștigător.  Există deja în piață unele încercări, însă nici una nu s-a evidențiat. În același timp, cu suficiente date la dispoziție, chiar și algoritmii clasici se pot dovedi destul de eficienți, ceea ce face lupta extrem de inegală pentru startup-uri, care nu au la dispoziție atâtea date pentru învățare și mai ales putere de calcul pentru a le prelucra.

Distribuie acest articol

3 COMENTARII

  1. Articolele scrise pana acuma le puteti trimite la medievalia.ro si vor avea un enorm succes:)
    Ma veti convinge ca nu sunteti ramas in urma cand veti scrie despre Satoshi Nakamoto si monedele sale criptografice
    Bitcoin care acuma e 1000 de dolari cu o capitalizare totala de 12 miliarde de dolari
    Litecoin-argintul bitcoin-10 dolari pe moneda
    Feathercoin-5 dolari
    Namecoin-2 dolari
    Novacoin
    Netcoin
    Neocoin
    Phoenixcoin
    Florincoin:)))
    Worldcoin
    Globalcoin
    Megacoin
    Extremecoin
    Lucky Coin
    Anoncoin
    Bit Bar-de 240 de ori mai valoros ca si bitcoinul
    si asa mai departe
    Digital coin
    Securecoin
    Sexcoin
    Devcoin
    Terracoin-bronzul bitcoin

    • Domnule Ilea,

      Pe puncte, ca n-are sens sa-mi pierd timpul:

      1. Domnul Badici scrie articole care intereseaza cititorii platformei contributors sub toate aspectele legate de influenta IT asupra „vietii virtuale”.

      2. Alte articole ale aceluiasi autor trateaza evolutia sectorului IT privit ca ramura economica, si particularitatile sale in contrast (sau dimpotriva, in aliniere) cu regulile generale de transfer al capitalului.

      3. O expunere legata de monedele virtuale – sub aspect informatic – depaseste cadrul acestei platforme si ar provoca (in cel mai bun caz) confuzie in randul cititorilor.

      4. O expunere legata de monedele virtuale – sub aspect social/legislativ/economic – nu intra in atributiile autorului, acesta fiind specialist IT si nu expert in politici monetare.

      5. BTC nu mai este de mult o noutate (peste jumatate din economiile mele sunt in BTC), deci discutia se poate alinia uneia privind civilizatia Cucuteni.

      6. In fine, agresivitatea n-a folosit nimanui! Inteleg ca activitatea in domeniul IT este stresanta iar „sindromul BOFH” face victime, dar vorba bunicii mele Safta Turing: „daca nu poti spune nimic bun mai bine taci”.

      My 10 bits!

  2. O sa incerc si la Medievalia, pana atunci vedeti ca am scris despre Bitcoin acum cateva saptamani :)
    Scopul meu – evident- nu e sa concurez cu agentiile de presa si sa aduc cele mai noi stiri , ci sa incerc sa evidentiez unele tendinte din lumea IT. Chiar daca e un domeniu dinamic, un orizont de un an, chiar doi e rezonabil pentru a deslusi o tendinta, altfel risti sa nu vezi padurea din cauza copacilor. Din cele 21 (!) de monede enumerate, doar Bitcoin pare sa aiba viabilitate, de asta i-am si dedicat un articol. Multe flori sunt, dar putine…. :)

LĂSAȚI UN MESAJ

Vă rugăm să introduceți comentariul dvs.!
Introduceți aici numele dvs.

Autor

Mihai Badici
Mihai Badici
Absolvent al Facultății de Electronică si Telecomunicații București ( 1991) Administrator de sistem cu peste zece ani de experiență cu specializari in sisteme de stocare si securitatea datelor. De asemenea a absolvit in 1996 Facultatea de Litere la Universitatea Bucuresti. In prezent, consultant IT independent, colaboreaza pe mai multe proiecte legate de infrastructura de date.

Sprijiniți proiectul Contributors.ro

Pagini

Carti noi

 

Cu acest volum, Mirel Bănică revine la mai vechile sale preocupări și teme de cercetare legate de relația dintre religie și modernitate, de înțelegerea și descrierea modului în care societatea românească se raportează la religie, în special la ortodoxie. Ideea sa călăuzitoare este că prin monahismul românesc de după 1990 putem înțelege mai bine fenomenul religios contemporan, în măsura în care monahismul constituie o ilustrare exemplară a tensiunii dintre creștinism și lumea actuală, precum și a permanentei reconfigurări a raportului de putere dintre ele.
Poarta de acces aleasă pentru a pătrunde în lumea mănăstirilor o reprezintă ceea ce denumim generic „economia monastică”. Autorul vizitează astfel cu precădere mănăstirile românești care s-au remarcat prin produsele lor medicinale, alimentare, cosmetice, textile... Cumpara cartea de aici

Carti noi

În ciuda repetatelor avertismente venite de la Casa Albă, invazia Ucrainei de către Rusia a șocat întreaga comunitate internațională. De ce a declanșat Putin războiul – și de ce s-a derulat acesta în modalități neimaginabile până acum? Ucrainenii au reușit să țină piept unei forte militare superioare, Occidentul s-a unit, în vreme ce Rusia a devenit tot mai izolată în lume.
Cartea de față relatează istoria exhaustivă a acestui conflict – originile, evoluția și consecințele deja evidente – sau posibile în viitor – ale acestuia. Cumpara volumul de aici

 

Carti

După ce cucerește cea de-a Doua Romă, inima Imperiului Bizantin, în 1453, Mahomed II își adaugă titlul de cezar: otomanii se consideră de-acum descendenții Romei. În imperiul lor, toleranța religioasă era o realitate cu mult înainte ca Occidentul să fi învățat această lecție. Amanunte aici

 
„Chiar dacă războiul va mai dura, soarta lui este decisă. E greu de imaginat vreun scenariu plauzibil în care Rusia iese învingătoare. Sunt tot mai multe semne că sfârşitul regimului Putin se apropie. Am putea asista însă la un proces îndelungat, cu convulsii majore, care să modifice radical evoluţiile istorice în spaţiul eurasiatic. În centrul acestor evoluţii, rămâne Rusia, o ţară uriaşă, cu un regim hibrid, între autoritarism electoral şi dictatură autentică. În ultimele luni, în Rusia a avut loc o pierdere uriaşă de capital uman. 
Cumpara cartea

 

 

Esential HotNews

contributors.ro

Contributors.ro este intr-o permanenta cautare de autori care pot da valoare adaugata dezbaterii publice. Semnaturile noi sunt binevenite cata vreme respecta regulile de baza ale site-ului. Incurajam dezbaterea relaxata, bazata pe forta argumentelor.
Contact: editor[at]contributors.ro