La începutul lunii trecute, în garajul originar (garajul a devenit icon-ul clasic al startup-ului IT, ajuns ulterior gigant – uneori, regret ca lucrez în camera mea!) Google a anunțat noul algoritm de căutare numit Hummingbird, care, la data respectivă, funcționa deja de o lună.
Mărturisesc că nu sunt vreun mare specialist în SEO ( adica “search engine optimization” ), dar am fost oarecum interesat de subiect deoarece interferează cu domeniul inteligenței artificiale, domeniu în care am unele preocupări. Si am intrat deseori în contact cu persoane care se ocupă de SEO, un domeniu oarecum conex.
Schimbarea pe care o aduce noul algoritm este majoră cel puțin prin schimbarea abordării operațiilor de căutare și indexare.
Google a folosit până acum celebrul PageRank, algoritmul inventat de Larry Page, care acordă scoruri unei pagini în funcție de numărul de link-uri pe care alte pagini le au către ea. Altfel spus, o pagină e cu atât mai relevantă cu cât mai multe pagini vorbesc despre ea. Acest algoritm ar trebui să funcționeze bine, cel puțin într-un context non-adversarial, adică într-un context în care creatorii de site-uri nu încearcă să manipuleze rezultatele. Această premisă a fost validă la începuturi, însă o dată cu răspândirea internetului și a marketingului pe internet, manipularea rezultatelor a devenit o regulă, de la inocentele „schimburi de bannere” sau de link-uri, la strategii complexe cu multiple redirectări, cu site-uri special concepute pentru a găzdui astfel de link-uri și multe altele pe care alții le știu mai bine ca mine.
Google a operat în timp mai multe corecții în algoritmul original pentru a contracara acțiunile de manipulare a rezultatelor, pentru că deși în principiu o acțiune de SEO ese o acțiune normală și legitimă (un site care desfășoară acțiuni de promovare s-ar putea să fie oricum mai relevant decât unul care nu desfășoară fiind abandonat de ani de zile) rezultatul global este destul de neplăcut, producând o deteriorare a calității rezultatelor și eventual favorizând site-urile cu caracer comercial în dauna celor generale și informative, care dispun de mai puține fonduri pentru promovare.
Schimbarea fundamentală adusă de noul algoritm este însă la nivelul interpretării frazei de căutare.
Algoritmul cel vechi nu presupunea nici o legătură între cuvintele din șirul căutat. Aceste cuvinte erau considerate independente, iar rezultatul era compus din pagini care conțineau aceste cuvinte. Se folosea ceea ce se numește un estimator naiv, care nu analizează conținutul propoziției , considerând cuvintele necorelate. Rezultatul era uneori destul de imprevizibil și ducea la multe rezultate nerelevante; eliminarea acestora a devenit însă, după listarea la bursă a Google, nu numai o cerință a utilizatorului comun, dar mai ales a celor care folosesc serviciile google de publicitate , aceasta fiind de asemenea contextuală. Ca o mică paranteză, acum câteva luni am căutat o placă RAID pentru un server mai vechi al unui client. Reclamele la plăci raid m-au însoțît câteva luni după aceea pe orice site cu publicitate.
Ori, schimbarea algoritmului tocmai asta încearcă. În loc să analizeze cuvintele individual, algoritmul încearcă o analiză semantică a frazei, pentru a determina ce anume vrem să aflăm de fapt.
Preocupările în domeniul analizei semantice a limbajului sunt vechi dar deocamdată nu foarte spectaculoase. În tot cazul, ele depind în mare măsură de cantitatea de date pe care mașina o are la dispoziție și o poate prelucra, iar la acest capitol Google e imbatabil.
Deocamdată hummingbird poate să răspundă la întrebări simple în limba engleză. Pentru asta, Google folosește un knowledge graph, o sursă de informații cu conținut semantic derivate, conform prezentarii din: CIA World Factbook, Freebase și Wikipedia . Pe baza acestuia, o întrebare de tipul How old is Barack Obama nu va căuta site-uri care conțin cuvintele old, Barack și Obama, ci va „înțelege” că ne interesează un numar anume. Mai mult, How old is Barak Obama va produce exact aceleași rezultate ca Barack Obama age. Puteți încerca și cu alte personaje, atâta timp cât informațiile respective se găsesc în Knowledge Graph. În caz contrar, se pare că se aplică un algoritm clasic.
Schimbarea algoritmului în acest sens este un prim mic pas în sensul a ceea ce susțineam într-un articol anterior referitor la dispozitivele mobile ( îmi însușesc critica unui cititor, Data nu e căpitan ci lt-comandor). Noul algoritm permite căutarea vocală directă cu propoziții de tipul Where is Pața Unirii? sau chiar When is Mircea Cartărescu birthday? Deocamdată, în limba engleză iar informația trebuie să fie disponibilă în Knowledge Graph ( deci una din misiunile de bază ale noilor SEO va fi să îmbogățească Wikipedia) . Însă probabil baza de date se va extinde din ce în ce mai mult – ceea ce va necesita în același timp și algoritmi de verificare a corectitudinii acestora. Algoritmii de inteligență artificială au nevoie de date pentru etapa de învățare, dar Google are suficiente date. De asemenea e de așteptat ca și alți jucători – poate chiar Microsoft – să încerce să preia trendul; cum domeniul algoritmilor e încă nestabilizat, nu există un algoritm care să se detașeze ca fiind cel mai bun, așa ca nu se știe cine poate scoate din pălărie iepurele câștigător. Există deja în piață unele încercări, însă nici una nu s-a evidențiat. În același timp, cu suficiente date la dispoziție, chiar și algoritmii clasici se pot dovedi destul de eficienți, ceea ce face lupta extrem de inegală pentru startup-uri, care nu au la dispoziție atâtea date pentru învățare și mai ales putere de calcul pentru a le prelucra.
Articolele scrise pana acuma le puteti trimite la medievalia.ro si vor avea un enorm succes:)
Ma veti convinge ca nu sunteti ramas in urma cand veti scrie despre Satoshi Nakamoto si monedele sale criptografice
Bitcoin care acuma e 1000 de dolari cu o capitalizare totala de 12 miliarde de dolari
Litecoin-argintul bitcoin-10 dolari pe moneda
Feathercoin-5 dolari
Namecoin-2 dolari
Novacoin
Netcoin
Neocoin
Phoenixcoin
Florincoin:)))
Worldcoin
Globalcoin
Megacoin
Extremecoin
Lucky Coin
Anoncoin
Bit Bar-de 240 de ori mai valoros ca si bitcoinul
si asa mai departe
Digital coin
Securecoin
Sexcoin
Devcoin
Terracoin-bronzul bitcoin
Domnule Ilea,
Pe puncte, ca n-are sens sa-mi pierd timpul:
1. Domnul Badici scrie articole care intereseaza cititorii platformei contributors sub toate aspectele legate de influenta IT asupra „vietii virtuale”.
2. Alte articole ale aceluiasi autor trateaza evolutia sectorului IT privit ca ramura economica, si particularitatile sale in contrast (sau dimpotriva, in aliniere) cu regulile generale de transfer al capitalului.
3. O expunere legata de monedele virtuale – sub aspect informatic – depaseste cadrul acestei platforme si ar provoca (in cel mai bun caz) confuzie in randul cititorilor.
4. O expunere legata de monedele virtuale – sub aspect social/legislativ/economic – nu intra in atributiile autorului, acesta fiind specialist IT si nu expert in politici monetare.
5. BTC nu mai este de mult o noutate (peste jumatate din economiile mele sunt in BTC), deci discutia se poate alinia uneia privind civilizatia Cucuteni.
6. In fine, agresivitatea n-a folosit nimanui! Inteleg ca activitatea in domeniul IT este stresanta iar „sindromul BOFH” face victime, dar vorba bunicii mele Safta Turing: „daca nu poti spune nimic bun mai bine taci”.
My 10 bits!
O sa incerc si la Medievalia, pana atunci vedeti ca am scris despre Bitcoin acum cateva saptamani :)
Scopul meu – evident- nu e sa concurez cu agentiile de presa si sa aduc cele mai noi stiri , ci sa incerc sa evidentiez unele tendinte din lumea IT. Chiar daca e un domeniu dinamic, un orizont de un an, chiar doi e rezonabil pentru a deslusi o tendinta, altfel risti sa nu vezi padurea din cauza copacilor. Din cele 21 (!) de monede enumerate, doar Bitcoin pare sa aiba viabilitate, de asta i-am si dedicat un articol. Multe flori sunt, dar putine…. :)