
Relevanta versus Importanta
Feb 3, 2009 SEO
Astazi vreau sa vorbesc despre un subiect extrem, extrem, extrem de important in intelegerea optimizarii ca stiinta. De multe ori vad si aud termenii de relevanta si importanta folositi impropriu si, la fel ca si in cazul PageRank-ului, multa confuzie e creeata gratuit in jurul lor si in mod direct, in jurul conceptului de SEO si a ce presupune el.
Cum functioneaza un motor de cautare
Din “politete” am formulat sub-titlul de mai sus cu “motor de cautare”, nu cu Google, insa putem asuma ca majoritatea motoarelor de cautare moderne (Yahoo, MSN et co) au adoptat in mare conceptul de link-graph search engine, pe care Google il lansa prin 2000 odata cu ideea de PageRank. Despre PageRank am scris data trecuta, dar merita sa revin putin la subiect, pentru ca in articolul respectiv, chiar daca am acoperit mult teren am zgariat doar suprafata acestui concept. Insa inainte sa vedem care e diferenta dintre PageRank-ul care il vedem noi in Google toolbar si PageRank-ul real al unei pagini, am pregatit un mic ghid grafic care ne arata mult mai clar (sper) cum functioneaza un motor:

1. Userul tasteaza in Google query-ul de care e interesat (in cazul acesta query-ul e “keyword”).
2. Baza de date a motorului contine miliarde de documente (pagini), iar indexul trebuie parsat si extrase documentele care pot fi relevante pentru query-ul respectiv.
3. Algoritmul de determinare a relevantei unei pagini pentru un query (numit de Google “Hyper Text Matching Algorithm”) merge mai adanc, extragand documentele care au query-ul in puncte specifice, precum in titlu, in headere, in continut, in meta tags, in ancorele linkurilor inbound, etc. In pasul acesta se restrange numarul de rezultate intre 1 si 1,000 (1,000 fiind numarul maxim de pagini pentru un query – de exemplu 100 de pagini a cate 10 rezultate, sau 10 pagini a cate 100 de rezultate).
4. Fiecare document e trecut apoi printr-o serie de filtre, dintre care cele mai importante fiind PageRank-ul si cel de geo-targetting. Aici se acorda importanta fiecarui document, pe baza careia se construiesc apoi paginile din SERP.
5. Rezultatul final – SERP (Search Engine Results Pages).
Real PageRank si Toolbar PageRank
In primul rand sa facem diferenta esentiala intre real PageRank (ii zicem de acum RePR), ca tehnologie folosita in analizarea unui site in functie de numarul si importanta linkurilor si toolbar PageRank (ii zicem TPR de acum) care e un indicator vizual dar foarte general al PageRank-ului real al unei pagini. De aici incolo, cand vorbesc de PageRank, sau RePR, ma refer strict la PageRank-ul “adevarat” al unei pagini, nu la TPR, care poate fi de multe ori afisat eronat. In cazul in care e corect, modul de afisare a TPR-ului ca indicator e logaritmic si fiecare din cele 11 valori pe care le poate lua (TPR 0 -> TPR 10) corespunde unui vector de RePR-uri, delimitate de ridicarea la putere a bazei initiale. Puterea folosita nu se cunoaste si e extrem de dificil sa o aflam, dar intuind putem determina ca e undeva intre 2 si 5. Diferenta intre un RePR determinat de baza 2 sau de baza 5 e insa imensa, dupa cum se vede in urmatoarele doua grafice:
Ca sa fie mai usor sa vizualizam, luam exemplul bazei 5:
TPR0 = RePR 0.15 - 1
TPR1 = RePR 2– 5
TPR2 = RePR 6– 25
TPR3 = RePR 26 – 125
TPR4 = RePR 126 – 625
TPR5 = RePR 626 – 3,125
TPR6 = RePR 3,126 – 15,625
TPR7 = RePR 15,626 – 78,125
TPR8 = RePR 78,126 – 390,625
TPR9 = RePR 390,626 – 1,953,125
TPR10 = RePR 1,953,126 –9,765,625
Observam 3 lucruri:
1. RePR-ul are vectori lungi de reprezentare pentru TPR-urile de valori mai mari. Ca sa fie si mai clar: Daca RePR-ul tau e 15,800 sau 78,100, TPR-ul paginii va fi tot 6 pentru ca vei fi la limita de jos, respectiv limita de sus a vectorului de valori care sunt reprezentate de TPR6.
2. TPR-ul poate fi un indicator bun al puterii unei pagini, dar in acelasi timp, din cauza lungimii vectorului reprezentativ de care vorbeam mai sus, poate sa fie foarte inexact. Spre exemplu, un TPR6 care arata un RePR din limita de jos a vectorului (15,800) e la fel de valoros ca un TPR5 din limita de sus (15,500) iar un TPR6 care arata un RePR din limita de sus a vectorului (78,100) e la fel de valoros ca un TPR7 din limita de jos (78,200).
3. E mult mai usor sa determini avantajul real pe care ti-l aduce un site cu TPR mai mic, decat unul cu TPR mai mare, tocmai pentru ca vectorul reprezentativ nu mai e atat de mare.
Repet, numerele care le-am dat mai sus trebuie luate doar ca observatie teoretica, nu exista nici o declaratie oficiala de la Google cum ca baza logaritmica ar fi 5, cea in care am demonstrat noi.
Determinarea importantei unei pagini
PageRank-ul real e cel care da de fapt importanta unei pagini, acel trust, link power, link juice, link trust, link flow de care auziti mereu pe site-urile in engleza si uneori la mine (eu in general ii spun “trust”, tocmai pentru ca daca zici PageRank, se face confuzia cu toolbar PageRank).
Dupa cum am vazut mai sus insa, PageRank-ul nu determina in nici un fel relevanta unei pagini ci doar aranjeaza documentele gasite de algoritmul de relevanta, iar apoi le sorteaza in functie de importanta lor. De multe ori insa vedem cum motorul duce o lupta intre PageRank si algoritmul de relevanta pentru afisarea rezultatelor: apar mai sus rezultate mai putin relevante (de exemplu, keyword doar in titlu fata de 5-6 instante a keywordului in alt document, in titlu, headere si continut) dar de pe pagini si site-uri mai importante.
Concluzii
Dupa tot ce am vazut mai sus, putem trage o concluzie clara: ca sa ajungi sus cu o pagina in Google, ai nevoie sa satisfaci cei 2 algoritmi de baza: algoritmul de relevanta si PageRank-ul. De aici se desface de fapt ramura optimizarii web, si cei doi “copii” ai ei: optimizarea on-page, executata in general pentru a face paginile cat mai relevante si pentru a asigura un flux corect al PageRank-ului de pe site si strategia de link building, care se concentreaza pe aducerea de linkuri care sa adauge PageRank real (trust).
Exista insa un substrat mai stiintific la tot ce am zis si daca vreti sa vedeti si sa intelegeti conceptele matematice care stau la baza unui motor de cautare cum e Google, va invit sa cititi de pe site-urile pe care le-am adaugat mai jos, la “lectura suplimentara”.
Lectura Suplimentara
Term Vector Theory - Un articol stiintific despre teoria acordarii relevantei intr-un motor de cautare vectorial.
Search Engine Watch - How Search Engines Work
Search Engine Watch - How Search Engines Rank Pages
SEO Book - Search Engine Relevancy Reviewed
The Anatomy of a Hyper-Text Search Engine - lucrarea lui Larry Page si Sergey Brin in care e descris modul de operare a motorului de cautare Google.
Google Technology - How Google Works
- Calitate versus cantitate in continutul unui site
- Mituri SEO – TrustRank
- Logouri simple versus Logouri complexe
- PageRank Explained
- Cat conteaza pozitionarea link-urilor pe pagina?















February 4th, 2009 at 12:27 am
Buna,
Am vazut articolul tau si mi-a atras imediat atentia din mai multe motive. Distinctia intre relevanta si importanta intr-un motor de cautare generic m-a bantuit de cateva ori pana acuma, la inceput cu o aplicatie pe care am constriuit-o ( acum defunctul threadboss.com ) si din care cel mai bun lucru care l-am scos in final a fost o lucrare de licenta buna ( zic eu si dinstinsii UBB-ului ) si multe concluzii trase pe acest topic. Ideea este ca aceste doua concepte se pot implementa in orice domeniu legat de motoarele de cautare. Motorul dezvoltat de noi facea cautari in forum-uri indexate de pe net, ideea de baza din spate era ca vom indexa thread-urile si vom executa cautarea dupa keywords, iar scorul final al unui item va fi compus din relevanta continutului lui la query-ul emis + greutatea unui scor care il dadeam fiecarui thread la indexare/reindexare care era compus din vechimea post-ului, numarul de reply-uri / numarul de vizite, Google Page Rank-ul boardului si alti factori.
Ideea asta se poate aplica atunci cand cauti orice in orice Document. Cand cauti articole medicale intr-o baza de date specializata vei putea compara intai relevanta continutului versus query-ul initial, iar pentru importanta poti lua numarul de medalii pe care le-a primit autorul articolului :). De aici se nasc o gramada de posibilitati de motoare de cautare de nisa, de la cele pornografice pana la cele care cauta in classified ads pe net. Practic ideea ii aceeasi, faci un full text search pe o serie de galetzi, aduni rezultatele cele mai relevante din fiecare galeata si aplici un algoritm final ( cel care determina importanta fiecarui item ) pentru a face o ultima triere.
Un framework de cautare care suporta implementarea unui algoritm custom ( pe care l-am folosit si noi ) este Lucene ( http://lucene.apache.org ). Cu putina munca poti ajunge sa creezi algoritmi de cautare customizati pentru orice set de documente. Scaleaza bine pana la cateva zeci de milioane de documente si indecsi de zeci de giga pe o singura masina.
O alta implementare comerciala este Sphinx ( http://www.sphinxsearch.com ) care suporta cautari distribuite out of the box, dar despre care nu stiu sa fie la fel de customizabil ca si Lucene.
Odata ce ai inteles cu functioneaza ranking-ul de rezultate si cum merge un query broadcast ( adica faptul ca un query este distribuit la mai multe servere de google pe care este partajat tot index-ul global, se executa pe fiecare server cautarea dupa cuvinte pentru a gasi cele mai RELEVANTE rezultate, dup-aia se unesc toate pe masina care a initiat broadcast-ul si se aplica sortarea dupa IMPORTANTA … practic aplicarea unei forme a algoritmului de Map/Reduce ) motorul de cautare in sine nu mai prezinta asa de multe mistere. Fine tuning-ul sau, infrastructura IT si cei 12 ani de experienta a Google in a-si ajusta motorul este ceea ce ii face sa para asa de departe de tot ceea ce inseamna concurenta.
February 4th, 2009 at 10:37 am
Inca un articol frumos si scris cum trebuie. Iar apare Krumel si te lauda si mai faceti schimb de linkuri intre voi
la articole. Imi place ca ai rabdare sa scrii mereu detaliat chiar si pe forum nu numai pe blogul tau. Ai si vocatie de profesor.
February 4th, 2009 at 7:12 pm
@Bogdan: mersi de comment, e o completare buna pentru ca tu ai lucrat practic si direct cu lucrurile despre care eu teoretizez in articol.
@Gabi: sa stii ca nu ne intelegem cu Krumel cand sa ne linkam unul pe celalalt, pur si simplu daca eu simt ca un articol de-al lui ar fi util celor care imi citesc mie blogul, dau link catre el (si probabil si Krumel face la fel).
Vocatia de profesor vine probabil din faptul ca ambii mei parinti sunt profesori si si fratele meu a predat o perioada scurta. Deci, it runs in the family
February 6th, 2009 at 6:13 pm
Gabi…si tie ti-as da un link daca ai scrie de calitate…dar cum preferi doar sa comentezi si sa pui ca referinta la link blogul lui Tudi, ramai anonim si deci nu iti pot pune.
February 6th, 2009 at 9:38 pm
Profesore, un nou articol de referinta.
E bine ca ati ales sa impartasiti din experienta voastra , atat tu, cat si Krumel, Remus, Tudor Mateescu, probabil si altii.
Congrats.
February 7th, 2009 at 1:11 am
@Krumel: cred ca Gabi glumea, sper ca nu insinua ca noi ne linkam unul pe celalalt ca sa rankam mai bine in motoare. Pe ce sa rankez daca imi pune Krumel link la articolul asta, pe keywordul “relevanta”? :))
P.S. Cred ca daca nu pune link catre un site extern cand face comentariul ii pune automat link catre http://www.tudi.ro
@Roby: doamne cum suna, auzi tu “profesore”. Ma faci sa ma simt batran
Ce as vrea sa zic legat de comentariul tau e ca sunt convins ca in Romania sunt multi SEO extrem de talentati si profesionisti, poate unii cu care nici nu m-as putea compara. De fapt am si intalnit 2 SEO in-house foarte profesionisti dar care nu vroiau sa fie “persoane publice”.
Faptul ca noi am decis sa facem un pas in fata si sa impartasim informatiile si experienta noastra e ok, dar eu nu ma consider in nici un fel superior unui SEO in-house care tace si face, avand aceleasi rezultate bune
February 14th, 2009 at 12:07 am
[...] Cum functioneaza motoarele de cautare [...]
March 13th, 2009 at 9:23 pm
Un articol foarte utile, care ma facut sa inteleg mai bine ceva ce eu intuiam de mul, felicitari Tudi