Parliamo di motori di ricerca

a cura di Maurizio Carrer

La tecnologia PageRank di Google è veramente innovativa per certi versi e per altri pone interessanti quanto inquietanti interrogativi. Di che cosa si tratta? Prima di affrontare l’argomento è opportuno fare una premessa.

Lo scopo (o meglio, il sogno) dei motori di ricerca è quello di poter catalogare tutto ciò che viene pubblicato sul web e per realizzare ciò si avvalgono di sofisticatissimi software agenti, detti spider. Tali programmi sondano e classificano ogni giorno milioni di documenti e ne indicizzano il contenuto all’interno di database proprietari. Nonostante ciò, la rete è molto più vasta di quanto lavoro possano fare gli spider. Google ad esempio che con AllTheWeb vanta il primato del database più vasto ha indicizzato circa 8 miliardi di pagine web, ma pare che la rete sia composta da un numero di  documenti centinaia di volte più grande! [1]
Ad ogni richiesta dell’utente (query) viene compilato un ranking di risultati, la cui completezza ed accuratezza determina il successo o meno del servizio. Quante volte noi abbiamo utilizzato un motore di ricerca con la speranza di trovare al primo tentativo quello che cerchiamo?  Per riuscirci ci vuole un po’ di fortuna, ecco perché i creatori di Google con buona dose di ironia hanno collocato il pulsante “Mi sento fortunato” sulla homepage.

Navigare su Internet ci ha abituato ad aver a che fare con le “parole chiave” che inseriamo nei campi di ricerca, quelle parole cioè che riteniamo fondamentali per la  ricerca di documenti in base a criteri personali, che poi di fatto vengono affinati con l’esperienza. Se inseriamo ad esempio “vacanze in Grecia” ci aspettiamo probabilmente un elenco di risultati che ci aiutino nell’organizzazione di una vacanza ed inoltre ci aspettiamo che tale elenco risulti in ordine di importanza.
L’ordine di presentazione è chiamato “ranking” e la lista che ci viene presentata è compilata automaticamente in base a criteri che i motori di ricerca chiamano “di rilevanza”. Possiamo dire che ogni motore di ricerca utilizza regole differenti per determinare la rilevanza, anche se in realtà a volte le differenze sono minime.

Una semplice prova la possiamo fare anche subito: provate ad interrogare più motori di ricerca sulla stessa parola chiave e otterrete risultati differenti. La vera distinzione, ciò che fa parlare di motori di ricerca di prima e seconda generazione è il criterio di indicizzazione. I motori di prima generazione utilizzano prevalentemente metodi di indagine “all’interno del sito”,  quindi lo spider verifica quanto è attinente ciascuna pagina di un determinato sito con quello che stiamo cercando. I motori di ricerca più moderni (Google e AllTheWEb in testa), di seconda generazione, preferiscono affidarsi a fattori premianti verso chi è stato capace di costruirsi un solido tessuto di link con il maggior numero di partner possibili. Google attribuisce ranking più elevati ai siti che sono preferiti dagli utenti, quindi più visitati, aggiornati di frequente, citati da altri siti con redazionali o link. Inoltre ha un occhio di riguardo per i siti che partecipano allo sviluppo del web, cioè quelli che contengono link esterni, che non hanno vicoli ciechi (le antipatiche “pagina in costruzione”), leggibili, ben navigabili. Chiunque ha un sito Internet e partecipa a questo progetto di diffusione del web, facendo crescere la ragnatela, si costruisce una solida “link popularity” e sarà preso in ottima considerazione da Google.
Mentre i motori di ricerca di prima generazione premiano la capacità del webmaster nel saper mettere le parole chiave nei punti giusti delle pagine web, Google e AllTheWeb si affidano a criteri esterni, cioè agli utenti della rete. Google ha sempre venduto la “link popularity” adottata da PageRank come un servizio di grande democraticità e di libertà. Perché?

Intanto perché l’indicizzazione di PageRank avviene in modo del tutto automatica, quindi non ci sono interventi umani che possono inquinare i risultati; è così in verità anche per gli altri motori di ricerca, tranne che le directory, come Yahoo!,Virgilio o OpenDirectory, dove esistono redazioni “umane” che classificano siti web. Poi secondo Google il fattore “popolarità” è determinante perché se una pagina è visitata e citata da altre fonti significa che gli utenti la preferiscono ad altre e questo è un grande valore aggiunto che va premiato. Per dirla in soldoni: è meglio un sito che raccoglie opinioni, propone soluzioni, fornisce link utili, dà risposte agli utenti, viene aggiornato costantemente (questo è un altro fattore molto importante) piuttosto che il classico e noioso “sito vetrina” con “chi siamo”, “dove siamo”, “cosa facciamo”, ecc. ecc. che rimane immutato nel tempo. La nota dolente è che Google detiene anche una classifica per così dire della qualità dei link, per cui è meglio essere citati da un sito che vanta già un ranking elevato piuttosto che da un sito sconosciuto o nuovo.
Una giusta osservazione potrebbe essere: ma chi dice che i contenuti più interessanti si trovino nei siti più visitati? In questo modo si favoriscono i grandi portali, o comunque chi, grazie anche a cospicui investimenti pubblicitari può vantare decine o centinaia di migliaia di visite al giorno, altro che democrazia e libertà!. Questa è una delle accuse portate dai detrattori di Google, come si può anche leggere su Google Watch (http://www.google-watch.org)

E’ un tema interessante perché anche se questa accusa è in parte vera, è altrettanto vero che chiunque attraverso Internet può creare a costo pressoché nullo un canale che veicoli gli interessi degli utenti. Non servono grossi investimenti, bastano buone idee veramente innovative (basti pensare al fenomeno Blog) e se il nostro intento è anche ben figurare nei database dei motori di ricerca, una buona dose di pazienza.
Certo il concetto di tempo suona un po’ stonato in epoca Internet, dove tutto è rapido ed immediato, ma PageRank ad esempio, consolida le pagine presenti nel proprio database nel tempo, dando fiducia ai quei siti che possono garantire traffico costante, e contenuti sempre diversi. Bloom ad esempio pur non vantando popolarità eccessiva si è conquistato una buona visibilità su Google, più della metà dei visitatori giornalieri infatti arriva solo da Google, ma questa cosa si è consolidata nel tempo, grazie ai continui e costanti aggiornamenti, alla comunità che è cresciuta, al numero di pagine e di link sempre crescenti. PageRank è inoltre interessante per un altro motivo.

Facciamo un passo indietro. Per anni i webmaster hanno studiato stratagemmi per riuscire in qualche modo ad incrementare il ranking dei motori di ricerca, con modalità più o meno lecite. Diverse tecniche hanno successo ancora oggi, ma solo con i motori di prima generazione perché come dicevo gli spider si basano sul contenuto delle pagine. Allora con una buona conoscenza del linguaggio html, un pò di basi sistemistiche e un po’ di marketing riusciamo ad ottenere ottimi risultati, ma spesso si tratta di stratagemmi, trucchi, piccoli inganni [2] . In questo modo l’elenco dei risultati risulta falsato e in breve i database dei motori di ricerca si ritrovano pieni di errori e necessitano di parecchia manutenzione. Gli utenti troveranno i risultati poco attinenti o poco soddisfacenti e presto abbandoneranno quel motore di ricerca spostando la loro preferenza altrove, insomma si impoverisce il web. Assieme ad altri problemi è quello che è successo ad Altavista, poco a poco gli utenti si sono accorti che Google restituiva risultati più interessanti e così progressivamente hanno tolto Altavista dalla pagina dei preferiti [3] .

PageRank ha risolto brillantemente questo problema: spostando il centro di controllo dalle pagine html alle persone che visitano il sito si riescono a limitare i danni causati dalla malizia degli operatori, e i risultati si vedono, il popolo della rete ha rieletto Google nel 2002 come migliore motore di ricerca (http://www.searchenginewatch.com/reports/article.php/2156451)


[1]   Vedi il progetto BrightPlanet su http://www.brightplanet.com/deepcontent/tutorials/deepweb/index.asp
[2] Il tentativo di manomissione di un documento per ingannare lo spider di un motore di ricerca al fine di ottenere un ranking elevato è detto Spamdexing ed è ovviamente una tecnica punita da tutti i motori di ricerca. Esiste qualche riserva invece sul Cloaking: sottoporre cioè agli spider dei motori di ricerca delle pagine costruite ad hoc per ottenere un miglior posizionamento. Quasi sempre poi queste pagine non sono visibili dai navigatori di Internet
[3] Alla fine dei anni 90 Altavista si distingueva per essere il motore di ricerca più rapido: passavano solo 48 ore dalla richiesta di indicizzazione eseguita dall’apposita form all’effettiva indicizzazione di Scooter, lo spider di Altavista, contro un tempo medio della concorrenza di 10-20 giorni. Lo stesso servizio, chiamato Express inclusion è oggi fornito da Altavista a pagamento. Forse tale rapidità nascondeva anche qualche bug nell’algoritmo di indicizzazione, infatti Altavista risultava molto vulnerabile ad attacchi di Spamdexing, per cui in breve tempo gli archivi hanno perso affidabilità. Oggi la situazione è migliorata, ma nel frattempo i concorrenti sono diventati molto più forti.

 

««

Potrebbero interessarti anche...