Come lavorano i motori di ricerca – i Web Crawlers

E' il motore di ricerca che finalmente porta a conoscenza dei potenziali clienti il tuo sito web dando notizia che esiste. A partire da ore è meglio quindi sapere come questi motori di ricerca lavorano attualmente e come presentano le informazioni ai clienti che iniziano le ricerche.

Ci sono in pratica due tipi di motori di ricerca. I primi dai robots sono chiamati crawlers o spiders.

I motori di ricerca utilizzano gli spiders per indicizzare i siti web. Quando inviate le vostre pagine del sito ad un motore di riceca a completamento dei loro moduli di invio sito, lo spider del motore di ricerca indicizzerà l'intero vostro sito.

Come funzionano i motori di ricerca: i crawlers

Il crawler è un software, che viene chiamato anche spider oppure robot, è un software che analizza i contenuti della rete Internet in modo normalmente automatizzato e viene utilizzato soprattutto dai motori di ricerca, ma si può utilizzare anche in altri contesti.

In pratica viene eseguito dal sistema del motore di ricerca periodicamente e, ad esempio, visita un sito web, ne legge il contenuto, i Meta tags e segue anche i collegamenti con gli altri siti, i cosiddetti links tra un sito ed un altro. Poi lo spider riporta tutte le informazioni indietro ad un archivio centrale, dove i dati, in base a dei processi predeterminati, sempre dai motori di ricerca, vengono indicizzati. Inoltre visita ogni link che avete immesso nel vostro sito ed indicizza anche questi siti. Alcuni spiders limitano appositamente l'indicizzazione ad un certo numero di pagine del vostro sito, per cui potrebbe non convenire a questo scopo creare un sito web con 500 pagine.

Lo spider, essendo appunto cronologicamente automatizzato, ritornerà periodicamente al sito per controllare ogni informazione e se i contenuti siano nel frattempo cambiati. La frequenza con cui questo avviene viene decisa pertanto dai controllori del motore di ricerca.

Uno spider spesso è come un libro dove sono inseriti gli indici dei contenuti, I contenuti stessi, I links e le referenze per tutti I siti che vengono trovati durante la sua ricerca, ed esso può indicizzare milioni di pagine ogni giorno.

Quando vengono richieste delle informazioni al motore di ricerca, esso le ritrova attraverso gli indici che esso stesso si è creato e non va a cercarle in giro per il web. Motori di ricerca differenti producono diverse classificazioni perchè non tutti usano il medesimo algoritmo per cercare attraverso gli indici. Per esempio è possibile che un sito sia nella prima pagina delle ricerche se vengono effettuate attraverso Yahoo ed invece compaia nella terza pagina dei risultati cercando con Google.

Una delle cose importanti che un motore di ricerca attraverso il suo algoritmo seleziona sono la frequenza e la dislocazione delle parole chiavi in una pagina web, ma può anche determinare se sono parole chiave artificiali cioè non inerenti al contenuto e quindi definirle come stuffing o spamdexing.Quindi gli algoritmi analizzano il modo in cui queste pagine linkano altre pagine nel web. Controllando quali pagine linkano ogni altra un motore può determinare cosa è una pagina e se le parole chiavi delle pagine linkate sono simili alle parole chiave della pagina originale.

Ciao, sono Marco e questo è il mio blog con gli appunti del mio lavoro di PHP developer. Come sviluppatore Wordpress creo templates e plugin, e per Prestashop realizzo moduli e temi oltre a varie applicazioni in PHP e MySql.

Hai problemi con Wordpress, con Prestashop, oppure vuoi creare un nuovo progetto Web?.

CONTATTAMI

Come lavorano i motori di ricerca – i Web Crawlers

Settembre 10, 2010

Come funzionano i motori di ricerca: i crawlers