Articolo scritto da: Studio MoMi
Data pubblicazione: 03/08/2025
Tempo di lettura: 12 minuti
Indicizzare una pagina di un sito web, significa, permettere a questa pagina di essere inserita nei motori di ricerca (Google, Yahoo!, Bing, Firefox e altri). Ogni motore di ricerca è programmato per indicizzare le pagine di un sito web, utilizzato svariati metodi di analisi.
I più conosciuti strumenti di analisi (dagli addetti ai lavori) sono principalmente quattro: i famosi spider; il servizio offerto dai motori di ricerca chiamato suggerisci URL; il sistema di inviare una Sitemap in formato .xml e, infine, ma personalmente mai usato, tramite RSS.
Ma vediamoli ora insieme:
Gli Spider sono programmi altamente istruiti, che vagabondano ventiquattro ore su ventiquattro, sette giorni su sette per il web alla ricerca di qualunque link appena inserito. Nessuno, e ripeto nessuno può sfuggire allo spider.
Se una qualsiasi pagina di un sito internet, ha al suo interno, un link che rimanda al nostro sito web, ci può essere la possibilità che il nostro sito venga indicizzato prima, grazie a questo piccolo collegamento.
La causa di questo inatteso beneficio è semplice, il sito principale, sul quale compare il nostro link era già presente sui motori e ha segnalato un altro sito, rendendolo agli occhi dei motori di ricerca "raccomandato". E può capitare anche che la nostra pagina venga trovata dai motori di ricerca senza averla segnalata.
Suggerisci URL è un servizio a disposizione dei realizzatori e posizionatori di siti web, che permette di segnalare le nuove pagine web. Si possono segnalare gli URL singoli uno ad uno, ma il metodo comunemente più utilizzato è quello di segnalare la home page di un sito web, e automaticamento, lo spider, segue tutte le pagine collegate alla home page del sito web.
In tal modo si richiama l'attenzione degli spider e, successivamente, il sito web viene scansionato dagli stessi (spider) e cosi ci ritroveremo il sito web indicizzato (forse) nel motore di ricerca.
A volte il sito presenta errori decisivi per l'indicizzazione del sito, nel senso che se gli spider non riescono ad accedere (per qualsiasi motivo) la scansione non va a buon fine, e il sito, non viene indicizzato.
Le Sitemap sono file in formato .xml che vengono compilate in codice html, e successivamente, inviata al motore di ricerca per anticipargli l'arrivo in rete della nostra pagina o sito web. Partendo dal fatto, che con l'invio di una sitemap stiamo comunicando direttamente con il motore di ricerca, mi sembra ovvio che non deve avere errori, né di ortografia, né di compilazione del codice html.
In poche parole nella sitemap dobbiamo indicare il percorso e il collegamento della pgine web e del nostro sito web. Possiamo indicare immagini, video, importanza degli URL, ultime modifiche, giorno e ora di creazione della pagina e tanto altro ancora.
Da alcuni anni, i motori di ricerca hanno deciso di uniformare il modo di compilazione della sitemap. Questo ha semplificato notevolmente la comunicazione con i vari motori di ricerca, ed ha permesso di ottimizzare le fasi di indicizzazione permettendo di segnalare con una sola operazione tutte le pagine.
Prima si era obbligati a fare una sitemap per ogni motore di ricerca, sulla base degli standard forniti da ciascuno di questi, al fine di inviare informazioni e far sì che il sito web venisse indicizzato. Se non riuscite a creare la vostra sitemap contattatemi e vi aiuterò volentieri.
Se non avete mai visto una sitemap, e capisco che non tutti lo sappiano fare, basta che nella barra degli indirizzi inseriate il nome del sito, seguito da / (la barra che c'è sopra il numero sette della vostra tastiera) e infine la scritta sitemap con il punto file .xml.
In questo modo se un sito web ha una sitemap fatta correttamente potrete visualizzarla anche voi.
Esempio:
Queste sono solo alcune informazioni su come funziona una sitemap. Se volete una guida dettagliata, per la creazione di una site map, visitate il sito web sitemaps.org/it/ dove troverete tutte le informazioni specificate dettagliatamente e gratuitamente.
Gli RSS sono un sistema di comunicazione in tempo reale. Quasi tutti i siti web, in qualche angolo, hanno una immagine che indica i feed RSS. Se si clicca su quel simbolo, ad ogni modifica di quel sito vi arrivera comunicazione che è stato aggiunto un articolo, un commento o altro, senza dover ogni volta collegarsi a quel sito.
Si instaura una sorte di abbonamento (gratuito) con il sito nel quale avete cliccato, e per questo click, avete così deciso di ricevere i feed RSS. Quando il proprietario del sito web modifica qualsiasi cosa all'interno del sito o crea un nuovo articolo, può anche inviare un ping agli interessati e così voi sarete subito avvertiti di quel cambiamento senza dover visitare il sito.
I social network sono stati i primi ad utilizzare i feed RSS, per avvisarvi di qualche commento o messaggio lasciato su qualche pagina.
Quanto tempo ci mette il motore a indicizzare il mio sito? Se lo sapessi sarei un mago! Nessuno può dirlo, nessuno può garantirti un momento esatto per essere indicizzati. Ci sono siti web che per puro caso vengono indicizzati subito e al contrario ci sono altri siti web che vengono indicizzati solo dopo giorni, settimane o addirittura mesi.
Non dipende da noi umani ma dai motori di ricerca. Sicuramente un sito fatto bene, con una certa esperienza, con una certa logica e con un "tocco di classe" di chi lo fà, verrà sicuramente indicizzato prima. Se sentite dire: "il mio sito web dopo dieci minuti era gia indicizzato", vuol dire che, forse, chi dice una cosa del genere, non sa nemmeno cosa significa indicizzare un sito web.
Oppure ha avuto un colpo di fortuna (uno su mille ce la fà) e lo Spider è passato proprio in quel preciso istante, si è accorto del sito, lo ha controllato e ha deciso di indicizzarlo. Pura fortuna! Per quanto ne so, per adesso, il modo più rapido e meno laborioso per un realizzatore e posizionatore di siti web, è tentare di fare conoscere il sito web ai motori di ricerca tramite feed RSS sperando di essere indicizzato senza errori.
La mia preferita (ma io sono un tipo all'antica) rimane sempre la Sitemap, in formato xml, inviata tramite i servizi offerti dai vari motori di ricerca. Si, è vero, bisogna riscrivere tutti gli url del sito, controllare gli errori, inserire tutte le date e orario di tutte le ultime modifiche. Certo, si lavora di più, ma il risultato è assicurato
Se dopo varie settimane e vari tentativi, in tuo sito web non è ancora stato indicizzato dal motore di ricerca, probabilmente hai sbagliato qualcosa. Prima di controllare l'operato degli altri, bisogna sempre partire dal proprio, e cercare di analizzare obiettivamente il proprio lavoro.
Quindi il migliore punto di partenza è controllare analiticamente quanto fatto e cercare l'errore. Può essere anche un minimo errore a compromettere la scansione da parte degli Spider e a compromttere l'indicizzazione.
I fattori che impediscono agli Spider di eseguire la scansione del tuo sito web, e di conseguenza, impediscono l'indicizzazione sono molti.
Vediamo una breve lista di cose comuni che possono bloccare gli Spider ed evitano l'indicizzazione:
Questi non sono gli unici fattori che impediscono l'indicizzazione di un sito web. Ne esistono molti altri, ma la lista sarebbe troppo lunga e per i non addetti ai lavori sono sinceramente incomprensibili da applicare.
Si, si, avete letto giusto! Esistono casi in cui il cliente, non vuole che una determinata pagina web, venga indicizzata nei motori di ricerca. E' praticamente il contrario di ciò che ho detto fino adesso, ma il cliente ne ha certamente le sue motivazioni.
Allora, per impedire ai motori di ricerca di accedere e indicizzare la nostra pagina web, si interviene direttamente nella root principale del sito web, tramite il file robots.txt.
Per creare il giusto comando da presentare al motore di ricerca, bisogna inserire una serie di elementi, che comunicano ai motori di ricerca che quella o quelle determminate pagine web, non devono venire indicizzate
Vediamo alcuni esempi degli elementi che possono comporre il file robots.txt:
Il comando User-agent, serve, per comunicare a un determinato spider di un motore di ricerca, che non lo vogliamo lasciare entrare nel nostro sito web.
Ogni motore di ricerca ha uno spider con nome diverso:
Se vogliamo, che tutti i motori di ricerca, rimangano fuori dal nostro sito web o singola pagina web, ci basterà inserire il codice così:
Il simbolo asterisco (*), significa che tutti i motori di ricerca hanno accesso negato a quel determinato sito o pagina web.
Il comando disallow, serve a chiedere allo spider di collaborare con noi. In parole povere, noi diamo il permesso di entrare nel nostro sito web, ma gli negiamo il consensenso di entrare e prelevare dati in una determinata cartella del nostro sito web
Mettiamo che il nostro sito, abbia una cartella di nome realizzazionesitiwebgenova.htm, con sotto cartelle che parlano della tipologia di sito web, che andremo a realizzare, con prezzi, e i nomi dei paesi (Genova, Milano e altri) dove realizziamo i siti web, nomi e numero immagini da inserire e altro ancora, ma noi, non vogliamo che gli spider seguano questa cartella, con tutto il suo contenuto, ci basterà aggiungere un comando in più, e dunque il nostro codice sarà cosi:
In questo modo la cartella di nome /realizzazione-siti-web-genova.htm, e tutto ciò che sta al suo interno, non verrà ne indicizzato, ne preso in considerazione dai motori di ricerca.
Se, per esempio , vogliamo vietare l'accesso solo allo spider di Google alla nostra cartella realizzazione-siti-web-genova.htm, e lasciare entrare tutti gli altri spider nella cartella realizzazione-siti-per-escort-brescia.htm ci basterà fare così:
in questo modo, vieteremo l'accesso solo a Google, ma tutti gli altri potranno entrare, indicizzare e prelevare il contenuto della cartella realizzazionesitiwebgenova.htm.
Bhè, sinceramente nemmeno io mi fido del file robot.txt, e allora uso altri metodi. Vediamo dunque questi metodi piu sicuri da usare.
Esistono moltissimi meta tag, ma quello che serve a noi adesso è il meta name robot. Il meta name robot, può dare varie informazioni agli spider che passano sul nostro sito web riguardanti la pagina che stanno analizzando. Vediamoli insieme:
Sia il file robot.txt, sia il meta name robot possono essere non considerati dagli spider, per questo, io, vi consiglio di provare ad usarli entrambe alternandoli e guardando il risultato finale.
Ho cercato di rendere il più chiaro e facile possibile le spiegazioni di questa pagina, ma, mi rendo conto, che tutti non hanno tempo e capacità per realizzare o posizionare un sito web.
Siamo partiti dall'ottimizzazione di un sito web, e ne ho evidenziato certi aspetti, abbiamo parlato degli spider e di come indicizzano un sito web, ho spiegato velocemente come funzionano i feed rss.
Siamo poi passati a come essere indicizzati tramite il suggerisci url (abbastanza facile), e poi abbiamo parlato a grandi linee di come si può presentare un sito web o una pagina web a un motore di ricerca tramite l'invio di una site map.
Vi ho raccontato come si usa il file robot.txt, come si procede per autorizzare o vietare l'accesso degli spider nel nostro sito web o pagina web. Ho chiarito quanto tempo ci può mettere un sito web ad essere indicizzato, e in fine, ho spiegato anche il modo, per non fare indicizzare il sito web ai motori di ricerca.