Guida alla compilazione del file robots.txt

Guida alla compilazione del file robots.txt

Introduzione

Il file robots.txt è uno strumento essenziale per ogni sito web. Si tratta di un file di testo che viene posizionato nella radice del sito, e che contiene le istruzioni per i robot dei motori di ricerca su come comportarsi quando si accede alle pagine del sito. È importante compilare correttamente il file robots.txt per assicurarsi che i motori di ricerca trovino e indicizzino solo le pagine desiderate, e che non accedano a pagine non rilevanti o che potrebbero causare problemi. In questo articolo, spiegherò come compilare correttamente il file robots.txt per il tuo sito web.

Cosa sono i robot dei motori di ricerca?

Prima di spiegare come compilare il file robots.txt, è importante capire chi sono i robot dei motori di ricerca e come funzionano. I robot, anche noti come “crawler” o “spider“, sono programmi software che esplorano il web in modo automatico, analizzando le pagine e indicizzandole nei motori di ricerca. Quando un robot accede a una pagina web, cerca di leggere il contenuto e comprendere il suo significato. In questo modo, può determinare quali parole chiave e quali argomenti sono rilevanti per quella pagina.

Come funziona il file robots.txt?

Il file robots.txt funziona come una sorta di “porta di accesso” del sito, che indica ai robot dei motori di ricerca quali pagine devono essere esplorate e quali invece non devono essere indicizzate.

Il file robots.txt è costituito da una serie di istruzioni, che seguono una sintassi specifica. Ogni istruzione è composta da due parti: il “User-agent” e il “Disallow“. Il “User-agent” indica il nome del robot o dei robot ai quali si applica l’istruzione, mentre il “Disallow” indica le pagine che il robot non deve esplorare. Ad esempio, se si vuole impedire a un robot di esplorare l’intero sito, si può utilizzare l’istruzione:

User-agent: * Disallow: /

In questo modo, si sta indicando a tutti i robot di non accedere a nessuna pagina del sito.

Come compilare correttamente il file robots.txt: esempi di regole

Per compilare correttamente il file robots.txt, è necessario seguire alcune semplici linee guida. Di seguito, vediamo i passaggi da seguire:

Identificare i robot: è importante identificare i robot che si desidera bloccare o consentire. Ad esempio, se si desidera impedire a Google di accedere a una specifica pagina, si può utilizzare l’istruzione:

User-agent: Googlebot
Disallow: /pagina-da-bloccare.html

Bloccare le directory sensibili: se ci sono directory del sito che contengono informazioni sensibili o che non si desidera che siano indicizzate, è possibile bloccarle utilizzando l’istruzione

User-agent: *
Disallow: /directory-sensibile/

In questo modo, si indica a tutti i robot di accedere alla directory consentita, ma si impedisce l’accesso alle altre.

Utilizzare wildcards: i wildcards sono caratteri jolly che possono essere utilizzati per semplificare la compilazione del file robots.txt. Ad esempio, se si desidera bloccare tutte le pagine che hanno una certa estensione, si può utilizzare l’istruzione:

User-agent: *
Disallow: /*.php$

* è un carattere jolly che indica qualsiasi sequenza di caratteri
$ equivale alla fine dell’URL

In questo modo, si sta bloccando l’accesso a tutte le pagine che hanno l’estensione .php.

Impedire ai bot di accedere ad una cartella, tranne un contenuto specifico: Ad esempio, se vuoi impedire a Googlebot di accedere a tutte le news del tuo sito tranne una:

User-agent:
Googlebot
Disallow: /news
Allow: /news/esempio-news

Verificare il file robots.txt

Una volta che il file robots.txt è stato compilato, è importante verificare che funzioni correttamente. Ci sono diversi strumenti online che consentono di verificare il file robots.txt, come ad esempio il tool disponibile su Google Search Console.

Tester dei file robots.txt

La direttiva Crawl-Delay

Crawl-Delay è una direttiva che viene utilizzata nei file robots.txt per regolare la velocità con cui i vari bot possono visitare le pagine web del tuo sito. In altre parole, consente di impostare un ritardo tra una scansione e l’altra, in modo che i crawler dei motori di ricerca o di determinati tool, non possano sovraccaricare il server. In questo modo, può aiutare a mantenere una buona velocità di caricamento del tuo sito web. Esempio:

User-agent: SemrushBot
Crawl-Delay: 5

I commenti all’interno del file robots.txt

I commenti (preceduti dal simbolo “#”) sono utilizzati all’interno di un file robots.txt per aggiungere informazioni o annotazioni sulla direttiva che è stata inserita. Possono essere utilizzati per fornire ulteriori dettagli sulla direttiva e aiutare a documentare i cambiamenti che vengono effettuati nel tempo. I crawler ignorano tutto ciò che inizia con un cancelletto (#), ragion per cui gli sviluppatori usano spesso questo simbolo per aggiungere un commento al file robots.txt. Ciò aiuta a mantenere il file ben ordinato e di facile lettura. Esempio:

Crawl-delay: 10 # imposta un ritardo di 10 secondi tra una scansione e l'altra.

Inserire la sitemap xml del sito nel file robots.txt

Senza una mappa del sito, i crawler di Google possono comunque raggiungere gran parte dei contenuti di un sito, purché siano collegati correttamente da un sistema di link interni. Tuttavia, l’aggiunta della mappa del sito all’interno del file robots.txt aiuta i bot a eseguire la scansione più efficacemente.

La Sitemap XML può essere aggiunta al file robots.txt inserendo una riga di codice che inizia con “Sitemap:”, seguita dall’URL della mappa del sito. Ad esempio, “Sitemap: http://www.example.com/sitemap.xml” indica ai crawler che la sitemap si trova all’indirizzo specificato.

Conclusioni

In sintesi, il file robots.txt è uno strumento importante per il controllo degli accessi ai motori di ricerca. Compilare correttamente il file robots.txt può aiutare a garantire che i robot indicizzino solo le pagine desiderate risparmiando crawl budget, e che non accedano a pagine non rilevanti o che potrebbero causare problemi.

Tuttavia, è importante ricordare che il file robots.txt agisce sulla scansione, se si devono rimuovere pagine già online da tempo dagli indici dei motori di ricerca, bisogna utilizzare altre tecniche, come ad esempio l’utilizzo dei meta tag “noindex” e “nofollow”.

Non è consigliabile mai applicare sia la direttiva Disallow che un meta tag Noindex sulla stessa pagina. Se i due vengono usati insieme, gli spider non avranno accesso alla scansione della pagina e non sapranno che esiste un comando Noindex. Di conseguenza, le pagine non scansionate potrebbero essere ancora indicizzate, creando una situazione in cui il blocco della scansione non ha effetto.

Spero che questo articolo ti sia stato utile per comprendere come compilare correttamente il file robots.txt per il tuo sito web. Per maggiori informazioni, consulta gli approfondimenti riportati di seguito:

Approfondimenti

Come verificare il file robots.txt tramite lo strumento di Google Search Console: https://support.google.com/webmasters/answer/6062598?hl=it
Che cos’è il file robots.txt: https://en.wikipedia.org/wiki/Robots.txt
Guida completa al file robots.txt (in inglese): https://www.contentkingapp.com/academy/robotstxt/

Condividi se lo ritieni interessante, Grazie!