Sitemap XML in breve
Una Sitemap XML è un documento speciale che elenca tutte le pagine di un sito web per fornire ai motori di ricerca una panoramica di tutti i contenuti disponibili.
Si consiglia di implementare una Sitemap XML, soprattutto su siti web grandi (oltre 500 pagine).
Attenersi alle seguenti “best practice” durante l’implementazione di una Sitemap XML:
- Mantenere aggiornata la Sitemap XML con i contenuti del proprio sito web.
- Assicurarsi che sia pulita: dovrebbero essere incluse solo le pagine indicizzabili.
- Inserire un link alla Sitemap XML dal proprio file robots.txt.
- Non inserire più di 50.000 URL in una singola Sitemap XML.
- Assicurarsi che la dimensione del file (non compresso) non superi i 50 MB.
- Non preoccuparsi eccessivamente delle proprietà lastmod, priority e changefreq.
Cos’è una Sitemap XML?
Una Sitemap XML è un documento speciale che elenca tutte le pagine di un sito web, pensato per i motori di ricerca. Come una sorta di elenco telefonico: indica al motore di ricerca quali contenuti sono disponibili e come raggiungerli. Inoltre può fornire informazioni aggiuntive: quando il contenuto è stato aggiornato l’ultima volta e l’importanza dello stesso.
Le Sitemap XML sono molto utili per i motori di ricerca, poiché forniscono un’unica panoramica di tutti i contenuti disponibili. Questo serve sia come punto di partenza per la prima volta che lo spider di Google visita il tuo sito web, sia come un modo per scoprire rapidamente i nuovi contenuti aggiunti.
Ciò che è importante tenere in considerazione è la distinzione tra Sitemap XML e Sitemap “normali” (chiamate anche “Sitemap HTML”). Quest’ultime sono pensate per far trovare agli utenti i contenuti sul tuo sito web, mentre le sitemap XML sono pensate per i motori di ricerca.
Perché bisogna tenere in considerazione attentamente la Sitemap XML?
Le Sitemap XML aiutano i motori di ricerca a valutare i contenuti del tuo sito web e sono uno strumento utile per notificare loro contenuti nuovi o aggiornati. Pertanto si consiglia di implementarle appena possibile. Per i siti web più grandi (oltre 500 pagine) sono imprescindibili.
Che aspetto ha una Sitemap XML?
La Sitemap è pensata per i motori di ricerca ed è quindi formattata in un linguaggio facile da capire per i computer: l’XML. Fortunatamente l’ XML è anche leggibile facilmente dagli esseri umani, diamo un’occhiata ad un esempio:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<url>
<loc>https://www.sito.com/</loc>
<lastmod>2021-06-14T19:55:25+02:00</lastmod>
</url>
<url>
<loc>https://www.sito.com/blog/</loc>
<lastmod>2021-06-24T10:23:20+02:00</lastmod>
</url>
</urlset>
Ora, per capire meglio, analizziamo le singole parti.
Header XML
<?xml version="1.0" encoding="UTF-8"?>
Indica che il contenuto è strutturato secondo la versione 1.0 dello standard XML e descrive la codifica dei caratteri. Sostanzialmente informa i motori di ricerca su cosa aspettarsi dal file.
Definizione di URL set
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
Questa definizione di urlset incapsula tutti gli URL contenuti nella mappa del sito e descrive quale versione della Sitemap XML standard viene utilizzata. Notare che l’urlset viene chiuso nella parte inferiore del documento:
</urlset>
Definizione dei singoli URL
<url>
<loc>https://www.sito.com/</loc>
<lastmod>2021-06-14T19:55:25+02:00</lastmod>
</url>
Ora occupiamoci della alla parte più importante: la definizione degli URL individuali tramite l’url-tag. Ogni definizione di URL deve contenere almeno il tag loc (abbreviazione di location). Il valore di questo tag deve essere l’URL completo della pagina, incluso il protocollo (ad es. “https: //”).
Inoltre, ogni definizione di URL può contenere le seguenti proprietà opzionali:
- lastmod: la data in cui il contenuto di quell’URL è stato modificato l’ultima volta, nel formato “W3C datetime”.
- priorità: la priorità dell’URL, relativamente al tuo sito web su una scala compresa tra 0,0 e 1,0.
- changefreq: la frequenza con cui ci si aspetta che il contenuto dell’URL cambi. I valori possibili sono hourly, daily, weekly, monthly, early and never..
Dove va inserita la Sitemap XML?
Proprio come le pagine del tuo sito web, la Sitemap XML risiede su un suo indirizzo. Di solito l’URL di una Sitemap XML è /sitemap.xml e si consiglia di seguire questa convenzione per facilitarne l’individuazione da parte dei motori di ricerca. Tuttavia, se ciò non è possibile, puoi scegliere un percorso o un nome file diverso, purché vi sia riferimento nel file robots.txt tramite la direttiva Sitemap:
Sitemap: http://www.example.com/alternativelocation/alternativefilename.xml
Esistono limitazioni per le Sitemap XML?
Le Sitemap XML hanno due limitazioni da tenere a mente:
- Non devono contenere più di un massimo di 50.000 URL.
- La dimensione del file è limitata a 50 MB quando non è compresso.
Se la tua Sitemap XML supera questi limiti, devi suddividerla in più Sitemap XML e utilizzare un Indice Sitemap XML.
Che cos’è un indice Sitemap XML?
Ogni volta che superi i limiti di una singola Sitemap XML, è necessario suddividerla in Sitemap XML separate e raggrupparle insieme a un Indice. Questo indice è un file XML separato che fa riferimento alle varie Sitemap XML. Diamo un’occhiata a un esempio:
<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2020-10-01T18:23:17+00:00</lastmod>
</sitemap>
<sitemap>
<loc>http://www.example.com/sitemap2.xml.gz</loc>
<lastmod>2020-01-01</lastmod>
</sitemap>
</sitemapindex>
Questo Indice Sitemap XML fa riferimento a due Sitemap XML: sitemap1.xml.gz e sitemap2.xml.gz. Analizziamo anche questo file.
Header XML
<?xml version="1.0" encoding="UTF-8"?>
Niente di nuovo qui, proprio come con il file XML Sitemap, definiamo innanzitutto che il file è in formato XML e quale codifica dei caratteri viene utilizzata.
Definizione dell’Indice Sitemap
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
Ora, invece di una definizione di urlset, vediamo una definizione di sitemapindex. Questa definizione racchiude tutte le Sitemap contenute nell’indice Sitemap e di nuovo quale versione dello standard XML Sitemap viene utilizzata. Proprio come la definizione urlset, la definizione sitemapindex è chiusa in fondo al documento:
</sitemapindex>
Definizione delle singole sitemap
<sitemap>
<loc>http://www.example.com/sitemap1.xml.gz</loc>
<lastmod>2020-10-01T18:23:17+00:00</lastmod>
</sitemap>
Questa è la definizione vera e propria delle singole sitemap. Proprio come per gli URL, ogni definizione di Sitemap deve contenere il tag loc, contenente l’URL completo della singola Sitemap XML.
Inoltre, la definizione della sitemap può contenere una definizione lastmod che riguarda la data dell’ultimo aggiornamento della sitemap XML di riferimento. Di nuovo in formato “W3C datetime“.
Nota: Se ti stai chiedendo cosa significa l’estensione .gz, essa viene aggiunta al nome del file quando la Sitemap XML viene compressa (tramite compressione gzip). Normalmente, le Sitemap XML contenenti molti URL crescono fino a raggiungere dimensioni del file significative e, attraverso l’uso della compressione, è possibile ridurre l’impatto sulla memoria su disco ed il tempo di trasferimento di rete.
Dove devo posizionare l’indice?
Simile alla Sitemap XML, esiste una convenzione per la posizione e il nome del file dell’Indice Sitemap XML: /sitemap_index.xml. Puoi scegliere anche un percorso diverso purché ne faccia riferimento nel file robots.txt: Sitemap: http://www.example.com/alternativelocation/alternativefilename.xml
Best practice per Sitemap XML
Quando si implementano le Sitemap XML, è essenziale seguire queste best practice.
Mantieni aggiornata la tua Sitemap XML
Assicurati che la tua Sitemap XML fornisca un’immagine aggiornata del tuo sito web. Ogni volta che una pagina viene rimossa, dovrebbe essere rimossa anche dalla tua Sitemap XML. Se utilizzi il tag lastmod opzionale, assicurati di aggiornare il timestamp ogni volta che la pagina cambia.
Includi solo pagine indicizzabili nella tua Sitemap XML
La tua Sitemap XML dovrebbe contenere solo pagine indicizzabili. Ciò significa che dovresti tralasciare tutti gli URL che puntano a reindirizzamenti (ad es. Codice di stato 301) e pagine mancanti (ad es. Codice di stato 404).
Inoltre, queste pagine devono essere indicizzabili, il che significa renderle accessibili per i motori di ricerca (nessuna esclusione in robots.txt) e nessuna direttiva che dica ai motori di ricerca di non indicizzare la pagina (come meta robots, link canonici o x-robots- tag).
Attieniti alla posizione e al nome del file predefiniti
Quando possibile, attieniti alla posizione e al nome file predefiniti per la Sitemap XML (/sitemap.xml) e l’Indice Sitemap XML (/sitemap_index.xml). Questo rende più facile per i motori di ricerca trovarli.
Fai riferimento alla Sitemap XML nel tuo file robots.txt
Se hai scelto un percorso alternativo per l’URL della tua Sitemap XML o dell’Indice Sitemap XML, dovresti farne riferimento nel tuo file robots.txt. Tuttavia, anche se ti attieni all’URL standard, ti consiglio di includerne un riferimento nel tuo file robots.txt per garantire la rilevabilità da parte dei motori di ricerca.
Non preoccuparti di lastmod, priorità e changefreq
Sebbene per ogni URL tu possa definire le proprietà lastmod, priority e changefreq, questo è del tutto facoltativo. Definirli non fa male e potrebbe esserci una piccola possibilità che i motori di ricerca utilizzino queste informazioni, ma è generalmente inteso che i motori di ricerca non prestano (molta) attenzione ad essi.
Rispetta i limiti per le Sitemap XML
Assicurati che le tue Sitemap XML non contengano più di 50.000 URL e che la dimensione del file non compresso sia limitata a 50 MB. Se superi uno dei limiti, devi suddividere la Sitemap XML e utilizzare un Indice Sitemap XML.
In definitiva la Sitemap XML è un aspetto tecnico che un bravo Consulente SEO deve sempre verificare e tenere in considerazione.