WordPress LogoDopo aver parlato di sitemap e pagine di errore 404, in questo articolo vedremo un’altro aspetto molto importante per l’ottimizzazione di un blog con WordPress (e più in generale di qualunque sito web), ma che viene spesso trascurato: il file robots.txt.

Il file robots.txt contiene delle regole utilizzate dai crawlers dei motori di ricerca per applicare restrizioni di analisi sulle pagine di un sito internet. Questo perché nella maggior parte dei siti ci sono files e cartelle che non sono rilevanti per i motori di ricerca (per esempio i files di amministrazione o le immagini). Utilizzare un file robots.txt contribuisce quindi a migliorare l’indicizzazione da parte dei motori di ricerca.

Dal punto di vista pratico, un file robots.txt non è nient’altro che un semplice file di testo che può essere creato con qualunque editor. Per indicare ai crawlers dei motori di ricerca quali sono le pagine da bloccare, viene utilizzato il seguente protocollo:

 campo : valore

I campi disponibili sono

  • User-Agent
    Il valore di questo campo contiene il nome del robot che si deve attenere alle restrizioni. Con il carattere * la regola viene applicata a qualsiasi robot.
  • Disallow
    Il valore di questo campo contiene le pagine del sito che devono essere escluse dai robot durante l’indicizzazione. Si può indicare un URL specifico o una serie di URL appartenenti ad un pattern.

Chiariamo i concetti con un esempio. Consideriamo il seguente file

User-Agent : *
Disallow: /wp-

User-Agent : *” significa che i robot di tutti i motori di ricerca devono seguire le istruzioni specificate successivamente nel file.

Disallow: /wp-” serve per escludere dall’indicizzazione tutti i files e le cartelle che cominciano per “wp-” (quindi tutti i files e le cartelle di amministrazione).

Una volta completato il vostro robots.txt, basta eseguirne l’upload nella root directory del blog e il gioco è fatto!