Per evitare che un nuovo sito venga indicizzato basta inserire il meta tag noindex all’interno delle pagine o fornire una risposta HTTP comprensiva di X-Robots-Tag .

In alcuni casi però, il bisogno di operare sul sito e contemporaneamente impedire la ricerca a crawler e competitors ci spinge alla ricerca di soluzioni più elaborate.

Tag Noindex

Il metodo più utilizzato per evitare di indicizzare una pagina è l’inserimento del tag noindex nell’head :

<meta name="robots" content="noindex">

oppure, nel caso si voglia bloccare un solo bot (in questo caso quello di Google), basta specificare:

<meta name="googlebot" content="noindex">

Nel caso in cui stessimo operando su WordPress, potremmo inserire il tag direttamente dalla dashboard della pagina (o dell’articolo), utilizzando gli stumenti del plugin Yoast SEO.

Pannello per inserire il tag noindex su Yoast.
Inserisci “No” sul pannello di Yoast per aggiungere il tag noindex alla pagina

Aggiungere il nofollow per fermare la scansione

Il tag noindex non ferma i crawler, e non impedisce loro di proseguire con l’esplorazione del sito.

Per fare in modo che questo non accada, dovremo indicare in maniera specifica:

<meta name="robots" content="noindex, nofollow">

L’aggiunta del nofollow segnala al crawler di non seguire i link (interni o esterni) presenti nella pagina.

Googlebot, il crawler di Google

Ma nessuna di queste operazioni impedisce che il sito venga esplorato, a meno che ogni pagina non indichi in maniera precisa quale debba essere il comportamento del bot.

Prendendo in considerazione le indicazioni noindex e nofollow (e i loro opposti, index e follow), abbiamo a disposizione quattro varianti.

Le scelte a nostra disposizione sono di permettere o meno l’indicizzazione della pagina, e di far scansionare o negare l’accesso alle altre pagine linkate a questa.

Differenze tra robots.txt e tag noindex

I metodi finora descritti hanno la funzione di evitare che un sito venga mostrato nelle SERP, o di ostacolare il crawling dei bot.

Nel caso in cui volessimo evitare completamente o in parte che un motore di ricerca scopra i nostri contenuti, dovremmo utilizzare il file robots.txt.

Se il tag noindex si occupa di dare direttive in merito all’indicizzazione, il file robots si occupa del crawling.

Per creare uno stop ai crawler, basta indicare nel file le directory del sito in disallow.

La differenza di utilizzo dei due elementi li rende indispensabili, ma nel contempo pericolosi.

Aggiungere un disallow ad una zona del sito precedentemente indicizzata non permetterebbe ai crawler di leggere un’indicazione noindex successiva all’inserimento del blocco su robots.txt.

Si consiglia quindi di prendere le decisioni sulla segretezza del sito in merito ai motori di ricerca all’inizio, prima della creazione delle pagine.

Nascondere un sito ai competitors

In alcune situazioni nascondere una pagina o un sito ai motori di ricerca non basta.

I motivi possono essere i più disparati: si vuole copiare il sito per effettuare test (grafica, plugin), si cerca di lanciare un sito prova o una landing in un sottodominio.

Ad ogni modo, vi consiglio due alternative per creare uno spazio “invisibile” a cui potrete accedere solo voi.

Le modifiche devono essere effettuate alla creazione del sito copia/test, e non successivamente.

Noindex tramite il DNS del sito

Il primo metodo per non indicizzare il sito è quello di cancellare o modificare in maniera fittizia il Record del tipo A del DNS del (sotto)dominio di prova e inserire l’IP del server sulla vostra periferica.

Per nascondere il sito tramite il DNS bisogna avere:

  • L’accesso al pannello di controllo dell’hosting che ospita il sito copia.
  • L’indirizzo IP del server che ospita il sito copia.
  • Il nome del (sotto)dominio a cui puntare.
  • Privilegi da amministratore sulla piattaforma da cui operare le modifiche (Windows, Linux, Apple).

Per iniziare, copia il sito su un sottodominio o dove preferisci, e modifica il Record di A del DNS inserendo un valore a caso.

Questa operazione ti servirà per evitare che Google consideri i tuoi contenuti duplicati.

Una volta terminato, vai sul file Hosts che si trova sul tuo computer.

La posizione del file dipende dal sistema operativo:

WINDOWS 7, 10, VISTA, XP/2003    =   C:\Windows\System32\drivers\etc\hosts
WINDOWS 95/98/ME = C:\WINDOWS\hosts
WINDOWS 2000 = C:\WINNT\SYSTEM32\DRIVERS\ETC\hosts
APPLE OSX, LINUX = /etc/hosts

Una volta aperto il file con il blocco note (che deve avere i pivilegi da amministratore), bisogna inserire una stringa con l’IP del server seguito da uno spazio e dalla posizione del sito copia.

(IP del server) 185.56.87.100 nomesottodominio.dominio.it
(IP del server) 185.56.87.100 www.nomesottodominio.dominio.it

A questo punto si potrà operare sul sito senza che nessun altro possa spiare.

Negare l’accesso al sito tramite htaccess

Il file htaccess è un file di sistema dei server Apache. Tramite l’inserimento di una stringa, sarà possibile negare l’accesso a tutti gli indirizzi IP tranne quelli desiderati.

 order deny,allow
deny from all
allow from (il tuo indirizzo IP)

Nel caso in cui si voglia dare accesso ad un altro indirizzo IP, basterà copiare l’ultima stringa e aggiungere un IP differente.

Con questa tecnica si potrebbe anche decidere di bloccare solo gli IP dei crawler, ma sebbene si conoscano diversi IP dei bot più famosi, non se ne conosce un elenco completo.

starstarstarstarstar0.00 / 0 voto / i

Related Posts

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.