Una delle azioni più importanti della SEO tecnica è scoprire quali pagine sono scansionate da Googlebot, e quante volte questo accade.

Solo chi ha una certa esperienza si occupa di questo genere di operazioni, sebbene una sorta di mini analisi del proprio sito dovrebbe essere compiuta da chiunque abbia interessi economici che comprendano la presenza online di un sito / e-commerce.

Le operazioni che andrò a presentare nell’articolo non sono da considerarsi sostitutive all’audit di uno specialista, ma forniscono un metodo per verificare le variazioni del comportamento dei crawler.

Cos’è Googlebot?

Googlebot è il nome del crawler di Google addetto all’individuazione e alla scansione dei siti web.

Gli elementi identificativi di un crawler, Googlebot non ne fa eccezione, sono il token utilizzato nella riga dello user-agent

Un esempio di utilizzo del token dello user-agent è quello necessario per segnalare una richiesta di non indicizzare il sito da inserire all’interno del file robots.txt, come nell’esempio:

User-agent: Googlebot
Disallow: /

Un elenco non completo ma esaustivo dei bot di Google è presente a questo link, mi limiterò a riportare la sezione relativa ai Googlebot (il primo user è sempre quello standard, anche se alcuni ne posseggono un secondo):

  • Desktop: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1; +http://www.google.com/bot.html) Safari/537.36 Googlebot/2.1 (+http://www.google.com/bot.html)
  • Mobile: Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
  • Video:Googlebot-Video/1.0
  • News:Googlebot-News
  • Immagini: Googlebot-Image/1.0

Bloccare il bot di Google è un’azione azzardata, anche se dietro il suo user-agent spesso si annidano diversi crawler, che utilizzano tecniche di spoofing per nascondere la loro presenza.

Per scoprire quante volte effettivamente sia l’originale Googlebot ad eseguire la scansione, bisogna effettuare una verifica tramite ricerca DNS.

Analisi di Googlebot tramite Awstat

Awstat è un software che analizza le visite sul sito, per la precisione analizza i server log e li organizza tramite tabelle e grafici.

La fortuna del tool è che è stato adottato (grazie alle sue funzionalità) anche all’interno di pannelli di servizi hosting come cPanel.

La sfortuna per gli utilizzatori, è che Awstat analizza i dati secondo tabelle che mostrano poco del comportamento dei bot.

Nel caso di Googlebot, un’installazione standard del software ci permetterà di visualizzare il numero di accessi, ma non le pagine di atterraggio delle visite.

Per ovviare a questo inconveniente, basta aggiungere del codice alla fine del file di configurazione relativo al dominio (del tipo awstat.nome_dominio.com.conf ):

ExtraSectionName1="Pagine visitate da Googlebot"
ExtraSectionCodeFilter1="200 304"
ExtraSectionCondition1="UA,^Mozilla\/5\.0 \(compatible\; Googlebot\/2\.1\; \+http\:\/\/www\.google\.com\/bot\.html\)$"
ExtraSectionFirstColumnTitle1="URL"
ExtraSectionFirstColumnValues1="URL,^(.*)$"
ExtraSectionFirstColumnFormat1="<A HREF='%s' TARGET='_blank'>%.80s</A>"
ExtraSectionStatTypes1=HL
ExtraSectionAddSumRow1=1
MaxNbOfExtra1=20
MinHitExtra1=1

Ricordatevi di selezionare il file .conf corrispondente alla versione (HTTP / HTTPS) del sito che si desidera analizzare.

ATTENZIONE: questo metodo potrebbe non funzionare (il codice viene cancellato dopo 24 ore) in tutti quei servizi di host che attivano un cron job per aggiornare giornalmente l’intero sistema.

In questo caso, i file di configurazione verranno resettati.

Analisi di altri bot con Awstat

Nel caso in cui si volesse analizzare un altro bot utilizzando lo stesso metodo, basta sostituire le informazioni relative allo user agent con quelle di un altro crawler, come in questo caso:

ExtraSectionCondition1="UA,^Mozilla\/5\.0 \(compatible\; Yahoo\! Slurp\; http\:\/\/help\.yahoo\.com\/help\/us\/ysearch\/slurp\)$||UA,^Mozilla\/5\.0 \(compatible\; Yahoo\! Slurp\/3\.0\; http\:\/\/help\.yahoo\.com\/help\/us\/ysearch\/slurp\)$ 

Analisi tramite Analytics

Normalmente, i bot non attivano il codice javascript installato sul sito, di conseguenza bisogna inserire uno specifico script da installare nel web server.

Visualizzare le richieste di indicizzazione

L’assunto che ho segnalato poco sopra è vero tranne che per quanto riguarda il controllo URL della nuova Search Console, sia che si tratti di una nuova indicizzazione che di una richiesta di revisione dopo aver effettuato modifiche.

In questo specifico caso, è possibile visualizzare il percorso inserendo un segmento personalizzato su Acquisizione > Tutto il traffico > Canali

Filtro per visualizzare Googlebot durante l'indicizzazione

Una volta creato, nel mio caso l’ho chiamato Google inc., potete visualizzare se effettivamente l’operazione compiuta su Search Console è giunta a destinazione.

Risultati di Googlebot su Google Analytics

Permettere ad Analytics di memorizzare Googlebot

Con un semplice hack è possibile permettere a Google Analytics di ricevere e memorizzare le visite del bot di Google.

Per renderlo possibile, basta utilizzare le regole presenti in Measurement Protocol e personalizzare l’URL con i parametri necessari per far riconoscere la vista di Analytics selezionata, come nell’esempio (inserire il proprio UA allinterno dell’URL):

 
http://www.google-analytics.com/collect?uip=127.0.0.1&cs=page+title&tid=UA-XXXXXXXX-X&dp=%2Ftest&dt=127.0.0.1+%28Mozilla%2F5.0+%28Macintosh%3B+Intel+Mac+OS+X+10_9_5%29+AppleWebKit%2F537.36+%28KHTML%2C+like+Gecko%29+Chrome%2F44.0.2403.157+Safari%2F537.36%29&dh=example.com&cid=316c4790-2eaf-0133-6785-2de9d37163a1&t=pageview&v=1

Purtroppo, l’unico svantaggio di questo metodo è che richiede i permessi per installare uno script sul server.

Visualizzare Googlebot senza inserire script sul server

Per esperienza personale, non tutti gli host permettono a installazioni su server condivisi di installare qualcosa sul server, per ovvie ragioni.

In questi casi, ci può venire in aiuto il Worker di Cloudflare.

Cloudflare è una CDN che offre da alcuni anni la possibilità di installare script che influenza la rete di distribuzione dei contenuti.

Nel nostro caso, lo script si occuperà di segnalare ad Analytics tutte le visite dei crawler, intercettando il traffico HTTP e attivandosi alle richieste del server e del client:

const analyticsId = 'UA-xxxxxxxxx-x'



addEventListener('fetch', event => {

event.respondWith(handleRequest(event))

})



/**

* Check request object for Googlebot UA to send tracking data

* @param {Event} event

*/

async function handleRequest(event) {



const request = event.request

const ua = request.headers.get('user-agent')

let botName;





// If Googlebot then track hit in Analytics

if ((botName = ua.match(/[^\s]+\-Google[^\s;]*|Googlebot[^\s;]*/g))) {

const response = await fetch(request)

event.waitUntil(analyticsHit(

{

uip: request.headers.get('CF-Connecting-IP'),

dl: request.url,

cd1: response.status,

cd2: botName[0],

cd3: request.method,

cd4: Math.round(+new Date() / 1000.0)

}

))

return response

}



// or just return the original content

return fetch(request)



}



/**

* Send bot tracking data using Analytics Measurement Protocol

* @param {Object} tracking

*/

function analyticsHit(tracking) {

let payload = '?v=1&t=pageview&tid='+analyticsId

for(var key in tracking) {

payload += '&'+key+'='+tracking[key]

}

payload += '&cid='+[Math.round(Math.random() * 2147483647),Math.round(+new Date() / 1000.0)].join('.')

return fetch(encodeURI('https://www.google-analytics.com/collect'+payload))

}

L’unico inconveniente di questo metodo è che il servizio Worker non è presente nella versione gratuita di Cloudflare, ma il costo di 5 dollari al mese è comunque sostenibile.

Una soluzione per WordPress

E’ un fatto assodato che esista un plugin valido per ogni occasione.

In questo caso a semplificarci la vita è un vecchio (ma ancora valido) codice che potete trovare qui.

L’installazione del plugin è semplice ma non intuitiva:

bisogna creare una seconda proprietà su Google Analytics e inserire il codice UA dentro il plugin, per poi prelevare i coockie utma.

Le indicazione del plugin link consigliano di ricercarli su Firefox, ma anche su Chrome è possibili trovarli, con la differenza che si trovano dentro la voce Analytics.

Schermata del plugin Wp Bots Analytics

Una volta completato, consiglio di fare una prima analisi dopo 24 ore tramite il pannello Comportamento > Contenuti del sito > Tutte le pagine e settare come dimensione secondaria le pagine di uscita, per vedere se ci sono dei pattern da aggiustare.

Su WordPress, il classico esempio è controllare se i redirect degli archivi autore e altro rimandino correttamente o (cosa più comune) ci si accorga che sprechino più crawl budget di quanto abbia senso fornirgliene.

[modalsurvey id=”816486194″ style=”flat”] [survey_answers id=”816486194″]

Related Posts

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.