Come analizzare i server log

server log file di screaming frog

Una delle operazioni più importanti della Seo tecnica è l’analisi dei server log.

Questa operazione analizza i file di log dei server prendendo in considerazioni le azioni compiute dagli utenti e dai bot che hanno effettuato un ingresso nel sito. Il consiglio è di operare questa procedura solo dopo aver ricevuto un’approfondita spiegazione da un consulente SEO competente nella lettura dei server log.

Com’è composto un file di log?

Tutti i file di log sono accomunati da un formato riconosciuto dal Consorzio W3C per poter essere letti con tools differenti.

In genere, il formato si presenta sotto questa forma:

 127.0.0.1 user-id log_name [11/Oct/2020:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 

oppure

127.0.0.1 user-id log_name [11/Oct/2020:13:55:36 -0700]
"POST /admin/bl_orderItem.php?name=Francesco&lastName=Giammanco&zip=90145 HTTP/1.1" 200 44

Ogni elemento mantiene una sua posizione all’interno del log e ha un suo significato.

Come si legge un server log?

  • Indirizzo IP: nell’esempio poco sopra è il primo valore (127.0.0.1.) e indica un indirizzo IP nel caso in cui il nome del DNS dell’host non sia disponibile o sia stato disattivato il DNSLookup.
  • Identificatore ID: è il secondo valore (user-id) e ha una valenza limitata, in quanto indica se la risorsa ha bisogno di un identificativo per poter essere interrogata (es. password per accedere alla risorsa).
  • ID dell’utente: può trattarsi di un numero o di un identificativo più riconoscibile (nell’esempio log_name), nel caso in cui si tratti di un utente registrato.
  • Data, orario e fuso orario: nell’esempio: [11/Oct/2020:13:55:36 -0700]
  • GET o POST: GET viene utilizzato quando si vuole recuperare un URL, mentre POST quando si vuole inserire un elemento, come i commenti nei blog.

In questo articolo ci concentreremo sulla lettura dei bot dei motori di ricerca, utilizzando dei metodi più tradizionali di quelli proposti nell’analisi di Googlebot.

Dove si trovano i file dei server log?

In linea generale, gli host organizzano nello spazio acquistato una o più directory per il salvataggio dei log.

Nei servizi di host condivisi la permanenza del log varia in base allo stato di “lavorazione” del file e da quanto tempo è archiviato.

Molti pannelli di gestione dei servizi host (come cPanel) implementano dei tool che supportano nella lettura , come Awstat, ma molto spesso si tratta di servizi poco flessibili.

Nel caso di pannelli come Plesk, molti host autorevoli russi utilizzano uno strumento di analisi che screma direttamente gli errori del PHP dagli accessi dei bot più famosi (sebbene il riconoscimento del crawler sia lasciato all’utente)

Per un accesso completo alle informazioni basta seguire le regole della gestione del registro per:

Se invece si volessero analizzare i file in tools che permettono di aggregare i dati in modo differenti, consiglio Apache Logs Viewer per il costo (una tantum) contenuto, o un software meno famoso della stessa casa del famoso spider SEO: Screaming Frog Log File Analyser.

server log file di screaming frog

A cosa serve analizzare i file di registro?

Dal punto di vista dell’articolo, ci interessa utilizzare queste tecniche di scansione per comprendere quali pagine vengono visitate dai crawler dei motori di ricerca e con che frequenza.

Da un punto di vista più generale, un’analisi del registro serve anche a:

  • controllare eventuali bug nel codice di un software online.
  • analisi dei dati di accesso di utenti che lasciano commenti, comprensivi di zona geografica.
  • ricerca di falle nella sicurezza del sito.
  • servizio clienti su operazioni svolte online.

Guida alla lettura del registro

Leggere un registro può essere un problema non mitigato dal numero di servizi che semplificano l’operazione.

Si tratta quasi sempre di migliaia di informazioni da comprendere e aggregare.

Ho già citato Screaming Frog e Apache Log Viewer tra i tools ma ce ne sono molti altri, e ci sono perfino metodi per l’analisi dei dati con Excel.

Esistono molte guide valide che scendono nel dettaglio su come e cosa selezionare, ma preferisco offrire l’idea di massima sulle operazioni da compiere, al netto del tool utilizzato:

Seleziona i campi da visualizzare

Il log contiene molti campi ma averli sottocchio tutti non è un bene. Per una scansione di routine possiamo tranquillamente limitarci a:

  • data dei log: ci serve per comprendere con che frequenza una pagina viene raggiunta, ma sopratutto qual è la differenza di frequenza di accesso tra le differenti pagine.
  • pagina raggiunta: controllate che si trattino di pagine canoniche o meno.
  • Status code: effettuate un’analisi sia sulla pagina che sul comportamento del server, in caso di differenti status 5xx
  • User Agent: esistono delle tabelle per riconoscere se lo user agent appartiene ad un motore di ricerca. Ma potrebbe anche capitare di essere visitati da bot che si “camuffano” da crawler di Google. Si tratta in questo caso di tecniche di spoofing.
  • Spider: non tutti gli strumenti di analisi palesano il nome assegnato al crawler, ma nei casi in cui questa voce è presente, prendetela in considerazione.

In merito al problema dello spoofing capita spesso che salti all’attenzione la presenza di un numero di visite elevate in periodi di tempo circoscritti, o che solo alcune pagine vengano visitate con maggiore frequenza.

In ogni caso, se ci si trova in difficoltà e non si riesce a comprendere la natura delle visite basta utilizzare una ricerca inversa sul DNS ed il gioco è fatto.

Trai le tue conseguenze

Una volta risolti i problemi legati a status code penalizzanti, si passa alla lettura dei file.

Conoscere l’architettura del sito e i suoi argomenti è fondamentale per poter comprendere la reale importanza dell’accesso nei server log.

Che una pagina venga meno visitata da un’altra è normale, ma qual è l’importanza di quella risorsa?

Un lavoro sul ping può essere speso anche in vista di una ristrutturazione dei link interni.

Related Posts

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.