Gli algoritmi di Google e le Augmentation queries

google algoritmi

L’articolo di oggi cercherà di spiegare cosa sono gli algoritmi di Google e come il motore di ricerca sia dipendente dalla loro funzione.

Congiuntamente, spiegherò tramite l’uso di patenti ufficiali uno dei possibili meccanismi

Un algoritmo è una procedura matematica atta a risolvere un problema tramite un numero limitato di operazioni (in un tempo limitato).

I software moderni sono degli algoritmi tradotti in un linguaggio di programmazione; per fare un esempio, il motore di ricerca Google è la somma degli algoritmi creati per farlo funzionare.

Funzionalità degli algoritmi

La ricerca di Google nasce per ordinare e rendere visibili le query di ricerca degli utenti, con il fine di offrire un elenco di risultati (chiamato SERP) che più si avvicinano a ciò che l’utente ricercava. Tutte le regole che migliorano la qualità delle ricerche, dipendono dalla classificazione dei dati; questo è il lavoro svolto dagli algoritmi di Google.

In questo articolo mi limiterò a creare una lista cronologica dei più importanti algoritmi (o gli update di algoritmi datati ma confermati) creati e utilizzati. Tralascerò gli update minori o gli algoritmi che meno hanno influito sulla community (per un elenco esaustivo, vi consiglio l’articolo di Moz).

algoritmi di google

Storico degli algoritmi

  • Update di Boston (2003): Il primo simbolico update del motore di ricerca, effettuato seguendo la pianificazione che prevedeva un upgrade scadenzato mensilmente. Col tempo, si decise di applicare una sistema di upgrade costanti, per coprire l’alto numero di ricerche e i rapidi mutamenti della rete.
  • Florida update (novembre 2003): l’ingresso di massicci interessi economici nel mondo delle ricerche cominciò a rendere necessario un update che spazzasse via tutti i lavori effettuati negli anni 90 che non propendessero per una reale qualità delle pagine di ricerca (come la procedura del “keyword stuffing”). Comincia a nascere la figura del SEO Specialist, colui il quale interpreta le richieste dell’algoritmo e li tramuta in vantaggi per il sito.
  • Google personalized search (2005): come è possibile leggere direttamente da fonte ufficiale, Google implementa lo storico delle ricerche integrato all’account dell’utente
  • Google universal search (2007): fino a questo momento la tendenza di Google era quella di considerare meno importanti immagini e altri elementi dei siti rispetto al testo. Le SERP furono arricchiti con tutti i tipi di risultati.
  • Google Suggest (2008): ormai viene considerata una cosa normale, ma l’aggregazione di risultati in base alla nostra ricerca prima di aver inviato a Google la query fu introdotto proprio con questo algoritmo.
  • Google Caffeine (2010): più che un algoritmo, rappresentò la trasformazione del modo di ricercare i dati. Google Caffeine rappresenta un nuovo modello di indicizzare i dati; abbandonato il concetto di analisi per “layer”, fu abbracciato quello di ricerca globale.
  • Google Panda (2011): rappresenta l’algoritmo che introdusse realmente il concetto di qualità delle pagine. Panda si occupa (è ancora attivo, grazie anche ai numerosi update) di scovare i contenuti copiati da terze parti; nasce in risposta alla creazione di comunità di siti di bassa qualità utilizzati come aggregatori di link.
  • Google Penguin (2012): come Panda, Penguin nasce per penalizzare i siti che si occupano di effettuare keyword stuffing, creare dei pattern di link. Nasce la prima differenza tra posizioni SEO a favore o contrari le politiche di Google.
  • Google Knowledge Graph (2012): per alcuni contenuti di maggiore importanza, Google crea una particolare finestra a destra della SERP ove collocare le informazioni più attinenti alla ricerca.
  • Google Hummingbird (2013): cambia completamente i risultati delle query di ricerca, cercando di interpretare le intenzioni di ricerca dell’utente. L’algoritmo di Google comincia ad essere trasformato per avvicinarsi ai bisogni dell’utente, lasciando così le vestigiali ricerche da macchina.
  • Google Pigeon (2014): nascono le ricerche geolocalizzate all’interno degli algoritmi di Google, con la relativa nascita del Local SEO.
  • Mobilegeddon (2015): più che un algoritmo rappresenta lo spostamento di interesse (e di relativo valore all’interno delle SERP) verso i siti ottimizzati per offrire risultati mobile efficienti.
  • Google RankBrain (2015): rappresenta la prima applicazione di un sistema di machine learning all’interno dei motori di ricerca di Google.
  • Google Possum (2016): da maggior rilievo ai dati presenti su Google My Business, rendendo ancora più forte il valore della geolocalizzazione.
  • Google Penguin 4.0 (2016): il vecchio algoritmo viene rinnovato e reso persistente (prima era utilizzato in maniera tale da scansionare lentamente i vari siti), come è possibile leggere da un annuncio ufficiale.
  • Google Intrusive Interstitial Penalty(2017): nasce per penalizzare tutti quei siti che utilizzano popup che coprono il contenuto del sito (affiliazioni, pubblicità). I risultati mirano sopratutto ad aumentare la qualità del traffico da mobile.
  • Google Fred (2017): sebbene il nome non sia ufficiale, gli effetti di Google Fred lo sono eccome. Nasce per diminuire i tentativi di monetizzazione effettuata tramite i siti e aumentare l’importanza della “user experience”.
  • Mobile first index roll-out (2018): dagli algoritmi di Google viene data maggiore importanza ai siti che ottimizzano il sito per una indicizzazione a partire dal mobile.
  • Broad core update (2019): dalla seconda metà del 2018 si sono susseguiti differenti update di grandi dimensioni. La loro funzione è stata quella di modificare il peso dei parametri di posizionamento, personalizzando il ranking dei diversi settori, com’è accaduto per il più famoso medical update. Sebbene non si possa parlare di nuovi algoritmi, il preponderante sviluppo dell’AI rende difficile comprendere se gli aggiornamenti siano da considerarsi o meno algoritmi indipendenti.
  • Diversity (2019): questo algoritmo è stato realizzato per non posizionare due pagine sulla stessa SERP. L’algorimo ha iniziato a manifestare i suoi effetti a giugno del 2019.

Augmentation queries e algoritmi

Se gli algoritmi hanno la funzione di ordinare al meglio i risultati, le augmentation queries hanno lo scopo di pre-ordinare i risultati di una ricerca individuandone la “qualità”

Ho evitato volutamente di tradurre augmentation query e synthetic queries per rendere più semplice la ricerca degli articoli ad esso connessi.

“Augmentation query” è un termine utilizzato frequentemente nei paper dei sistemi informazionali web, come nel caso di questo articolo sul linguaggio di interrogazione SPARQL. Il termine è lo stesso di quello utilizzato qui e da Google, la teoria alla base è identica, l’applicazione pratica diverge, difficile capire di quanto.

Il quality score delle query

Se il soggetto dell’articolo sono le queries, il punto di partenza è il quality scores.

A marzo 2018 Google decide di pubblicare in merito ad un sistema per assegnare un punteggio di qualità alle query, come descritto dalla relativa patent. Lo scopo è quello di aumentare la “qualità” della ricerca mostrando risultati autorevoli.

La definizione utilizzata dal colosso di Mountain View asserisce che i segnali di qualità valutano se la prima query di ricerca serve per trovare le informazioni ricercate. Se ciò accade, la query verrà archiviata in un data store e segnalata come “di qualità”, perché ha superato la soglia di prestazione (performance threshold) richiesta.

A differenza del sistema che ci è familiare, non è il sito (e i suoi contenuti) che dispone di autorevolezza e influenza le SERP, ma sono le abitudini di ricerca degli users, i sinonimi delle parole cercate e le queries generate dal sistema a determinare le posizioni nella rete di ricerca. Così almeno per le prime posizioni. Ma andiamo per ordine:

Augmentation queries US9916366B1
Motore di ricerca e Augmentation Query

Da cosa sono composte le augmentation queries?

Il processo di generazione delle augmentation queries utilizza come dati le interazioni degli utenti, le synthetic queries e i dati strutturati.
Per calcolare il grado di soddisfazione degli utenti, che sono il dato sensibile delle interazioni, Google prende in considerazioni fattori impliciti alla ricerca come il long click, lo short click, il CTR e l’IR.

Synthetic queries

Le synthetic queries vengono generate a partire dalle seed queries, un processo del motore di ricerca che seleziona i risultati nel tentativo di produrre SERP pertinenti. Lo scopo è di limitare l’influenza delle queries generate per errore dagli utenti, che non rispondono in maniera pertinente all’intento di ricerca.

La selezione di synthetic queries che compone le augmentation queries è composta da ricerche su termini ritenuti validi perché ripetuti in documenti con un numero di clic alto se rapportato al numero di selezioni nelle SERP.

Il click-through rates (CTR) rappresenta il rapporto tra il numero di click ricevuti dalla query divisi per il numero di volte che la query viene ricercata.

Fattori impliciti

Il long click è una ricerca che produce un’attenzione dell’utente sulla pagina di atterraggio, seguita o meno da click su elementi della pagina, per continuare la navigazione.

Lo short link invece è un’inversione del click-through rate, quando lo user dopo aver visionato la pagina torna indietro ai risultati di ricerca.

Il valore di integrated reasoning o IR score calcola il peso e l’enfasi delle parole all’interno del documento. Successivamente, il valore viene utilizzato come dividendo o moltiplicatore dei parametri di pagerank che ancora vengono utilizzati.

In some implementations, IR scores can be computed from, for example, dot products of feature vectors corresponding to a query and a document, page rank scores, and/or combinations of IR scores and page rank scores, etc.


The frequency of a particular query within the query logs 120. Patent US9916366B1.

Generatore di Augmentation Query.

La somma dei fattori impliciti alimenta il Query Evaluator, che processa i dati e li immagazzina nell’Augmentation Query Store.

Rapporto con i dati strutturati

Ricordate l’articolo “i dati strutturati non forniscono un boost al posizionamento ma possono aiutare il posizionamento (da seroundtable)? E’ più vera di quanto credete.

Una parte delle SERP che noi vediamo è pre-influenzata da un set di regole che modifica i risultati in base ad un sistema semantico predittivo che si avvale di segnali reiterati per mostrare il risultato più utile (questa la funzione dei dati strutturati).

Di conseguenza, se una parte dei segnali è presente nei nostri siti, allora le chance di essere posizionati aumenta, al netto di possibili e confluenti CTR.

Cosa sono le Augmentation queries

La creazione di una augmentation query dipende dai segnali di qualità. Più una ricerca è attinente con le regole maggiore è la chance che venga utilizzata come risultato per queries analoghe.

Sistemi come il calcolo dei click log impatta sulle chance di creazione di una augmentation query.

Il rapporto tra l’attivazione dello store delle augmentation e le queries utilizzate dipende dalla qualità della ricerca.

Più una ricerca risponde a parametri verificabili dal sistema, maggiore sono le probabilità che il risultato compaia in alto.

Di conseguenza, lo store di dati tende ad attivarsi con maggiore frequenza nelle ricerche che rispondono perfettamente a certi parametri.

Ma come vengono generati i parametri?

Ipotesi

Nei giorni passati mi sono trovato a dover analizzare un sito di cucina, colpito da una perdita di posizionamento notevole. Durante la mia ricerca mi sono imbattuto in alcuni dei grafici di RankRanger in merito ai gruppi di argomenti colpiti dall’update dell’1 agosto 2018. Vi riporto le tabelle.

Food&drink Update

Gambling update

Viaggi update

Il dato in comune è che i primi risultati guadagnano stabilità (o quantomeno non ne perdono) rispetto ai risultati ulteriori. Il dato non è allineato in ogni settore (come per esempio per la finanza o il settore medicale).

Ma qual’è la relazione con le augmentation queries? (da qui in poi l’ipotesi)

In alcuni settori la creazione di uno standard di valutazione dipende dal giudizio dei visitatori, calcolato grazie ai fattori impliciti. In queste aree l’autorevolezza del testo è fondamentale. Di conseguenza, la generazione di augmented queries collimerà più facilmente con i gusti dell’utenza. Questo il caso del food&drink, viaggigiochi d’azzardo.

Nel caso del settore medicale invece, l’autorevolezza non può essere generata dal gusto dell’utenza, ma entrano in gioco fattori di validità delle fonti e ridondanza di termini, nomi e siti (scientifici) che probabilmente faranno pendere il peso della bilancia dalla parte delle synthetic queries.

Conclusioni

Il peso dell’autorevolezza nel fornire un giudizio valido è fonte di discussione a partire dai tempi dello “spoudaios” aristotelico, l’uomo virtuoso che è metro e misura del campo in cui opera.

La sensazione è che nonostante il trascorrere degli anni e l’affidamento a persone virtuose e virtuali, questo lo scopo delle operazioni semantiche del motore di ricerca, il vero metro di giudizio rimane l’utilità, al netto virtù lavorative, siano esse intese all’occidentale o all’orientale.




starstarstarstarstar0.00 / 0 voto / i

Related Posts

Se ti è piaciuto l'articolo, iscriviti alla Newsletter

2 pensieri su “Gli algoritmi di Google e le Augmentation queries

  1. Paolo Dossena dice:

    Complimenti Francesco, non sono molti i blog in italiano che affrontano tematiche di SEO tecnico, approfondendo peraltro in maniera informativa come hai fatto tu in questo articolo.

    Non conoscevo il tuo blog, ma adesso lo aggiungerò al mio feed. Un saluto!

    • Francesco Giammanco dice:

      Ciao Paolo.
      A breve un articolo su: sto inserendo dei link follow nei dati strutturati (???) di questo sito per testare quanto varia il posizionamento dei siti raggiunti. I link sono semanticamente potenti “il doppio” (per modo di dire) se ci pensi.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.