Algoritmi di Google e Augmentation query

Pubblicato: Luglio 29, 2018
Autore: Francesco Giammanco
Algoritmi di Google

L'articolo di oggi cercherà di spiegare cosa sono gli algoritmi di Google e come il motore di ricerca sia dipendente dalla loro funzione.

Congiuntamente, spiegherò tramite l'uso di patenti ufficiali uno dei possibili meccanismi

Un algoritmo è una procedura matematica atta a risolvere un problema tramite un numero limitato di operazioni (in un tempo limitato).

I software moderni sono degli algoritmi tradotti in un linguaggio di programmazione; per fare un esempio, il motore di ricerca Google è la somma degli algoritmi creati per farlo funzionare.

Funzionalità degli algoritmi

La ricerca di Google nasce per ordinare e rendere visibili le query di ricerca degli utenti, con il fine di offrire un elenco di risultati (chiamato SERP) che più si avvicinano a ciò che l'utente ricercava. Tutte le regole che migliorano la qualità delle ricerche, dipendono dalla classificazione dei dati; questo è il lavoro svolto dagli algoritmi di Google.

In questo articolo mi limiterò a creare una lista cronologica dei più importanti algoritmi (o gli update di algoritmi datati ma confermati) creati e utilizzati. Tralascerò gli update minori o gli algoritmi che meno hanno influito sulla community (per un elenco esaustivo, vi consiglio l'articolo di Moz).

algoritmi di google

Storico degli algoritmi

Augmentation queries e algoritmi

Se gli algoritmi hanno la funzione di ordinare al meglio i risultati, le augmentation queries hanno lo scopo di pre-ordinare i risultati di una ricerca individuandone la "qualità"

Ho evitato volutamente di tradurre augmentation query e synthetic queries per rendere più semplice la ricerca degli articoli ad esso connessi.

"Augmentation query" è un termine utilizzato frequentemente nei paper dei sistemi informazionali web, come nel caso di questo articolo sul linguaggio di interrogazione SPARQL. Il termine è lo stesso di quello utilizzato qui e da Google, la teoria alla base è identica, l'applicazione pratica diverge, difficile capire di quanto.

Il quality score delle query

Se il soggetto dell'articolo sono le queries, il punto di partenza è il quality scores.

A marzo 2018 Google decide di pubblicare in merito ad un sistema per assegnare un punteggio di qualità alle query, come descritto dalla relativa patent. Lo scopo è quello di aumentare la "qualità" della ricerca mostrando risultati autorevoli.

La definizione utilizzata dal colosso di Mountain View asserisce che i segnali di qualità valutano se la prima query di ricerca serve per trovare le informazioni ricercate. Se ciò accade, la query verrà archiviata in un data store e segnalata come "di qualità", perché ha superato la soglia di prestazione (performance threshold) richiesta.

A differenza del sistema che ci è familiare, non è il sito (e i suoi contenuti) che dispone di autorevolezza e influenza le SERP, ma sono le abitudini di ricerca degli users, i sinonimi delle parole cercate e le queries generate dal sistema a determinare le posizioni nella rete di ricerca. Così almeno per le prime posizioni. Ma andiamo per ordine:

Augmentation queries US9916366B1
Motore di ricerca e Augmentation Query

Da cosa sono composte le augmentation queries?

Il processo di generazione delle augmentation queries utilizza come dati le interazioni degli utenti, le synthetic queries e i dati strutturati.
Per calcolare il grado di soddisfazione degli utenti, che sono il dato sensibile delle interazioni, Google prende in considerazioni fattori impliciti alla ricerca come il long click, lo short click, il CTR e l'IR.

Synthetic queries

Le synthetic queries vengono generate a partire dalle seed queries, un processo del motore di ricerca che seleziona i risultati nel tentativo di produrre SERP pertinenti. Lo scopo è di limitare l'influenza delle queries generate per errore dagli utenti, che non rispondono in maniera pertinente all'intento di ricerca.

La selezione di synthetic queries che compone le augmentation queries è composta da ricerche su termini ritenuti validi perché ripetuti in documenti con un numero di clic alto se rapportato al numero di selezioni nelle SERP.

Il click-through rates (CTR) rappresenta il rapporto tra il numero di click ricevuti dalla query divisi per il numero di volte che la query viene ricercata.

Fattori impliciti

Il long click è una ricerca che produce un'attenzione dell'utente sulla pagina di atterraggio, seguita o meno da click su elementi della pagina, per continuare la navigazione.

Lo short link invece è un'inversione del click-through rate, quando lo user dopo aver visionato la pagina torna indietro ai risultati di ricerca.

Il valore di integrated reasoning o IR score calcola il peso e l'enfasi delle parole all'interno del documento. Successivamente, il valore viene utilizzato come dividendo o moltiplicatore dei parametri di pagerank che ancora vengono utilizzati.

In some implementations, IR scores can be computed from, for example, dot products of feature vectors corresponding to a query and a document, page rank scores, and/or combinations of IR scores and page rank scores, etc.

 


The frequency of a particular query within the query logs 120. Patent US9916366B1.

 

Generatore di Augmentation Query.

La somma dei fattori impliciti alimenta il Query Evaluator, che processa i dati e li immagazzina nell'Augmentation Query Store.

Rapporto con i dati strutturati

Ricordate l'articolo "i dati strutturati non forniscono un boost al posizionamento ma possono aiutare il posizionamento (da seroundtable)? E' più vera di quanto credete.

Una parte delle SERP che noi vediamo è pre-influenzata da un set di regole che modifica i risultati in base ad un sistema semantico predittivo che si avvale di segnali reiterati per mostrare il risultato più utile (questa la funzione dei dati strutturati).

Di conseguenza, se una parte dei segnali è presente nei nostri siti, allora le chance di essere posizionati aumenta, al netto di possibili e confluenti CTR.

Cosa sono le Augmentation queries

La creazione di una augmentation query dipende dai segnali di qualità. Più una ricerca è attinente con le regole maggiore è la chance che venga utilizzata come risultato per queries analoghe.

Sistemi come il calcolo dei click log impatta sulle chance di creazione di una augmentation query.

Il rapporto tra l'attivazione dello store delle augmentation e le queries utilizzate dipende dalla qualità della ricerca.

Più una ricerca risponde a parametri verificabili dal sistema, maggiore sono le probabilità che il risultato compaia in alto.

Di conseguenza, lo store di dati tende ad attivarsi con maggiore frequenza nelle ricerche che rispondono perfettamente a certi parametri.

Ma come vengono generati i parametri?

Ipotesi

Nei giorni passati mi sono trovato a dover analizzare un sito di cucina, colpito da una perdita di posizionamento notevole. Durante la mia ricerca mi sono imbattuto in alcuni dei grafici di RankRanger in merito ai gruppi di argomenti colpiti dall'update del 1 agosto 2018. Vi riporto le tabelle.

 

Food&drink Update

 

Gambling update

 

Viaggi update

Il dato in comune è che i primi risultati guadagnano stabilità (o quantomeno non ne perdono) rispetto ai risultati ulteriori. Il dato non è allineato in ogni settore (come per esempio per la finanza o il settore medicale).

Ma qual'è la relazione con le augmentation queries? (da qui in poi l'ipotesi)

In alcuni settori la creazione di uno standard di valutazione dipende dal giudizio dei visitatori, calcolato grazie ai fattori impliciti. In queste aree l'autorevolezza del testo è fondamentale. Di conseguenza, la generazione di augmented queries collimerà più facilmente con i gusti dell'utenza. Questo il caso del food&drink, viaggigiochi d'azzardo.

Nel caso del settore medicale invece, l'autorevolezza non può essere generata dal gusto dell'utenza, ma entrano in gioco fattori di validità delle fonti e ridondanza di termini, nomi e siti (scientifici) che probabilmente faranno pendere il peso della bilancia dalla parte delle synthetic queries.

Conclusioni

Il peso dell'autorevolezza nel fornire un giudizio valido è fonte di discussione a partire dai tempi dello "spoudaios" aristotelico, l'uomo virtuoso che è metro e misura del campo in cui opera.

La sensazione è che nonostante il trascorrere degli anni e l'affidamento a persone virtuose e virtuali, questo lo scopo delle operazioni semantiche del motore di ricerca, il vero metro di giudizio rimane l'utilità, al netto virtù lavorative, siano esse intese all'occidentale o all'orientale.

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram