Prima di parlare delle augmentation queries ha senso precisare alcune cose:
  • l’articolo che stai per leggere ha un taglio accademico, che può risultare ostico da leggere. Salta alla sezione delle Conclusioni o ai dati strutturati se non ti interessa la prima parte.
  • Ho evitato volutamente di tradurre augmentation query e synthetic queries per rendere più semplice la ricerca di chi volesse implementare la lettura di questo articolo con altre fonti.
  • Il problema delle fonti: augmentation query è un termine utilizzato frequentemente nei paper dei sistemi informazionali web, come nel caso di questo articolo sul linguaggio di interrogazione SPARQL. Il termine è lo stesso di quello utilizzato qui e da Google, la teoria alla base è identica, l’applicazione pratica diverge, difficile capire di quanto.

Il quality score delle query

Se il soggetto dell’articolo sono le queries, il punto di partenza è il quality scores. A marzo 2018 Google decide di creare un sistema per assegnare un punteggio di qualità alle query, come descritto dalla relativa patent. Lo scopo è quello di aumentare la “qualità” della ricerca mostrando risultati autorevoli. La definizione utilizzata dal colosso di Mountain View asserisce che i segnali di qualità valutano se la prima query di ricerca serve per trovare le informazioni ricercate. Se ciò accade, la query verrà archiviata in un data store e segnalata come “di qualità”, perché ha superato la soglia di prestazione (performance threshold) richiesta. A differenza del sistema che ci è familiare, non è il sito (e i suoi contenuti) che dispone di autorevolezza e influenza le SERP, ma sono le abitudini di ricerca degli users, i sinonimi delle parole cercate e le queries generate dal sistema a determinare le posizioni nella rete di ricerca. Così almeno per le prime posizioni. Ma andiamo per ordine:
Augmentation queries US9916366B1
Motore di ricerca e Augmentation Query

Da cosa sono composte le augmentation queries.

Il processo di generazione delle augmentation queries utilizza come dati le interazioni degli utenti, le synthetic queries e i dati strutturati. Per calcolare il grado di soddisfazione degli utenti, che sono il dato sensibile delle interazioni, Google prende in considerazioni fattori impliciti alla ricerca come il long click, lo short click, il CTR e l’IR.

Synthetic queries

Le synthetic queries vengono generate a partire dalle seed queries, un processo del motore di ricerca che seleziona i risultati nel tentativo di produrre SERP pertinenti. Lo scopo è di limitare l’influenza delle queries generate per errore dagli utenti, che non rispondono in maniera pertinente all’intento di ricerca. La selezione di synthetic queries che compone le augmentation queries è composta da ricerche su termini ritenuti validi perché ripetuti in documenti con un numero di clic alto se rapportato al numero di selezioni nelle SERP. Il click-through rates (CTR) rappresenta il rapporto tra il numero di click ricevuti dalla query divisi per il numero di volte che la query viene ricercata.

Fattori impliciti

Il long click è una ricerca che produce un’attenzione dell’utente sulla pagina di atterraggio, seguita o meno da click su elementi della pagina, per continuare la navigazione. Lo short link invece è un’inversione del click-through rate, quando lo user dopo aver visionato la pagina torna indietro ai risultati di ricerca. Il valore di integrated reasoning o IR score calcola il peso e l’enfasi delle parole all’interno del documento. Successivamente, il valore viene utilizzato come dividendo o moltiplicatore dei parametri di pagerank che ancora vengono utilizzati.
In some implementations, IR scores can be computed from, for example, dot products of feature vectors corresponding to a query and a document, page rank scores, and/or combinations of IR scores and page rank scores, etc. The frequency of a particular query within the query logs 120. Patent US9916366B1.
Generatore di Augmentation Query.
La somma dei fattori impliciti alimenta il Query Evaluator, che processa i dati e li immagazzina nell’Augmentation Query Store.

Rapporto con i dati strutturati

Ricordate l’articolo “i dati strutturati non forniscono un boost al posizionamento ma possono aiutare il posizionamento (da seroundtable)”? E’ più vera di quanto credete. Una parte delle SERP che noi vediamo è pre-influenzata da un set di regole che modifica i risultati in base ad un sistema semantico predittivo che si avvale di segnali reiterati per mostrare il risultato più utile (questa la funzione dei dati strutturati). Di conseguenza, se una parte dei segnali è presente nei nostri siti, allora le chance di essere posizionati aumenta, al netto di possibili e confluenti CTR.

Cosa sono le Augmentation queries

La creazione di una augmentation query dipende dai segnali di qualità. Più una ricerca è attinente con le regole maggiore è la chance che venga utilizzata come risultato per queries analoghe. Sistemi come il calcolo dei click log impatta sulle chance di creazione di una augmentation query. Il rapporto tra l’attivazione dello store delle augmentation e le queries utilizzate dipende dalla qualità della ricerca. Più una ricerca risponde a parametri verificabili dal sistema, maggiore sono le probabilità che il risultato compaia in alto. Di conseguenza, lo store di dati tende ad attivarsi con maggiore frequenza nelle ricerche che rispondono perfettamente a certi parametri. Ma come vengono generati i parametri?

Ipotesi

Nei giorni passati mi sono trovato a dover analizzare un sito di cucina, colpito da una perdita di posizionamento notevole. Durante la mia ricerca mi sono imbattuto in alcuni dei grafici di RankRanger in merito ai gruppi di argomenti colpiti dall’update dell’1 agosto. Vi riporto le tabelle.
Food&drink Update
Gambling update
Viaggi update
Il dato in comune è che i primi risultati guadagnano stabilità (o quantomeno non ne perdono) rispetto ai risultati ulteriori. Il dato non è allineato in ogni settore (come per esempio per la finanza o il settore medicale). Ma qual’è la relazione con le augmentation queries? (da qui in poi l’ipotesi) In alcuni settori la creazione di uno standard di valutazione dipende dal giudizio dei visitatori, calcolato grazie ai fattori impliciti. In queste aree l’autorevolezza del testo è fondamentale. Di conseguenza, la generazione di augmented queries collimerà più facilmente con i gusti dell’utenza. Questo il caso del food&drink, viaggigiochi d’azzardo. Nel caso del settore medicale invece, l’autorevolezza non può essere generata dal gusto dell’utenza, ma entrano in gioco fattori di validità delle fonti e ridondanza di termini, nomi e siti (scientifici) che probabilmente faranno pendere il peso della bilancia dalla parte delle synthetic queries.

Conclusioni

Il peso dell’autorevolezza nel fornire un giudizio valido è fonte di discussione a partire dai tempi dello “spoudaios” aristotelico, l’uomo virtuoso che è metro e misura del campo in cui opera. La sensazione è che nonostante il trascorrere degli anni e l’affidamento a persone virtuose e virtuali, questo lo scopo delle operazioni semantiche del motore di ricerca, il vero metro di giudizio rimane l’utilità, al netto virtù lavorative, siano esse intese all’occidentale o all’orientale. Accettare tutto questo, a quanto pare è la missione lavorativa assegnataci dallo scorrere del tempo.
Questo elemento è stato inserito in SEO e SEM e taggato .

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito usa Akismet per ridurre lo spam. Scopri come i tuoi dati vengono elaborati.