Francesco Giammanco

Contenuti duplicati, Link inversion e Blockquote

Quando si parla di contenuti duplicati e originali, il velo del dubbio cala sull'argomento.

Il motivo principale è che le uniche fonti da analizzare sono le patenti  degli algoritmi, di cui non sappiamo neppure se sono applicate in toto o in parte.

La riflessione proposta parte dall'assunto del link inversion di Dan Petrovic, testato al parossismo, per poi integrare il punto di vista di Bill Slawski.

Il punto di partenza della trattazione inizia con una testimonianza difforme da quanto letto nel precedente articolo, il protocollo sull'identificazione della versione originale di un documento.

Versione primaria e contenuti duplicati

Secondo quanto espresso il sistema sceglie una versione primaria del documento, in base all'autorità e alle informazioni insite al suo interno.

In altre patenti si parla di sistemi che aggregano i documenti in base a parametri indipendenti dalle selezione delle query.

Secondo le fonti verrebbe favorita la versione dei dati che meglio risponde ai parametri di classificazione preesistenti.

Considerare un documento di rappresentanza permette al motore di ricerca di evitare contenuti duplicati nelle SERP.

Lo scopo è di evitare che l'utente debba scegliere tra risultati identici senza considerare l'autorità della fonte.

Un altro problema evitato riguarda la qualità della SERP, che altrimenti risulterebbe particolarmente bassa per colpa di un sovraffollamento di copie di una fonte.

Quando si fa riferimento ai sistemi di classificazione dei dati si prendono in considerazione la lunghezza del documento e i suoi metadati.

La lunghezza concorre insieme all'autorità della fonte a segnalare un contenuto esaustivo e di qualità.

Riguardo i metadati si prendono in considerazione le fonti dello scritto, i diritti di pubblicazione e gli indicatori di gradimento, come i like.

Senza considerare che informazioni come il nome dell'autore, date e luoghi di pubblicazione rappresentano dei segnali di qualifica della fonte.

Questi dati sembrerebbero così importanti da essere fondanti per l'ultimo grande roll-out update.

A quanto pare le strade seguite da Google e quella prospettata da Petrovic differiscono tra loro, pur avendo in comune la considerazione che i contenuti duplicati sono contrastati da metodi basati sull'autorità delle fonti.

Il problema del link inversion

Il processo diLink inversion si attiva quando i backlink puntano ad un documento duplicato. Il valore di autorità espressa dal link cambia algoritmicamente target e punta la versione canonica.

L'inversione non è un redirect, ma si parla di autorità del link e di quale risultato viene visualizzato su Google.

La versione canonica si assegna in base all'autorità del sito / documento / pagina, e non dipende dalla URL canonical.

In uno scenario del genere esistono due categorie di casi:

Nel primo caso nessun problema, i backlink che puntano a documenti duplicati valorizzano la versione canonica.

Nel secondo caso, il documento, anche se caricato temporalmente prima, cederà la qualifica di versione canonica al duplicato che possiede la più alta autorità, secondo la regola del link inversione.

In sostanza, Google non considera la paternità del documento (con il termine intendiamo sia parti di pagine che file PDF o similari), ma l'autorità dell'autore visibile sul sito.

La Storia del link inversion

Nel 2010 Frank Dabek e Daniel Peng, esperti di parallel computing e sistemi distribuiti di Google si ritrovano a dover rivoluzionare il sistema di indicizzazione corrente, mosso da MapReduce.

Lo scopo era velocizzare la visibilità dei nuovi contenuti presenti nelle SERP e aumentarne la freschezza.

I due inventarono un nuovo modo di trasformare i dataset, operando con un alto numero di piccole modifiche, indipendenti tra loro.

Il processo prese il nome di Percolator, ma l'applicazione più famosa di questa rivoluzione fu il sistema di l'indicizzazione algoritmica chiamata Caffeine.

Ma il vero protagonista della storia è Dan Petrovic, uno dei SEO australiani più famosi. Due anni dopo l'applicazione di Caffeine pubblica un articolo in merito al dirottamento di parti del blog di Rand Fishkin, in cui prova l'esistenza del problema di autorità delle fonti.

I rel="canonical" non contrastano completamente il problema, ma sono una misura preventiva attivata discrezionalmente dal motore di ricerca.

La risposta a Google (2018)

Figure come quella di Petrovic aiutano Google nella scoperta dei bug. Non sempre però mostrare il nervo scoperto di un'azienda ti mette in buona luce.

I lavori di Dan hanno rivelato che documenti inseriti all'interno di accordion o tab, non visibili direttamente all'utente, vengono svalutati a livello di autorità rispetto a documenti visibili. 
Lo studio del consulente seo verteva sul posizionamento ed è stato effettuato il 12 settembre 2018.

Un tweet in particolare, in cui Gary Illyes sbeffeggia Petrovic, ha dato il via all'ultima fase del Link inversion:

Come si vede dall'immagine l'utilizzo di un title copiato ha generato un testa a testa tra le due pagine, in cui la versione duplicata supera per autorità l'originale.

Se volete provare, la query è https://www.google.com.au/search?q=%22because+documents+with+the+same+title+are+often+considered+duplicates%22

Blockquote

Il problema della duplicazione dei contenuti ha diverse soluzioni specifiche, che possono diminuire tale rischio.

Tra le soluzioni semantiche HTML5 ci sono dei tag, per la precisione <blockquote>, <q> e <cite> che hanno a che fare direttamente con la possibilità di citare del testo, e indirettamente con le indicazioni di Google sui contenuti duplicati.

Qui di seguito verrà presentato un metodo per utilizzare del contenuto altrimenti considerato duplicato, e sulle implicazioni in termini di co-citazioni e co-occorrenza (o presenza).

A cosa serve il tag blockquote?

<blockquote> nasce per aggiungere una citazione alla pagina inserendo l'URL di riferimento del testo copiato, senza però che quest'ultimo diventi un backlink.

A differenza del seppur simile tag <q>, che viene utilizzato per testi brevi e senza link di riferimento, blockquote viene consigliato nel caso opposto, in cui la quantità di testo è significativa, e di fatto copre una porzione della pagina tale da poter far scattare l'algoritmo in quanto a duplicazione.

L'elemento che produce una differenza qualitativa tra i due tag è il <cite>, che si inserisce dentro blockquote per contenere l'URL che non verrà mostrata e non sarà cliccabile, ma che varrà come "prova" ai fini della (mancata) duplicazione. Eccone un esempio:

<blockquote cite="https://www.virtual-agency.it/consulente-seo-e-team/">
<p>L’illusione di una sovrapposizione di ruoli sfuma velocemente, nel momento
in cui analizziamo con maggior attenzione le funzioni delle due figure.</p>
</blockquote>

E per implementarlo? Bisogna ricorrere all' HTML?

In realtà la citazione, come chiamerò da adesso in poi il tag <blockquote>, è già integrato negli strumenti di uso comune online, come WordPress. Con Gutenberg l'utilizzo della citazione è semplicissima, e i temi grafici molto spesso abbelliscono questa funzione trasformando il testo e rendendolo più visibile.

Esempio visivo di citazione

Si possono inserire tag <img> dentro le citazioni?

La risposta è si, ma potreste non esserne felici. Il problema nasce dal fatto che le dimensioni del tag blockquote sono implicite e dettate da quelle di uno degli "elementi padre / parent".

Si tratta dunque di esplicitare la dimensione della citazione e del parent tramite l'utilizzo di Javascript. Per semplificarvi la spiegazione vi consiglio di seguire questo esempio.

Si tratta di un tentativo, riuscito, in cui la possibilità che gli elementi trasbordino viene gestita dalla proprietà CSS overflow.

Le citazioni aiutano il posizionamento?

La citazione è sicuramente utile ai fini della costruzione semantica per il motore di ricerca, anche se è improbabile definire quanto.

I dati in possesso di un SEO qualificato riguardano le abitudini dei siti autorevoli, che fanno uso delle citazioni, dall'altra le indicazioni di Matt Cutts in merito alla questione.

Per farla breve, secondo quanto indicato dal video un tag <blockquote> previene la segnalazione di contenuto duplicato, se è presente l'URL di riferimento della fonte e anche altro contenuto originale, presente sempre all'interno della stessa pagina.

Ma se ad un neofita questa risposta basta, ad un SEO esperto nascono solo altre domande.

La dimensione dei contenuti conta?

Si tratta dell'annosa questione su quante parole bisogna usare per un articolo perfetto. Ma se implementiamo in questo luogo comune l'assioma "le citazioni si possono inserire e non penalizzano" la quantità di testo che è possibile inserire velocemente in un articolo è pressoché infinito. Di fatto basta aggiungere un pò di testo originale tra ogni citazione, e il gioco è fatto.

Questa operazione risulterebbe valida per le regole di Google e apparentemente l'unico rischio riguarderebbe la scoperta del contenuto originale minimo da inserire.

Ma cosa scopriamo davvero ragionando su questo argomento?

Uscendo dalla zona di confort delle "abitudini da SEO" ci rendiamo conto che il testo è solo uno dei veicoli che genera una relazione tra il motore di ricerca e l'utente, ma che l'interesse è un'altra cosa.

Mi sembra inutile soffermarmi sulla stupidità dell'equazione dimensione del testo e ranking, dato che adesso risulta più chiaro che "scrivere un articolo molto lungo" è davvero facile.

Co-citazioni

Inutile dire che se c'è l'eventualità di sfruttare una regola di Google, un SEO è in prima linea.

La potenza di una citazione non è paragonabile a quella di un backlink, ma si tratta pur sempre di un "chiarimento" per il motore di ricerca, che apprende la correlazione tra argomenti. In ogni caso, sebbene il paragone potrebbe creare qualche incomprensione, backlinks e citazioni hanno in comune il fatto che sono "segnali" per il motore di ricerca.

Si parla di co-citazione quando due siti pur senza condividere guest post o backlinks che puntano ad uno stesso sito, utilizzano la citazione di una stessa fonte come punto di vicinanza semantica.

Per formalizzare (almeno dal punto di vista del creatore dei contenuti) questo genere di operazione basta parlare di uno stesso argomento (la pagina quindi deve essere tematica) e inserire dentro la stessa quantità di testo citato, o quantomeno simile.

A tal proposito, per comprendere al meglio che tipo di segnale può fornire una citazione, è il caso di introdurre un concetto proveniente dal lontano 2013, ma ancora attualissimo: la co-occorrenza (co-occurrence).

Co-occurrence

L'insieme della presenza, della frequenza e della prossimità tra loro delle parole chiavi presenti in siti differenza indica la loro co-occorrenza, la vicinanza semantica latente che servì per aumentare la velocità di indicizzazione di Google.

Il rapporto tra co-occurence e co-citazione è semplice, perché a pensarci bene non può esistere una citazione condivisa senza che sia presente del contenuto comune, almeno in una pagina, tra i due siti, e molto probabilmente condivideranno argomenti analoghi ma non identici, che tra le altre cose, non serve, non è detto che sia produttivo.

Autorità del sito e citazioni

Sebbene non sia direttamente analizzabile con i tool SEO, è alla portata di tutti comprendere che i siti autorevoli producono una presenza delle loro notizie sugli altri siti sottoforma di citazioni.

Potrebbe sembrare corretto pensare che l'autorità del sito autorevole si esplichi unicamente attraverso la presenza di un backlink, ma a pensarci bene il collegamento ipertestuale prende "valore" dal contenuto del sito, dal suo argomento, e senza che ci sia un danno, anche da una parte del contenuto citato.

La citazione nel mondo delle IA

Esistono prove, esposte poco sopra, di come lo stesso Matt Cutts abbia segnalato come utilizzabili le citazioni all'interno di un contenuto.

Ma se una cosa Google ci ha insegnato in questi anni, è che nulla è così semplice, ma sopratutto nulla è semplicemente bianco (hat) o nero (hat).

Per complicare la discussione, occorre introdurre una citazione di Search Engine Journal tratta da un'intervista a John Mueller, secondo cui:

"Google non tratta le citazioni o uno qualsiasi degli altri elementi in modo speciale quando si tratta di citare altre pagine. 
La parte importante è quella di assicurarsi che tutto ciò che stai pubblicando abbia un valore unico. 
Se è solo una rivisitazione del contenuto di qualcun altro (citandolo) senza alcun valore aggiunto, ciò non lascia davvero una buona impressione, né a Google né agli utenti. "

John Mueller al Search Engine Journal

Ma se a prima lettura questa informazione sembra nullificare la precedente, la questione è molto differente da quella espressa e ne muta il senso.

I contenuti duplicati non penalizzano una pagina, ma ne svalutano l'autorità, nel caso in cui il contenuto preso in prestito non venga integrato in modo da apportare una novità.

Di conseguenza e di nuovo quindi, non ha senso parlare della quantità di testo citato, ma della funzione e della novità apportata dalla pagina in cui tale testo è stato aggiunto.

Per rendere chiaro (e banale) questo punto, basti pensare ai siti di citazioni, alla quantità di testo originale all'interno e al fatto che comunque apportino un servizio.

L'impressione sul contenuto, sulle citazioni e sul posizionamento riguarda molto più essenzialmente problemi strutturali sulla gestione dei dati, in un mondo sempre più "fluttuante" dove il concetto di citazione, con l'aumentare della quantità di pagine identiche per argomento tra loro, è inevitabile.