You are here

Contenuti duplicati Drupal : commenti, noindex e robots.txt

Inviato da giovanninews on Dom, 04/12/2011 - 14:34

Contenuti duplicati in Drupal ed il robots.txt La SERP di Google, nel mio caso, facendo una ricerca con il comando "site:miosito.com", alla fine della lista, riporta la dicitura

"Al fine di visualizzare i risultati più rilevanti, sono state omesse alcune voci molto simili alle 922 già visualizzate. In alternativa, è possibile ripetere la ricerca includendo i risultati omessi".

Ripetendo la ricerca con l' inclusione dei risultati omessi, rilevo che le voci simili sono riconducibili alle urls che hanno /comment/reply; sono queste le urls generate da Drupal per i commenti e visualizzate con il link trovato.

Potrebbero questi essere contenuti duplicati ? Sicuramente sono titoli duplicati .

Nel mio caso il link indicizzato è "Aggiungi un commento", nel caso di una installazione Drupal in inglese potrebbe essere "Add new comment" e potrebbero essere afflitti dal problema tutti i siti in Drupal che permettono commenti anche agli utenti Anonimi e che quindi visualizzano l' anchor link "Aggiungi un commento" (Google è un utente anonimo).

Google indicizza questi link perchè l' installazione di default di Drupal contiene un robots.txt dove è inibito ai motori di ricerca il path /comment/reply/ attraverso la direttiva DISALLOW.

Se andiamo a vedere sempre Google Webmaster, troviamo specificato che Google non accederà alle pagine indicate nel robots.txt, ma questo non impedisce l' indicizzazione di urls "quali il testo di ancoraggio nei link al sito".

La ragione del disallow sul path /comment/reply/ di Drupal potrebbe essere riconducibile ad un risparmio di banda, altrimenti maggiormente concessa ai motori di ricerca.

Google infatti non accede alla pagina, ma la indicizza, e questo si vede perchè non viene riportata alcuna descrizione o parte di contenuto; Google arriva al link e si ferma, stop.

Questi non sono veri contenuti duplicati interni in Drupal, perchè Google, non potendovi accedere per il disallow, non sa cosa contengono.

La prima domanda che bisogna porsi a questo punto è se tutti i motori di ricerca rispettano la direttiva del robots.txt ; personalmente penso di no, a parte una piccola parte, e quanti sono i motori non buoni ? Con il Disallow quindi risparmieremo banda solo con i motori buoni, tutti gli altri seguiranno il link.

Andando a leggere su Drupal alla pagina https://drupal.org/node/1032234 si scopre che quanto detto trova conferma nello sviluppo di Drupal 8. La pagina indicata riporta anche un ottimo articolo su SEOMOZ dove si dice che il disallow è anche un buco nero per il PageRank e altre valutazioni; in pratica non ne permette la diffusione che quindi vengono persi: parte del P.R. e delle valutazioni della pagina vanno in un buco nero.

La soluzione indicata è sempre il meta name noindex, togliendo il Disallow nel robots.txt per il path /comment/reply/.

L' inserimento di <meta name="robots" content="noindex" /> nelle pagine Drupal con urls contenenti /comment/reply/ non può essere fatto con il modulo Nodewords in quanto queste non sono nodi, bensì "percorsi di sistema".

La soluzione trovata è stata quella di inserirla da template, con la modifica di page.tpl.php del tema. Il <meta name="robots" content="noindex" /> va inserito nella sezione HEAD dell' html per cui non è possibile farlo testando l' array ?arg che invece si trova nella sezione BODY.

Ho quindi inserito il meta name indicato utilizzando la variabile ?title contenente il titolo "Rispondi al commento" nel modo seguente: <?php if ( $title == 'Rispondi al commento' ) : ?>
  <meta name="robots" content="noindex" />
 <?php endif; ?>

L' utilizzo di quanto detto, naturalmente, è a vostro rischio e pericolo.

Urls dei commenti in Drupal indicizzati da Googlel

Aggiornamento del 17/02/2012

Con l' aggiornamento del modulo Nodewords alla versione 6.x-1.13 , se andato a buon fine, è possibile aggiungere il robot noindex anche ai percorsi di sistema. La modifica al page.tpl.php indicata non è quindi più necessaria per chi usa la nuova versione del modulo Noderwords.

<< Pagina precedente

Pagina successiva >>