Comment se protéger du duplicate content liés aux web proxy Appspot ?

Le but premier d’un web proxy est de permettre à l’internaute de surfer anonymement, un autre but est de surfer sur des sites auxquels il n’a pas accès (par exemple à partir de la fac ou du lieu de travail ou encore d’un pays dont l’ip est filtrée…). D’autres buts moins glorieux consistent à indexer un grand nombre de pages et à mettre de la pub dessus ou encore de faire du Negative Seo à l’aide ces proxy web.

En 2007, j’avais parlé du risque de duplicate content par des sites utilisant des scripts de proxy web (cf mon article sur Seoblackout), nous sommes en 2011 et rien n’a changé, ces proxy web sont toujours présents et peuvent toujours se substituer à vos sites dans les résultats de recherche.

J’ai eu le cas plusieurs fois pour un client et pour des gens qui m’ont demandé conseil, on retrouve des demandes sur les forums Google également.

La différence c’est qu’en 2011, bon nombre de ces proxy web nausifs sont créés et utilisés à partir du site http://appspot.com/, un site appartenant à Google permettant d’héberger des applications écrites en python ou java (cf Google App Engine). En effet, quelqu’un a proposé en 2010 un script python et la démarche complète pour créer son web proxy sur Google Appspot en 5 minutes.

J’avais envoyé un tweet à Matt Cutts en 2010 pour lui signaler le souci, mon tweet est resté sans réponse…

Si votre site est jeune ou si votre site a peu de contenu, il risque de disparaître au profit de ces web proxy car ceux-ci mettent en cache des milliers de pages web chaque jour, ces pages mises en cache se font indexées par Google et donc ces web proxies prennent du poids « provisoirement » aux yeux de Google.

Je peux vous ressortir le fameux exemple trouvé par Nalrem en 2008, un membre du forum Seosphere où l’on voit Google Maps se faire doubler sur la requête google maps par un webproxy (cf image en tête de l’article).

Se protéger contre les web proxy hébergés sur Appspot

Pour se protéger de ce type de web proxy, une solution simple consiste à ajouter dans le fichier htaccess les lignes suivantes :

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
RewriteRule .* - [F]

Ces lignes interdisent le user-agent contenant AppEngine-Google

P.S Resoneo vient de publier un article complémentaire sur le sujet dont je vous recommande la lecture : Spam chez les proxies, le cas Appspot

Interdire l’indexation des pages de recherche dans WordPress ou comment éviter un coup de Negative Seo

Aujourd’hui en regardant les sitelinks d’un de mes sites sur Google, je me suis aperçu que Google présentait un sitelink de la forme :

http://www.monsiteweb.com/search/tube?search=tube

Le souci vient du fait que ces pages sont indexables par Google et dans mon cas, ce sont plus de 80 pages avec tout type de mot-clés qui sont indexées pour un site contenant 5 articles.

Coup de NegativeSEO ou autre ? Je n’ai pas poussé plus loin, j’ai juste cherché à éliminer ce problème.

Pour pallier à ce souci, j’ai ajouté dans le robots.txt (situé à la racine du site) les lignes suivantes afin d’interdire la visite des bots sur ces pages de résultats de recherche :

User-agent: *
Disallow: /search/
Disallow: /?s=

J’ai également ajouté la fonction suivante dans le fichier fonctions.php (situé à la racine du dossier de mon thème Wordpress) afin d’interdire l’indexation de ces pages :

function meta_robots(){
  if(is_search()){
    echo '<meta name="robots" content="noindex,follow" />'."\n";
  }
}
add_action('wp_head', 'meta_robots');

Si vous n’avez pas de fichier fonctions.php alors il faudra en créer un ou utiliser un plugin qui permet d’interdire l’indexation des pages de recherches.

Voilà ça peut servir à certains… Pour vérifier si Google a indexé les résultats de recherche de votre blog ou site WordPress, il suffit de saisir les 2 requêtes suivantes dans Google :

site:monsiteweb.com/search/

et :

"monsiteweb.com/?s"

Si vous obtenez des résultats, alors vous pouvez faire les 2 modifications proposées ci-dessus.

Voir le cloaking de n’importe quelle page même avec un nosnippet

Je vous propose encore une petite vidéo pour voir le contenu cloacké de n’importe quelle page et cela grâce à Google Webmaster Tools et la fonction Instant Preview présente dans l’onglet Labs.

Cette technique permet de voir n’importe quel contenu même si la page contient la balise meta nosnippet, plus d’info sur cette balise NoSnippet ici

Comment récupérer le contenu cloacké d’un concurrent ?

Chers référenceurs, je vous ai préparé une petite vidéo pour vous montrer comment récupérer le contenu cloacké d’un concurrent. Pour la démo c’est le contenu d’un participant (Robin-d) au concours Pandaranol que je vais récupérer :

A ce soir 19 heures pour les résultats Pandaranol, j’espère que ça ne va pas bouger d’ici là mais on ne sait jamais :)

Avant-première : Teaser de la vidéo du Barcamp Black Hat SEO 2011 à Toulouse

Voici pour vous chers lecteurs de DontBeEvil en avant-première, le Teaser du Barcamp Black Hat qui s’est déroulé à Toulouse le 7 mai dernier, la vidéo officielle sortira bientôt :)

Au fait, vous pouvez visiter SpySeo.fr pour espionner vos concurrents Pandaranol !

P.S : La vidéo a été réalisée par l’agence Pinkanova

Pourquoi faire du spam referer vers les autres participants Pandaranol ?

Ah les joies du spam de referer sur les sites laissant leurs pages de statistiques accessibles aux bots ou encore le spam par referer de ceux qui affichent les derniers referers sur toutes les pages de leur site :)

Ce n’est pas de ce type de spam referer dont je vais vous parler ici, je vais vous parler de spam referer sur des sites qui n’affichent pas votre lien.

Vous allez me dire que ça ne présente aucun intérêt ?

Oui et non, oui si on ne s’intéresse qu’aux backlinks, mais non si on s’intéresse au comportement utilisateur et si l’on croit en la Théorie de l’odeur de l’internaute, théorie posée par Turillo il y a quelques années déjà et détaillée par Laurent Bourrely ici.

Vous voyez où je veux en venir donc ?

Si d’autres Pandaranol viennent visiter mon site, cela pourrait impacter positivement mon ranking.

Comment faire en sorte que d’autres Pandaranol visitent mon site ?

Je ne détaillerai pas comment faire ici, parceque d’une part c’est expliqué un peu partout sur le web et d’autre part, ne l’oubliez pas, vous êtes ici sur le site white hat du concours Pandaranol dont la devise est « Dont Be Evil » !

Alors vous en pensez quoi chers collègues du Pandaranol ?

Sans intérêt, bidon, intéressant…

Petite technique de négative SEO à l’usage des honnêtes gens

Pandaranol avertissement logiciels malveillants
Avertissement logiciels malveillants

En voulant visiter l’un de mes vieux parasites sites aujourd’hui, je me suis pris le message ci-dessus, le souci ne venait pas de mon site mais d’une image insérée sur mon site à partir d’un site tiers, une image hotlinkée donc à partir d’un site considéré comme potentiellement dangereux par Google.

Sous chrome, je ne peux plus accéder à mon propre site, ce qui risque de me faire perdre les visiteurs venant de ce navigateur.

C’est donc une petite technique de négative seo, qui peut être exploitée sur certains sites comme les sites sous SPIP ou Drupal par exemple qui acceptent du html dans les commentaires, les forums, les annuaires ou encore les sites de communiqués de presse.

On peut pousser plus loin le raisonnement en insérant une iframe avec le site malveillant dedans et peut être réussir à faire bloquer le site cible dans les résultats Google (avec le message : « Ce site risque d’endommager votre ordinateur »).

Webmasters, on ne le répétera jamais assez mais ne faites jamais confiance à vos visiteurs.

Comment cacher vos backlinks aux autres concurrents Pandaranol ?

Pandaranol cacher vos backlinks
Comment cacher vos bons plans backlinks à vos concurrents Pandaranol ?

C’est une grande question dans le milieu du référencement et plus précisément dans le milieu des Seo Black hat car ce sont eux qui utilisent les techniques avancées de netlinking ou autrement appelées webspam.

Alors vous avez une petite idée pour cacher vos bls à vos concurrents Pandaranol ?

La solution est pourtant très simple, il suffit de passer par une page intermédiaire cloackée

  • J’ai une page A qui reçoit tous les liens  et qui redirige en 301 vers notre page cible, celle dont on veut cacher les liens.
  • Cette page A est cloackée, seul google voit la redirection (pas les autres moteurs), et comme google ne montre qu’un échantillon des liens, les référenceurs sont obligés de passer par d’autres sources (Yahoo, MajesticSeo, Seospyglass, Open Site Explorer…).

P.S : le cloacking est interdit par Google alors Dont Be Evil et bon Pandaranol !