Comment se protéger du duplicate content liés aux web proxy Appspot ?

Le but premier d’un web proxy est de permettre à l’internaute de surfer anonymement, un autre but est de surfer sur des sites auxquels il n’a pas accès (par exemple à partir de la fac ou du lieu de travail ou encore d’un pays dont l’ip est filtrée…). D’autres buts moins glorieux consistent à indexer un grand nombre de pages et à mettre de la pub dessus ou encore de faire du Negative Seo à l’aide ces proxy web.

En 2007, j’avais parlé du risque de duplicate content par des sites utilisant des scripts de proxy web (cf mon article sur Seoblackout), nous sommes en 2011 et rien n’a changé, ces proxy web sont toujours présents et peuvent toujours se substituer à vos sites dans les résultats de recherche.

J’ai eu le cas plusieurs fois pour un client et pour des gens qui m’ont demandé conseil, on retrouve des demandes sur les forums Google également.

La différence c’est qu’en 2011, bon nombre de ces proxy web nausifs sont créés et utilisés à partir du site http://appspot.com/, un site appartenant à Google permettant d’héberger des applications écrites en python ou java (cf Google App Engine). En effet, quelqu’un a proposé en 2010 un script python et la démarche complète pour créer son web proxy sur Google Appspot en 5 minutes.

J’avais envoyé un tweet à Matt Cutts en 2010 pour lui signaler le souci, mon tweet est resté sans réponse…

Si votre site est jeune ou si votre site a peu de contenu, il risque de disparaître au profit de ces web proxy car ceux-ci mettent en cache des milliers de pages web chaque jour, ces pages mises en cache se font indexées par Google et donc ces web proxies prennent du poids « provisoirement » aux yeux de Google.

Je peux vous ressortir le fameux exemple trouvé par Nalrem en 2008, un membre du forum Seosphere où l’on voit Google Maps se faire doubler sur la requête google maps par un webproxy (cf image en tête de l’article).

Se protéger contre les web proxy hébergés sur Appspot

Pour se protéger de ce type de web proxy, une solution simple consiste à ajouter dans le fichier htaccess les lignes suivantes :

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
RewriteRule .* - [F]

Ces lignes interdisent le user-agent contenant AppEngine-Google

P.S Resoneo vient de publier un article complémentaire sur le sujet dont je vous recommande la lecture : Spam chez les proxies, le cas Appspot

43 réponses à Comment se protéger du duplicate content liés aux web proxy Appspot ?

  1. htaccess modifié dans l’instant.
    merci pour l’info tiger !

  2. Merci. Je n’étais pas remonté aussi loin sur les articles de SeoBlackOut !

    Par contre ces proxies Web et entre autre les appspot.com, sont bien pratique pour du BH. Mais là c’est une autre histoire 😉

  3. admin dit :

    Sur Dont Be Evil on est en mode White hat :)

  4. El-annuaire dit :

    Merci pour le coup de main :) il faut chercher une solution avec le .htaccess dans ce cas là souvent. Ce qui reste étonnant est que chez Google on ne prenne pas de mesures pour empêcher l’indexation de ces pages par le moteur… :(

  5. Fred dit :

    Bonjour,
    Merci pour cette information, effectivement vu comme ça!
    Je met le bout de code sous le coude :)

  6. Labisse dit :

    Je vais modifier de ce pas mon htaccess, la question est encore une fois comment GG ne fait rien contre cela, son « laisser faire, laisser passer » commence sérieusement être inquiétant…

  7. Jean-Christophe dit :

    J’ai eu le cas sur un site mais helas c’est pas appspot.com c’est un truc base sur glype
    Je vais tester si je peux adapter ton htaccess

  8. XavFun dit :

    Bravo, en plein dans le mille moi j’ai
    nlsym.davrasaurs.appspot.com et huabb.livoghoy-proxy-server.appspot.com qui me pourrissent à Donfe depuis quelques temps

    Tu as gagné le droit de venir à la soirée du 35 octobre (private joke)

  9. Refschool dit :

    merci de cette information qui peut s’avérer très utile. Je la mets dans ma newsletter.

  10. Emile dit :

    Je pose sur tous les htaccess de tous mes sites. Merci

  11. Gonzague dit :

    Embêtant ce « hack » .htaccess car il bloque pas que les proxy mais aussi tout service légitime potentiel reposant sur Appspot :/

  12. admin dit :

    Gonzague tu peux me donner des exemples de services légitimes s’il te plaît ? j’ai extrais mes logs sur Seoblackout concernant Appspot, je n’ai rien vu d’intéressant à part des services liés à twitter.
    Au pire on peut faire des exceptions, je mettrai l’article à jour si nécessaire.

  13. Gonzague dit :

    Par exemple Faveous.com repose sur le système Google et doit donc déclarer un user agent Google :)

  14. admin dit :

    Cela ne pose pas de problème pour Faveous, étant donné que Faveous te demande l’autorisation de te logguer à ton compte Google pour extraire les favoris de Google reader, ce qui n’est donc pas lié à un site web en particulier. Je viens de faire le test : http://www.faveous.com/tiger on voit bien mes articles issus de DontBeEvil sur lequel j’ai ajouté le code dans le htaccess.

  15. Hum tu as la même chose mais pour Nginx sous la main ?

    merci Paul 😉

  16. admin dit :

    Hello Rémy, tu peux donner une url pour exemple, Nginx n’est pas un web proxy ou alors j’ai rien compris 😀

  17. Toplien.fr dit :

    Ce code est terriblement efficace et permet de bloquer tous les proxy appspot que j’ai détecté. Ils retournent tous une erreur 403. Ce qui semble aussi limiter les dégâts ce sont les quotas qui sont rapidement dépassés avant que ça ne prenne trop d’importance. Reste a voir s’ils ne vont pas trouver une parade en changeant le user agent. Il ne restera alors que le filtrage par IP mais ça risque d’être plus compliqué.

  18. El-annuaire dit :

    Ca fonctionne très bien, les quelques 2000 pages qui dupliquaient mon site renvoient un code 403, ça va faire du bien à El ça 😀
    Par contre, ce qui reste hallucinant est le nombre de pages prises en compte par le moteur et générées par ce appspot.
    Rien que concernant le blog officiel Google lui-même on trouve 562 résultats : http://www.google.com/webhp?hl=fr#q=inurl:appspot.com%2Binurl:googleblog.blogspot.com&hl=fr&rlz=1R2SUNC_frFR392&site=webhp&prmd=imvns&filter=0&bav=on.2,or.r_gc.r_pw.&fp=ff64ab7d6ee2120&biw=1170&bih=839 . C’est comme si chez Google on tirait une balle dans le pied du moteur, multiplié par le nombre de sites qui peuvent être ainsi dupliqués on arrive sûrement à des chiffres assez importants, et tout ça ça tourne sur les serveurs, ça bouffe de l’éléctricité, la bande passante, les machines, ça coute des tunes au final… Hé Oh! Chez Google! Votre moteur il saigne par là!…

  19. Twenny dit :

    Salut tiger, encore merci pour cette astuce. A quand l’astuce que tu avais annoncé à ceux qui t’ont fait des BL pour la seo world cup ?

  20. admin dit :

    @Twenny, je pense la publier vendredi 😉 tu recevras un email avec le pass pour y accéder.

  21. Twenny dit :

    Merci c’est cool :)

  22. Merci un très bon tuyau !
    Les > lkjgjdkfljgdfg54proxy.appspot.com < tapent un peu sur le système

  23. damdec dit :

    Embêtant ce « hack » .htaccess car il bloque pas que les proxy mais aussi tout service légitime potentiel reposant sur Appspot :/ »

    Je suis assez d’accord, par exemple ça bloque ce genre de service « légitime » : -http://www.showsiteinfo.appspot.com/ (d’ailleurs il y en a sans doute d’autres qui peuvent éventuellement apporter quelques backlinks…).

  24. Marco dit :

    Merci pour cet article, je viens aussi clairement de mettre à jour tous mes fichiers .htaccess.
    De toute facon, avec une image si éloquente en ouverture d’article, ce ne peut qu’inciter à tout de suite réaliser les changements necessaires !

  25. admin dit :

    @damdec, ce n’est pas parcequ’un site est hébergé chez Appspot que celui-ci va être bloqué suite à l’ajout des lignes que je propose dans le htaccess, le site que tu donnes en exemple risque effectivement de ne pas pouvoir extraire les datas comme le title ou la meta desc. par exemple.

    Concernant ce site d’ailleurs, il ne propose pas de lien direct vers le site analysé et même s’il en proposait, je trouve ce type de backlink pourri mais cela n’engage que moi bien sûr.

    Pour finir il est toujours possible de faire des exceptions dans le htaccess.

  26. admin dit :

    @Marco concernant l’image en tête d’article je précise un truc, le proxy ne rank pas au dessus de la page google maps mais a carrément pris sa place puisque l’url que l’on voit en dessous est la version anglaise de google maps :)

  27. Marco dit :

    Ah oui, j’avais zappé que c’est la version anglaise. C’est encore pire alors 😮

  28. Gwaradenn dit :

    Tu abuses l’ami, comment je fais tomber la concurrence maintenant ?! 😉

  29. admin dit :

    Tu feras avec les autres sources que tu utilises déjà 😉

  30. Clément dit :

    Merci pour cette lumière. J’ai depuis ce matin des tas de chinois qui scrapent l’ensemble des 100 sous-domaines du portail dont je m’occupe au boulot, tous sur Appspot. D’ailleurs, j’étais quand même étonné quand j’ai vu que ça appartenait à Google…

    Sinon au sujet de Nginx c’est pas un proxy c’est un serveur Web, comme Apache. Je pense que remyblanchard souhaitait avoir l’équivalent du .htaccess en « langage Nginx » (mais est-il différent ?..).

  31. admin dit :

    Bien vu Clément, j’avais pas compris la question de Rémy 😀

    Donc Rémy, essaye ce convertisseur :
    -http://www.anilcetin.com/convert-apache-htaccess-to-nginx/

  32. Greg dit :

    Bonjour,

    je post car j’ai remarqué un déclassement de mon site sur google et j’ai constaté que des appspot me « plagie » mon site.

    j’ai mis les lignes :
    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
    RewriteRule .* – [F]

    dans mon htaccess mais j’ai l’impression que ça ne bloque rien
    exemple : -http://ttyyx.emranxaman.appspot.com/www.profannonces.com est tjs accessible…

    une idée ?

  33. admin dit :

    Si si ça bloque :) sauf que dans le cas que tu montres, le proxy est en over-quota, mais dès que le proxy reviendra, il aura un forbidden.

  34. Greg dit :

    Effectivement, c’est bloqué !

    Merci de l’info :)

  35. Merci de cette astuce Tiger – une nouvelle fois une info claire – nette – concise
    Fichier ajouté de suite sur l’ensemble de mes sites.
    Amicalement

  36. wincash dit :

    Hello

    je vois que je suis pas le seul a avoir ce prob et merci pour la solution
    petite question lié à mon htaccess
    j’ai déjà ces lignes de rewrit :
    RewriteCond %{REQUEST_FILENAME} !-f
    RewriteCond %{REQUEST_FILENAME} !-d
    RewriteRule ^(.+)$ index.php

    comment j insere les lignes relatives a l’appEngine-google ?
    pour l’instant j’ai mis a suivre.. 2 rewrit successif suis pas sur que ce soit la bonne méthode :)

    d’avance merci

  37. playmobitch dit :

    pour nginx :
    if ($http_user_agent ~ AppEngine-Google) {
    return 403;
    }

  38. Mrvoyance dit :

    Merci pour cet article et pour ce bout de code que je cherchais vivement depuis que je me suis rendu compte de l’existence abondante de ces proxy qui dupliquent en masse mon contenu !!!!

    D’après vous, il faut combien de temps pour que toutes les urls de proxy disparaissent de l’index google ? Et ainsi, améliorent le seo de nos sites touchés ?

  39. Maximilien dit :

    Je ne pensais pas que cela pouvait être aussi dangereux de lancer un site et de se voir pénaliser rapidement en raison de proxys… merci pour ces informations précieuses et ce petit bout de code qui sauvera des sites 😉

  40. 512banque dit :

    J’ai mieux :

    RewriteEngine On
    RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
    RewriteRule .* http://www.dontbeevil.fr [L,R=301]

  41. webmasterweb dit :

    Un article très intéressant merci, par contre, je souhaiterais savoir comment se débarrasser des proxys qui ne sont pas sur AppSpot et qui duplique la totalité des contenus de nos sites web ? Avez-vous une solution ?

  42. Arafet Lamari dit :

    Merci énormément pour cet article.
    J’ai un blog et un portail web, dont leurs contenu et souvent triché et circule par tout dans le web.
    J’espère que cette astuce va m’aider pour lutter contre le duplicate illégal.

  43. Marc dit :

    Merci pour l’info, j’ajoute ce bout de code dans les htaccess de mes sites !!!

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

*