
Le but premier d’un web proxy est de permettre à l’internaute de surfer anonymement, un autre but est de surfer sur des sites auxquels il n’a pas accès (par exemple à partir de la fac ou du lieu de travail ou encore d’un pays dont l’ip est filtrée…). D’autres buts moins glorieux consistent à indexer un grand nombre de pages et à mettre de la pub dessus ou encore de faire du Negative Seo à l’aide ces proxy web.
En 2007, j’avais parlé du risque de duplicate content par des sites utilisant des scripts de proxy web (cf mon article sur Seoblackout), nous sommes en 2011 et rien n’a changé, ces proxy web sont toujours présents et peuvent toujours se substituer à vos sites dans les résultats de recherche.
J’ai eu le cas plusieurs fois pour un client et pour des gens qui m’ont demandé conseil, on retrouve des demandes sur les forums Google également.
La différence c’est qu’en 2011, bon nombre de ces proxy web nausifs sont créés et utilisés à partir du site http://appspot.com/, un site appartenant à Google permettant d’héberger des applications écrites en python ou java (cf Google App Engine). En effet, quelqu’un a proposé en 2010 un script python et la démarche complète pour créer son web proxy sur Google Appspot en 5 minutes.
J’avais envoyé un tweet à Matt Cutts en 2010 pour lui signaler le souci, mon tweet est resté sans réponse…
Si votre site est jeune ou si votre site a peu de contenu, il risque de disparaître au profit de ces web proxy car ceux-ci mettent en cache des milliers de pages web chaque jour, ces pages mises en cache se font indexées par Google et donc ces web proxies prennent du poids « provisoirement » aux yeux de Google.
Je peux vous ressortir le fameux exemple trouvé par Nalrem en 2008, un membre du forum Seosphere où l’on voit Google Maps se faire doubler sur la requête google maps par un webproxy (cf image en tête de l’article).
Se protéger contre les web proxy hébergés sur Appspot
Pour se protéger de ce type de web proxy, une solution simple consiste à ajouter dans le fichier htaccess les lignes suivantes :
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
RewriteRule .* - [F]
Ces lignes interdisent le user-agent contenant AppEngine-Google
P.S Resoneo vient de publier un article complémentaire sur le sujet dont je vous recommande la lecture : Spam chez les proxies, le cas Appspot

htaccess modifié dans l’instant.
merci pour l’info tiger !
Merci. Je n’étais pas remonté aussi loin sur les articles de SeoBlackOut !
Par contre ces proxies Web et entre autre les appspot.com, sont bien pratique pour du BH. Mais là c’est une autre histoire
Sur Dont Be Evil on est en mode White hat
Merci pour le coup de main
il faut chercher une solution avec le .htaccess dans ce cas là souvent. Ce qui reste étonnant est que chez Google on ne prenne pas de mesures pour empêcher l’indexation de ces pages par le moteur…
Bonjour,
Merci pour cette information, effectivement vu comme ça!
Je met le bout de code sous le coude
Je vais modifier de ce pas mon htaccess, la question est encore une fois comment GG ne fait rien contre cela, son « laisser faire, laisser passer » commence sérieusement être inquiétant…
J’ai eu le cas sur un site mais helas c’est pas appspot.com c’est un truc base sur glype
Je vais tester si je peux adapter ton htaccess
Bravo, en plein dans le mille moi j’ai
nlsym.davrasaurs.appspot.com et huabb.livoghoy-proxy-server.appspot.com qui me pourrissent à Donfe depuis quelques temps
Tu as gagné le droit de venir à la soirée du 35 octobre (private joke)
merci de cette information qui peut s’avérer très utile. Je la mets dans ma newsletter.
Je pose sur tous les htaccess de tous mes sites. Merci
Embêtant ce « hack » .htaccess car il bloque pas que les proxy mais aussi tout service légitime potentiel reposant sur Appspot :/
Gonzague tu peux me donner des exemples de services légitimes s’il te plaît ? j’ai extrais mes logs sur Seoblackout concernant Appspot, je n’ai rien vu d’intéressant à part des services liés à twitter.
Au pire on peut faire des exceptions, je mettrai l’article à jour si nécessaire.
Par exemple Faveous.com repose sur le système Google et doit donc déclarer un user agent Google
Cela ne pose pas de problème pour Faveous, étant donné que Faveous te demande l’autorisation de te logguer à ton compte Google pour extraire les favoris de Google reader, ce qui n’est donc pas lié à un site web en particulier. Je viens de faire le test : http://www.faveous.com/tiger on voit bien mes articles issus de DontBeEvil sur lequel j’ai ajouté le code dans le htaccess.
Hum tu as la même chose mais pour Nginx sous la main ?
merci Paul
Hello Rémy, tu peux donner une url pour exemple, Nginx n’est pas un web proxy ou alors j’ai rien compris
Ce code est terriblement efficace et permet de bloquer tous les proxy appspot que j’ai détecté. Ils retournent tous une erreur 403. Ce qui semble aussi limiter les dégâts ce sont les quotas qui sont rapidement dépassés avant que ça ne prenne trop d’importance. Reste a voir s’ils ne vont pas trouver une parade en changeant le user agent. Il ne restera alors que le filtrage par IP mais ça risque d’être plus compliqué.
Ca fonctionne très bien, les quelques 2000 pages qui dupliquaient mon site renvoient un code 403, ça va faire du bien à El ça
Par contre, ce qui reste hallucinant est le nombre de pages prises en compte par le moteur et générées par ce appspot.
Rien que concernant le blog officiel Google lui-même on trouve 562 résultats : http://www.google.com/webhp?hl=fr#q=inurl:appspot.com%2Binurl:googleblog.blogspot.com&hl=fr&rlz=1R2SUNC_frFR392&site=webhp&prmd=imvns&filter=0&bav=on.2,or.r_gc.r_pw.&fp=ff64ab7d6ee2120&biw=1170&bih=839 . C’est comme si chez Google on tirait une balle dans le pied du moteur, multiplié par le nombre de sites qui peuvent être ainsi dupliqués on arrive sûrement à des chiffres assez importants, et tout ça ça tourne sur les serveurs, ça bouffe de l’éléctricité, la bande passante, les machines, ça coute des tunes au final… Hé Oh! Chez Google! Votre moteur il saigne par là!…
Salut tiger, encore merci pour cette astuce. A quand l’astuce que tu avais annoncé à ceux qui t’ont fait des BL pour la seo world cup ?
@Twenny, je pense la publier vendredi
tu recevras un email avec le pass pour y accéder.
Merci c’est cool
Merci un très bon tuyau !
Les > lkjgjdkfljgdfg54proxy.appspot.com < tapent un peu sur le système
Je suis assez d’accord, par exemple ça bloque ce genre de service « légitime » : -http://www.showsiteinfo.appspot.com/ (d’ailleurs il y en a sans doute d’autres qui peuvent éventuellement apporter quelques backlinks…).
Merci pour cet article, je viens aussi clairement de mettre à jour tous mes fichiers .htaccess.
De toute facon, avec une image si éloquente en ouverture d’article, ce ne peut qu’inciter à tout de suite réaliser les changements necessaires !
@damdec, ce n’est pas parcequ’un site est hébergé chez Appspot que celui-ci va être bloqué suite à l’ajout des lignes que je propose dans le htaccess, le site que tu donnes en exemple risque effectivement de ne pas pouvoir extraire les datas comme le title ou la meta desc. par exemple.
Concernant ce site d’ailleurs, il ne propose pas de lien direct vers le site analysé et même s’il en proposait, je trouve ce type de backlink pourri mais cela n’engage que moi bien sûr.
Pour finir il est toujours possible de faire des exceptions dans le htaccess.
@Marco concernant l’image en tête d’article je précise un truc, le proxy ne rank pas au dessus de la page google maps mais a carrément pris sa place puisque l’url que l’on voit en dessous est la version anglaise de google maps
Ah oui, j’avais zappé que c’est la version anglaise. C’est encore pire alors
Tu abuses l’ami, comment je fais tomber la concurrence maintenant ?!
Tu feras avec les autres sources que tu utilises déjà
Merci pour cette lumière. J’ai depuis ce matin des tas de chinois qui scrapent l’ensemble des 100 sous-domaines du portail dont je m’occupe au boulot, tous sur Appspot. D’ailleurs, j’étais quand même étonné quand j’ai vu que ça appartenait à Google…
Sinon au sujet de Nginx c’est pas un proxy c’est un serveur Web, comme Apache. Je pense que remyblanchard souhaitait avoir l’équivalent du .htaccess en « langage Nginx » (mais est-il différent ?..).
Bien vu Clément, j’avais pas compris la question de Rémy
Donc Rémy, essaye ce convertisseur :
-http://www.anilcetin.com/convert-apache-htaccess-to-nginx/
Bonjour,
je post car j’ai remarqué un déclassement de mon site sur google et j’ai constaté que des appspot me « plagie » mon site.
j’ai mis les lignes :
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
RewriteRule .* – [F]
dans mon htaccess mais j’ai l’impression que ça ne bloque rien
exemple : -http://ttyyx.emranxaman.appspot.com/www.profannonces.com est tjs accessible…
une idée ?
Si si ça bloque
sauf que dans le cas que tu montres, le proxy est en over-quota, mais dès que le proxy reviendra, il aura un forbidden.
Effectivement, c’est bloqué !
Merci de l’info
Merci de cette astuce Tiger – une nouvelle fois une info claire – nette – concise
Fichier ajouté de suite sur l’ensemble de mes sites.
Amicalement
Hello
je vois que je suis pas le seul a avoir ce prob et merci pour la solution
petite question lié à mon htaccess
j’ai déjà ces lignes de rewrit :
RewriteCond %{REQUEST_FILENAME} !-f
RewriteCond %{REQUEST_FILENAME} !-d
RewriteRule ^(.+)$ index.php
comment j insere les lignes relatives a l’appEngine-google ?
pour l’instant j’ai mis a suivre.. 2 rewrit successif suis pas sur que ce soit la bonne méthode
d’avance merci
pour nginx :
if ($http_user_agent ~ AppEngine-Google) {
return 403;
}
Merci pour cet article et pour ce bout de code que je cherchais vivement depuis que je me suis rendu compte de l’existence abondante de ces proxy qui dupliquent en masse mon contenu !!!!
D’après vous, il faut combien de temps pour que toutes les urls de proxy disparaissent de l’index google ? Et ainsi, améliorent le seo de nos sites touchés ?
Je ne pensais pas que cela pouvait être aussi dangereux de lancer un site et de se voir pénaliser rapidement en raison de proxys… merci pour ces informations précieuses et ce petit bout de code qui sauvera des sites
J’ai mieux :
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
RewriteRule .* http://www.dontbeevil.fr [L,R=301]