
Le but premier d’un web proxy est de permettre à l’internaute de surfer anonymement, un autre but est de surfer sur des sites auxquels il n’a pas accès (par exemple à partir de la fac ou du lieu de travail ou encore d’un pays dont l’ip est filtrée…). D’autres buts moins glorieux consistent à indexer un grand nombre de pages et à mettre de la pub dessus ou encore de faire du Negative Seo à l’aide ces proxy web.
En 2007, j’avais parlé du risque de duplicate content par des sites utilisant des scripts de proxy web (cf mon article sur Seoblackout), nous sommes en 2011 et rien n’a changé, ces proxy web sont toujours présents et peuvent toujours se substituer à vos sites dans les résultats de recherche.
J’ai eu le cas plusieurs fois pour un client et pour des gens qui m’ont demandé conseil, on retrouve des demandes sur les forums Google également.
La différence c’est qu’en 2011, bon nombre de ces proxy web nausifs sont créés et utilisés à partir du site http://appspot.com/, un site appartenant à Google permettant d’héberger des applications écrites en python ou java (cf Google App Engine). En effet, quelqu’un a proposé en 2010 un script python et la démarche complète pour créer son web proxy sur Google Appspot en 5 minutes.
J’avais envoyé un tweet à Matt Cutts en 2010 pour lui signaler le souci, mon tweet est resté sans réponse…
Si votre site est jeune ou si votre site a peu de contenu, il risque de disparaître au profit de ces web proxy car ceux-ci mettent en cache des milliers de pages web chaque jour, ces pages mises en cache se font indexées par Google et donc ces web proxies prennent du poids « provisoirement » aux yeux de Google.
Je peux vous ressortir le fameux exemple trouvé par Nalrem en 2008, un membre du forum Seosphere où l’on voit Google Maps se faire doubler sur la requête google maps par un webproxy (cf image en tête de l’article).
Se protéger contre les web proxy hébergés sur Appspot
Pour se protéger de ce type de web proxy, une solution simple consiste à ajouter dans le fichier htaccess les lignes suivantes :
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} AppEngine-Google [NC]
RewriteRule .* - [F]
Ces lignes interdisent le user-agent contenant AppEngine-Google
P.S Resoneo vient de publier un article complémentaire sur le sujet dont je vous recommande la lecture : Spam chez les proxies, le cas Appspot


