Am Sonntag hatte ich von Googlebot innerhalb 24 Std. insgesamt 8600 Zugriffe (d.h. alle 2 - 3 sec.).
Ursachensuche:
1. nach Domain gegoogelt -> über 700 Einträge
2. robots.txt gegoogelt ->
Rote Karte von Google und
Von Google gebannt wegen Duplicate ContentErst dachte ich, dass passt niemals zusammen.
Habe die benutzte opn robots.txt durch den
Syntax-Checker prüfen lassen.
Das Ergebnis:
The following block of code contains some errors. Please, remove all the reported errors and check again this robots.txt file.
Line 22 User-agent: *
This robots.txt file already contains a block of code addressed to User-agent "*" (any agent). This is wrong: you should join all the commands addressed to User-agent "*" into one unique, single block of code.
Line 23 Disallow: /safetytrap
Line 24
The following block of code DISALLOWS the crawling of the following files and directories: /safetytrap to the following spiders/robots: googlebot
Line 25 User-agent: googlebot
Line 26 Disallow: /safetytrap
Das bedeutet, Google krallt sich alles, was außerhalb von /safetytrap ist. Also crawlet er/es auch in /admin, /cgi-bin usw. usw.
Denn ihn interessiert nur der Block, der ihn direkt anredet.
Die geänderte robots.txt, die alle Robots (die sich an die Syntax halten) anredet:
# /robots.txt for your openPHPnuke Site
#
# default no bot is allowed to search the Site
User-agent: *
Disallow: /admin
Disallow: /api
Disallow: /autoupdate
Disallow: /cache
Disallow: /cgi-bin
Disallow: /class
Disallow: /default_images
Disallow: /developer
Disallow: /html
Disallow: /images
Disallow: /include
Disallow: /install
Disallow: /java
Disallow: /language
Disallow: /modules
Disallow: /opn-bin
Disallow: /pro
Disallow: /safetytrap
Disallow: /system
Disallow: /themes
Disallow: /w3c
Disallow: /admin.php
Disallow: /mainfile.php
Disallow: /masterinterface.php
Disallow: /master.php
Das ist zwar radikal, weil nur noch die /index.php indexiert wird. Ist aber ein Riegel bis folgendes sich bei den Suchmaschinen rumgesprochen hat.
Vorraussetzung: mod_rewrite aktiv
in der .htaccess eintragen (siehe
Von Google gebannt wegen Duplicate Content)
RewriteEngine on
RewriteCond %{HTTP_HOST} ^123.123.123.123$ [OR]
RewriteCond %{HTTP_HOST} ^meine-domain.tld$
RewriteRule ^(.*)$
http://www.meine-domain.tld/$1 [R=permanent,L]
oder andersrum
RewriteEngine on
RewriteCond %{HTTP_HOST} ^123.123.123.123$ [OR]
RewriteCond %{HTTP_HOST} ^
www.meine-domain.tld$RewriteRule ^(.*)$
http://meine-domain.tld/$1 [R=permanent,L]
Wenn der Traffic von den Suchmaschinen wieder gesunken ist, kann die robots.txt wieder gelockert werden.
Habe das Glück, das ich die /etc/hosts.deny bearbeiten kann. Da habe ich vorläufig die sieben nervenden IP's komplett ausgesperrt.
Mal sehen, wie Suchmaschinen drauf reagieren.
Ralf
[addsig]