Forum

Moderiert von: stefan, spinne
Forum Index
Support
     Administration
     Hoher Traffic von Suchmaschinen
Hilfe anzeigen
Hilfe anzeigen

Autor Druckerfreundliche DarstellungHoher Traffic von Suchmaschinen
Gast
Unregistrierter Benutzer
Hoher Traffic von Suchmaschinen

Geschrieben: 21.09.2009 19:26

Am Sonntag hatte ich von Googlebot innerhalb 24 Std. insgesamt 8600 Zugriffe (d.h. alle 2 - 3 sec.).
Ursachensuche:
1. nach Domain gegoogelt -> über 700 Einträge
2. robots.txt gegoogelt -> Rote Karte von Google und Von Google gebannt wegen Duplicate Content
Erst dachte ich, dass passt niemals zusammen.
Habe die benutzte opn robots.txt durch den Syntax-Checker prüfen lassen.
Das Ergebnis:
The following block of code contains some errors. Please, remove all the reported errors and check again this robots.txt file.
Line 22     User-agent: *
This robots.txt file already contains a block of code addressed to User-agent "*" (any agent). This is wrong: you should join all the commands addressed to User-agent "*" into one unique, single block of code.
Line 23     Disallow: /safetytrap
Line 24     
The following block of code DISALLOWS the crawling of the following files and directories: /safetytrap to the following spiders/robots: googlebot
Line 25     User-agent: googlebot
Line 26     Disallow: /safetytrap
Das bedeutet, Google krallt sich alles, was außerhalb von /safetytrap ist. Also crawlet er/es auch in /admin, /cgi-bin usw. usw.
Denn ihn interessiert nur der Block, der ihn direkt anredet.
Die geänderte robots.txt, die alle Robots (die sich an die Syntax halten) anredet:
# /robots.txt for your openPHPnuke Site
#
# default no bot is allowed to search the Site  

User-agent: *
Disallow: /admin
Disallow: /api
Disallow: /autoupdate
Disallow: /cache
Disallow: /cgi-bin
Disallow: /class
Disallow: /default_images
Disallow: /developer
Disallow: /html
Disallow: /images
Disallow: /include
Disallow: /install
Disallow: /java
Disallow: /language
Disallow: /modules
Disallow: /opn-bin
Disallow: /pro
Disallow: /safetytrap
Disallow: /system
Disallow: /themes
Disallow: /w3c
Disallow: /admin.php
Disallow: /mainfile.php
Disallow: /masterinterface.php
Disallow: /master.php

Das ist zwar radikal, weil nur noch die /index.php indexiert wird. Ist aber ein Riegel bis folgendes sich bei den Suchmaschinen rumgesprochen hat.

Vorraussetzung: mod_rewrite aktiv
in der .htaccess eintragen (siehe Von Google gebannt wegen Duplicate Content)
RewriteEngine on
RewriteCond %{HTTP_HOST} ^123.123.123.123$ [OR]
RewriteCond %{HTTP_HOST} ^meine-domain.tld$
RewriteRule ^(.*)$ http://www.meine-domain.tld/$1 [R=permanent,L]
oder andersrum
RewriteEngine on
RewriteCond %{HTTP_HOST} ^123.123.123.123$ [OR]
RewriteCond %{HTTP_HOST} ^www.meine-domain.tld$
RewriteRule ^(.*)$ http://meine-domain.tld/$1 [R=permanent,L]

Wenn der Traffic von den Suchmaschinen wieder gesunken ist, kann die robots.txt wieder gelockert werden.

Habe das Glück, das ich die /etc/hosts.deny bearbeiten kann. Da habe ich vorläufig die sieben nervenden IP's komplett ausgesperrt.

Mal sehen, wie Suchmaschinen drauf reagieren.
Ralf
[addsig]

Zitieren Druckerfreundliche Darstellung nach oben
Gast
Unregistrierter Benutzer
Hoher Traffic von Suchmaschinen

Geschrieben: 21.09.2009 19:54

Habe noch meine Probleme mit dem Teil hier.
In den Zeilen RewriteCond müssen die Punkte (.) mit einem Backslash escaped werden.
Der Backslash wurde nicht mit übernommen.
Ralf
[addsig]

Zitieren Druckerfreundliche Darstellung nach oben
Gast
Unregistrierter Benutzer
Hoher Traffic von Suchmaschinen

Geschrieben: 22.09.2009 10:13

Hallo Ralf

Das Problem kennen wir auch und aber von einer anderen Suchmaschine.

Schau Dir mal das IP Blackliste Modul an. Du findest diese im Downloadbereich unter den Customizer Modulen.

PS: Die Customizer Module sind nur sichtbar wenn dein OPN im Profimodus läuft.
Bei Fragen zu den Customizer Modulen diese bitte im Forum oder im Chat stellen, da wir mit der Doku in dem Bereich noch nicht so weit sind

Flash
[addsig]

Zitieren Druckerfreundliche Darstellung nach oben
Gast
Unregistrierter Benutzer
Hoher Traffic von Suchmaschinen

Geschrieben: 23.09.2009 19:47

Hallo Flash,

IP-Blacklist habe ich bereits probiert. -> irgendwann haben wir alle Suchmaschinen da drin, wollen wir das wirklich?

mod_rewrite in .htaccess entfernt die Subdomain "www", was die Suchanfragen schon mal halbiert. Anm.: "IP-Blacklist -> Bearbeiten -> .htaccess -> .htaccess Schreiben" entfernt das wieder.)

Hauptproblem an der Standard-opn-robots.txt sind die Container. Das machen die Robots / Crawler nicht mit, weiß der Geier warum.

Bei http://tool.motoricerca.info/robots-checker.phtml kannst Du mal eine gekürzte robots.txt meines Test-opn mal prüfen.

Interessant ist die Zeile "Crawl-delay: 60", diese habe ich gefunden unter http://www.suchmaschinentricks.de/lexikon/crawl-delay. Angabe in Sekunden, wann ein Robot / Crawler eine neue Anfrage stellen darf. Böse Robots / Crawler werden es trotzdem ignorieren, die gehören selbstverständlich in die Blacklist.

Es bleibt trotzedem eine Gratwanderung zwischen "gefunden werden" und "akzeptablen Traffic".

Ralf
[addsig]

Zitieren Druckerfreundliche Darstellung nach oben
Gast
Unregistrierter Benutzer
Hoher Traffic von Suchmaschinen

Geschrieben: 25.09.2009 10:20

Es bleibt trotzedem eine Gratwanderung zwischen "gefunden werden" und "akzeptablen Traffic".


Das hast du recht. Das bleibt immer eine Gratwanderung.

Bei uns hatten wir nur auf einer Seite enorme Zugriffe. Das hat sich aber alles von selber wieder normalisiert.

Crawl-delay: 60


Das ist wirklich ein sehr interessanter Anhlatspunkt, welche ich mal testen werden.
Ich habe gesehen, dass bei mir immer wieder diverse IP's von Google in die Blackliste kommen. Das ist natürlich nicht Sinn der Sache.
Mit dem Crawl-Delay könnte das echt eine Lösung sein.

Flash

[addsig]

Zitieren Druckerfreundliche Darstellung nach oben
stefan
Wohnort: Münster


Sende eine Private Nachricht an stefan
ICQ
Hoher Traffic von Suchmaschinen

Geschrieben: 26.09.2009 12:39

Flash schrieb am 25.09.2009 um 10:20:48 Uhr folgendes:

Ich habe gesehen, dass bei mir immer wieder diverse IP's von Google in die Blackliste kommen.


Kannst du in dem Fall einmal den Eintag mir senden. Das Feld "Beschreibung" sollte hinweise enthalten.


Zitieren Druckerfreundliche Darstellung nach oben
sortieren nach

Hilfe anzeigen
Hilfe anzeigen
Vorheriges Thema:  Boxen für angemeldete Benutzer ausblenden
Nächstes Thema:  Was hab ich da nur gemacht...

Gehe zu:

Benutzername:
 
Sicherheits-Code
Sicherheits-Code
Neu laden