Affilinator Forum  

Affilinator Dokumentation : CrawlerTrap

Startseite :: Suche :: Sitemap :: Letzte Änderung :: Kategorien

Revision [275]

This is an old revision of CrawlerTrap made by AxelK on 2007-04-09 19:25:39.
 

Crawlertrap Modul


böse Crawler, Robots, Bots, Spider, Gästebuchspammer, Formularspammer, Forum- und Blogspammer bleiben draussen

Die Crawlertrap hat die Aufgabe Spider und Downloadprogramme, die sich nicht an die robots.txt halten zu sperren.
Zusätzlich können gezielt bestimmte IP-Adressen, IP-Bereiche und User-Agenten gesperrt werden.

Seriöse Suchmaschinen Spider und Robots lesen die Datei robots.txt im Hauptverzeichnis aus. Dort ist eingetragen, welche Dateien und Ordner ausgelesen und besucht werden dürfen.
Hier steht das Verzeichnis der Crawlertrap als nicht erlaubt, d.h. alles was sich an die robos.txt hält, wird das Verzeichnis nie besuchen.
Wird trotzdem das Verzeichnis ausgelesen / besucht kommt diese IP in die dynamische schwarze Liste(blacklist) und bekommt ab sofort immer eine Fehlerseite gezeigt.
Da solche Robots aber auch über dynamische IP-Adressen komen können erfolgt die Sperrung nur für eine definierte Zeit.
Sobald diese definierte Zeit abgelaufen ist, wird die IP-Adresse wieder freigeschaltet. Sollte mal ein normaler User in die Falle kommen, kann sich dieser über die Eingabe eines Codes manuell freischalten. Dies bezeichnen wir als dynamische weiße Liste (whitelist). Diese Freischaltung wird zeitlich eingeschränkt.

Um die Spider so früh wie möglich auf die Überprüfung der Crawlertrap zu schicken wird im Header-Template ein nicht sichtbarer Link zum Crawlertrap-Verzeichnis eingebaut.

Im Adminbereich können unter Crawlertrap die einzelnen Listen angesehen und modifiziert werden.

Folgende Einstellungen sind in der config.php möglich:

CRAWLERTRAP_ACTIVE
Hier kann die Crawlertrap aktiviert(1) oder deaktiviert(0) werden.

CRAWLERTRAP_PATH
Hier kann man den Pfad der Crawlertrap definieren. Wer hier den Pfad ändert, muss auch den Ordner der Crawlertrap umbenennen und auch die robots.txt anpassen.

CRAWLERTRAP_ESCAPE_MINUTES_BLACKLIST
Wie lange eine IP in der dynamischen Sperrliste (blacklist) drin bleiben soll. Angabe in Minuten.

CRAWLERTRAP_ESCAPE_MINUTES_WHITELIST
Wie lange eine manuelle Freigabe einer IP gestattet ist. Angabe in Minuten.


CRAWLERTRAP_EMAIL_ON_ADD
E-Mail-Benachrichtigung bei einem Eintrag in die dynamische Sperr- und Freigabeliste.
(Gerade zu Beginn empfohlen, um zu sehen, dass sie korrekt arbeitet und was sie an Arbeit und Traffik spart )

CRAWLERTRAP_EMAIL_ON_DEL
Wird eine IP aus der Whitelist oder Blacklist rausgenommen wird eine E-Mail geschickt.

CRAWLERTRAP_EMAIL_ADDRESS_TO
E-Mailadresse für Benachrichtigung

CRAWLERTRAP_EMAIL_ADDRESS_FROM
E-Mail Absenderkennung des Projektes

CRAWLERTRAP_EMAIL_COLLECT
Um die Crawlertrap zu optimieren sammeln wir hier Daten der bösen Bots. Ist diese Option aktiviert, werden die erfassten Daten an crawlertrap.com gesendet.

CRAWLERTRAP_EMAIL_SUBJECT_ADD
Betreffzeile der E-Mail beim Hinzufügen einer IP in eine dynamische Liste

CRAWLERTRAP_EMAIL_SUBJECT_DEL
Betreffzeile der E-Mail beim Entfernen einer IP aus den dynamische Listen

CRAWLERTRAP_EMAIL_TEXT_ADD
Hier kann der E-Mailtext beim Hinzufügen in eine Liste angepasst werden. Die Werte in den eckigen Klammer sind Platzhalter. Es stehen folgende Werte zur
Verfügung:
[TIME] [IP] [IPRANGE] [UA] [HOST] [NETNAME] [DESCRIPTION] [PERSON] [ADDRESS] [COUNTRY] [PHONE] [EMAIL] [BASEURL]

CRAWLERTRAP_EMAIL_TEXT_DEL
Hier kann der E-Mailtext beim Löschen aus einer Liste angepasst werden. Die Parameter sind die gleichen wie bei CRAWLERTRAP_EMAIL_TEXT_ADD.
Page was generated in 0.0099 seconds