robots.txt

Mit der robots.txt kann festgelegt werden, welche Bereiche einer Website von welchen Suchrobotern nicht gecrawlt und somit von den Suchmaschinen auch nicht indexiert werden sollen. Notwendig ist dies etwa bei Seiten, die sich noch im Aufbau befinden, aber auch das Impressum oder bestimmte Bilderordner werden gelegentlich ausgeschlossen. Die entsprechende Textdatei liegt im Stammverzeichnis einer Domain und ist nach relativ einfachen Konventionen aufgebaut.

Robots Exclusion Protokoll

Das Protokoll besteht im Wesentlichen aus zwei Feldern. Eine erste Zeile mit User-agent: beschreibt, für welche Robots die darauffolgenden Anweisungen gelten. Hier wird einfach der entsprechende Name eingetragen. Gelten die Anweisungen für mehrere Robots, müssen mehrere Datensätze in der Datei angelegt werden, sollen sie für alle Robots gelten, kann ein * als Wildcard gesetzt werden.

Die weiteren Zeilen beschreiben durch Disallow:, welche Unterseiten und Verzeichnisse ausgeschlossen werden sollen. Dabei wird der entsprechende Pfad angegeben. Soll das Crawlen aller Ordner verboten werden, wird ein / gesetzt, soll es für alle erlaubt werden, bleibt die Angabe frei.

Anbieterspezifische Erweiterungen

Manche Suchmaschinenanbieter interpretieren zusätzliche Angaben in einer robots.txt. Zum Beispiel kann man einigen Robots mit Allow: die Indexierung bestimmter Pfade explizit erlauben. Außerdem hat es sich eingebürgert, über Sitemap: die URL einer gegebenfalls vorhandenen sitemap.xml-Datei anzugeben.

Beispiele

Typischerweise verwendet man die folgende robots.txt, um eine optimale Verarbeitung der Website durch Suchmaschinen zu gewährleisten.

User-agent: *
Disallow:
Sitemap: http://www.domain.tld/sitemap.xml

Mit der folgenden Datei schließt man beispielsweise einen bestimmen Ordner von der Indexierung durch den Googlebot aus.

User-agent: Googlebot
Disallow: /ordnername

Weitere Techniken

Das Robots Exclusion Protokoll der robots.txt ist ein Quasi-Standard, dessen Anweisungen von nahezu allen modernen Suchmaschinen berücksichtigt werden - eine absolute Sicherheit gibt es allerdings nicht. Vor dem Zugriff eines Nutzers über den Browser schützt sie ebenfalls nicht. Dazu kann besser eine Sperre über die Webserver-Konfigurationsdatei .htaccess gesetzt werden.

Auch mit einem Meta-Tag lässt sich das Auslesen durch Suchroboter steuern, allerdings nur für die jeweilige HTML-Seite, in deren Kopfzeile die Anweisung steht.



‹ zurück zur Übersicht

Newsletter Freeware

Jetzt ins E-Mail-Marketing starten und Software für bis zu 200 Abonnenten nutzen. Einfach und kostenlos mit der sitepackage:// Newsletter Freeware.

Jetzt starten
Newsletter

E-Mail Marketing Know-how kostenlos und frei Haus.