robots.txt
Die ' robots.txt ' enthält Anweisungen für die robots der Suchmaschinen. Diese sollten sich unter normalen Umständen an die Befehle in der robots.txt halten und Verzeichnisse oder Dateien die zum Beispiel ausgeschlossen sind nicht indexieren.
Eine normale robots.txt ohne Ausschluß eines Verzeichnisses oder robots sieht so aus:
Disallow:
Wollen Sie einen robot ausschließen machen Sie das mit folgender Anweisung:
Disallow: /
Hier bezieht sich das 'Disallow' auf das komplette Stammverzeichnis. Haben sie nur ein Verzeichnis oder eine Datei die sie ausschließen wollen, dann geben Sie
'Disallow: /Verzeichnisname/' ein, oder für eine Datei
'Disallow: /dateiname.html' oder 'Disalow: /verzeichnis/dateiname.html'.
Wollen Sie Komentare in Ihrer robots.txt platzieren, damit sie sich bei umfangreichen Einträgen noch zurecht finden? Dann geht das wie folgt:
# hat niemand zu wissen
User-agent: *
Disallow: /geheim/
Disallow: /sprungseite.php
# Böse Jungs die ich nicht
# haben will
User-agent: NAMEdesROBOTagents
Disallow: /
Was bedeutet ' robots.txt ' für meine Seite?
Es gibt einige Seiten im Netz die ihre crawler oder robots das Internet absuchen lassen. Jede Anfrage dieser Programme kostet Sie Traffic. Dies macht natürlich nur Sinn, wenn sie durch eine Listung auch Vorteile haben. Bringt Ihnen ein solcher Besuch aber nur Traffic und keine Besucher können Sie diesen bots den Besuch 'verbieten'.
Auch ist es manchmal nicht erwünscht, dass spezielle Verzeichnisse, die zwar keinen Passwort-Schutz haben aber eigentlich nicht für die Öffentlichkeit bestimmt sind, gespidert werden. Mit der robots.txt können Sie auch dies verbieten.
Suchmaschinen-tips.ch TIP zum Artikel:
Eine weitere Möglichkeit einen UserAgent auszuschließen ist die .htaccess Datei. Diese Lösung ist weitaus effektiver, da sich nicht jeder robot an die Anweisungen in der robots.txt hält. Trotzdem sollten Sie bei jedem neuen Projekt die robots.txt in Ihr Stammverzeichnis ablegen. Die robots.txt wird in der Regel gesucht von den spidern, und ist sie nicht vorhanden, haben Sie einen weiteren 404-Seite nicht gefunden Fehler in Ihren Logdateien.