Roboter-Ausschluss-Standard

Der Roboter-Ausschluss-Standard, auch bekannt als das Roboter-Ausschluss-Protokoll oder robots.txt Protokoll, ist eine Tagung zu verhindern, Webkettenfahrzeuge und andere Webroboter davon zusammenzuarbeiten, auf alle oder einen Teil einer Website zuzugreifen, die sonst öffentlich viewable ist. Roboter werden häufig durch Suchmotoren verwendet, um Websites, oder durch Webmaster zu kategorisieren und zu archivieren, um Quellcode Korrektur zu lesen. Der Standard ist davon verschieden, aber kann in Verbindung mit, Sitemaps, ein Roboter-Einschließungsstandard für Websites verwendet werden.

Geschichte

Die Erfindung dessen wird "robots.txt" Martijn Koster zugeschrieben, wenn man für WebCrawler 1994 arbeitet. "robots.txt" wurde dann mit dem Advent von AltaVista und den anderen populären Suchmotoren in den folgenden Jahren verbreitet.

Über den Standard

Wenn ein Seite-Eigentümer Weisungen zu Webrobotern erteilen möchte, müssen sie eine Textdatei legen hat die Wurzel der Website-Hierarchie (z.B) herbeigerufen.. Diese Textdatei sollte die Instruktionen in einem spezifischen Format enthalten (sieh Beispiele unten). Roboter, die beschließen, dem Instruktionsversuch zu folgen, diese Datei herbeizuholen und die Instruktionen vor dem Holen jeder anderen Datei von der Website zu lesen. Wenn diese Datei nicht besteht, nehmen Webroboter an, dass der Webeigentümer keine spezifischen Instruktionen zur Verfügung stellen möchte.

robots.txt wird die Datei auf einer Website als eine Bitte fungieren, die angegeben hat, dass Roboter angegebene Dateien oder Verzeichnisse ignorieren, wenn sie eine Seite kriechen. Das, könnte zum Beispiel, aus einer Vorliebe für die Gemütlichkeit von Suchmotorergebnissen oder dem Glauben sein, dass der Inhalt der ausgewählten Verzeichnisse irreführend oder für die Kategorisierung der Seite als Ganzes, oder aus einem Wunsch irrelevant sein könnte, den eine Anwendung nur auf bestimmten Daten bedient. Verbindungen zu Seiten, die in robots.txt verzeichnet sind, können noch in Suchergebnissen erscheinen, wenn sie mit von einer Seite verbunden werden, die gekrochen wird.

Für Websites mit vielfachen Subgebieten muss jedes Subgebiet sein eigenes robots.txt Datei haben. Wenn gehabtrobots.txt hat Datei, aber nicht getan, die Regeln, die sich bewerben würden, würden dafür nicht gelten.

Nachteile

Trotz des Gebrauches der Begriffe "erlaubst" und "weisen zurück", das Protokoll ist rein beratend. Es verlässt sich auf die Zusammenarbeit des Webroboters, so dass die Markierung eines Gebiets einer Seite aus damit robots.txt Ausschluss aller Webroboter nicht versichert. Insbesondere böswillige Webroboter werden kaum robots.txt beachten

Es gibt keinen offiziellen Standardkörper oder RFC für robots.txt Protokoll. Es wurde durch die Einigkeit im Juni 1994 von Mitgliedern der Roboter-Adressenliste (robots-request@nexor.co.uk) geschaffen. Die Information, die die Teile angibt, auf die nicht zugegriffen werden sollte, wird in einer Datei angegeben hat robots.txt das Verzeichnis auf höchster Ebene der Website herbeigerufen. robots.txt werden Muster durch einfache Teilkette-Vergleiche verglichen, so sollte Sorge genommen werden, um sicherzustellen, dass Muster, die Verzeichnisse vergleichen, das Finale '/' angehangener Charakter haben, sonst werden alle Dateien mit Namen, die mit dieser Teilkette anfangen, aber nicht gerade diejenigen im beabsichtigten Verzeichnis zusammenpassen.

Beispiele

Dieses Beispiel sagt allen Robotern, alle Dateien zu besuchen, weil die Wildcard alle Roboter angibt:

Benutzer-Reagenz: *

Weisen Sie zurück:

</Quelle>

Dieses Beispiel sagt allen Robotern, aus einer Website zu bleiben:

Benutzer-Reagenz: *

Weisen Sie zurück: /

</Quelle>

Das folgende ist ein Beispiel, das allen Robotern sagt, in vier Verzeichnisse einer Website nicht einzugehen:

Benutzer-Reagenz: *

Weisen Sie zurück:/cgi-bin /

Weisen Sie zurück: / Images /

Weisen Sie zurück:/tmp /

Weisen Sie zurück: / privat /

</Quelle>

Beispiel, das einem spezifischen Roboter sagt, in ein spezifisches Verzeichnis nicht einzugehen:

Benutzer-Reagenz: BadBot # ersetzen 'BadBot' durch den wirklichen Benutzer-Agenten der Funktionseinheit

Weisen Sie zurück: / privat /</Quelle>

Beispiel, das allen Robotern sagt, in eine spezifische Datei nicht einzugehen:

Benutzer-Reagenz: *

Weisen Sie zurück:/directory/file.html

</Quelle>

Bemerken Sie, dass alle anderen Dateien im angegebenen Verzeichnis bearbeitet werden.

Beispiel, das demonstriert, wie Anmerkungen verwendet werden können:

  1. Anmerkungen erscheinen nach "#" Symbol am Anfang einer Linie, oder nach einer Direktive

Benutzer-Reagenz: * # vergleichen alle Funktionseinheiten

Weisen Sie zurück: / # halten sie ab

</Quelle>

Beispiel, das demonstriert, wie man den Parameter hinzufügt, um Funktionseinheiten zu erzählen, wo Sitemap gelegen wird

Benutzer-Reagenz: *

Sitemap: http://www.example.com/sitemap.xml # erzählen die Funktionseinheiten, wo Ihr sitemap gelegen wird

</Quelle>

Sondererweiterungen

Direktive der Kraul-Verzögerung

Mehrere Hauptkettenfahrzeuge unterstützen einen Parameter, gehen zur Zahl von Sekunden unter, um zwischen aufeinander folgenden Bitten zu demselben Server zu warten:

Benutzer-Reagenz: *

Kraul-Verzögerung: 10

</Quelle>

Erlauben Sie Direktive

Einige Hauptkettenfahrzeuge unterstützen eine Direktive, die einer folgenden Direktive entgegenwirken kann.

Das ist nützlich, wenn man Robotern sagt, ein komplettes Verzeichnis zu vermeiden, aber noch will, sind einige HTML-Dokumente in diesem Verzeichnis gekrochen und haben mit einem Inhaltsverzeichnis versehen. Während durch die Standarddurchführung das erste Zusammenbringen robots.txt gestaltet, immer gewinnt, die Durchführung von Google unterscheidet sich, in dem Muster mit dem gleichen Erlauben oder mehr Charaktere im lenkenden Pfad ein Zusammenbringen erobern, Weisen Muster Zurück. Bing verwendet oder Direktive, die am spezifischsten ist.

Um zu allen Robotern vereinbar zu sein, wenn man einzelne Dateien innerhalb eines sonst zurückgewiesenen Verzeichnisses erlauben will, ist es notwendig, die Erlauben Direktive (N) zuerst, gefolgt vom Zurückweisen zum Beispiel zu legen:

Erlauben Sie:/folder1/myfile.html

Weisen Sie zurück:/folder1 /

</Quelle>

Dieses Beispiel wird irgendetwas in/folder1/außer /folder1/myfile.html Zurückweisen, da die Letzteren zuerst zusammenpassen werden. Im Falle Google aber ist die Ordnung nicht wichtig.

Sitemap

Einige Kettenfahrzeuge unterstützen eine Direktive, vielfachen Sitemaps in demselben robots.txt in der Form erlaubend:

Sitemap:

http://www.gstatic.com/s2/sitemaps/profiles-sitemap.xml

Sitemap:

http://www.google.com/hostednews/sitemap_index.xml </Quelle>

Universal "*" Match

Der Roboter-Ausschluss-Standard erwähnt nichts über "*" Charakter in der Behauptung. Einige Kettenfahrzeuge wie Googlebot und Slurp erkennen Schnuren an, die "*" enthalten, während MSNbot und Teoma es unterschiedlich interpretieren.

Siehe auch

  • Automatisiertes Zufriedenes Zugriffsprotokoll - ein erfolgloser Vorschlag, robots.txt zu erweitern
  • BotSeer - suchen Motor für robots.txt Dateien
  • Verteiltes Web, das kriecht
  • Eingestelltes Kettenfahrzeug
  • Humans.txt - hat eine Datei für Menschen vorgehabt, im Vergleich mit Robotern zu lesen
  • Internetarchiv
  • Die Bibliothek des Kongresses Digitalbibliothek plant
  • Nationales Digitalinformationsinfrastruktur- und Bewahrungsprogramm
  • Sitemaps
  • Nofollow und Link Spam
  • Spinne-Falle
  • Web, archivierend
  • Webkettenfahrzeug
  • Elemente von Meta für Suchmotoren

Links


Westford / Margate (Begriffserklärung)
Impressum & Datenschutz