Das verteilte Webkriechen

Das verteilte Webkriechen ist eine verteilte Rechentechnik, wodurch Internetsuchmotoren viele Computer verwenden, um das Internet über das Webkriechen mit einem Inhaltsverzeichnis zu versehen. Solche Systeme können Benutzer berücksichtigen, um ihre eigene Computerwissenschaft und Bandbreite-Mittel zu kriechenden Webseiten freiwillig anzubieten. Durch das Verbreiten der Last dieser Aufgaben über viele Computer werden Kosten, die für maintaing große Rechentrauben sonst ausgegeben würden, vermieden.

Typen

Cho und Garcia-Molina (Cho und Garcia-Molina, 2002) haben zwei Typen von Policen studiert:

Dynamische Anweisung

Mit diesem Typ der Politik teilt ein Hauptserver neue URL-ADRESSEN verschiedenen Kettenfahrzeugen dynamisch zu. Das erlaubt den Hauptserver, zum Beispiel, dynamisch Gleichgewicht die Last jedes Kettenfahrzeuges.

Mit der dynamischen Anweisung normalerweise können die Systeme auch hinzufügen oder Downloader-Prozesse entfernen. Der Hauptserver kann der Engpass werden, so muss der grösste Teil des Arbeitspensums den verteilten kriechenden Prozessen für großes Kraul übertragen werden.

Es gibt zwei Konfigurationen von kriechenden Architekturen mit dynamischen Anweisungen, die von Shkapenyuk und Suel (Shkapenyuk und Suel, 2002) beschrieben worden sind:

  • Eine kleine Kettenfahrzeug-Konfiguration, in der es einen zentralen DNS resolver und Hauptwarteschlangen pro Website und verteilten downloaders gibt.
  • Eine große Kettenfahrzeug-Konfiguration, in der der DNS resolver und die Warteschlangen auch verteilt werden.

Statische Anweisung

Mit diesem Typ der Politik gibt es eine feste Regel hat vom Anfang von Kraul festgesetzt, das definiert, wie man neue URL-ADRESSEN den Kettenfahrzeugen zuteilt.

Für die statische Anweisung kann eine Hashing-Funktion verwendet werden, um URL-ADRESSEN (oder, noch besser, ganze Website-Namen) in eine Zahl umzugestalten, die dem Index des entsprechenden kriechenden Prozesses entspricht. Da es Außenverbindungen gibt, die von einer Website gehen werden, die einem kriechendem Prozess zu einer einem verschiedenen kriechenden Prozess zugeteilten Website zugeteilt ist, muss etwas Austausch von URL-ADRESSEN vorkommen.

Um das Obererwartete auf den Austausch von URL-ADRESSEN zwischen kriechenden Prozessen zu reduzieren, sollte der Austausch in der Gruppe, mehrere URL-ADRESSEN auf einmal getan werden, und die am meisten zitierten URL-ADRESSEN in der Sammlung sollten durch alle kriechenden Prozesse vor Kraul bekannt sein (z.B: mit Daten von vorherigem Kraul) (Cho und Garcia-Molina, 2002).

Eine wirksame Anweisungsfunktion muss drei Haupteigenschaften haben: Jeder kriechende Prozess sollte ungefähr dieselbe Zahl von Gastgebern bekommen (Eigentum erwägend), wenn die Zahl von kriechenden Prozessen wächst, muss die Zahl von jedem Prozess zugeteilten Gastgebern (Kontravarianz-Eigentum) zurückweichen, und die Anweisung muss im Stande sein, kriechende Prozesse dynamisch hinzuzufügen und zu entfernen. Boldi u. a. (Boldi u. a. 2004) haben vor, konsequenten hashing zu verwenden, der die Eimer wiederholt, so verlangen das Beitragen oder das Entfernen eines Eimers nicht, dass erneute Verhandlung des ganzen Tisches alle gewünschten Eigenschaften erreicht.

Durchführungen

Bezüglich 2003 modernster kommerzieller Suche verwenden Motoren diese Technik. Google und Yahoo verwenden Tausende von individuellen Computern, um das Web zu kriechen.

Neuere Projekte versuchen, einen weniger strukturierten, mehr ad hoc Form der Kollaboration durch das Eintragen von Freiwilligen zu verwenden, um sich dem Anstrengungsverwenden, in vielen Fällen, ihrem Haus oder Personalcomputern anzuschließen. LookSmart ist der größte Suchmotor, um diese Technik zu verwenden, die rast, hat seine Made webkriechendes Projekt verteilt.

Diese Lösung verwendet Computer, die mit dem Internet zu Kraul-Internetadressen im Vordergrund verbunden werden. Nach dem Herunterladen von gekrochenen Webseiten werden sie zusammengepresst und zusammen mit einer Status-Fahne (z.B geändert, neu zurückgesendet unten umadressiert) zu den starken Hauptservern. Die Server, die eine große Datenbank führen, verbreiten neue URL-ADRESSEN Kunden für die Prüfung.

Nachteile

Gemäß den häufig gestellten Fragen über Nutch, eine Suchmotorwebsite der offenen Quelle, sind die Ersparnisse in der Bandbreite durch das verteilte Webkriechen nicht bedeutend, da "Ein erfolgreicher Suchmotor verlangt, dass mehr Bandbreite Anfragenergebnis-Seiten lädt, als sein Kettenfahrzeug Seiten herunterladen muss...".

Siehe auch

Quellen

Links


Entoprocta / Kampf von Tinchebray
Impressum & Datenschutz