Statisches und dynamisches Crawlen

Bei der Abfrage einer Seite mit Hilfe eines Crawlers gibt es verschiedene Möglichkeiten, den Crawler zu gestalten. Grundsätzlich kann man zwischen einer statischen und einer dynamischen Abfrage unterscheiden.

Beide Vorgehensweisen haben verschiedene Vor- und Nachteile und sollten für unterschiedliche Zwecke eingesetzt werden. Die Grenzen zwischen beiden Methoden können jedoch fließend sein.

Ein Beispiel soll die Idee von dynamischem und statischem Crawling verdeutlichen.

Das Unternehmen A verfolgt eine Niedrigpreisstratege und will:

a.)    Für ein bestimmtes Produkt den niedrigsten Preis anbieten.

b.)    Für alle Produkte, den niedrigsten Preis anbieten.

Dazu wird eine permanente Wettbewerbsanalyse auf den Seiten der Konkurrenzanbieter durchgeführt. Auf den Produktseiten soll der Preis ausgelesen werden.

Im Fall a kann die Url des Produktes direkt angesteuert werden und dort die Informationen ausgelesen werden. Alle anderen Produkte und Unterseiten bleiben unberührt.

Vorteile

  • Schnell umsetzbar
  • Keine Probleme bei dem Abgleich, ob es sich um das gewünschte Produkt handelt.
  • Es wird kaum Traffic verursacht.
  • Es fallen nur geringe Datenmengen an

Nachteile

  • Eine direkte Url stellt einen Deeplink dar. Diese können von der Seite erkannt werden und ggf. Gegenmaßnahmen hervorrufen.
  • Es werden nur die Informationen erhoben, die man gezielt ansteuert.
  • Bei Änderungen der Url muss diese angepasst werden

 

Im Fall b wäre dies zum einen recht aufwändig und neue Produkte im Sortiment des Wettbewerbers würden nicht mit berücksichtigt. Daher ist es sinnvoll, den Crawler so zu programmieren, dass er selbständig die relevanten Unterseiten und Produkte findet. Auch hier gibt es zwei Möglichkeiten. 1. Der Crawler folgt der Navigation der Seite und „hangelt“ sich gezielt zu den Produktunterseiten (adaptives Crawlen über die Navigation) oder 2. der Crawler folgt jedem Link auf der Seite und sucht auf den Unterseiten nach bestimmten Mustern, die ihm zeigen, dass eine Produktseite gefunden wurde (vollständig adaptives Crawlen).

Vorteile adaptives Crawlen über die Navigation

  • Es können strukturierte Informationen aller Produkte gewonnen werden. Kategorie des Produktes und Shopaufbau erkennbar.
  • Es können neue Produkte im Sortiment erkannt werden. -> Änderungen im Sortiment nachvollziehbar
  • Es werden keine Deeplinks verwendet, die Suche erscheint natürlicher auf der Seite.
  • Es müssen irrelevante Seiten wie Impressum oder Datenschutz nicht extra gefiltert werden.

 

Nachtteile adaptives Crawlen über die Navigation

  • Ändern sich die Muster der Navigation, muss man manuell anpassen. Das kann sehr aufwändig sein.
  • Es fallen viele Daten an.
  • Es wird viel Traffic erzeugt.
  • Das Durchsuchen vieler Unterseiten kann auffällig sein und Gegenmaßnahmen des Webseitenbetreibers hervorrufen.
  • Aufwändig zu programmieren.

 

Vorteile vollständig adaptives Crawlen

  • Es können neue Produkte im Sortiment erkannt werden. -> Änderungen im Sortiment nachvollziehbar
  • Es werden keine Deeplinks verwendet, die Suche erscheint natürlicher auf der Seite.
  • Es ist keine Anpassung notwendig, wenn sich die Struktur der Seite ändert.

 

Nachteile vollständig adaptives Crawlen

  • Es fallen viele Daten an.
  • Es wird viel Traffic erzeugt.
  • Das Durchsuchen vieler Unterseiten kann auffällig sein und Gegenmaßnahmen des Webseitenbetreibers hervorrufen.
  • Aufwändig zu programmieren.
  • Anpassungen müssen dann vorgenommen werden, wenn sich die Muster der Zielseiten ändern.

Schreibe einen Kommentar