Informationen, die mit Hilfe eines Crawlers in der Marktanalyse gewonnen werden können

Im Prinzip kann ein Crawler alle Informationen auslesen, die eine Webseite bereitstellt. Darunter fallen nicht nur die Informationen, die der normale Nutzer sieht, sondern auch Informationen aus der Struktur der Seite.

Welche Informationen tatsächlich gesammelt werden sollen, hängt von dem Zweck ab. Häufig können aus den gesammelten Daten neue Informationen abgeleitet werden, die so explizit nicht auf der Webseite zu finden sind.

 

Zu erhebende Informationen

Die folgenden Informationen sind nur Ideen. Tatsächlich können weitere Informationen erhoben werden, je nach dem Interesse des Nutzers:

  • Preis
  • Produktbezeichnung
  • Größe/ Gewicht des Produktes
  • Menge (Wenn angegeben)
  • Produktnummer
  • Bewertung (Höhe, Zahl der abgegebenen Bewertungen)
  • Zahl der Produkte/ Foreneinträge/ Kategorien
  • Zahl der Unterseiten
  • Wenn vorhanden ISBN oder EAN
  • Bild
  • Kategorie
  • Welche Empfehlungen zu diesem Produkt angezeigt werden
  • Evlt. Ob besondere Bezeichnung als Sonderangebot
  • Adresse, Geschäftsführer
  • Länge von Texten z.B. der Datenschutzerklärung oder AGBs (Änderungen weisen auf Änderungen im Inhalt hin.)
  • Seitenstruktur (Änderungen weisen auf Änderungen im Angebot hin)
  • Metadaten
  • Zahl und Anbieter der eingebundene Scripte
  • Ladegeschwindigkeit

 

Um einen automatischen Vergleich mit eigenen Produkten zu ermöglichen müssen die Produktbezeichnungen verglichen werden, wenn keine EAN vorhanden ist.

Aufbereitung der Daten

Da sich Bezeichnungen für identische Produkte in der Schreibweise unterscheiden können, sind hier Ähnlichkeitsalgorithmen notwendig. Die Datenaufbereitung ist notwendig, um sie vergleichbar und nutzbar zu machen.

Beispiel:

AEG Lavamat L 87484 EFL Öko oder AEG Lavamat L 87484EFL Öko

Hier fehlt nur ein Leerzeichen zwischen den Ziffern und EFL. Bei einem automatischen Vergleich der Zeichenketten werden diese jedoch als unterschiedlich erkannt.

Eine Möglichkeit ist es einen Ähnlichkeitsalgorithmus zu verwenden. Z.B. Levensthein-Algorithmus

Und eine Toleranzschwelle festzulegen, bis zu der ein Produkt als gleich angesehen wird.

Zuvor können verschiedene Fehlerquellen ausgeschlossen werden, z.B. indem man keinen Unterschied zwischen Groß- und Kleinschreibung macht. Zudem könnten Leerzeichen nicht mitgezählt werden, oder bestimmte Zeichen die sich unterscheiden, wie Buchstaben oder Zahlen, stärker gewichtet werden.

Eine exakte Zuordnung ist notwendig, damit der Algorithmus für die dynamische Preisanpassung keine falschen Schlüsse zieht.

Auch wenn die Daten nicht für das dynamic Pricing verwendet werden, sondern für die Festlegung der Preisstrategie oder der Preispolitik, muss man sich gerade bei großen Datenmengen auf die Zuverlässigkeit verlassen können.

Beispiel 2:

(A) AEG Lavamat L 87484 EFL Öko Soll verglichen werden mit:

(B) AEG Lavamat L87484EFL Öko Hier sind zwei Leerzeichen weggelassen worden.

(C) AEG Lavamat L 97484 EFL Öko Hier wurde statt der 8 im Ziffernteil eine 9 verwendet. Dies kann daher entweder ein völlig anderes Produkt sein oder ein Schreibfehler seitens des Webseitenbetreibers.

(D) AEG Öko Lavamat L 87484 EFL Hier wurde die Position des Wortes Öko verändert.

Bei einem einfachen Vergleich würden B und C nicht als gleich mit Produkt A erkannt.

Beim Levenstheinalgoritmus wäre B unähnlicher zu A als C, da nur eine Abweichung von der Vergleichszeichenkette besteht. D.h. trotz, dass ein Unterschied in einer Ziffer einen größeren Aussagewert hat als ein Leerzeichen, wird die Produktbezeichnung von C als ähnlicher angesehen als die von Produkt B.

Die Produktbezeichnung D hätte bei Anwendung des Levenstheinalgorithmus zu der Bezeichnung A den größten Abstand, obwohl nur die Position des Wortes Öko verändert wurde. Einen Hinweis auf unterschiedliche Produkte ist das aber nicht.

 

Es ist daher empfehlenswert eine Permutation von verschiedenen Komponenten durchzuführen. Z.B.

(P0) AEG Lavamat L 87484 EFL Öko

(P1) Öko AEG Lavamat L 87484 EFL

(P2) AEG Öko Lavamat L 87484 EFL

(PN) EFL Lavamat AEG L Öko 87484

Trenner können sein: Leerzeichen, Übergänge von Zeichenarten z.B. von Buchstaben zu Zahlen oder Sonderzeichen, Formatierungen.

3 Gedanken zu „Informationen, die mit Hilfe eines Crawlers in der Marktanalyse gewonnen werden können

  1. Pingback: Einsatz von Crawlern und Robots in der Wettbewerbsanalyse | Pricing

  2. Pingback: Preisvergleichsportale | Pricing

  3. Pingback: Preisvergleichsportale - Pricing

Schreibe einen Kommentar