Der Crawler ist ein unverzichtbarer Bestandteil der Software, die von Suchmaschinen aller Art verwendet wird. Alternativ werden sie auch Searchbots oder Spider genannt. Abgeleitet ist die Bezeichnung Crawler von der englischen Vokabel „to crawl“ für kriechen. Und genau das tut diese Software auch. Sie „kriecht“ quasi durch das gesamte Internet und sucht nach neuen Inhalten, um sie für die Anzeigen in den Suchergebnissen indexieren zu können. Der erste Vertreter der Search Bots war der World Wide Web Wanderer, der ab dem Jahr 1993 die Aufgabe hatte, das bei den Inhalten des Internets verzeichnete Wachstum zu messen. Bereits ein Jahr später nahm mit dem WebCrawler die erste Analysesoftware für die eigentlichen Inhalte die Arbeit auf. Entwickelt wurde dieser Search Bot von Brian Pinkterton, einem CSE-Studenten. Daraus entstand eine der ersten Suchmaschinen, mit denen eine Volltextsuche möglich wurde.
Ausgehend von den im Index bereits erfassten Websites besucht ein Crawler sämtliche Websites, auf die von den indexierten Seiten aus Backlinks gesetzt wurden. Dabei fügt er die neu erkannten Domainbezeichnungen dem Index hinzu. Außerdem analysiert er die dort vorgefundenen Inhalte, um sie für die Suche nach bestimmten Keywords zu indexieren. Danach sucht ein Crawler auf der Website nach Links die auf weitere Websites verweisen und arbeitet sich so Stück für Stück durch das gesamte Internet. Allerdings kann ein Search Bot immer nur die Inhalte analysieren und indexieren, die vom Urheber dafür auch freigegeben worden sind. Diese Angaben entnehmen die Crawler der auf den Websites hinterlegten Robots.txt. Um für die Suchmaschinenoptimierung nachteilige Doppelindexierungen zu vermeiden, bieten beispielsweise SEO-Tools für WordPress den Fachleuten für Suchmaschinenoptimierung die Möglichkeit, diese Vorgaben für jeden einzelnen Artikel und jede einzelne Seite machen zu können. Das Setzen von „No Follow“ und „No Index“ sollte vor allem dann beachtet werden, wenn innerhalb einer Website mehrfach auf identische Inhalte verlinkt wird.
Neben dem klassischen Crawler zur Analyse und Indexierung der Inhalte des Internets gibt es spezielle Versionen, die zum Sammeln von Mailadressen aus den Angaben im Impressum einer Website verwendet werden. Sie werden als Harvester bezeichnet. Andere Crawler werden für das Data-Mining, also für die Suche nach besonders wertvollen Inhalten, eingesetzt. Eine weitere Gruppe der Crawler beschäftigt sich mit der Webometrie. Sie untersuchen die Strukturen des Internets und liefern Informationen, die sich dann beispielsweise über die Google Analytics oder die Google Webmaster Tools abrufen lassen. Andere Crawler sind darauf spezialisiert, urheberrechtlich geschützte Daten im Internet zu finden.
Interessiert? Erfahren Sie mehr zum Thema "Crawler" - kontaktieren Sie uns jetzt
Unter der Überschrift „Kreation“ vereinen wir die 4 Kernkompetenzen von baseplus®: Das Design, die Entwicklung, das Online Marketing und Print, in der jeweils anmutenden Farbe. Das konsequente Color-Coding dient der optimierten Benutzerführung, die Claims kommunizieren jeden Bereich zusätzlich.
Klicken Sie hier, um zu sehen was wir meinen