Crawling
Crawling ist der Vorgang, mit dem Suchmaschinen Websites nach den Daten durchsuchen, die für die Indexierung notwendig sind. Das Crawling übernimmt ein sogenannter Webcrawler – kurz Crawler – auch als Searchbot bezeichnet. Dabei handelt es sich um Programme, die automatisiert nach vorgegebenen Inhalten suchen.
Crawling in der Praxis
Die Vorgehensweise der Crawler legen die Entwickler des Programms fest. Ein neu programmierter Webcrawler beginnt mit dem Durchsuchen zuvor festgelegter Websites. Von dort aus erreicht der Crawler weitere Seiten. Der Crawler nutzt Hyperlinks, um auf andere Websites zu gelangen.
So erfolgt das Crawling sozusagen durch das gesamte Netz und es häufen sich immer mehr Informationen und Daten an. Das Crawling geht also in der Theorie immer weiter, da die Größe des Internets endlos ist. Zumindest in dem Sinne, dass immer wieder neue Websites hinzukommen.
Tatsächlich besteht aber der Großteil des Internets aus inaktiven Websites. Nur knapp ein Fünftel aller Websites im World Wide Web sind aktiv. Der Rest ist in dem Sinne Datenmüll, der noch herumliegt.
Deshalb setzen Programmierer ihren Crawlern Grenzen. Beispielsweise, indem sie die Datenerfassung auf bestimmte Informationen beschränken. Durch das Festlegen von Suchkriterien verhindern die Entwickler, dass die Searchbots den gleichen Inhalt unter mehreren URLs speichern.
Laut Statistiken macht das Crawling der einzelnen Suchmaschinen 40 Prozent des gesamten Datenverkehrs im Internet aus. Das zeigt auf, wie wichtig es ist und dass es ständig stattfindet.
Webcrawler Name
Die Bezeichnung Webcrawler oder Crawler für Programme, die automatisiertes Crawling betreiben, stammt von einer der ersten Suchmaschinen im Internet. Nein, nicht Google, sondern WebCrawler. Diese Suchmaschine entstand im Jahr 1994 und war die erste Suchmaschine mit Volltextsuche.
Der Vorgänger war der World Wide Web Wanderer, der im Grunde der erste Webcrawler war, aber noch nicht so genannt wurde. Seine Aufgabe war es seinerzeit, das Wachstum des Internets zu messen.
Moderne Suchmaschinen wie Google, Bing, Yahoo und Co. nutzen für das Crawling Crawler, die an den Webcrawler der ersten Volltextsuchmaschine angelehnt sind. Natürlich sind diese stark weiterentwickelt.
WebCrawler existiert zwar auch heute noch, ist aber keine eigenständige Suchmaschine mehr. Stattdessen handelt es sich dabei heute um eine Metasuchmaschine, die Suchanfragen an mehrere andere Suchmaschinen weiterleitet, um ihre Suchergebnisse zu erhalten.