Die Indexierung einer Website ist die Basis für das Ranking in den Suchmaschinen. Alle Suchmaschinenoptimierung (SEO) bringt nichts, wenn eine Website nicht indexiert ist. Eine vollständige Indexierung von 100 % ist aber nicht möglich. Und auch nicht sinnvoll.
Indexierung Definition
Die Indexierung bezeichnet den Vorgang, mit dem Suchmaschinen eine Website in ihr Verzeichnis aufnehmen. Die sogenannten Crawler (Searchbots) reisen durchgehend durch das Internet und sammeln Daten auf Websites.
Für die Reise nutzen diese Crawler die Verlinkungen zwischen den Webseiten. Das ist einer der Gründe, warum Verlinkungen ein wichtiger Aspekt in der SEO sind. Über Links ist eine Website besser auffindbar und die Indexierung kann schneller erfolgen.
Das Internet ist allerdings riesig. Es gibt unzählige Websites. Insgesamt besteht das Internet aus über 1 Milliarde Websites. Aktiv sind davon zum jetzigen Stand rund 200 Millionen.
An der Stelle beginnen dann die „Probleme“. Die Suchmaschinen zielen darauf ab, in der Indexierung die aktiven Websites zu berücksichtigen. Schließlich sind das die Seiten, die aktuell sind und den Nutzern die Inhalte liefern, die sie suchen.
Deshalb berücksichtigen die Crawler nicht alle Websites, sondern wählen anhand der Aktivität aus, wo sie Daten sammeln und welche Websites sie regelmäßig besuchen. In der Masse ist es nicht möglich, dass die Crawler alle Websites für die Indexierung besuchen.
Deshalb müssen wir den Crawlern den Weg weisen und ihnen dabei helfen, die Indexierung auf unsere Website vorzunehmen.
Die Indexierung „steuern“
Der Begriff „steuern“ ist nicht ganz korrekt, aber wir können Suchmaschinen dabei helfen, unsere Website zu indexieren. Dafür ist zuerst eine Information wichtig: Die Indexierung einer Website erfolgt für jede Unterseite. Das heißt, die Crawler nehmen nicht einfach die Website in das Verzeichnis der Suchmaschine auf, sondern jede einzelne Seite auf der Website gesondert.
Das bedeutet aber auch, dass die Indexierung schwieriger und langwieriger wird. Damit Crawler die einzelnen Seiten finden, ist es wichtig, dass diese über interne Verlinkungen miteinander verbunden sind. Noch besser ist es, wenn externe Backlinks zu den einzelnen Seiten führen, aber das können wir nur geringfügig beeinflussen.
Die Crawler reisen über die Verlinkungen von einer Seite zur nächsten, sammeln dort Daten und nehmen die Indexierung vor. Eine Indexierung aller Seiten ist aber so gut wie unmöglich. Die Suchmaschinen haben eigene Ranking Kriterien, die kaum jede Seite erfüllen kann und auch gar nicht soll.
Deshalb helfen wir den Searchbots bei ihrer Reise, indem wir Webseiten bewusst aus der Indexierung herausnehmen. Die Searchbots wissen dann, dass sie diese Seiten ignorieren können und konzentrieren sich auf die wichtigen Webseiten.
Webseiten aus dem Index ausschließen
Um eine Webseite direkt aus der Indexierung auszuschließen, nutzen wir den „noindex“-Tag. Dieser Befehl kann in den meisten Content Management Systemen (CMS) ganz einfach bei der Erstellung einer Seite angekreuzt werden. Ansonsten ist es ein HTML-Befehl.
Der „noindex“-Tag gehört in den Bereich <head> der entsprechenden Webseite und sieht so aus:
<meta name=“robots“ content=“noindex“>
Damit schließen wir alle Suchmaschinencrawler von der Seite aus. Wollen wir, dass ausschließlich Google die Seite ignoriert, können wir das spezifizieren:
<meta name=“googlebot“ content=“noindex“>
Welche Seiten sollten nicht indexiert werden?
Grundsätzlich gilt: Alle Webseiten, die Traffic auf die Website bringen, Content enthalten und einen Mehrwert für die Besucher haben, sollten für den Index freigeschaltet sein.
Alle anderen Seiten können von der Indexierung ausgeschlossen werden. Dazu gehören unter anderem:
- AGB
- Dank-Seiten (Danke für die Registrierung, Danke für den Log-In etc.)
- Datenschutzerklärung
- Duplicate Content
- Haftungsausschluss
- Impressum
- Interne Seiten, die nur für die Mitarbeiter, aber nicht der Öffentlichkeit zugänglich sind
- Kaufbestätigungen
- Veraltete oder archivierte Inhalte
Einige dieser Seiten finden Sie auch hier auf der Textflamme-Website. In unserem Footer beispielsweise. Alle Seiten am unteren Rand des Footers sind von uns bewusst von der Indexierung ausgeschlossen.
Schwankende Indexierung
Es kann vorkommen, dass eine Webseite aus der Indexierung herausfällt und später wieder in den Index aufgenommen wird. In manchen Fällen schwanken Webseiten zwischen Indexierung und Ausschluss ständig hin und her.
Das liegt daran, dass die Suchmaschinenalgorithmen nach definierten Richtlinien vorgehen. Befindet sich eine Webseite genau auf einer Grenze dieser Richtlinien, kippt sie mal zur einen und mal zur anderen Seite, weil die Algorithmen nicht perfekt sind.
Die beste Handlungsweise ist dann, mit Suchmaschinenoptimierung gegenzusteuern, um die Webseite dauerhaft in die Indexierung zu schieben.
Weitere Gründe dafür, dass eine Webseite nicht indexiert ist, können diese sein:
- Die Seite ist neu und die Crawler haben noch keine Daten gesammelt.
- Auf der Seite wurden Veränderungen vorgenommen, die die Suchmaschinen noch nicht erfasst haben.
- Die Seite ist nicht (mehr) aufrufbar, weil beispielsweise ein 404-Statuscode ausgegeben wird.
- Ein permanenter 301-Redirect-Link leitet auf ein neues Linkziel weiter.
- Die Suchmaschinen stufen den Inhalt als nicht relevant genug ein.
Für alle Probleme gibt es eine Lösung. In manchen Fällen reicht einfach abwarten. In anderen Fällen sorgt die SEO für Abhilfe, um den Mehrwert zu erhöhen und die Inhalte relevant zu machen. Technische Probleme lassen sich ebenfalls lösen.
Wichtig ist am Ende immer, dass die wichtigsten Webseiten indexiert sind. 100 % aller Seiten sind nicht möglich. Sie sind aber auch nicht notwendig, um eine erfolgreiche Website zu betreiben.