Dirk Lewandowski, einer der wenigen deutschen Professoren die sich intensiv mit Websuchmaschinen auseinandersetzen, hat einen Artikel über die Aktualität von Suchmaschinenindizes (Preprint als PDF) im Journal of Information Science veröffentlicht.
Um die Qualität von Suchmaschinen zu bewerten, wurden vier Qualitätsmerkmale definiert:
1. Indexqualität
2. Qualität der Ergebnisse
3. Qualität der Suchfeatures
4. Usability der Suche
Die Aktualität des Index gehört als Unterpunkt zum Punkt 1, der Indexqualität. Wobei es hierbei nicht nur um die Aufnahme neuer Seiten geht, sondern auch um die zeitnahe Erfassung von Änderungen bei bestehenden Seiten und die Entfernung von gelöschten Seiten aus dem Index.
Dirk verweist hierbei auf eine frühere Studie aus 2004 die folgende Kennzahlen hierzu ermittelt hat:
- 320 Millionen Seiten pro Woche werden neu erstellt
- 20% der heute vorhandenen Seiten werden innerhalb eines Jahres verschwinden
- 50% aller Seiten werden sich innerhalb eines Jahres ändern
- 80% aller Links werden sich innerhalb eines Jahres ändern oder neu hinzugekommen sein
Ich denke, in 2008 wird das Wachstum an neuen Seiten eher höher sein als 2004 (und mit Seiten sind hier auch wirklich einzelne Seiten innerhalb eines Angebots gemeint!), die prozentualen Werte könnten aber auch einem ähnlichem Niveau liegen.
Wer sich jetzt fragt, wie sich solch hohe Werte erklären lassen soll bitte mal beispielhaft an folgende Themen denken:
1. Paginierung
Durch die Paginierung (CMS, Blogs, Foren) ändern sich Millionen von Seiten kontinuierlich
2. Teaserseiten
Startseiten, Rubriken / Kategorienseiten von Portale und Shops ändern oft mehrmals am Tag
Für Suchende ist es also zum einem wichtig neuere Meldungen vor älteren zu finden, vor allem bei aktuellen Events. Alleine die Gewichtung der Aktualität nutzt hier nur etwas, wenn die aktuellen Informationen auch im Index sind.
Andererseits wollen Nutzer natürlich auch die Information auf einer Seite finden, die man gesucht hat. Wer schon über Google & Co. in Foren gelandet ist, kennt das Problem sicher. Weit und breit ist nichts von meinem gesuchten Thema zu finden. Hilft also nur noch die interne Suchfunktion, da irgendwo in dem Forum ja das indexierte Posting sein muss.
Für Suchmaschinen bedeutet es also, dass Sie Seiten in Gruppen sich oft ändernder Seiten und solche sich nicht sehr oft ändernder Seiten aufteilen müssen. Letztere müssen seltener besucht werden, stellen dafür aber auch verlässlichere Ziele dar. Erstere aber müssen regelmäßig besucht werden.
Als Kriterien für die Auswahl werden
Die Änderungsfrequenz (Frequency of change) und
Das Ausmaß der Änderung (Degreew of Change)
vorgeschlagen. Immerhin stellt die berüchtigte Änderung des Updatedatums keine inhaltliche Änderung an der Seite dar. Und auch integrierte RSS-Feeds, related Products und ähnliche Elemente ändern idR nichts am Inhalt einer Seite. Hier ist es also für Suchmaschinen wichtig, echte Änderungen von scheinbaren Änderungen zu unterscheiden.
Nun stellt sich die Frage, wie gut Suchmaschinen mit diesen Aufgaben zurechtkommen. Um hierauf eine Antwort zu finden wurden die drei großen Suchen, Google, Yahoo! und msn/Live in den Jahren 2005, 2006 und 2007 untersucht.
Die Ergebnisse der initialen Untersuchung wurden bereits im Jahr 2005 veröffentlicht (PDF – Aktualität als erfolgskritischer Faktor bei Suchmaschinen). Die Studie bezieht sich ausschließlich auf deutsche Seiten, Rückschlüsse auf andere Länderindizes können also nicht getroffen werden.
Methodisch wurde innerhalb von 6 Wochen pro Jahr die Aktualität von definierten Seiten in den Indizes anhand der Update-Angaben im Cache der Suchmaschinen geprüft. Unterschieden wurde hierbei in 40 Seiten die täglich geändert wurden (große Nachrichtenseiten, regionale Newsportale, wissenschaftsorientierte Seiten und Special-Interest-Seiten) sowie in den Jahren 2006 und 2007 auch 30 Seiten die nur unregelmäßig geändert wurden.
Hier die Anteile der aktuellen Seiten in den Indizes:
- 2005: 82,86 %
- 2006: 20,62 %
- 2007: 24,01 %
Yahoo!
- 2005: 42,85 %
- 2006: 73,13 %
- 2007: 49,76 %
msn/live
- 2005: 48,01 %
- 2006: 28,92 %
- 2007: 10,26 %
Und hier das Alter der jeweils ältesten, täglich aktualisierten Seiten:
- 2005: 54 Tage
- 2006: 29 Tage
- 2007: 10 Tage
Yahoo!
- 2005: 62 Tage
- 2006: 32 Tage
- 2007: 26 Tage
msn/live
- 2005: 17 Tage
- 2006: 16 Tage
- 2007: 30 Tage
Hier ist über die Zeit eine deutlich verschlechterte Aktualität bei allen drei Suchmaschinen festzustellen. Gleichzeitig konnten aber Google und Yahoo! die absoluten Ausreißer reduzieren. Sie erkennen also wohl besser als in 2005 Seiten, die regelmäßig geändert werden.
Interessant sind hier auch die Ergebnisse zu den nicht täglich geänderten Seiten. Hier konnte allerdings Yahoo! nicht berücksichtigt werden, da es keine Updateinformationen im Yahoo! Cache gibt. Hier das Alter der jeweils ältesten Seiten der unregelmäßig geänderten Seiten:
Google:
- 2006: 253 Tage
- 2007: 175 Tage
msn / Live
- 2006: 19 Tage
- 2007: 30 Tage
Hier ist sehr deutlich zu sehen, dass Google die Updatefrequenz einer Seite nutzt, um die eigenen Crawler zu steuern. Bei Microsoft scheint man diese Unterscheidung nicht zu treffen. Über den sinnvollen Einsatz mit den eigenen Ressourcen macht man sich in Redmond offensichtlich weniger Gedanken als in Mountain View.
Die Studie von Dirk Lewandowski enthält noch wesentlich umfangreichere Auswertungen, ich kann also jedem die Lektüre nur dringend empfehlen.
Fazit für SEOs:
Für uns SEOs bleibt aber festzuhalten, dass zumindest Google sehr bewusst seine Crawler steuert. Wer nur OnPage an Seiten optimiert, die nur alle 100 Tage neu gecrawlt werden, sollte unbedingt mittels einer XML-Sitemap und den Webmastertools Google über die Änderungen informieren. Sonst wartet man recht lange auf Änderungen im Ranking.
Noch schwerer wird es natürlich bei der Linkakquise. Unter Umständen sieht Google den Link monatelang nicht. Auch hier sollte man die Updatefrequenz einer Seite, zumindest aber das Datum der Seite im Google-Cache berücksichtigen bevor man einer Seite die Fähigkeit zur Pagerankevererbung in Abrede stellt.
In diesem Sinn, viel Spaß bei der Lektüre der Studie ;-)
Interesse an SEO-Schulungen? Dann werfen Sie einen Blick auf mein Schulungsangebot: SEO Schulungen: Suchmaschinenoptimierung erfolgreich im Unternehmen etablieren