26. September 2006
Ist der Google-Index überaltert?
Ziv Bar-Yossef, seit einiger Zeit selbst Mitarbeiter bei Google, hat im August anlässlich des Google Techtalk eine interessante Studie vorgestellt. Es geht bei diesem Experiment um verschiedene Methoden zur Bildung von Stichproben aus dem Datenbestand der Suchmaschinen. Anhand dieser Stichproben - die, wie er nachweist, keine Verzerrungen enthalten - lassen sich Aussagen über die jeweiligen Indices treffen.
Solche Aussagen fasst Bar-Yossef ebenfalls in aller Kürze vor, wobei er sich nicht versucht, die Ergebnisse im Sinne seines Arbeitgebers zu schönen. Nach seinen Erkenntnissen ist beispielsweise der Index von Yahoo tatsächlich um etwa 30% umfangreicher als jener von Google. Der Google-Index ist wiederum um 30% größer als jener der MSN-Suche (Stand: Frühjahr 2006).
Hinsichtlich der “Frische” dieser Daten liefert Google ebenfalls kein sehr gutes Ergebnis: Etwa 2% aller Suchergebnisse bei Google verweisen auf nicht mehr existente Seiten. Bei MSN und Yahoo liegt dieser Anteil etwa bei 0,5%. Und auch beim Vergleich der Cache-Versionen mit den gespiderten Seiten bildet Google das Schlusslicht.
Bei diesem Test wurden auch partielle (prozentuale) Änderungen im Textgerippe berücksichtigt, etwa wenn nur ein Wort einer HTML-Datei geändert wurde. Hier zeigte Google die meisten Abweichungen zwischen Cache und “frischer” HTML-Version. Allerdings fallen die Unterschiede bei diesem Test weit weniger dramatisch aus, als etwa bei der Erfassung der “toten” Seiten (Error 404). Dennoch muss unterm Strich die Feststellung getroffen werden, dass Google zwar nicht über den größten Index verfügt, aber dafür über den größten Anteil nicht mehr existierender oder veralteter Seiten. Wobei man es als vorbildlich bezeichnen kann, diese Einschätzung von Google selbst zu erhalten.
quelle: intern.de