WayBack Machine – das Archiv des Internet


Die Wayback Machine – unter Archive.org zu finden – ist ein digitales Archiv des Internets, das es Nutzern ermöglicht, auf historische Versionen von Websites zuzugreifen und diese anzusehen. Sie wurde 2001 vom Internet Archive, einer gemeinnützigen Organisation mit Sitz in San Francisco, ins Leben gerufen.

Die Wayback Machine wurde entwickelt, um die riesige Menge an Informationen im Internet zu bewahren und zugänglich zu machen, und sie ermöglicht es den Nutzern, Webseiten so anzusehen, wie sie in der Vergangenheit erschienen sind.

Hier ein prominentes Beispiel, wie praktisch das Archiv ist: Hier sieht man die Apple-Webseite zu dem Zeitpunkt, als das erste iPhone verkauft wurde.
Hier ein prominentes Beispiel, wie praktisch das Archiv ist: Hier sieht man die Apple-Webseite zu dem Zeitpunkt, als das erste iPhone verkauft wurde.

Hier ein Auszug (übersetzt) aus der Webseite der Wayback Machine:

Das Internet Archive, eine 501(c)(3) gemeinnützige Organisation, baut eine digitale Bibliothek mit Internetseiten und anderen kulturellen Artefakten in digitaler Form auf. Wie eine Bibliothek auf Papier bieten wir Forschern, Historikern, Gelehrten, Menschen mit Druckschwierigkeiten und der breiten Öffentlichkeit kostenlosen Zugang. Unser Ziel ist es, den universellen Zugang zu allem Wissen zu ermöglichen.

Wir begannen 1996 damit, das Internet selbst zu archivieren, ein Medium, das gerade erst anfing, sich zu verbreiten. Wie bei den Zeitungen waren die im Internet veröffentlichten Inhalte flüchtig – aber im Gegensatz zu den Zeitungen speicherte sie niemand. Heute können wir über die Wayback Machine auf mehr als 26 Jahre Webgeschichte zugreifen und arbeiten mit über 1.000 Bibliotheken und anderen Partnern im Rahmen unseres Archive-It-Programms zusammen, um wichtige Webseiten zu identifizieren.

Mit dem Wachstum unseres Webarchivs wuchs auch unser Engagement, digitale Versionen anderer veröffentlichter Werke bereitzustellen. Heute enthält unser Archiv:

735 Milliarden Webseiten
41 Millionen Bücher und Texte
14,7 Millionen Audioaufnahmen (darunter 240.000 Live-Konzerte)
8,4 Millionen Videos (darunter 2,4 Millionen Fernsehnachrichtensendungen)
4,4 Millionen Bilder
890.000 Software-Programme

Jeder, der ein kostenloses Konto hat, kann Medien in das Internet Archive hochladen. Wir arbeiten mit Tausenden von Partnern auf der ganzen Welt zusammen, um Kopien ihrer Arbeit in speziellen Sammlungen zu speichern.

Das Archiv enthält Milliarden von Webseiten, Bildern und Videos und wächst ständig mit neuen Beiträgen von Nutzern und automatischen Webcrawlern. Die Wayback Machine ist eine wertvolle Ressource für die historische Forschung, die digitale Bewahrung und die private oder geschäftliche Nutzung.

Wayback Machine Logo

Zweck und die Ziele der Wayback Machine

Zweck und Ziel von Archive.org ist es, die riesige Menge an Informationen im Internet zu bewahren und zugänglich zu machen. Sie soll ein umfassendes und zugängliches digitales Archiv des Internets schaffen, das von Forschern, Historikern und der Öffentlichkeit genutzt werden kann, um zu sehen, wie sich Websites und das Internet im Laufe der Zeit entwickelt haben.

Eines der Hauptziele der Wayback Machine ist es, das Internet in einen historischen Kontext zu stellen und den Nutzern zu zeigen, wie sich Websites und Online-Communities im Laufe der Jahre verändert haben. Dies kann für Forscher nützlich sein, die die Entwicklung verschiedener Branchen, Gemeinschaften und Kulturen im Internet untersuchen.

Ein weiteres Ziel des Projektes ist es, digitale Inhalte für zukünftige Generationen zu bewahren. Da sich das Internet ständig weiterentwickelt, verschwinden viele Websites und Online-Ressourcen und machen ihre Inhalte für zukünftige Generationen unzugänglich. Die Wayback Machine will diesen Informationsverlust verhindern, indem sie digitale Inhalte archiviert und für die Nachwelt bewahrt.

Außerdem kann die Wayback Machine als Werkzeug für Unternehmen genutzt werden, um die Entwicklung ihrer Website im Laufe der Zeit zu verfolgen, oder für den persönlichen Gebrauch, um z. B. eine Website, die du früher besucht hast, wieder aufzusuchen.

Einträge in der Wayback Machine als Beweismittel nutzen

Die Wayback Machine kann vor Gericht als Beweismittel verwendet werden, da sie eine historische Aufzeichnung der Informationen liefert, die zu einem bestimmten Zeitpunkt auf einer Website erschienen sind. Es ist jedoch wichtig zu beachten, dass die Verwendung der Wayback Machine als Beweismittel vor Gericht den Gesetzen und Vorschriften der jeweiligen Gerichtsbarkeit unterliegen kann.

Das Projekt kann dazu verwendet werden, zu beweisen, dass bestimmte Informationen zu einem bestimmten Zeitpunkt auf einer Website vorhanden waren. So lässt sich beispielsweise nachweisen, dass eine bestimmte Aussage oder ein bestimmtes Bild zu einem bestimmten Datum und einer bestimmten Uhrzeit auf einer Website vorhanden war. Außerdem kann damit bewiesen werden, dass eine Website verändert wurde, z. B. in einem Fall von Markenrechtsverletzung.

Ich habe selbst auch schon den Fall gehabt, dass die Daten aus der Wayback Machine vor Gericht als Beweis genutzt wurden, um zu beweisen, dass zu einem bestimmten Zeitpunkt eine betrügerisches Javascript auf der Webseite einer Person vorhanden war.

Insgesamt ist die Wayback Machine eine wertvolle Ressource für die historische Forschung, die digitale Bewahrung und die private oder geschäftliche Nutzung. Ihr Ziel ist es, das digitale Erbe des Internets zu bewahren und es für alle zugänglich zu machen, jetzt und in Zukunft.

Die Menschen hinter dem Internet-Archiv findet man auf der Unterseite "People".
Die Menschen hinter dem Internet-Archiv findet man auf der Unterseite „People“.

Wie funktioniert die Wayback Machine?

Crawling und Indexierung von Webseiten

Der Prozess der Archivierung von Websites mit der Wayback Machine umfasst mehrere Schritte:

  1. Crawling: Die Wayback Machine nutzt automatisierte Software, sogenannte Webcrawler, um das Internet nach neuen Websites zu durchsuchen, die archiviert werden sollen. Diese Crawler durchforsten das Internet, folgen Links von einer Seite zur anderen und fügen neue Websites in die Warteschlange der Wayback Machine ein, um sie zu archivieren.
  2. Archivierung: Sobald eine Website in die Warteschlange aufgenommen wurde, erstellt die Archivierungssoftware der Wayback Machine einen Schnappschuss des HTML-Codes, der Bilder und anderer Mediendateien der Website. Dieser Schnappschuss wird dann im digitalen Archiv der Wayback Machine gespeichert, zusammen mit Metadaten wie Datum und Uhrzeit der Aufnahme.
  3. Indizierung: Die Archivierungssoftware der Wayback Machine indexiert auch den Inhalt der Website, damit er durchsuchbar und für die Nutzer/innen leicht zugänglich ist. Dieser Index wird verwendet, um die Kalenderansicht in Archive.org zu erstellen, die es den Nutzern ermöglicht, den Verlauf einer Website nach Datum zu betrachten.
  4. Re-crawling: Die Wayback Machine durchsucht in regelmäßigen Abständen Websites, die zuvor archiviert wurden, um ihren Inhalt zu aktualisieren. So kann das Archiv die Änderungen widerspiegeln, die im Laufe der Zeit an einer Website vorgenommen wurden, und das Archiv bleibt auf dem neuesten Stand.

Es ist auch erwähnenswert, dass die Wayback Machine nicht alle Websites im Internet archivieren kann. Manche Websites werden von den Crawlern der Wayback Machine nicht indiziert, oder der Eigentümer der Website hat entschieden, dass seine Website nicht archiviert werden soll. Außerdem kann es sein, dass bestimmte Elemente einer Website nicht korrekt archiviert werden, z. B. interaktive Elemente, und dass einige Websites für die Wayback Machine überhaupt nicht zugänglich sind.

Die technische Infrastruktur hinter Archive.org

Wie ist diese Zeitreise mit der Wayback Machine möglich und welche Technologien werden eingesetzt, um diese bemerkenswerte Leistung zu vollbringen?

Die Schlüsselkomponente der Wayback Machine ist ein Archivierungssystem namens Heritrix. Diese Open-Source-Software durchforstet das Internet und sammelt HTML-Seiten und andere Inhalte wie CSS, JavaScript, Bilder, Audio und mehr. Die archivierten Daten werden dann in einer durchsuchbaren Datenbank indiziert, die es den Nutzern ermöglicht, gespeicherte Versionen von Websites mithilfe von Schlüsselwörtern oder erweiterten Suchparametern zu finden.

Heritrix speichert alle Dateien im WARC-Format (Web ARChive). WARC – ausgesprochen „wark“ – ist ähnlich wie das ZIP-Format in der Lage, große Datenmengen zu komprimieren und dabei ihre Integrität zu erhalten. Das macht es einfacher, Daten zu speichern und zu übertragen, ohne dass Dateien beschädigt werden oder Informationen verloren gehen.

Um die Speicherung von Websites weiter zu optimieren, verwendet Heritrix eine Delta-Kodierungstechnik namens „Bloom-Filter“, die nur Änderungen zwischen verschiedenen Versionen der Website speichert, anstatt jedes Mal den gesamten Inhalt zu speichern. Zusätzlich zu den Bloom-Filtern setzt Heritrix auch Inhaltskodierungsverfahren wie GZIP ein, um bestimmte Arten von Inhalten zu komprimieren, bevor sie in den Archiven gespeichert werden.

Zusammenfassend lässt sich sagen, dass die Wayback Machine ein leistungsstarkes Werkzeug ist, das uns einen faszinierenden Einblick in unsere Vergangenheit gewährt. Sie nutzt modernste Technologien wie Heritrix, WARC-Formatierung und Komprimierungstechniken wie Bloom-Filter und GZIP für maximale Effizienz bei der Archivierung von Webseiten aus aller Welt.

2010 hat Apple den ikonischen iMac mit schwenkbarem Display veröffentlicht.
2010 hat Apple den ikonischen iMac mit schwenkbarem Display veröffentlicht.

Anwendungsfälle für die Wayback Machine

Beispiele wie die Wayback Machine für die historische Forschung genutzt wird

  1. Zugriff auf alte Nachrichtenartikel, die inzwischen entfernt wurden: Mit der Wayback Machine können Artikel eingesehen werden, die von Nachrichten-Websites und anderen Quellen entfernt wurden, was einen besseren Einblick in früher zensierte Ereignisse ermöglicht.
  2. Frühere Versionen von Websites und Blogs abrufen, um Veränderungen im Laufe der Zeit zu vergleichen: Durch die Einsicht in frühere Versionen von Webseiten können Forscher/innen die Entwicklung einer Website oder eines Blogs verfolgen und analysieren, wie sich bestimmte Themen im Laufe der Zeit verändert haben.
  3. Die Entwicklung des politischen Diskurses anhand von Beiträgen in den sozialen Medien nachverfolgen: Mit der Wayback Machine können Forscher/innen auf Social-Media-Beiträge der vergangenen Jahre zugreifen, um zu untersuchen, wie sich die öffentliche Meinung zu bestimmten Themen oder politischen Fragen verändert hat.
  4. Untersuchung der Geschichte eines bestimmten Hashtags oder Trends auf Twitter: Mit der Wayback Machine können Forscher/innen die Entwicklung eines bestimmten Hashtags zurückverfolgen und herausfinden, wie er sich entwickelt hat, wer ihn zu verschiedenen Zeitpunkten verwendet hat und welche Nachrichten mit seinem Wachstum oder seinem Rückgang in der Popularität verbunden waren.
  5. Überprüfung von gelöschten Wikipedia-Seiten, die einst aktiv waren: Die Wayback Machine ermöglicht es jedem, frühere Versionen von Wikipedia-Seiten einzusehen, die andernfalls durch Löschung oder Bearbeitung verloren gehen könnten.
  6. Alte Aufzeichnungen und Daten auf Regierungswebseiten aufdecken, bevor sie gelöscht wurden: Forscher/innen können die Wayback Machine nutzen, um nach Aufzeichnungen zu bestimmten Themen zu suchen, die möglicherweise von offiziellen Seiten entfernt wurden, aber noch in archivierter Form existieren.
Es kann ziemlich spannend sein, zu sehen, welche Nachrichten an einem bestimmten Tag in der Vergangenheit in den Medien waren.
Es kann ziemlich spannend sein, zu sehen, welche Nachrichten an einem bestimmten Tag in der Vergangenheit in den Medien waren.

Verwendung von Archive.org für die digitale Aufbewahrung von

Die Wayback Machine hat sich als unschätzbares Werkzeug für die digitale Archivierung erwiesen. Durch die Archivierung von Webseiten und Inhalten ermöglicht sie den Zugriff auf Informationen, die sonst verloren gehen oder vergessen werden würden. Hier sind einige weitere Möglichkeiten, wie sie für die digitale Bewahrung genutzt werden kann:

  1. Für das Aufspüren von Webseiten, die offline gegangen sind, aber vielleicht noch wichtige Daten oder Ressourcen enthalten.
  2. Für das Dokumentieren von Veränderungen im Erscheinungsbild, der Sichtbarkeit oder der Wichtigkeit eines bestimmten Themas im Laufe der Zeit auf verschiedenen Websites.
  3. Für die Archivierung von persönlichen Websites und Blogs, die gelöscht wurden oder aus anderen Gründen nicht mehr existieren.
  4. Um vergangene Versionen bestimmter Unternehmen, Organisationen und Regierungen aufzuspüren und um deren Geschichte und Entwicklung im Laufe der Zeit zu verstehen.
  5. Für die Archivierung von Unterrichtsmaterialien wie Lehrbüchern, Vorlesungsmitschriften, Lehrplänen usw., die so als Ressourcen für künftige Generationen von Studierenden und Forschern genutzt werden können.
  6. Zur Konservierung von historischen Aufzeichnungen wie Gesetzbücher, wissenschaftliche Zeitschriften, Volkszählungsdaten, Karten und anderen Dokumenten, die aufgrund von Zensur oder absichtlicher Entfernung aus offiziellen Quellen nicht mehr verfügbar sind.

Private oder geschäftliche Einsatzbereiche

Die Wayback Machine bietet einen unschätzbaren Service für private und geschäftliche Zwecke. Für alle, die Daten verloren haben oder Zugang zu archivierten Inhalten benötigen, kann das Archive.org-Projekt ein Lebensretter sein. Es ermöglicht es, nach Websites zu suchen und Versionen zu sehen, die bis zur allerersten Website zurückreichen. Das bedeutet, dass Unternehmen in nur wenigen Schritten Zugang zu alten Dateien, Dokumenten, E-Mails, Bildern und vielem mehr erhalten können.

Auch Privatpersonen profitieren davon, dass sie frühere Versionen ihrer eigenen Website einsehen oder Seiten nachschlagen können, die sie zuvor im Internet besucht haben. Die Wayback Machine bewahrt die digitale Geschichte auf effiziente und genaue Weise, was sie zu einem nützlichen Werkzeug macht, sowohl jetzt als auch in Zukunft.

Hier sind einige Möglichkeiten, wie sie genutzt werden kann:

  1. Man kann verlorene Blogeinträge, Bilder, Videos oder andere Inhalte, die aus dem Internet entfernt wurden, wiederherstellen.
  2. Es lassen sich interessante Themen recherchieren, indem man auf alte Websites und Blogs zugreift, die vielleicht nicht mehr in ihrer ursprünglichen Form existieren.
  3. Man erhält einzigartige Einblicke in vergangene Ereignisse oder Trends, indem man Archive von Nachrichtenartikeln, Tweets und anderen Informationsquellen im Laufe der Zeit durchsucht.
  4. Archive.org bietet frühere Versionen offizieller Websites an, um Änderungen oder Entwicklungen zu überprüfen, die seit ihrer Erstellung stattgefunden haben.
  5. Man kann digitale Backups von wichtigen Daten oder Dokumenten zu erstellen, die in Zukunft aufgrund von Zensur oder Entfernung von offiziellen Websites schwer zugänglich sein könnten.
  6. Man kann die Online-Historie der Konkurrenten zu analysieren, um Einblicke in ihre Strategien, Erfolge und Misserfolge zu erhalten.
  7. Es gibt einen Bereich, in welchem alte Arcade-Spiele und andere Software zu finden ist. Hier kann man seine alten Lieblingsspiele mal wieder zocken.
Im Internetarchiv kann man sogar alte Spiele wie Tetris in der Originalfassung spielen – ich habe die Steuerung noch nicht ganz raus, aber theoretisch klappt es.
Im Internetarchiv kann man sogar alte Spiele wie Tetris in der Originalfassung spielen – ich habe die Steuerung noch nicht ganz raus, aber theoretisch klappt es.

Kritik und Limitierungen

Obwohl es sich um ein bemerkenswertes Projekt handelt, gibt es auch einige Schwächen und Kritikpunkte, die bei der Nutzung der WayBack Machine beachtet werden sollten.

Eine der größten Schwächen der WayBack Machine ist die begrenzte Verfügbarkeit von Webseiten. Obwohl die WayBack Machine eine beeindruckende Sammlung von Webseiten besitzt, ist sie nicht in der Lage, jede einzelne Webseite zu speichern. Dies liegt zum Teil daran, dass einige Webseiten blockiert sind oder den Zugriff verweigern, wenn sie von der WayBack Machine gecrawlt werden.

Ein weiterer Kritikpunkt des Internetarchivs ist die Tatsache, dass einige Webseiten unvollständig oder fehlerhaft gespeichert werden können. Manchmal kann es vorkommen, dass bestimmte Bilder, Videos oder andere multimediale Inhalte nicht vollständig geladen werden oder dass Links nicht mehr funktionieren. Dies kann frustrierend sein, wenn man versucht, eine vollständige Version einer vergangenen Webseite zu finden.

Eine weitere Schwäche der WayBack Machine ist die Tatsache, dass sie nicht in der Lage ist, auf Webseiten zuzugreifen, die mit einem Passwort oder anderen Sicherheitsmaßnahmen geschützt sind. Dies bedeutet, dass es nicht immer möglich ist, auf historische Versionen von Webseiten zuzugreifen, die nur für Mitglieder oder registrierte Nutzer zugänglich sind.

Zusammenfassend lässt sich sagen, dass die WayBack Machine eine wertvolle Ressource für diejenigen ist, die auf vergangene Versionen von Webseiten zugreifen möchten. Es gibt jedoch einige Schwächen und Kritikpunkte, die bei der Nutzung berücksichtigt werden sollten, insbesondere wenn es darum geht, eine vollständige Version einer vergangenen Webseite zu finden oder auf gesperrte Webseiten zuzugreifen.

Jens Kleinholz

Der Autor Jens Kleinholz ist seit 1999 im Online-Bereich selbständig und betreut mit seiner Internetagentur NET-TEC internet solutions bundesweit Kunden in Bezug auf ihr Online-Markting und die Webseiten-Erstellung.

Neueste Beiträge