Alte Webseiten finden: Vorstellung der Wayback Machine und zweier Alternativen

IONOS Redaktion13.08.2018

Das Internet ist unvergänglich, glauben viele. Aber das gilt keineswegs für einzelne Websites: Warum stürzt gerade Ihre Website ab, sodass alle Ihre Inhalte verlorengehen? Oder wollten Sie Ihre Lieblingswebseite aufrufen und diese fiel gerade heute aus? So manch einer sucht auch nach einem Post, den er noch vor wenigen Tagen gelesen hatte, der nun aber unauffindbar scheint. Es gibt also viele denkbare Gründe, warum man alte Webseiten finden möchte. Aber gelöscht ist für immer gelöscht! Oder etwa doch nicht?

Auch wenn die Originalseite gelöscht wurde, gibt es eine Chance, deren Inhalte wiederzufinden. Denn einige Organisationen erstellen Abbilder alter Internetseiten. Mithilfe moderner Technologie sammeln sie kontinuierlich Snapshots. Diese stellen entsprechende Organisationen kostenlos im Internet zur Verfügung. Das wohl bekannteste Projekt dieser Art ist die Wayback Machine. Dieser Dienst des Internet-Archive-Projekts archiviert große Teile des öffentlich zugänglichen World Wide Web – und das immerhin seit 1996. Wir erläutern im Folgenden das Funktionsprinzip der Wayback-Maschine und stellen Ihnen außerdem zwei Alternativen vor, mit denen Sie ebenfalls alten Webcontent einsehen können.

Domain kaufen

Registrieren Sie Ihre perfekte Domain

Inklusive Wildcard-SSL-Zertifikat
Inklusive Domain Lock
Inklusive 2 GB E-Mail-Postfach

Das Internet-Archive-Projekt: Alte Internetseiten, Bilder, Videos und Texte

Brewster Kahle verkaufte 1992 seine erste eigene Firma, den Suchdienst WAIS, für 15 Millionen US-Dollar an AOL. Mit diesem Kapital gründete er sowohl ein neues Unternehmen als auch eine Non-Profit-Organisation nach amerikanischem Recht. Das Unternehmen war Alexa-Internet, das er wenige Jahre später für stattliche 250 Millionen Dollar Amazon.com überließ. Infolgedessen hatte er nun noch mehr finanzielle Ressourcen zur freien Verfügung, von denen er mehrere Millionen in sein Non-Profit-Projekt steckte: das Internet Archive.

Im Rahmen dieses Projekt wurde auch die sogenannte Wayback Machine entwickelt: ein Web-Archiv, in dem Sie Screenshots alter Homepages finden – und zwar aus unterschiedlichen Zeiträumen. Im folgenden Bild sehen Sie beispielsweise, wie die Facebook-Startseite (damals noch „Thefacebook“) am 12. Februar 2004 aussah – also acht Tage, nachdem die Website das erste Mal online ging.

Kaum jemand erinnert sich an „Thefacebook“ aus dem Jahr 2004, aber die Seite wurde unter ihrem heutigen Namen „facebook“ zu einem der weltweit größten sozialen Netzwerke. Die Wayback Machine kann aber zu noch älteren Websites führen – die frühsten Screenshots entstammen dem Jahr 1996.

Das Projekt Internet-Archive hatte – wie der Name bereits andeutet – seinen Ursprung als Webarchiv. Als Brewster Kahle das Archiv 1996 erstmals anlegte, nutzte er die Daten seines Projekts Alexa Internet, das Website-Aufrufe von Domains im ganzen World Wide Web sammelt. Inzwischen wird Alexa von Amazon als Marketing-Analyse-Dienst angeboten. Anfangs sollten für das Internet Archive priorisiert beliebte Websites gespeichert werden. Laut einer Untersuchung des Forbes-Magazins aus dem Jahr 2015 korreliert die Zahl der Snapshots einer Website auf archive.org (der Webpräsenz des Projekts) jedoch nicht immer mit dem Alexa-Rank oder der Update-Frequenz einer Domain. Es bleibt also vorerst im Dunkeln, welche Auswahlmethoden das Projekt genau nutzt, wenn es Webseiten aufspürt und speichert.

Mehr als nur alte Webseiten finden: Das bietet das Internet-Archive

Das Internet Archive hat in seiner über zwanzigjährigen Geschichte einiges erreicht. Aus dem reinen Internetseiten-Archiv ist eine riesige virtuelle Bibliothek geworden. Laut eigenen Angaben nutzte archive.org im Jahr 2015 gewaltige 18,5 Petabyte Speicherplatz für Einzelinhalte (insgesamt sogar 50 Petabyte, also 50 Billiarden Bytes) und wuchs seitdem jede Woche um einige Terabytes. Laut den aktuellsten Erhebungen können Sie über die Wayback Machine rund 327 Milliarden alte Webseiten aufrufen. Darüber hinaus sammelt das Projekt:

Texte und Bücher (etwa 16 Millionen)
Audioaufzeichnungen (etwa 4,4 Millionen, darunter 189.000 Live-Aufzeichnungen von Konzerten)
Videos und TV-Produktionen (etwa 5,8 Millionen, davon rund 1,6 Millionen Nachrichtenaufzeichnungen)
Bilder (etwa 3,1 Million)
Software-Programme (etwa 209.000)

(Stand: April 2018)

Die Medien sind entweder Gemeingut oder die Rechteinhaber spenden sie, um sie für die Nachwelt zu erhalten. So stammen viele der Inhalte von Universitäten, Regierungsorganisationen wie der NASA, von Text-Digitalisierungsprojekten wie Project Gutenberg oder Arvix und auch von Film- und Audiosammlungen wie der Prelinger Collection oder LibriVox.

Brewster Kahle ist ein Netzaktivist, der sich nicht nur für ein freies Internet einsetzt, sondern generell für frei zugängliches Wissen. So war er einer der populärsten Gegner des sogenannten „Micky-Maus-Schutzgesetzes“ (eigentlich: Copyright Term Extension Act), dessen Beschluss unter anderem durch Disney unterstützt wurde. Dieses Gesetz führte zu einer Verlängerung des amerikanischen Urheberrechts: Fortan sind Werke bis zu 70 Jahre (und nicht – wie zuvor – 50 Jahre) nach dem Tod eines Autors oder Zeichners urheberrechtlich geschützt. Kritikern wie Kahle zufolge würden solche langen Schutzrechte lediglich den Verwertungsunternehmen nutzen, während die Werke dadurch nicht durch die Allgemeinheit nutzbar wären.

Im Jahr 2007 erkannte der Bundesstaat Kalifornien das von Kahle gegründete Internet Archive offiziell als Bibliothek an. Eines der vielen Rechenzentren, die Sicherungskopien des Archivs lagern, befindet sich übrigens in der 2002 unter Schirmherrschaft der UNESCO neu eröffneten Bibliotheca Alexandria.

Die Tochter-Website archive-it.org arbeitet mit zahlreichen wissenschaftlichen Organisationen zusammen, die ihre Sammlungen digital archivieren wollen.

Alte Internetseiten finden: Gründe für die Archivierung

Das Internet ist ständig im Wandel: Schnellere Datenübertragung ermöglicht neue Services, andere werden dafür obsolet und geraten in Vergessenheit. Neue Informationen ersetzen häufig alte bzw. veraltete – insbesondere bei News-Portalen und anderen dynamischen Webseiten. Die früheren Artikel und Webpages sind dann oft nicht mehr direkt einsehbar. Dennoch wünschen sich immer wieder User, vergangene Versionen einer Website einsehen zu können. Dieser Wunsch, eine alte Webseite wiederzufinden, kann reiner Nostalgie entspringen. Beispielsweise, wenn man sich fragt, was man damals alles in sein Myspace-Profil geschrieben hat. Es gibt aber durchaus wirtschaftliche oder juristische Gründe, alte Versionen von Webseiten aufspüren zu wollen:

Ihre Seite ist unerwartet offline: Vielleicht hat der Hosting-Service technische Probleme oder das Geld für die monatlichen Gebühren wurde nicht übermittelt. Die verlorenen Inhalte finden Sie wahrscheinlich in einem Webseiten-Archiv.
Sie sind Journalist, Blogger oder Wissenschaftler und arbeiten an einem Fachartikel: Immer häufiger findet man wichtige Quellen am schnellsten im Netz. Ändert sich aber die verlinkte Quellseite, fehlen Ihren Lesern Informationen oder die Zitate stimmen nicht mehr mit dem Content der verlinkten Seite überein. Zitieren Sie die Quelle mit einem Snapshot und Timestamp, können Ihre Leser die Quelle immer nachvollziehen.
Sie betreiben SEO und nutzen die Link-Power älterer Domains. Zudem können Sie mit Archiv-Tools fehlerhafte Links entfernen oder Seitenveränderungen abgleichen. Einige SEO-Experten verbessern ihr Ranking mit archivierten Inhalten in Private-Blog-Networks.
Sie benötigen rechtliche Beweismittel: Geht es um Beleidigungen oder Bedrohung im Netz, helfen Screenshots, persönliche Angriffe zu dokumentieren. Wurden die Texte bereits vom Verursacher gelöscht, nutzen Sie einfach eine frühere Version der Website, um Ihre Beweise zu sammeln. Zudem kann einem die Dokumentation von Arbeitsprozessen über ein Archiv auch bei Patenstreits von Nutzen sein.

Das Wayback Machine-Tutorial: in 3 Schritten alte Webseiten finden

Betreiben Sie eine Website und Ihnen fehlt eine Sicherungskopie? Retten Sie verlorene Inhalte, indem Sie über archive.org Screenshots Ihrer alten Homepage finden. In nur drei Schritten lassen sich alte Webseiten aufspüren.

Fakt

Ein Snapshot (im Deutschen auch Schnappschuss) ist immer eine Momentaufnahme. Er beschreibt den aktuellen Zustand von Systemen oder Objekten – wie beispielsweise einer Website. Verbindungen zwischen Teilbereichen bleiben bestehen, aber das System verändert seinen Zustand nicht. Daher ist es möglich, durch alte Webseiten auf archive.org zu navigieren, aber dynamische Elemente wie Formulare verlieren in einem Screenshot ihre Funktion.

Geben Sie archive.org in die Suchleiste ein. Um alte Webseiten zu finden, bietet Ihnen die Wayback Machine drei Möglichkeiten:

Sie geben die gewünschte URL direkt in die obere Wayback Machine-Suchleiste ein, wie im unteren Bild dargestellt. Betätigen Sie die Enter-Taste und Sie gelangen direkt zur Ergebnisseite.
Sie klicken auf das gelbe Web-Icon und kommen so auf die Wayback-Hauptseite. Dort können Sie eine Domain-URL eingeben oder weitere Funktionen ausprobieren. Um zu einer archivierten Website zu gelangen, geben Sie die URL ein und klicken auf „Browse History“.
Geben Sie einen Suchbegriff in die untere Suchleiste ein und wählen Sie den Punkt „search archived web sites“. Klicken Sie dann auf „Go“, gelangen Sie zur Ergebnisliste mit solchen Domains und Website-Beschreibungen, die den Suchbegriff enthalten. Die einzelnen Einträge zeigen den Domain-Namen, die Description und die Anzahl der Snapshots in einem bestimmten Zeitraum an. Außerdem erhalten Sie Angaben über die Zahl der eingefangenen Medieninhalte. Klicken Sie das gewünschte Ergebnis an.

Das Internet Archive ermöglicht Ihnen, nach Screenshots von Internetseiten sowie nach Software und Medien zu suchen. Wählen Sie zu diesem Zweck eine der im Bild mit orangen Pfeilen markierten Suchmöglichkeiten.

Auf der Hauptseite für die von Ihnen eingegebene URL (im untenstehenden Beispiel gutenberg.org) sehen Sie eine Timeline. Diese bildet praktisch die untere Achse eines Diagramms, in dem jedem Datum eine schwarze Säule zugeordnet ist. Die Höhe der einzelnen Säulen in dem Säulendiagramm signalisiert, wie oft die Wayback Machine-Crawler die Domain an jenem Datum abgetastet haben. Ist keine Säule zu sehen, wurden an jenem Datum überhaupt keine Screenshots erstellt. 2007 gab es beispielsweise sehr wenige Snapshots pro Monat. Die erkennbare Lücke zeigt an, dass im November gar kein Snapshot gemacht wurde.

Im unteren Bild sehen Sie auch Informationsgrafiken zu den Momentaufnahmen für das Jahr 2015. Die Größe der Kreise im Kalenderblatt zeigt an, wie häufig die Crawler an betreffendem Tag die alte Internetseite aufnahmen. Dabei steht:

Blau für einen erfolgreichen Crawl über die Webpage
Grün für Umleitungen
Orange für eine nicht gefundene URL (Fehler 4xx)
Rot für einen ServerError (Fehler 5xx)

Dominik Bruhnshutterstock

Die grünen und orangen Kreise zeigen an, dass die Crawler bei mindestens einem Versuch eine Umleitung registrierten, respektive die URL nicht fanden. Das muss aber nicht auf jeden Versuch an dem Tag zutreffen.

Wählen Sie einen Tag aus, an dem die alte Webseite via Screenshot erfasst wurde. Nur für die farbig markierten Tage existieren solche Aufzeichnungen. Klicken Sie direkt auf das Datum, gelangen Sie auf den Snapshot der Seite. Halten Sie den Mauszeiger über das Datum, erscheinen die verschiedenen Timestamps (wie unten im Bild) – also die genauen Zeitpunkte, an denen ein Snapshot aufgenommen wurde.

Klicken Sie auf den Timestamp, gelangen Sie zum Screenshot der archivierten Website, der zeigt, wie die Website zur angegebenen Uhrzeit aussah. Timestamp 19:38:40 (orange) führt beispielsweise zu der Fehlermeldung 403. Der Timestamp 21:54:09 zeigt Ihnen hingegen die vollständige Seite an.

Hier sehen Sie, dass am 5. November 2015 genau 9 Snapshots gemacht wurden. Einmal fanden die Crawler die URL nicht, und einmal wurden Sie bei der Anwahl umgeleitet. Die sieben übrigen Snapshots sind einwandfrei.

Innerhalb der archivierten Website navigieren Sie wie gewohnt über Links, um auf Unterseiten zu gelangen. Texte lassen sich einfach kopieren. Wollen Sie auch Layout und Design abspeichern, sind auch Screenshots möglich.

Fakt

Der Name Wayback Machine ist inspiriert durch einen amerikanischen Cartoon aus den 60ern. Die Charaktere Mr. Peabody und Sherman reisen in „Mr Peabody’s Improbable History“ mit einer Zeitmaschine durch die Geschichte, die sie „WABAC-Machine“ nennen.

Die Optionen „Summary of…“ und “Site Map of…“ (im oberen Bild direkt über der Timeline) eröffnen Ihnen weitere Möglichkeiten. Das Summary offenbart, wie viele Code-Dateien, Bilder und Flash-Dateien die Crawler gefunden haben. Die Sitemap stellt hingegen die gesamte Domain als Ring dar. Ein Ringabschnitt steht dabei für eine Webpage, die Sie direkt mit einem Klick ansteuern können.

Alte Webseiten später wieder finden dank Self-Snapshot

Sie betreiben eine Website oder einen Blog oder veröffentlichen Ihre Arbeit bei einem Drittanbieter? Dann nutzen Sie die Wayback Machine, um Ihre Inhalte zu sichern. Denn der Wayback-Algorithmus erfasst nicht automatisch das gesamte World Wide Web. So gibt es unterschiedliche Gründe dafür, dass archive.org einige Webseiten nicht archiviert oder bestimmte Inhalte nicht anzeigt:

Der Seitenbetreiber lässt die Website nicht indexieren. (Befehl: noindex)
Der robots.txt schreibt fest, dass die Webseite oder Teile davon nicht indexiert werden sollen.
Die Website ist passwortgeschützt.
Der Seitenbetreiber hat persönlich darum gebeten, die Website aus dem Archiv zu entfernen.
Dynamische Elemente sind ein großer Bestandteil der Seite und diese werden nicht richtig dargestellt.

Wollen Sie also Ihre eigene Website archivieren, müssen Sie sicherstellen, dass die Archiv-Crawler die Domain auslesen können. Dazu gehen Sie folgendermaßen vor:

Besuchen Sie wieder die Wayback-Machine-Hauptseite (unten im Bild zu sehen). Eine Bildlaufleiste zeigt Ihnen dort alte Internetseiten, die Besucher interessieren könnten. Darunter finden Sie hilfreiche Tools, den Abo-Service für wissenschaftliche Institutionen und das Tool Save-Page-Now.

: Die kostenlosen Downloads („Tools“) enthalten hilfreiche Werkzeuge für Ihre Website. Der Subscription-Service stellt wissenschaftlichen Institutionen ein praktisches Archivierungs-Tool zur Verfügung. Über das „Save Page Now“-Eingabefeld archivieren Sie Ihre Inhalte.

Wollen Sie einen Snapshot einer Website anfertigen, müssen Sie nur die Domain-URL kennen. Geben Sie diese nun in das Eingabefeld unter „Save Page Now“ ein. Die Domain-Adresse in einfacher Form ist ausreichend. Für das Beispiel im unteren Bild wäre dies: „douglasadams.com“.
Das kleine Fenster „Saving Page Now…“ poppt vor der ladenden Website auf. Ist der Prozess abgeschlossen, sehen Sie einen Snapshot Ihrer Webseite. Nun haben Sie alle Inhalte und Links für die Zukunft gesichert.

Innerhalb weniger Sekunden tasten die Wayback-Crawler Ihre Seite ab und laden ein Abbild davon im Archiv hoch.

Tipp

Da die Archiv-Crawler weniger bekannte Websites häufig nicht kennen, lohnt es sich besonders für regional ausgerichtete Websites, selbst regelmäßig Snapshots zu erstellen.

Wayback-Machine-Downloader für die Wiederherstellung alter Webseiten

Mithilfe der Wayback Machine können Sie alte Webseiten aufrufen, die sie über deren frühere URL nicht mehr erreichen können. So können Sie zumindest den Text-Content der entsprechenden Seite finden und abspeichern. Doch manchmal braucht man mehr als nur einen alten Artikel-Text. Manchmal sitzt das Problem tiefer. Vielleicht existiert die Seite nicht mehr und auch das Back-up hilft nicht. Vielleicht wollen Sie die gesamte Internetseite herunterladen, um auch den Quellcode bearbeiten oder speichern zu können, defekte Links herauszufiltern oder Ihre alte Website auf deren SEO-Optimierung zu testen? Das ist möglich mit einem Wayback-Machine-Downloader.

Zur Nutzung des Open-Source-Angebots Wayback-Machine-Downloader auf GitHub sollten Sie vorher Ruby installieren. Sie müssen aber kein Ruby-Profi sein, um das Programm zu nutzen. Denn die Entwickler listen die wichtigsten Code-Befehle direkt auf der Download-Seite auf. Geben Sie die gewünschte URL ein, lädt das Programm die entsprechenden Dateien auf Ihren Computer. Es erstellt automatisch index.html-Seiten, die mit Apache und NGINX kompatibel sind. Fortgeschrittene User können beispielsweise die Einstellungen zu Timestamps, URL-Filtern und Snapshots näher definieren.

Das webbasierte Tool Archivarix mit seiner klar strukturierten Nutzeroberfläche eignet sich für kleine Webseiten oder Blogs. Denn der normalerweise kostenpflichtige Dienst ist kostenfrei, wenn er für Websites mit weniger als 200 Dateien genutzt wird. Die Einarbeitungszeit ist vergleichsweise kurz. Allerdings müssen Sie sich zur Nutzung von Archivarix registrieren. Dann geben Sie einfach die gewünschte Domain ein und legen mit wenigen Klicks die Optimierungsoptionen und Linkstrukturen fest. Anschließend hinterlegen Sie Ihre E-Mail-Adresse. Ist der Download aus dem Internetseiten-Archiv komplett, sendet Archivarix eine Zip-Datei an diese Adresse.

Ein weiteres Web-Tool ist der Wayback Machine Downloader (Viele dieser Tools haben sehr ähnliche, teilweise sogar identische Namen). Auch dieses Tool sendet Ihnen die Kopien der alten Internetseiten per E-Mail. Die kostenlose Demo umfasst die ersten vier Seiten aus der Wayback Machine. Eine vollständige HTML-Webseite kostet etwa 15 €, die Konvertierung in WordPress nochmals rund 45 € (Stand Mai 2018). Das Abonnement (aktuell 80 €) lohnt sich, wenn Sie monatlich eine größere Zahl an Domains herunterladen.

Archive.org selbst bietet keinen Website-Downloader. Als Bibliotheksmitglied, also eingeloggter User, stehen Ihnen aber Millionen von Texten, Bildern und Audio-Dateien zum Download zur Verfügung. Besitzen Sie die Rechte an einem Werk, können Sie es für die gemeinfreie nichtkommerzielle Nutzung hochladen, so wie die NASA es mit einem großen Teil ihres Ton- und Bildmaterials macht.

Das Team vom Projekt Open Library will möglichst umfassend Bücher kategorisieren. Zudem ermöglicht es Usern, viele Bücher – die teilweise bei Dritten gehostet werden – zwei Wochen lang auszuleihen. In einer gesonderten Kategorie finden Sie dort E-Books und Texte des Internet Archives. Diese können Sie meist kostenlos herunterladen.

Zitat

It's not that expensive. For the cost of 60 miles of highway, we can have a 10 million-book digital library available to a generation that is growing up reading on-screen. Our job is to put the best works of humankind within reach of that generation. (Es ist nicht sonderlich teuer. Für die Baukosten von 60 Meilen Highway können wir eine digitale Bibliothek mit 10 Millionen Büchern für eine Generation bereitstellen, die das Lesen am Bildschirm lernt. Unsere Aufgabe ist es, die besten Werke der Menschheit dieser Generation näher zu bringen.) Brewster Kahle: How Google Threatens Books, Washington Post, 5/2009

Alternative 1: Nicht ganz so alte Webseiten finden – mit der Google-Suche

Ist die gesuchte Information noch gar nicht so alt? Dann kann es sein, dass eine einfache Google-Suche weiterhilft: Genau wie die Wayback Machine nutzt auch Google Crawler, um Websites abzutasten und zu indizieren. Dafür macht Google einen Snapshot von der gesamten Internetseite. Hat sich diese seit dem letzten Crawl verändert, speichert Google den Snapshot der alten Webseiten-Version im Cache. Der neue Snapshot dient als aktuelle Vorschau. Fällt die Live-Webseite kurzzeitig aus, kommt es nicht zu Engpässen, da noch eine Version im Cache vorliegt. Es gibt also nur einen Timestamp der gecachten Seite. Dieser kann aber aktueller sein als ein Snapshot des Internet Archives. Liegt bei archive.org keine alte Internetseite dieser Domain bereit, könnte Google sogar die einzige Möglichkeit sein, einen Screenshot der Seite aufzuspüren.

Um die jüngste Version Ihrer Website anzeigen zu lassen, geben Sie diese einfach als Suchbegriff bei Google ein. In der Ergebnisliste sollte unter dem Titel der Seite die URL stehen. Klicken Sie auf den Pfeil rechts daneben, erscheint ein kleines Drop-down-Menü (wie im unteren Bild zu sehen). Klicken Sie auf „Im Cache“, lädt Google für Sie die Website in der Version vor ihrer letzten Aktualisierung.

Auch das Internet Archive finden Sie im Google-Cache

Manchmal kommt es vor, dass die aktuelle Version einer Seite nicht in der Google-Ergebnisliste aufgelistet wird. Das kann passieren, wenn die Seiten-Betreiber die Domain auf „noindex“ gestellt haben. Damit geben sie an, dass die Suchmaschine die Seite nicht in ihre Sammlung aufnehmen soll. Eventuell ist aber noch eine alte Version der Webseite im Cache zu finden. Wenn Sie eine alte Internetseite aufrufen wollen, aber diese nicht in den Suchergebnissen finden, geben Sie folgenden Google-Befehl in Ihre Adresszeile ein:

http:/ /webcache.googleusercontent.com/ search?q=cache:https:/ /www.DOMAIN.com

„DOMAIN.com“ steht in obigem Beispiel als Platzhalter für die gesuchte URL. Im unteren Bild sehen Sie die Cache-Version von archive.org, wie Google die Webseite am 24. April 2018 aufgenommen hat. Beachten Sie, dass auch Google-Snapshots dynamische Elemente und Medieninhalte größtenteils nicht darstellen.

Der Google-Snapshot einer Website zeigt diese vollständig an – als Quell-Code oder in einer Text-Version.

Alternative 2: Quellenangaben zu alten Webseiten finden – mit WebCite

Journalisten, Blogger und Akademiker greifen immer häufiger auf Online-Quellen zurück. Und so wie man bei wissenschaftlichen Printveröffentlichungen seine Quellen in einem Literaturverzeichnis auflistet, enthalten auch viele Online-Texte Quellenangaben. Im Regelfall aber in Form von Links, die direkt zur genutzten Internetquelle führen. Da sich Webseiten jedoch ändern oder aus dem Netz genommen werden können, besteht die Gefahr, dass diese Links dann nicht mehr zu den passenden Texten führen. Folgen Leser einer veralteten Verlinkung, sehen Sie also möglicherweise etwas ganz anderes, als der Autor damals bei seiner Recherche. Um dies zu verhindern, bietet die Organisation WebCite® einen Archiv-Service an. Damit sichern Sie Quellen als Snapshot und generieren gleichzeitig Quellenangaben, die Ihre Leser nutzen können. Mithilfe eines Ziellinks oder der Snapshot-ID können diese dann direkt die Quelle einsehen.

So archivieren Sie Ihre Quellen mit WebCite:

Auf der WebCite-Hauptseite, direkt unter dem Domain-Namen, finden Sie das Hauptmenü. Wählen Sie dort den Reiter „Comb“ (durchforsten).
Sie gelangen dann auf das Formular zur Archivierung („archive form“). Steht Ihr Schriftstück bereits im Netz, tragen Sie die URL – wie im Bild unten zu sehen – in das erste Suchfeld ein („URL to comb for links“). Ist der Text noch nicht hochgeladen worden, aber die Quellenangaben mit Verlinkungen bestehen schon, laden Sie einfach die Datei hoch. Klicken Sie dafür auf „Durchsuchen“. Geben Sie Ihre E-Mail-Adresse an, schickt Ihnen WebCite später eine Liste mit den archivierten Snapshots-URLs zu. Klicken Sie auf „Comb this URL“.

Nach der Angabe ihrer E-Mail-Adresse, schickt Ihnen WebCite später eine Liste mit den archivierten Snapshots-URLs zu

Nach kurzer Wartezeit zeigt die Webseite eine Liste mit möglichen Links an. Wählen Sie Ihre Quellen aus, indem Sie das Kästchen daneben markieren. Klicken Sie am Ende der Liste auf den Button „Cache these URLs“.
Im Fenster erscheint nun die Nachricht, dass sich Ihre Quellen in der Warteschlange für die Archivierung befinden. Neben dem Original-Link erhalten Sie auch den Link zu Ihrem Snapshot. Diesen bauen Sie einfach in Ihre Quellenangabe ein. So gelangen Ihre Leser zu derselben Version Ihrer Quelle, die Sie für Ihre Arbeit genutzt haben – auch Jahre später, wenn die alte Webseite nicht mehr existiert.

Durch Funktionen wie „Suchen und Ersetzen“ tauschen Sie die Verlinkung der Originalquelle in Ihrem Dokument einfach durch die Snapshot-Quelle mit Timestamp aus.

Hinweis

Veröffentlichen Sie Ihre Texte auf einer Plattform mit vielen ausgehenden Links, nehmen die WebCite-Crawler diese mit in die Auswahl auf. Diese Liste wird daher schnell unüberschaubar. In diesem Fall empfehlen wir, das Dokument direkt von Ihrer Festplatte hochzuladen.

Wollen Sie nur eine Quelle oder Ihre eigene Arbeit archivieren, verwenden Sie zu diesem Zweck einfach das Archiv-Tool. Dafür klicken Sie im Hauptmenü auf den Reiter „Archive“. Im Formular für Einzelquellen tragen Sie die URL der zu zitierenden Quelle sowie Ihre E-Mail-Adresse und die Archivierungssprache ein. Wenn Sie die Metadaten (Titel, Autor etc.) ausfüllen, erstellt WebCite daraus eine Quellenangabe. Sind bereits Metadaten auf der Webpage vorhanden, kann das Programm auch diese zufügen. Klicken Sie auf „Submit“. Sie erhalten dann eine E-Mail mit dem Snapshot-Link und der Quellenangabe.

So können Sie eine alte Webseite als unveränderbare Quelle angeben:

Klicken Sie Im Hauptmenü auf den Reiter „Search“. Das Suchformular erscheint.
Um direkt nach alten Webseiten zu suchen, geben Sie die Domain-URL im ersten Eingabefeld ein (neben „URL to find snapshots of“), wie im unteren Bild zu sehen. Darunter tragen Sie den Timestamp in der Schreibweise JJJJMM (J=Jahr, M=Monat) ein. Tun Sie dies nicht, werden Sie zwar mit einem Klick auf „Search“ auf die gecachte Domain verwiesen, aber die WebCite-Kopfzeile, mit der Sie zwischen Timstamps springen können, fehlt.
Statt die URL zu durchsuchen, können Sie, direkt die Snapshot-ID angeben, um zu einer zu einem bestimmten Zeitpunkt gespeicherten Version der Website zu gelangen.

In der Mitgliederliste finden Sie Publikationen, deren Snapshots Sie auf WebCite finden können. Bei anderen Websites ist ungewiss, ob Sie sie dort finden können. Geben Sie sicherheitshalber nur die Domain-URL, keine einzelnen Webpages ein, um Snapshots alter Internetseiten aufzuspüren.

Fazit

Wer schon einmal vergeblich nach einer alten Webseite gesucht hat, wird die vorgestellten Tools zu schätzen wissen. Die Wayback Machine dürfte dabei wohl das umfangreichste Internetseiten-Archiv sein. Ihre nutzerfreundliche Bedienoberfläche macht es selbst unerfahrenen Usern einfach, alte Webseiten zu finden oder selbst zu archivieren. Wenn Sie nach erst kürzlich verschollenen Webseiten suchen, hilft Ihnen der Google-Cache weiter. WebCite hingegen setzt auf einen Prüfprozess, bevor Webseiten ins Archiv aufgenommen werden. Dieser Service eignet sich sehr gut für akademische Texte, die nachvollziehbare Quellennachweise benötigen.

War dieser Artikel hilfreich?

SSL-Zertifikat

Sicherheit im Internet verliert niemals an Bedeutung: Unabhängig davon, ob Sie selbst eine Website betreiben oder nur im Internet surfen, sollten Sie auf jeden Fall die Grundlagen von Web-Security verstehen. Aus diesem Grund erklären wir Ihnen, was genau SSL-Zertifikate sind,…

SSL
Lexikon

sitemap.xml: Alles über Funktion und Erstellung einer XML-Sitemap

Je umfangreicher ein Webprojekt wird, desto wichtiger ist eine passende und ordentliche Struktur. Auf diese Weise erleichtern Sie nicht nur Besuchern, sondern auch den Suchmaschinen das Auffinden der verschiedenen Themen- und Seitenbereiche. Für die bestmögliche Indexierung ist…

Tutorials
Website-Know-how

UndreyShutterstock

Einen eigenen Wikipedia-Eintrag erstellen

Haben Sie schon einmal mit dem Gedanken gespielt, einen eigenen Wikipedia-Artikel zu schreiben? Dann sind Sie sicherlich auf die Vielzahl der Kriterien gestoßen, die es bei der Erstellung von Wikipedia-Beiträgen zu beachten gilt. Um zu garantieren, dass die lexikalischen Inhalte…

Content Marketing
Tutorials

Alte Webseiten finden: Vorstellung der Wayback Machine und zweier Alternativen

Das Internet-Archive-Projekt: Alte Internetseiten, Bilder, Videos und Texte

Mehr als nur alte Webseiten finden: Das bietet das Internet-Archive

Alte Internetseiten finden: Gründe für die Archivierung

Das Wayback Machine-Tutorial: in 3 Schritten alte Webseiten finden

Alte Webseiten später wieder finden dank Self-Snapshot

Wayback-Machine-Downloader für die Wiederherstellung alter Webseiten

Alternative 1: Nicht ganz so alte Webseiten finden – mit der Google-Suche

Alternative 2: Quellenangaben zu alten Webseiten finden – mit WebCite

Inhaltsverzeichnis