Was sind Metadaten?
Der Begriff "Metadaten" bezieht sich auf Informationen, welche die eigentlichen Daten ergänzen. Oftmals liefern Metadaten nähere Details über den Kontext des Inhalts oder geben Anweisungen zum Umgang mit Daten.
Die Auswertung von Metadaten durch künstliche Intelligenz liefert Vorhersagen über das Verhalten von Menschen. Perspektivisch ergibt sich daraus eine ernstzunehmende Bedrohung für die Privatsphäre der Bürger. Dabei sind Metadaten für sich genommen nichts Schlimmes. Worum es sich bei Metadaten tatsächlich handelt, erklären wir in diesem Artikel.
- Inklusive Wildcard-SSL-Zertifikat
- Inklusive Domain Lock
- Inklusive 2 GB E-Mail-Postfach
Worin liegt der Unterschied zwischen Metadaten und Daten?
Um sich den Begriff Metadaten besser vertraut zu machen, stellen Sie sich ein einfaches Beispiel vor: Sie verschicken einen Brief auf dem Postweg. Dann entspricht das im Briefumschlag enthaltene Schriftstück den eigentlichen, primären Daten. Diese sind privat und vor dem Zugriff durch Dritte gesetzlich besonders geschützt — es greift das Briefgeheimnis.
Der Briefumschlag enthält die Metadaten des Briefes. Es handelt sich um zusätzliche Daten, welche die primären Daten begleiten:
- Anschrift und Absender
- Briefmarke, Poststempel
- ggf. weitere Markierungen wie Strichcodes
Wie Sie sehen, handelt es sich insgesamt um Daten, welche den Versand des Briefes erst ermöglichen. Die Metadaten des Briefes sind auf der Außenseite für jeden frei einsehbar. Damit sind sie durch das Briefgeheimnis nicht besonders geschützt, wobei das Postgeheimnis auch für sie gilt.
Worin beruht nun die Gefahr, welche von Metadaten ausgeht? Für sich genommen ist es nicht problematisch, wenn einzelne Metadaten lesbar sind. Hat beispielsweise ein Dritter Wissen über einen einzelnen Briefumschlag erlangt, ist dies in der Regel kein Anlass zur Sorge. Jedoch verhält sich dies in der Summe, bei massiver Speicherung und Auswertung anders. Dann zeichnen sich Muster ab, die viel über das Verhalten eines Menschen verraten: Wer hat wann mit wem kommuniziert? Man kann so Netzwerke und Kommunikationsketten erkennen.
Die Unterscheidung zwischen Daten und Metadaten ist fließend. Die Einordnung hängt vom Kontext und der jeweiligen Perspektive ab. Dazu ein weiteres Beispiel. Ein Buch enthält primäre Daten, wie den Titel des Buches und dessen Inhalt. Weiterhin liegen für die Veröffentlichung eines Buches eine Reihe von Metadaten vor:
- Autor
- Verlag
- Datum und Ort der Veröffentlichung
- Auflage
- ISBN
Stellen wir uns vor, Metadaten vieler Veröffentlichungen werden in einer Datenbank gesammelt. In Bezug auf eine solche Datenbank wären die Veröffentlichungsinformationen primäre Daten. Dazu käme für jede Veröffentlichung ein neuer Satz Metadaten. Beispielsweise könnte in der Datenbank für jede Veröffentlichung hinterlegt sein, wann und von welchem Benutzer ein Eintrag hinzugefügt wurde.
Welche Arten von Metadaten gibt es und wie werden diese verwendet?
Metadaten fallen in allen Bereichen der Datenspeicherung und -verarbeitung an. Die Verwendung von Metadaten lässt sich nicht abschließend beschreiben. Wir nennen hier drei große Einsatzgebiete:
- Kontext für Informationen geben.
Häufig beschreiben Metadaten den Prozess, der zur Erzeugung von Informationen geführt hat. Denken Sie beispielsweise an die geographischen Koordinaten, mit denen digitale Fotos versehen werden. Der Kontext lässt sich — wenn einmal verloren — ggf. nicht rekonstruieren und wird deshalb gespeichert.
- Informationen abrufbar halten, die ansonsten aufwendig errechnet werden müssten.
Denken Sie bei diesem Punkt an die Spieldauer eines Videos. Diese wird als Zeitangabe in der Video-Datei eingebettet. Ohne die Spieldauer abzuspeichern, müsste diese errechnet werden. Ein gangbarer Ansatz wäre, die Anzahl der Einzelbilder zu zählen und durch die Bildrate zu teilen – ein verhältnismäßig hoher Aufwand.
- Informationen untereinander verknüpfen, leichter auffindbar und durchsuchbar machen.
Hierbei geht es vor allem darum, von Menschen lesbare Informationen mit maschinenlesbaren Daten zu unterfüttern. Ziel ist, über automatisierte Verfahren Zusammenhänge zwischen Informationen herzustellen. Zum Einsatz kommen insbesondere strukturierte Daten, welche untereinander verknüpft ein „Semantic Web“ bilden.
Metadaten, welche digitale Bilder beschreiben
Mit Digitalkameras und Smartphones geschossene Bilder enthalten eine Vielzahl von Metadaten. Dabei handelt es sich zum einen um technische Daten, wie Bilddimensionen, verwendete Kamera, Brennweite, etc. Diese sind im EXIF-Standard festgelegt und werden von der Kamera automatisch angelegt. Ferner definiert der IPTC-Standard Metadaten, welche den Inhalt des Fotos beschreiben und vom Nutzer eingetragen werden.
Standard | Bild-Metadaten | Erzeugung |
---|---|---|
EXIF | Bildinformationen, wie Dimensionen, Farbraum, Farbkanäle, etc.; fotografische Informationen, wie Belichtungszeit, Blende, ISO, etc. | automatisch bei der Aufnahme |
IPTC | Stichwörter, Urheberrechte, Orts- und Zeitangaben, inhaltliche Beschreibungen, etc. | händisch durch den Nutzer |
Beim Teilen digitaler Bilder gilt Vorsicht zu wahren: Die Foto-Metadaten können unter Umständen private Informationen des Urhebers verraten. Viele Apps und soziale Netzwerke bereinigen Bilder beim Hochladen daher automatisch. Darauf sollte man sich jedoch nicht verlassen. In kritischen Fällen benutzt man besser ein spezielles Tool, um die Bildinformationen zu löschen.
Metadaten, welche in digitalen Videos eingebettet sind
Eine Videodatei besteht für gewöhnlich aus einem Container, welcher verschiedene Daten enthält. Primäre Daten eines Videos sind die kodierten Video- und Audioinhalte. Daneben liegen weitere Metadaten vor:
- Spieldauer des Videos
- Datenrate und Bilddimensionen
- Angaben zu eingesetztem Audio- und Video-Codec
- Untertitel, ggf. in verschiedenen Sprachen
Metadaten, welche Dateien zugeordnet sind
Eine Datei in einem digitalen System umfasst zwei primäre Daten: den Inhalt der Datei und ihren Namen. Ferner ist jeder Datei eine Reihe an Metadaten zugeordnet. Die Datei-Metadaten werden vom Betriebssystem verwaltet und sind auch unter dem Begriff „Datei-Attribute“ bekannt. Hier eine Übersicht gebräuchlicher Datei-Metadaten:
Datei-Metadaten | Beschreibung |
---|---|
Zeitstempel | Jeweils für Erstellung, Modifikation und letzte Öffnung |
Speicherort | Pfad der Datei im Dateisystem |
Besitztum | Besitzer und Gruppe |
Dateirechte | Lesen, schreiben, ausführen; jeweils für Besitzer, Gruppe, andere |
Neben den Datei-Attributen umfassen manche Dateitypen spezifische Metadaten. Diese werden vom jeweiligen Anwendungsprogramm verwaltet. Auch bei diesen Metadaten besteht bei der Weitergabe das Risiko, vertrauliche Informationen preiszugeben.
Metadaten, welche beim Versand von E-Mails anfallen
Eine E-Mail umfasst — analog zum klassischen Postbrief — zwei hauptsächliche Bestandteile:
- E-Mail-Body (Körper)
- E-Mail-Header (Kopfzeile)
Dabei enthält der Body die eigentliche Nachricht, welche dem Schriftstück im Briefumschlag entspricht. Der Header enthält analog zum Briefumschlag die Adressen von Absender und Empfänger. Wie beim Briefumschlag, lassen sich manche Informationen des Headers leicht fälschen. Für den Empfänger scheint es dann, als käme eine E-Mail von einem anderen Absender. Ein Trick, der gerne im Zuge von Spoofing-Attacken eingesetzt wird.
Der E-Mail-Header enthält für gewöhnlich noch eine Menge weiterer Metadaten. Unter Anderem zählen dazu:
- verschiedene Zeitstempel
- Angaben zur Formatierung und Kodierung der Nachricht
- Stationen, welche die E-Mail bei der Übermittlung durchlaufen hat
- Bewertung der E-Mail durch Spamfilter
- Angabe, ob die E-Mail von einem Virenscanner geprüft wurde
Die Metadaten des E-Mail-Headers werden von Serversoftware und Anwendungsprogrammen geschrieben und gelesen. Die dabei anfallenden Informationen verraten viel über eine E-Mail und den Weg, den diese durch das Internet genommen hat. Unter Anderem lassen sich Aussagen über die Echtheit und Vertraulichkeit einer E-Mail treffen. Ferner kann der Header den Hostnamen des eigenen Geräts enthalten und den Ort verraten, von dem eine E-Mail versandt wurde.
Metadaten, welche beim Besuch einer Website anfallen
Aus technischer Sicht handelt es sich beim Besuch einer Website um den Abruf eines HTML-Dokuments. Der Browser des Benutzers ruft das Dokument unter der angegebenen Adresse von einem Server ab. Dabei kommt das HTTP- bzw. HTTPS-Protokoll zum Einsatz.
Neben dem eigentlichen HTML-Dokument, welches im Browser angezeigt wird, werden als HTTP-Header bekannte Metadaten übertragen. Die HTTP-Header sind vergleichbar mit den Feldern des E-Mail-Headers. Sie enthalten Angaben zur Kodierung, Übertragung, Verschlüsselung und Komprimierung der HTTP-Verbindung.
Ferner werden beim Transfer Metadaten erzeugt, welche auf dem Server anfallen. Dazu gehören Logdateien, in denen Zugriffe auf den Server protokolliert werden, und die man für Logfile-Analysen benötigt. Für jeden Zugriff wird eine weitere Zeile in die Logdatei geschrieben. Daneben löst der Browser für gewöhnlich weitere Abfragen an DNS-Server aus. Auch dabei werden Metadaten erzeugt und ggf. vom Server-Betreiber gespeichert und ausgewertet.
Verwirrenderweise existiert neben dem bereits erwähnten HTTP-Header noch der HTML-Head. Während ersterer sich auf die Verbindung bezieht, enthält letzterer Metadaten, welche den Inhalt des Dokuments beschreiben. Hier eine exemplarische Übersicht einer HTTP-Server-Antwort. Bei den einleitenden Zeilen handelt es sich um den HTTP-Header. Es folgt der HTML-Quelltext mit HTML-Head und HTML-Body Elementen:
HTTP/1.1 200 OK
Date: Mon, 01 Feb 2021 12:13:34 GMT
Content-Type: text/html; charset=UTF-8
Content-Length: 148
Last-Modified: Wed, 08 Jan 2003 23:11:55 GMT
Server: Apache/1.3.3.7 (Unix) (Red-Hat/Linux)
Accept-Ranges: bytes
Connection: close
<html>
<head>
<title>Eine Beispiel-Seite</title>
</head>
<body>
<p>Der menschenlesbare Text steht im Body des Dokuments</p>
</body>
</html>
Bedeutung von Website-Metadaten für Online-Marketing und Suchmaschinenoptimierung
In diesem Abschnitt konzentrieren wir uns auf Metadaten, welche in ein HTML-Dokument eingebettet werden. Die bereits erwähnten HTTP-Metadaten, sowie serverseitig erzeugte Metadaten wie Logdateien, lassen wir außen vor. Für gewöhnlich werden HTML-Metadaten im Head des HTML-Dokuments eingebunden.
Viele der im HTML-Header eingesetzten Elemente dienen direkt der Suchmaschinenoptimierung. Suchmaschinen-Bots durchsuchen den Inhalt eines HTML-Dokuments. Der im HTML-Body vorhandene menschenlesbarer Teil wird extrahiert und indiziert. Daneben gibt es spezielle Metadaten, welche ausschließlich für Bots gedacht sind. Wir unterscheiden im Folgenden zwischen „klassischen” und „modernen” Varianten.
Website-Metadaten mit klassischen HTML-Head-Elementen abbilden
Zu den klassischen HTML-Head-Elementen gehören neben dem Titel eine Handvoll kritischer Meta-Tags. Der Titel ist in verschiedener Form auch für den Benutzer sichtbar. Er wird etwa in Lesezeichen oder in der Kopfzeile des Browser-Tabs angezeigt. Die weiteren klassischen '<meta>'-Tags dienen ausschließlich zur Suchmaschinenoptimierung. Hier eine Übersicht der wichtigsten klassischen HTML-Head-Elemente:
Tag | Beschreibung | Wichtigkeit |
---|---|---|
<title> | Titel des Dokuments, wird in Ergebnissen einer Suche angezeigt | kritisch |
<meta name="description"> | Beschreibung des Dokuments, wird in Ergebnissen einer Suche angezeigt | kritisch |
<meta name="keywords"> | Schlüsselwörter des Dokuments, werden nicht in Ergebnissen einer Suche angezeigt | gering |
<meta name="robots"> | Anweisungen an Suchmaschinen-Bots zur Verarbeitung des Dokuments | kritisch |
Website-Metadaten mit modernen HTML-Head-Elementen abbilden
Neben den klassischen HTML-Head-Elementen kommt heutzutage eine Vielzahl weiterer Elemente zum Einsatz, um Metadaten auf einer Website einzubinden. Suchmaschinenbetreiber und große Technologie-Konzerne definieren laufend neue Metadaten. Dabei bieten sich die Elemente '<meta>' und '<link>' an, da diese ausbaufähig sind. Hier eine Übersicht häufig zum Einsatz kommender moderner Website-Metadaten:
Tag | Beschreibung | Wichtigkeit |
<link rel="canonical"> | Kanonischer Link zur Vermeidung von Duplicate Content | kritisch, falls Duplicate Content vorhanden |
<link rel="alternate" hreflang="de"> | Alternative Sprachversionen desselben Dokuments per hreflang angeben | optional |
<meta property="og:> | OpenGraph für die Publikation in den sozialen Medien | optional |
Beim '<meta>'-Element wird über das 'name'-Attribut die spezifische Art der Metadaten festgelegt. Beim '<link>'-Element kommt in ähnlicher Weise das 'rel'-Attribut zum Einsatz. Je nach eingesetztem Metadaten-Standard finden sich für das '<meta>'-Element zwei alternative Schreibweisen. Wir fassen diese hier zusammen:
Schreibweise | Metadaten-Standard |
---|---|
<meta name=""> | HTML5 |
<meta property=""> | RDFa |
<meta itemprop=""> | HTML Microdata |
Website-Metadaten mit dem Open Graph definieren
Bei Open Graph handelt es sich um ein von Google entwickeltes Protokoll zur Anreicherung eines Web-Dokuments mit Metadaten. Die Open-Graph-Angaben liefern Informationen, welche beim Teilen des Dokuments in sozialen Netzwerken als Übersicht eingeblendet werden. So lassen sich optimierte Bilder, Titel und Beschreibungstexte festlegen. Dies macht Sinn, da je nach Plattform spezifische Beschränkungen in Bezug auf Länge von Texten, Dimensionen von Bildern, und dergleichen gelten. Das Protokoll wird ausgiebig von Facebook und Twitter eingesetzt. Hier eine Übersicht der essenziellen Open-Graph-Metadaten:
Open-Graph-Metadaten | Erklärung |
---|---|
<meta property="og:title"> | Titel des Objekts |
<meta property="og:type"> | Die Art des Objekts, z. B. Bild, Webdokument, Video, etc. |
<meta property="og:image"> | Ein Bild, welches das Objekt repräsentiert |
<meta property="og:url"> | Die kanonische URL des Objekts |
Sollten Sie beim Teilen Ihrer Web-Inhalte auf Facebook Fehler vorfinden, hängt das Problem oft mit fehlerhaften Open-Graph-Angaben zusammen. In diesem Fall hilft manchmal ein einfacher Trick: loggen Sie sich in Ihren Facebook-Account ein und nutzen Sie den Sharing Debugger. Damit weisen Sie Facebook an, die Open-Graph-Informationen erneut auszulesen.
Website-Metadaten mit Rich Cards definieren
Neben Open Graph kommt mit den Rich Cards ein weiterer von Google entwickelter Metadaten-Standard zum Einsatz. Die Rich Cards reichern ein Web-Dokument mit strukturierten Metadaten an. So lässt sich beispielsweise die Website eines Restaurants um Angaben zu geographischer Lage, Preisen, Öffnungszeiten u. ä. ergänzen. Die Rich Card Angaben können im HTML-Head oder im HTML-Body platziert werden.
Technisch leiten sich die Rich Cards vom Metadaten-Standard Schema.org ab. Zur Auszeichnung der Metadaten kommen verschiedene Formate zum Einsatz. Neben den älteren Standards RDFa und Microdata bietet sich heutzutage vor allem JSON-LD an. Der Einsatz von JSON-LD wird offiziell von Google empfohlen.
- In Sekunden zur professionellen WordPress Website mit KI-Tools
- Jetzt bis zu 3x schneller dank SSD, Caching & optimierter Plattform
- Tägliche Sicherheits-Scans, DDoS-Schutz und 99,98 % Verfügbarkeit