IDN-Domains – Internationalisierter Domain-Name erklärt
Der International Telecommunication Union (ITU) zufolge nutzen weltweit mehr als drei Milliarden Menschen die Möglichkeiten des World Wide Web – immer öfter auch in der eigenen Muttersprache. Möglich machen dies internationale Domain-Namen (IDN), die Internetnutzenden seit 2003 zur Verfügung stehen. Wir erklären, wie IDN-Domains funktionieren.
Was ist ein internationalisierter Domain-Name (IDN)?
Die IETF (Internet Engineering Task Force) bezeichnet IDNs als Domain-Namen, die über die Buchstaben des lateinischen Alphabets hinaus Sonderzeichen wie beispielsweise Umlaute oder Zeichen anderer Alphabete beinhalten. Diese Domain-Namen werden jedoch nicht vom Domain Name System (DNS) verstanden, das für die Übersetzung von URLs in IP-Adressen zuständig ist. Das DNS basiert auf dem limitierten Standardzeichensatz ASCII.
Um IDNs für das DNS sowie andere Internetprotokolle verständlich zu machen, wurde 2003 der Internetstandard „Internationalizing Domain Names in Applications“ (IDNA) ins Leben gerufen. Dieser definiert eine standardisierte Übersetzung von Unicode zu ASCII und ermöglicht somit die Verwendung von Nicht-ASCII-Zeichen in Domain-Namen.
- Inklusive Wildcard-SSL-Zertifikat
- Inklusive Domain Lock
- Inklusive 2 GB E-Mail-Postfach
Funktionsweise des IDNA
Um sicherzustellen, dass internationalisierte Domain-Namen auch von den zahlreichen Systemen im Internet verarbeitet werden können, die lediglich den ASCII-Zeichensatz unterstützen, lässt sich jeder IDN, der im Unicode vorliegt, in einen ACE-String übersetzen, der auf ASCII-Zeichen beruht. So werden URLs im Browser beispielsweise mit Umlauten angezeigt, während der Server die Adressen ausschließlich ASCII-kompatibel verarbeitet. Spezifiziert wird dieses Verfahren im Internetstandard IDNA2003 sowie in der Überarbeitung IDNA2008, die im Jahr 2010 zugelassen wurde. Die Übersetzung von Unicode nach ASCII erfolgt clientseitig (im Webbrowser, E-Mail-Programm etc.) auf Grundlage eines standardisierten Kodierungsverfahrens, das Punycode genannt wird.
Punycode
Der im RFC 3492 standardisierte Punycode wurde entwickelt, um Unicode-Zeichenketten eindeutig und verlustfrei in ASCII-Zeichen darstellen zu können. Dabei werden alle Nicht-ASCII-Zeichen aus dem Domain-Namen entfernt, kodiert und durch einen Bindestrich getrennt angehängt. Diese Codefolge enthält die Information, um welches Unicodezeichen es sich handelt, sowie dessen Position im Domain-Namen. Darüber hinaus wird jedem so erstellten ACE-String das Präfix xn– vorangestellt, das die Zeichenfolge unmissverständlich als kodierten IDN gemäß IDNA und Punycode kennzeichnet. In unserem Artikel zu Punycode finden Sie eine ausführliche Erklärung des Kodierungsverfahrens sowie einige Beispiele.
Mit einem Online-IDN-Domain-Converter können Sie IDNs nach dem Punycode-Verfahren in ihren entsprechenden ACE-Strings umwandeln.
Unterschiede zwischen IDNA2003 und IDNA2008
Im ursprünglichen Verfahren von 2003 wurden internationalisierte URLs vor der Punycode-Kodierung im Nameprep-Verfahren normalisiert. Dabei wurden Großbuchstaben zu Kleinbuchstaben umgewandelt, Steuerzeichen entfernt und äquivalente Zeichen in eine einheitliche Form gebracht. Seit IDNA2008 ist Nameprep jedoch nicht mehr Teil des Übersetzungsverfahrens. IDNA gibt somit keine Normalisierung mehr vor, empfiehlt jedoch einen Algorithmus, der Großbuchstaben in Kleinbuchstaben umwandelt.
Diese Anpassung kommt auch Nutzern im deutschen Sprachraum entgegen, da das in Deutschland geläufige Unicodezeichen „ß“ gemäß IDNA2003 ursprünglich als Äquivalent zu „ss“ definiert wurde. Domains wie www.fußball-ergebnisse.de
wurden im Nameprep-Verfahren somit automatisch zu www.fussball-ergebnisse.de
normalisiert. Diese Anpassung findet nach IDNA2008 nicht mehr statt. Seit 2010 wird das „ß“ als „Latin small letter sharp s“ korrekt interpretiert und kann als Teil einer IDN-Domain registriert werden.
Darüber hinaus werden rund 8.000 Zeichen, die unter IDNA2003 in Domain-Namen möglich waren, unter IDNA2008 nicht mehr unterstützt. Vier Zeichen inklusive „ß“ werden seit der Überarbeitung des Standards anders interpretiert als zuvor. Eine detaillierte Diskussion der Unterschiede zwischen IDNA2003 und IDNA2008 findet sich im Unicode Technical Standard #46. In folgender Tabelle finden Sie eine Zusammenfassung der Hauptunterschiede.
IDNA2003 | IDNA2008 |
---|---|
Nameprep-Verfahren gefordert | Keine Normalisierung vorgegeben |
Gültig für Unicode 3.2 | Gültig für Unicode Versionen ab 5.2 |
Strikte Regeln für linksläufige Schriften | Klarere Regeln für linksläufige Schriften |
Groß- und Kleinbuchstaben werden als separate Zeichen betrachtet | Großbuchstaben werden in Kleinbuchstaben umgewandelt |
Viele Symbole sind verboten, z. B. grafische Symbole, die zu keinem Schriftsystem gehören, sowie manche Satzzeichen | |
„Remapping“ von manchen Unicode-Zeichen entfernt, da dies zu Unregelmäßigkeiten führen könnte |
Probleme mit IDNs
Inzwischen sollten alle gängigen Internet-Programme IDN verstehen. Zu Problemen mit internationalisierten Domain-Namen kommt es aber mitunter dadurch, dass der Umstieg von IDNA2003 zu IDNA2008 im Internet noch nicht konsequent vollzogen wurde. Eine Fehlerquelle im deutschen Sprachraum ist die unterschiedliche Interpretation des „ß“. Da IDNA2003 „ß“ zwingend zu „ss“ umwandelt, sind spezielle ß-Domains, die gemäß IDNA2008 registriert werden können, für Systeme, die nach dem veralteten Standard konvertieren, oft nicht auffindbar. Stattdessen gelangen Nutzer auf die entsprechende Domain mit „ss“. Umgehen lassen sich solche Schwierigkeiten, indem Webseitenbetreiber beide Varianten registrieren und die zweite Domain auf die priorisierte Schreibweise per Domain-Weiterleitung (Redirect) umleiten.