wissen.de Artikel

Die Geschichte der URL

Sie ist das, was die meisten deutschsprachigen Menschen synonym mit der „Internetadresse“ in Verbindung bringen. Und obwohl es eigentlich „der“ Uniform Resource Locator ist, hat sich im Deutschen das Femininum „die“ URL fest eingebürgert. Doch seit wann gibt es die URL und warum ist sie so wichtig?

Symbolbild URL — © stock.adobe.com, Szasz-Fabian Jozsef

https://www.wissen.de/ und dahinter noch einige weitere Buchstaben, Ziffern und sonstige Symbole, die genau auf diesen Artikel verweisen. Das ist das, was jeder Leser dieser Zeilen oben in der Adressleiste seines Browsers lesen kann – ein Beispiel für mehrere Milliarden URLs, die es unter anderem im Internet gibt.

Zwar ist die URL als Grundsystem nicht nur auf das Internet, respektive das World Wide Web (zwischen beidem besteht ein signifikanter Unterschied) beschränkt. Dennoch gestattet sie eine ebenso einzigartige Adressierung einer jeden einzelnen Unterseite einer Website – dazu Dateien und vieles mehr. Ähnlich, wie es die Kombination aus Ortsname, Postleitzahl, Straßenname, Hausnummer und Name auf dem Klingelschild macht. Tatsächlich ist dieses Prinzip jedoch gleichsam jünger und älter als das Internet. Und das ist nicht der einzige interessante Fakt rund um den Uniform Resource Locator.

Dazu vorher noch drei wichtige Begrifflichkeiten:

Website: Die Gesamtheit eines Internetauftritts. Beispielsweise die gesamte Plattform wissen.de.
Homepage: Die Grund- oder Startseite einer Website, auf der jeder Besucher als erstes landet, wenn er die korrekte Adresse eingegeben hat.
Webseite: Irgendeine einzelne Seite eines Internetauftritts bzw. einer Website. Dieser Artikel etwa ist eine Webseite unter vielen auf der Website wissen.de.

Die URL: Der Zielpunkt für den Browser

Warum braucht man eine URL? Ganz einfach: Ähnlich, wie nur eine vollständige Wohnadresse es einer Navigations-App gestattet, den Fahrer bis vor die Haustür zu dirigieren, gestattet nur eine vollständige URL-Nutzern und Computer, die gewünschte Webseite anzusteuern.

Ebenso wie die Postadresse besteht die URL ebenfalls aus mehreren Bestandteilen. Um das an einem praktischen Beispiel zu demonstrieren, nutzen wir die URL von einem unserer Beiträge über künstliche Intelligenz:

https://www.wissen.de/kuenstliche-intelligenz-am-arbeitsplatz-risiko-oder-chance

Die Gesamtheit dieser Zeichenfolge von https bis chance ist die URL. Die einzelnen Teile nach farblicher Codierung:

https: Das ist das Protokoll. Ein Netzwerkprotokoll, damit der Browser weiß, auf welche Art zwischen ihm und dem Server kommuniziert wird – vereinfacht gesprochen.
www: Subdomain oder Third Level Domain. In diesem Fall also der Hinweis, dass es sich um einen Inhalt im World Wide Web handelt. Sie muss bei Websites nicht zwingend eingegeben werden. Mitunter kann stattdessen auch ein Kürzel für eine bestimmte Sprachversion stehen. So leitet etwa de.wikipedia.org auf die deutsche Version des Lexikons.
wissen: Die Second Level Domain. Sie ist ein weitgehend frei wählbarer Name und umgangssprachlich die „Grundadresse“ einer Website. Auch bekannt als Domainname.
de: Die Top Level Domain. Dabei handelt es sich – grob gesagt – um einen Länder- oder Nutzungscode. .de zeigt an, dass es sich um eine deutsche Website handelt, .us wäre eine US-amerikanische Site. Das bekannte .com hingegen stand ursprünglich für generell kommerzielle Websites, wird heute jedoch generisch genutzt. Wichtig: Die Kombination aus Second- und Top Level Domain wird umgangssprachlich häufig vereinfacht (und korrekt) als Domain bezeichnet.
kuenstliche-intelligenz-am-arbeitsplatz-risiko-oder-chance: Dieser finale Teil ist der Pfad. Je nach Aufbau einer Website kann er durchaus direkt hinter der Top Level Domain stehen.

Alles hinter dem www. ist in einem gewissen Rahmen frei wählbar. Allerdings gibt es Unterschiede:

Eine Domain wird offiziell registriert und vergeben.
Daher muss man eine Domain kaufen – sprich Top- und Second Level Domain.
Verzeichnis und Pfad können frei durch den Besitzer der Domain oder deren eigentlichen Benutzer bestimmt werden. Beide Elemente müssen jedoch einigen bestimmten Regeln folgen, wenn die Website suchmaschinenoptimiert gestaltet werden soll.

Nicht zuletzt sind sämtliche Zeichen in der URL standardisiert. Gemäß heutigen Normen sind nur die folgenden Symbole erlaubt:

ABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
0123456789
-._~:/?#[]@!$&'()*+,;=

Würde beispielsweise ein Webmaster ein anderes Symbol vergeben, etwa im Pfad, wäre eine Fehlermeldung die Folge. In der Hauptsache soll das Verständnisprobleme durch die Vermeidung von lediglich in einigen Staaten üblichen Zeichen verhindern.

Ebenso ist die Anzahl der Zeichen in der URL auf 255 beschränkt. Bei der Domain sind es sogar nur 63 Zeichen – wenngleich Experten gerade für Unternehmen dazu raten, sich auf möglichst kurze, einfach geschriebene und somit prägnante Domains zu fokussieren.

Die URL als leichter zu merkende Alternative

Das Internet wird zwar prinzipiell ausschließlich durch Einsen und Nullen bestimmt. Da es aber zu einem erheblichen Teil für die menschliche Nutzung gedacht ist, muss es ebenso menschlichen Denk- und Handlungsmustern entsprechen.

Rein technisch gesehen ist die gesamte URL – eigentlich – überflüssig. Denn jede einzelne Webseite hat ihre eigene IP-Adresse. Mehr noch: Wenn man die URL in den Browser eingibt und die Enter-Taste drückt, dann erfolgt im Hintergrund sowieso eine Umwandlung in die IP-Adresse. Statt wissen.de könnte man ebenso die IP-Ziffern in den Browser eingeben und würde dennoch auf unserer Homepage landen.

Doch warum dann die URL? Ganz einfach: Sie entspricht der angesprochenen Maßgabe von „menschlicher Benutzbarkeit“. wissen.de kann sich praktisch jeder binnen kürzester Zeit merken. Eine zwölfstellige Ziffernfolge hingegen lässt sich nur mit Mühe ins Gedächtnis bringen und darin speichern – und das Risiko für Zahlendreher ist immens.

Als das Internet schon da war – die URL jedoch noch nicht – aber dennoch ein bisschen

An dieser Stelle muss man etwas ausholen. Denn die Geschichte der URL lässt sich nicht ohne diejenige der Domains erläutern – sowie der generellen Adressierung von Websites und Webseiten.

Als man begann, Computer miteinander zu vernetzen, da geschah das stets über nummerische Adressen. Eines der ersten wirklich großen (für damalige Verhältnisse) Computernetzwerke der Welt, das sich auf das TCP/IP-Protokoll stützte, war das US-amerikanische ARPANET.

Dabei handelte es sich um ein 1969 geschaffenes Netzwerk, an dem primär das US-Verteidigungsministerium sowie die Advanced Research Projects Agency (ARPA) beteiligt waren. Letztere ist eine Forschungsbehörde (heute unter DARPA firmierend), die diverse Projekte für das US-Verteidigungsministerium durchführt.

Anfangs basierte das ARPANET – wie alle damaligen Netzwerke – auf Zifferadressen. Als man jedoch im Lauf der Zeit immer mehr Rechner hinzufügte, wurde das zu einem allmählich gravierenden Problem: Nutzer mussten regelrechte digitale Telefonbücher benutzen, um die jeweiligen IPs herauszufinden.

In diesem Zeitraum begann man daher, über leichter zu memorierende Prinzipien nachzudenken – und entwickelte dadurch automatisch den Grundgedanken einer Domain. 1983 wurde das ARPANET auf ein Domain-basiertes System umgestellt, konkret mit den Standards RFC 882 und RFC 883. 1985 wurden einige der ältesten bis heute noch bestehenden Domains vergeben. Darunter berkeley.edu, die Adresse der gleichnamigen kalifornischen Eliteuniversität. Jedoch blieb die Vergabe naturgemäß auf Unternehmen und Institute beschränkt, die am ARPANET teilnahmen – daher finden sich darunter primär Hochschulen, Labore, Regierungseinrichtungen sowie Firmen aus den Bereichen Elektronik, IT und Rüstung.

Auf diese Weise arbeitete man noch bis 1994 – und somit zirka ein Jahr, nachdem das World Wide Web für die allgemeine Nutzung freigegeben worden war. Das Problem daran: Zwar hatten sich automatisch schon Herangehensweisen etabliert, die derjenigen einer URL ähnelten. Standardisiert war jedoch noch gar nichts – das bot reichlich Zündstoff für Chaos. Denn schließlich war das WWW dazu bestimmt, ein „Netzwerk für alle“ zu sein.

Ab 1992 arbeitete daher der berühmte Tim Berners-Lee, bekannt als „Erfinder des Internets“ daran, einen Standardisierungsprozess ins Leben zu rufen. Es dauerte jedoch noch über zwei Jahre, bis man sich in seiner Arbeitsgruppe auf die wichtigsten Eckpunkte eines Entwurfs einigen konnte.

Dabei standen die folgenden Dinge im Fokus:

Es musste sich um einen schlüssigen, einfach zu verstehenden und idealerweise einer Baumstruktur folgenden Ansatz handeln. Das sollte es vielen Menschen ermöglichen, mit eigenen Websites am Internet teilzuhaben und es zu verstehen, selbst wenn sie bislang keine Netzwerkexperten waren.
Die Syntax sollte möglichst nicht radikal mit Konventionen brechen, sondern sich auf etablierte Herangehensweisen stützen. Das gesamte Pfad-System einer URL entstammt daher der Ablageorganisation in UNIX-Systemen, während die Nutzung der Schrägstriche auf die Vorgehensweise des Betriebssystems Apollo Domain/OS zurückging.

Ende 1994 wurde RFC 1738 ins Leben gerufen – und damit der erste Standard für den Aufbau von URLs, wie wir sie heute kennen.