Das unabhängige Datenschutzbüro in Baden-Württemberg

Unabhängiges Datenschutzbüro in Baden-Württemberg - Privacy Office
Norbert Gaulocher
 

Start | Vereine | EU DS-GVO | Kommunaler Datenschutz | Leistungen | Referenzen | Datenschutz | Impressum | Kontakt

Weitergehende Informationen zur Verwendung der Server-Log-Files:

Die Inhalte nachfolgender Informationen habe ich den FAQs von Strato übernommen, meinem Provider für die Domaine www.dsb-bw.de.

Nützliches Hintergrundwissen:

Mein Webserver (gehostet bei Strato) protokolliert jeden einzelnen Zugriff auf ein Element (z. B. eine HTML-Datei oder ein Bild) innerhalb meiner Webpräsenz. Auch gescheiterte oder verweigerte Zugriffe (z. B. wg. Passwortschutz) werden notiert. Der Server schreibt in ein so genanntes "Logfile", von welcher Domain aus der Zugriff erfolgt, zu welcher Zeit und welches Element (z.B. welche Seite oder welches Bild) abgerufen wird. Der Server protokolliert auch, mit welchem Browser das Element abgerufen wird.

Aus datenschutzrechtlichen Gründen wird in den Logfiles der Hostname bzw. die IP-Adresse des Clients, der meine Website aufruft, anonymisiert. In den Logfiles werden nur die Einträge für den Host des Clients oder, wenn dieser nicht ermittelbar ist, die IP-Adresse des Clients anonymisiert. Das Format aller anderen Einträge ändert sich nicht.

Die ersten 9 Bit der IP-Adresse des Eintrags werden in einen Hash-Wert umgewandelt. So könnte aus der IP-Adresse 123.123.123.123 die "anonyme" IP-Adresse 123.123.122.243 werden. Eine  anonymisierte IP-Adresse behält maximal 24 Stunden ihre Gültigkeit. Danach würde aus derselben Ausgangs-IP-Adresse eine andere "anonyme" IP-Adresse werden.

Beispiel für Hostname-Anonymisierung:

Steht im Logfile ein Hostname, bleibt der Domainanteil erhalten. Alles andere wird durch die Zeichenfolge "anon-123-123-122-243.domain.tld" ersetzt. Die Zeichenfolge "anon" steht dabei für "anonym". Die Zifferngruppen stellen die anonymisierte IP-Adresse dar.

Beispiel:

aus: ascend-tk-p66.rhrz.uni-berlin.de - - [15/Jan/2016:12:28:23 +0100] "GET /Urlaub-mit-mir.gif HTTP/1.1" 200 8032 "http://www.wunschname-1.de/urlaub/ibiza.html" "Mozilla/5.0 .... usw ....

wird: anon-123-123-122-243.uni-berlin.de - - [15/Jan/2016:12:28:23 +0100] "GET /Urlaub-mit-mir.gif.gif HTTP/1.1" 200 8032 "http://www.wunschname-1.de/urlaub/ibiza.html" .... usw ...

Man kann daraus die Informationen entnehmen, dass von einem Server der Uni Berlin am 15. Januar 2016 um 12.28 Uhr mit einem Mozilla-Browser Version 5.0 ein Zugriff auf die Seite "ibiza.html" im Ordner "urlaub" erfolgte. Die Angabe zur IP-Adresse, die meine Webseite aufgerufen hat, bleibt jedoch anonymisiert.

Beispiel für nicht auflösbare IP-Adressen:

Steht im Logfile eine IP-Adresse, weil kein Hostname aufgelöst werden konnte, wird ein Hostname nach folgendem Schema erzeugt: "anon-123-456-165-41.invalid". Auch hier steht die Zeichenfolge "anon" für "anonym" und die Zifferngruppen stehen für die anonymisierte IP-Adresse. Die Top-Level-Domain ".invalid" wird angehangen, weil sie niemals als echte TLD vergeben wird und für derartige Einsatzzwecke vorgesehen ist.

Beispiel:

aus: 123.456.789.001 - - [15/Jan/2016:12:28:23 +0100] "GET /Urlaub-mit-mir.gif HTTP/1.1" 200 8032 "http://www.wunschname-1.de/seite.htm" "Mozilla/5.0 .... usw ....

wird: anon-123-456-165-41.invalid - - [15/Jan/2016:12:28:23 +0100] "GET /Urlaub-mit-mir.gif HTTP/1.1" 200 8032 "http://www.wunschname-1.de/seite.htm" "Mozilla/5.0 .... usw. ....

In diesem Beispiel kann man die Informationen entnehmen, dass der Aufruf von einem Server kam, der sich innerhalb der IP-Range 123.456.000.01 bis 123.456.255.99 befindet. Die genaue Angabe um welche spezifische IP es sich gehandelt hat bleibt jedoch auch hier anonymisiert.

Wichtige Grundbegriffe

Die wichtigsten Begriffe im Zusammenhang mit den Statistiken sind Zugriffe (englisch Hits) und Seitenabfragen (englisch Page Views).

Die Zahl der Zugriffe/Hits gibt an, wie oft Anfragen auf meine Internet-Präsenz gestellt worden sind.

Jede Seite, aber auch jedes Bild wird als ein Zugriff gezählt. Wenn ich also eine Seite mit 5 Bildern und einer hinterlegten Musik (z.B. Midi-Datei) habe, werden 7 Zugriffe (1 Seite + 5 Bilder + 1 Musik-Datei) erzeugt. Auch Anfragen nach Seiten, die nicht existieren, oder Seiten, bei denen der Zugriff verweigert wurde, werden als Hit gezählt.

Der Begriff Page Views dagegen beschreibt nur die Seitenabrufe (d. h. wie oft HTML- und TXT-Dateien abgerufen worden sind).

Die genannte Seite mit Bildern und Musikdatei erzeugt nur einen Seitenabruf/Page View. Nicht erfolgreiche Anfragen werden hier nicht mitgezählt.

Wenn man die eigenen Zugriffsstatistiken also mit anderen vergleichen wollte, sollte man immer die richtigen Werte miteinander in Bezug setzen. Wenn man von anderen eine sehr hohe Zahl hört, etwa mehrere Tausend Abrufe im Monat, handelt es sich sehr oft nur um Zugriffe/Hits. Diese können jedoch nur sehr bedingt Auskunft über die Attraktivität einer Internet-Präsenz geben, da die Zahlen schnell sehr groß werden, wenn viele Bilder und Frames verwendet werden.

Wenn ich wissen wollte, wie intensiv mein Online-Angebot von den Internet-Nutzern angenommen wird, ist es besser, die Zahl der Seitenabrufe/Page Views heranzuziehen.

Bitte beachten Sie, dass sich maximal 400 Tage auswerten lassen können.

Generell muss bei den Zugriffszahlen eine gewisse Verzerrung einkalkuliert werden.

Diese entsteht vor allem durch so genannte Proxy-Server wie sie z. B. von Online-Diensten eingesetzt werden. Proxy-Server werden verwendet, um alle angefragten Internet-Dokumente und Grafiken zwischen zu speichern, so dass die nächste Abfrage einer Seite nicht mehr neu aus dem Internet geholt werden muss, sondern direkt aus dem lokalen Speicher (Proxy-Server) des Providers. Dies geht wesentlich schneller. Dadurch, dass die Datei nicht mehr von meinem Server direkt angefragt wird, kann allerdings auch kein Zugriff protokolliert werden. Diese Leser sind für mich also sozusagen unsichtbar. Die "wirklichen" Zugriffszahlen meiner Website können also wesentlich höher sein, als die Logfiles vermuten lassen.

Umgekehrt verzerren Indizierungsroboter der Suchmaschinen meine Statistik ins Positive. Stichwort-Suchmaschinen benutzen kleine Programme ("Bots"), die meine gesamte Internet-Präsenz aufrufen und in die Suchmaschinen-Datenbank einlesen. Dadurch erhalte ich protokollierte Zugriffe, die jedoch nicht durch einen wirklichen Leser erfolgen.

Weitere Begriffe rund um Abrufstatistiken

Neben den genannten Grundbegriffen Hits und Page Views zeigt meine Abrufstatistik noch einige weitere Größen an.

Files, (Dateien)

gibt an, wie viele Dateien erfolgreich abgerufen worden sind. Jede Internet-Seite, jedes Bild und jede andere abrufbare Datei (z. B. Midi-Datei, Video-Sequenz) wird als ein "File" gezählt. Die Beispielseite mit 5 Bildern und einer hinterlegten Musik wird als 7 Files gezählt (1 Seite + 5 Bilder + 1 Musik-Datei).

Code 304 (not modified)

Bei jedem Abruf einer Internet-Seite überprüft der Browser (je nach Cache) zuerst, ob er die Seite noch im eigenen Zwischenspeicher (Cache) hat. Wenn ja, vergleicht er, ob das Dokument auf dem Server aktueller ist. Nur in diesem Fall holt er es auch wirklich vom Server ab.

Ist es nicht aktueller, wird die Seite aus dem Cache geholt und muss nicht übers Netz übertragen werden. Der gleiche Vorgang findet bei Providern statt, die Proxy-Server einsetzen.

Der Server protokolliert diese Anfrage, bei der die gewünschte Datei nicht übertragen wurde, weil sie lokal noch vorhanden war, mit dem Code 304.

Sessions, deutsch Sitzungen

gibt an, wie viele unterschiedliche Domains auf meine Internet-Präsenz zugegriffen haben. Greift eine Domain erneut auf meine Internet-Präsenz zu, wird dies innerhalb eines Tages nicht als neue Session gewertet.

Die Anzahl der "Sessions" lässt bedingt Rückschlüsse auf die Anzahl der Besucher zu. Dadurch, dass bei großen Providern der Zugriff über einen Proxy-Server erfolgt und manche Besucher innerhalb eines Tages mehrmals auf meine Internet-Seiten zugreifen, muss dabei eine gewisse Verzerrung einkalkuliert werden.

Kilobytes

gibt an, wieviel Transfervolumen die abgerufenen Dateien verursacht haben. Eine Beispielseite mit einer Dateigröße von 14 Kilobyte (KB) sowie 5 Bildern á 10 KB verursacht 64 KB Transfervolumen. Die Statistik gewährt mir überdies Aufschluß über:

  • Die Browser ("Browser type") mit denen meine Internet-Präsenz am häufigsten aufgerufen wurde.
  • Die Seiten, von denen aus ein Benutzer auf meine Seiten gelangt ist (so genannte "Referrer URL")
  • Die Domain, von der aus auf die Seiten zugriffen worden ist (so genannte "Client Domain"). Diese Domain gibt in der Regel den Zugangsprovider an, z. B. AOL
  • Über die am häufigsten abgerufenen Seiten ("URLS") bzw. Elemente ("Items", also z.B. Bilder, CGI-Skripte)

Die vorgenannten Daten sind wichtige Informationen zur Weiterentwicklung meiner Internet-Präsenz. Je nach Verteilung der zugreifenden Browsertypen kann es zum Beispiel sinnvoll sein, bestimmte HTML-Erweiterungen, die nur von einzelnen Browsertypen angezeigt werden können, zu verwenden oder deren Verwendung einzustellen.

Die "Referrer URL" ist eine interessante Informationen darüber, wie meine Besucher auf meine Internet-Präsenz aufmerksam geworden sind. Fehlen hier große Suchmaschinen, könnte dies ein Hinweis für mich sein, meine Anmeldung dort zu überprüfen oder meinen Eintrag zu optimieren.

Die "Client Domain" schließlich kann Rückschlüsse darüber ermöglichen, aus welchen Ländern meine Betrachter auf meine Internet-Seiten zugreifen.

Die Hitliste der am meisten abgerufenen Seiten bzw. Elemente sagt mir, was meine Betrachter besonders gerne mögen. Diese Rückmeldung zeigt, wo Ausbaupotentiale meiner Internet-Präsenz liegen und welche Bereiche nicht so gut ankommen und vielleicht verbessert werden müssen.

Norbert Gaulocher

Sachkundige Beratung
TÜV-geprüft und GDD-zertifiziert

Norbert Gaulocher
data protection officer nach Artikel 37 EU Datenschutz Grundverordnung  

Kontakt

Aktualisiert: 23.12.2017