Fingerprinting

zuletzt geändert am 21.07.2022

Die Ausspähung der Internetnutzer hat nur noch wenig mit Hardware und IP-Adresse zu tun. Cookies sind wegen der einfachen Handhabung noch relevant, aber nicht mehr notwendig. Eine zentrale Rolle in der Ausspähung spielt mittlerweile das Fingerprinting des Browsers, den der Besucher benutzt.

Merkmale eines Browsers

Die Abfrage der Merkmale eines Browsers liefert einen mehr oder weniger eindeutigen Fingerabdruck zur Identifizierung des Benutzers. Wie man die verschiedenen Merkmale nutzt, um einen Browser als einmalig zu identifizieren, zeigt Peter Eckersley in A Primer on Information Theory and Privacy. Eckersley macht das Fingerprinting, i.e. die Identifizierung, an der Informationsdichte fest, mit der sich die Anzahl der Varianten (i.e. Anzahl möglicher Computer/Benutzer) berechnen lässt.

Anzahl der Varianten = 2Informationsdichte

Um die Identifikationstechnik zu verstehen, hilft ein Beispiel, bei dem wir die Frage stellen: „Wie hoch muss die Informationsdichte [in bit] sein, um einen Internetnutzer aus der gesamten Weltbevölkerung identifizieren zu können“?

Die Weltbevölkerung betrug Ende 2012 rund 7.100.000.000 (7,1 Milliarden) Menschen. Wir bräuchten eine Informationsdichte von 2x = 7.100.000.000, um einen einzelnen Menschen zu identifizieren. Die Informationsdichte x = ln(7100000000)/ln(2) müsste also 32,725 bit betragen.

Darunter kann man sich nur wenig vorstellen und daher sehen wir uns ein Beispiel an.

Beispiel einer Identifizierung

Sagen wir, wir wissen, dass der Mensch auf der Welt, den wir identifizieren wollen, in Wien wohnt. Wien hat 1.800.000 Einwohner. Das heißt, wir betrachten eine Teilmenge von 1.800.000 aus der Gesamtmenge von 7.100.000.000. Somit können wir die Informationsdichte berechnen als 2x = (1.800.000/7.100.000.000) ergibt x = 10,455 bit. Um diesen Wert hat sich die Informationsdichte von ursprünglich 32,725 somit reduziert. Wir brauchen zusätzlich noch Informationen mit einer Dichte von 32,725 minus 10,455 = 22,27 bit.

Sagen wir, wir konnten den Geburtstag (ein Tag in einem Jahr) des gesuchten Kandidaten erfahren. 2x = 1/365 und das ergibt x = 8,167 bit. Den Wert ziehen wir wieder ab: 22,27 – 8,167 = 14,103 bit.

Des Weiteren suchen wir zum Beispiel einen Kandidaten, der mehr als 100.000 Euro im Jahr verdient. Laut Statistik ist unser Kandidat damit einer von 83.540 Menschen in Österreich. Das ergibt 2x = 1/83540 und x = 10,794. Diesen Wert ziehen wir wieder ab und erhalten 14,103 – 10,794 = 3,309 bit.

Wie viele Menschen verbleiben jetzt noch? Alternativen = 23,309 = rund zehn Menschen.

Was lernen wir daraus? Mit nur drei Merkmalen konnte das Identifizierungsspektrum für eine gesuchte Person aus der Masse der Weltbevölkerung auf zehn Personen eingeengt werden. Exakt dieses Verfahren nutzen Datensammler für das Fingerprinting, um einen Browser eindeutig zu identifizieren. Die Merkmale heißen nicht mehr Wien, Geburtstag und Einkommen, sondern bestehen aus den verschiedenen Browsermerkmalen.

Identifizierung bei EFF

Wenn es auf der Testseite von EFF zum Beispiel heißt: „only one in 22456 browsers has the same fingerprint as yours“, dann bedeutet dies, dass der eigene Browser unter 22.456 anderen eindeutig identifizierbar ist. Kann man daraus schlussfolgern, ob der eigene Browser gut oder schlecht gegen Fingerprinting geschützt ist? Leider nur bedingt.

EFF vergleicht den Browser, den man testet, mit den Daten aus einer Datenbank, die „nur“ einige wenige hunderttausend Browserdaten umfasst. Diese Menge ist im Verhältnis zu rund 4 Milliarden Internetnutzern viel zu klein, um zu relevanten Ergebnissen zu führen.

Vergegenwärtigen wir uns nochmals das oben gezeigte Beispiel einer Identifizierung. Um aus der Weltbevölkerung von mittlerweile rund 8 Milliarden Menschen eine Einzelperson eindeutig identifizieren zu können (100% Identifizierbarkeit), bräuchte man eine Informationsdichte von fast 33 bit. Das ist der letzte Punkt rechts oben in der Grafik. Besäße z.B. ein Geheimdienst aber nur eine Informationsdichte von 23 bit, so ließe sich die Identifikation zwar auf rund 8 Millionen Menschen einengen, was einem Anteil von 0,1% der Weltbevölkerung entspräche. Aber unter 8 Millionen wäre eine gesuchte Person immer noch recht gut vor Identifikation geschützt.

Relevanz der Identifizierung

Identifizierung durch Fingerprinting

Ausschlaggebend sind zwei Faktoren. Einerseits die vorhandene Informationsdichte und andererseits die Gesamtmenge, in der gesucht wird. 23 bit Informationsdichte bedeuten im Rahmen der 8 Milliarden Weltbevölkerung recht guten Schutz mit nur 0,1% Identifizierbarkeit. Im Rahmen der EFF Tests (strichlierte Linie links außen) und der viel, viel kleineren Datenmenge würden 23 bit eine mehr als hundertprozentige Identifizierung gewährleisten. Die 23 bit lägen auf der strichlierten Linie bereits oberhalb der 100%, wie der Pfeil nach oben anzeigt. Beim EFF-Test müsste man die Informationsdichte eines Browsers auf etwa 7 bit reduzieren (siehe Pfeil nach unten), um vergleichbar gut geschützt zu sein wie im Beispiel der Weltbevölkerung.

So stellt sich die Frage, über wieviel Browserdaten verfügt einer der größten Datensammler, Google? Wir kennen diese Zahl nicht. Aber es ist bekannt, dass jährlich rund 1,2 Trillionen Suchanfragen bei Google gestellt werden. Angeblich sollen aber 80% davon aus der Forschungsabteilung von Google selbst stammen. Wenn man bei den restlichen 20% unterstellt, dass täglich 10 Suchanfragen gestellt werden, so führte dies zu etwa 65 Millionen Usern mit ihren Browsern bei Google. Würde der Browser des Suchenden Google eine Informationsdichte von 16 bit liefern, so läge die Identifizierbarkeit gleich hoch wie im Beispiel mit der Weltbevölkerung: nämlich bei 0,1%.

Das heißt stark vereinfacht, der eigene Browser sollte tunlichst weniger als 16 bit Informationsdichte liefern, wenn man einen Schutz vor Fingerprinting besitzen möchte.

Siehe auch:

Wenn es Ihnen beliebt, so teilen Sie den Artikel auch anderen mit. Ihre Stimme hilft, kaschmaeh.net zu überleben.