durch Fingerprinting

Das Fingerprinting bezeichnet eine Methode, mit der die Merkmale eines Browsers zur eindeutigen Identifikation eines Internetbesuchers ausgewertet werden.

Wie man die verschiedenen Merkmale nutzt, um einen Browser zu identifizieren, zeigt Peter Eckersley von EFF in A Primer on Information Theory and Privacy. Eckersley macht die Identifizierung an der Informationsdichte fest, mit der sich die Anzahl berechnen lässt, wie viele Benutzer denselben Browser verwenden.

Anzahl = 2^{Informationsdichte}

Um einen einzigen Internetbesucher aus der gesamten Weltbevölkerung identifizieren zu können, braucht man welche Informationsdichte? Die Weltbevölkerung betrug Ende 2012 rund 7.100.000.000 (7,1 Milliarden) Menschen. Wir bräuchten eine Informationsdichte von 2^x = 7.100.000.000, um einen einzelnen Menschen zu identifizieren. Die Informationsdichte x = ln(7100000000)/ln(2) müsste also 32,725 betragen.

Wie aber kommt man zu einer Informationsdichte?

Ein praktisches Beispiel

Sagen wir, wir wissen, dass der Mensch auf der Welt, den wir identifizieren wollen, in Wien wohnt. Wien hat 1.800.000 Einwohner. Das heißt, wir betrachten eine Teilmenge von 1.800.000 aus der Gesamtmenge von 7.100.000.000. Somit können wir die Informationsdichte berechnen als 2^x = (1.800.000/7.100.000.000) ergibt x = 10,455. Um diesen Wert hat sich die Informationsdichte von ursprünglich 32,725 somit reduziert. Wir brauchen zusätzlich noch Informationen mit einer Dichte von 32,725 minus 10,455 = 22,27.

Sagen wir, wir konnten den Geburtstag (ein Tag in einem Jahr) des gesuchten Kandidaten erfahren. 2^x = 1/365 und das ergibt x = 8,167. Den Wert ziehen wir wieder ab: 22,27 – 8,167 = 14,103.

Des Weiteren suchen wir zum Beispiel einen Kandidaten, der mehr als 100.000 Euro im Jahr verdient. Laut Statistik ist unser Kandidat damit einer von 83.540 Menschen in Österreich. Das ergibt 2^x = 1/83540 und x = 10,794. Diesen Wert ziehen wir wieder ab und erhalten 14,103 – 10,794 = 3,309.

Wie viele Menschen verbleiben jetzt noch? Anzahl = 2^3,309 = rund zehn Menschen.

Was lernen wir daraus? Mit nur drei Merkmalen konnte das Identifizierungsspektrum für eine gesuchte Person aus der Masse der Weltbevölkerung auf zehn Personen eingeengt werden. Exakt dieses Verfahren nutzen Datensammler für das Fingerprinting, um einen Browser eindeutig zu identifizieren. Die Merkmale heißen nicht mehr Wien, Geburtstag und Einkommen, sondern bestehen aus den verschiedenen Browsermerkmalen.

Identifizierung bei EFF

Wenn es auf der Testseite von EFF zum Beispiel heißt: „only one in 22456 browsers has the same fingerprint as yours“, dann bedeutet dies, dass der eigene Browser unter 22.456 anderen eindeutig identifizierbar ist. Kann man daraus schlussfolgern, ob der eigene Browser gut oder schlecht gegen Fingerprinting geschützt ist? Leider nur bedingt.

EFF vergleicht den Browser, den man testet, mit den Daten aus einer Datenbank, die „nur“ einige wenige hunderttausend Browserdaten umfasst. Diese Menge ist im Verhältnis zu rund vier Milliarden Internetnutzern viel zu klein, um zu relevanten Praxisergebnissen zu führen.

Identifizierung durch Fingerprinting

Für Praxisergebnisse sind zwei Faktoren ausschlaggebend. Einerseits die vorhandene Informationsdichte und andererseits die Gesamtmenge, in der gesucht wird.

Nehmen wir einfach an, wir hätten eine Informationsdichte von 23 ermittelt. 23 bit Informationsdichte ergeben im Rahmen der acht Milliarden Weltbevölkerung einen recht guten Schutz mit nur 0,1% Identifizierbarkeit, wie das lila Quadrat in der Grafik zeigt. Im Rahmen der viel, viel kleineren EFF Testmenge (strichlierte Linie links außen) würden 23 bit aber eine mehr als hundertprozentige Identifizierung gewährleisten. Der Schnittpunkt von 23 bit mit der strichlierten Linie liegt bereits oberhalb der 100%, wie der lila Pfeil nach oben anzeigt. Beim EFF-Test müsste man die Informationsdichte eines Browsers auf etwa 7 bit reduzieren (siehe schwarzer Pfeil nach unten), um wieder mit 0,1% relativ gut geschützt zu sein.

So stellt sich die Frage, über wieviel Browserdaten verfügt einer der größten Datensammler, Google? Wir kennen diese Zahl nicht. Aber es ist bekannt, dass jährlich rund 1,2 Trillionen Suchanfragen bei Google gestellt werden. Angeblich sollen aber 80% davon aus der Forschungsabteilung von Google selbst stammen. Wenn man bei den restlichen 20% unterstellt, dass täglich 10 Suchanfragen gestellt werden, so führte dies zu etwa 65 Millionen Usern mit ihren Browsern bei Google (rote Linie). Um bei Google wieder eine Identifizierbarkeit von 0,1% zu erreichen, müsste der Browser des Suchenden eine Informationsdichte von 16 bit haben.

Das heißt stark vereinfacht, der eigene Browser sollte tunlichst weniger als 16 bit Informationsdichte liefern, wenn man einen relativ guten Schutz vor Fingerprinting besitzen möchte.

Siehe auch:

zur Homepage Internet