durch Mustererkennung

zuletzt geändert am 28.02.2024

mustererkennung

Mit dem Verfahren der Mustererkennung kommen die Datensammler auch ohne Fingerprinting, Cookies und IP-Adresse an die Identität der Besucher im Internet. Es spielt prinzipiell auch keine Rolle mehr, ob Besucher ein VPN nutzen oder den Browser wechseln oder ihren Browser mit Add-ons spicken. Mustererkennung nutzt nur noch die Datenmasse, die Besucher als Spur bei ihren Besuchen im Internet hinterlassen.

Nehmen wir zur Veranschaulichung ein sehr, sehr vereinfachtes und theoretisches Beispiel. In der gesamten Datenmasse, die Google aus allen Besuchen des Internets besitzt, findet der Computeralgorithmus immer wieder das Wort „Kilimandscharo“. Gleichzeitig stößt er in Verbindung damit wiederkehrend auf „Ausrüstung“. Damit kann schon klassifiziert werden, dass es sich um „Bergsteigen“ handeln könnte. In Addition weiterer wiederkehrender Elemente und in Verbindung mit Statistiken (wie z.B., aus welchen Ländern stammten die häufigsten Expeditionen?) verengt sich das Raster so sehr, dass am Ende eine einzige Klasse übrig bleibt, nämlich der Teilnehmer X der englischen Expedition aus dem Jahr 2013.

Nach diesem Prinzip werteten im Jahr 2015 das Massachusetts Institute of Technology (MIT) und die Universität Aarhus Kreditkartentransaktionen aus. Dafür waren Daten über einen Zeitraum von drei Monaten von 1,1 Millionen Menschen in 34 Ländern und zehntausenden Geschäften untersucht worden, wobei die Datensätze und Kreditartennummern völlig anonymisiert waren. Dennoch konnten die Forscher auf der Suche nach gleichen Mustern im Einkaufsverhalten rund 90 Prozent der Käufer eindeutig identifizieren. Das heißt, die Ausspähung der Benutzer gelingt zwar nicht vollständig, aber zu einem hohen Prozentsatz auch, alleine durch die Auswertung ihrer Spuren beim Besuch des Internets. Dies belegt ja auch der Film Made to Measure.

Das Prinzip der Mustererkennung

Bei der Mustererkennung spielen statistische Merkmale eine wichtige Rolle. Besucht jemand etwa eine Webseite zum Thema Gesundheit, so handelt es sich mit einer Wahrscheinlichkeit von 74% um eine Frau. Das heißt, das Merkmal des Besuchs einer Webseite zum Thema Gesundheit erhält mit einer Wahrscheinlichkeit von 74% die Klasse „Frau“. Als nächstes erfolgte auf derselben Website die Suche nach einem Medikament, das nur ältere Menschen benötigen. Somit erhält die Klasse eine Erweiterung zu „ältere Frau“ mit sagen wir 76%. Mit der Klassifizierung aller folgenden Webseitenbesuche verfeinert sich das Bild Zug um Zug bis zu 100%. Dann steht das Ergebnis fest: es handelt sich um Besucherin XYZ. Da es ausreichend viele Statistiken gibt, führt die Auswertung aller statistischen Merkmale mit an Sicherheit grenzender Wahrscheinlichkeit zur Identifizierung jedes Benutzers.

Statistische Merkmale sind eines der Hilfsmittel bei der Mustererkennung. Im Grunde kommt Mustererkennung auch ohne jede Statistiken aus, weil Mustererkennung aus der Masse an Daten wiederkehrende Kriterien und gemeinsame Elemente filtern kann, an Hand derer eine Klassifizierung nach und nach möglich wird. So geschah dies bei der Mustererkennung von Kreditkartentransaktionen.

Für Menschen ist die Auswertung von Massendaten unmöglich, für Computer ist es eine Frage der Zeit und der Qualität der eingespeisten Such- und Vergleichsalgorithmen. Computer sind Meister der Mustererkennung. Aus der Mustererkennung sind neuronale Netze wie das Bayes’sche Netzwerk mit der Fähigkeit zum automatischen Lernen nicht mehr wegzudenken. Sie sind die Basis für Künstliche Intelligenz, mit der die Datensammler Mustererkennung durchführen.

Siehe auch


zur Homepage Internet