Skip to content

"Face with tears of joy" - Das beliebteste iOS-Emoji als Beispiel für Differential Privacy

Das Thema "Differential Privacy" wird einigermaßen kontrovers betrachtet. Zur Erinnerung: Hinter "Differential Privacy" verbirgt sich ein Ansatz, über den Apple anonymisiert Benutzerdaten erhebt, um die eigenen Produkte, wie beispielsweise Siri weiterzuentwickeln und zu verbessern. Die Technologie dahinter sieht vor, dass die Benutzerdaten mit so viel "Grundrauschen" angereichert werden, dass diese hinterher nicht mehr eindeutig einem Benutzer zuzuordnen und somit komplett anonymisiert sind. Nun hat Apple ein neues Paper veröffentlicht, in dem man diese Technologie, sowie einige Beispiele zu ihrer Umsetzung vorstellt. So erklärt Apple, wie man das Benutzererlebnis verbessern kann, in dem man beispielsweise Wortvorschläge am Benutzerverhalten ausrichtet oder eben auch das am häufigsten verwendete Emoji ermittelt. Apple schreibt dazu:

There are situations where Apple can improve the user experience by getting insight from what many of our users are doing, for example: What new words are trending and might make the most relevant suggestions? What websites have problems that could affect battery life? Which emoji are chosen most often? The challenge is that the data which could drive the answers to those questions—such as what the users type on their keyboards—is personal.

Apple has adopted and further developed a technique known in the academic world as local differential privacy to do something really exciting: gain insight into what many Apple users are doing, while helping to preserve the privacy of individual users. It is a technique that enables Apple to learn about the user community without learning about individuals in the community. Differential privacy transforms the information shared with Apple before it ever leaves the user’s device such that Apple can never reproduce the true data.

Während das Paper aus Sicht der "Differential Privacy" absolut einen Blick wert ist, haben es jedoch vor allem die Ergebnisse in die Presse geschafft. So konnte Apple ermitteln, dass das Emoji "Face with tears of joy" das mit Abstand am häufigsten verwendete Emoji in den USA ist.

Weitere Daten, die Apple via "Differential Privacy" unter iOS und macOS erhebt, umfassen unter anderem die folgenden Bereiche:

  • QuickType Vorschläge
  • Emoji Vorschläge
  • Vorschläge in Suchergebnissen
  • Stromhungrige Webseiten in Safari
  • Safari Autoplay-Erkennung (macOS High Sierra)
  • Abstürzende Webseiten in Safari (iOS 11)
  • Nutzung von verschiedenen Arten von Health-Daten (iOS 10.2)

Unter iOS kann man sich übrigens unter "Einstellungen > Datenschutz > Analyse > Analysedaten" einsehen, welche Daten an Apple übertragen werden. Alles, was dort mit "DifferentialPrivacy" beginnt, fällt in diesen Bereich. Eine Ebene höher kann man das Übermitteln dieser Daten an Apple auch unterbinden.

Apple in der Schusslinie wegen seiner Umsetzung von Differential Privacy

Apple stellt sich nicht nur gerne als Beschützer der Privatsphäre seiner Nutzer dar, sondern gilt im Silicon Valley auch durchaus als Vorzeigeunternehmen in diesem Bereich. Unter anderem hatte man hierzu die sogenannte "Differential Privacy" eingeführt, über die man anonymisiert Benutzerdaten erhebt, um die eigenen Produkte, wie beispielsweise Siri weiterzuentwickeln und zu verbessern. Die Technologie dahinter sieht vor, dass die Benutzerdaten mit so viel "Grundrauschen" angereichert werden, dass diese hinterher nicht mehr eindeutig einem Benutzer zuzuordnen und somit komplett anonymisiert sind.

Nun haben sich Wissenschaftler von drei Universitäten diese Implementierung einmal genauer angesehen und erheben dabei teils schwere Vorwürfe gegenüber Apple. Bereits im vergangenen Jahr hatte ein Kryptographie-Professor der John Hopkins University Apple vorgeworfen, den eigenen Ansatz nicht genügend zu testen und Außenstehenden keinen Einblick in das Verfahren zu gewähten. Nun berichtet Wired von neuen Vorwürfen, die Wissenschaftler der University of Southern California, Indiana University, und der Tsinghua University in China erheben. Sie haben Teile des von Apple verwendeten Codes entschlüsselt und dabei entdeckt, dass der Datenschutz dabei mehr als unsicher umgesetzt wurde.

Die Effektivität des angesprochenen "Grundrauschens" wird in der Wissenschaft mit einem Wert definiert, der auf den Namen "Epsilon Value" hört. Dabei gilt, dass je geringer dieser Wert ist, desto besser ist der Datenschutz. Die meisten Wissenschaftler sehen daher einen Wert von 1 als ideal an. Die Wissenschaftler der drei Universitäten beziffern den "Epsilon Value" von Apples Implementierung unter macOS nun mit einem Wert von 6, den von iOS 10 mit 14 und sehen damit eine hohe Gefährdung in der Sicherheit der von den Nutzern bereitgestellten Daten. Einer der Erfinder der Differential Privacy, Frank McSherry, erklärt hierzu gegenüber Wired, dass ein Wert von 14 das gesamte Verfahren relativ nutzlos macht.

Apple widerspricht den Vorwürfen erwartungsgemäß und wirft den Wissenschaftlern eine fundamentale Fehlinterpretation hinsichtlich der Berechnung des Epsilon Values vor. Zudem würde man keine Profile über die gesammelten Daten erstellen oder Daten wie IP-Adressen erheben. Letzten Endes wird man sich aber wie so oft auf die Aussagen und Versprechungen des Unternehmens verlassen müssen, wie mit den gesammelten Daten verfahren wird. Immerhin handelt es sich bei Apples Ansatz um ein sogenanntes Opt-In-Verfahren, bei der Nutzer dies aktiv gestatten muss. Ob man dem bei der Einrichtung seines Geräts zugestimmt hat, kann man unter "Einstellungen > Datenschutz > Analyse" überprüfen. Hier kann man die Übertragung der Analysedaten an Apple dann entsprechend auch wieder deaktivieren.

Weitere Details zu Differential Privacy in iOS 10 und macOS Sierra

In der vergangenen Woche hatte ich in einem Kommentar die Pros und Contras zu Apples neuem Datenschutzansatz in iOS 10 und macOS Sierra namens "Differential Privacy" thematisiert. Nun bringen die Kollegen von Recode noch ein bisschen weiteres Licht ins Dunkel. Kleiner Rückblick: Differential Privacy ist Apples wissenschaftlich entwickelte Strategie, Daten über das Nutzerverhalten zu sammeln, ohne dabei Rückschlüsse auf den einzelnen Nutzer ziehen zu können. Sie basiert also auf sogennanter "Crowdsourced Data". Diese gesammelten Daten werden mit einem Grundrauschen versehen, wodurch sich zwar Rückschlüsse im großen Stil, nicht jedoch bezogen auf einzelne Nutzer ziehen lassen. Wichtig ist dabei zunächst einmal, dass man als Nutzer selber entscheiden kann, ob man Apple seine Daten zur Verfügung stellt. Hierzu wird Apple in der finalen Version von iOS 10 das Einverständnis der Nutzer anfragen. Ob man mitarbeitet, bleibt also jedem selbst überlassen. Ziel ist es dabei unter anderem Siri oder auch die Ersetzungsvorschläge für Emojis zu verbessern.

Die Kollegen haben bei ihren Recherchen unter anderem in Erfahrung bringen können, dass Apple bislang noch keine Daten gesammelt hat. Hiermit wird man also erst mit iOS 10 und damit auch unter Berücksichtigung von Differential Privacy beginnen. Wie gesagt kann hier jeder Nutzer selber entscheiden, ob man seine Daten Apple zur Verfügung stellen möchte oder nicht. Auch wird man nicht die in iCloud gespeicherten Fotos der Nutzer verwenden, um die Gesichtserkennung in der neuen Fotos-App unter iOS 10 zu verbessern.

Zunächst wird sich Apples Datensammlung auf vier Bereiche konzentrieren: Neue Wörter, die ein Nutzer in sein lokales Wörterbuch hinzufügt, die bereits angesprochene Ersetzung von Wörtern durch Emojis, Deep-Links innerhalb von Apps (so lange diese als öffentlich markiert sind) und die Verbesserung von Vorschlägen in der Notizen-App. Es kann allerdings davon ausgegangen werden, dass Apple dies in kommenden iOS-Versionen weiter ausbauen wird.