Symbolbild. Ein Finger zeigt auf einen Binär-Code
© Pixabay Lizenz

Anonymisierung – Schutzziele und Techniken

Wie die Anonymisierung von Daten einen Kompromiss zwischen Datenschutzinteressen und Datennutzung darstellen kann

Mit dem Fortschreiten der Digitalisierung sind Daten zu einem wertvollen Gut geworden. Besonders bei personenbezogenen und damit schützenswerten Daten, gibt es in der Politik, Verwaltung und Wirtschaft einen immer größer werdenden Nutzungsbedarf. Sei es für Auswertungen innerhalb einer Organisation, um so aus vergangenen Geschäftsprozessen zu lernen, oder auch in Form von statistischen Daten, die an Dritte oder externe Stellen wie Statistikämter weitergegeben werden. Die Auswertung dieser Daten kann dabei helfen, Wirtschaft und Gesellschaft besser zu verstehen und auf dieser Grundlage bessere Entscheidungen zu treffen. An der Nutzung von personenbezogenen Daten gibt es daher ein durchaus wichtiges und legitimes Interesse.

Genauso wertvoll wie die Datennutzung ist der Datenschutz. Die Weitergabe nicht anonymisierter personenbeziehbarer Daten - oder deren Verwendung außerhalb ihrer Zweckbindung - können zur Aufdeckung von Identitäten führen. Daher scheinen Datennutzung und Datenschutz oft im Konflikt zu liegen. Anonymisierung kann einen Kompromiss zwischen Datennutzung und Datenschutz darstellen. Das Kompetenzzentrum Öffentliche IT (ÖFIT) erklärt, wie Daten richtig anonymisiert werden und welche Anonymisierungstechniken es gibt.

 

Merkmalstypen der Anonymisierung und Schutztypen

Für die Anonymisierung lassen Merkmale nach relevanten Typen unterscheiden (Merkmale können sich auch auf Basis andere Kriterien unterscheiden lassen): Identifikatoren, Quasi-Identifikatoren und sensitive Merkmale.

Bei einem (direkten) Identifikator handelt es sich um ein Merkmal, dessen Ausprägung einer Person entweder eindeutig oder nahezu eindeutig zuordenbar ist. Quasi-Identifikatoren (auch: indirekte Identifikatoren) sind Merkmale, die alleine keine Identifikation zulassen, aber kombiniert mit anderen Daten die Identifikation ermöglichen. Bei einem sensitiven Merkmal handelt es sich um ein Merkmal, dessen Ausprägung keiner Person zuordenbar sein soll, weil ansonsten die Privatsphäre beeinträchtigt wird.

Beispiel für Merkmalstypen. Bei dem Merkmal »Name« handelt es sich um einen Identifikator, bei den Merkmalen »Geburtsdatum« und »Geschlecht« um Quasi-Identifikatoren und bei dem »Befund« um ein sensitives Merkmal.
© Fraunhofer FOKUS / Kompetenzzentrum Öffentliche IT

Die IT-Sicherheit definiert Schutzziele, um den Schutz der Daten zu messen und bewerten. Die Interpretation der Schutzziele von Anonymisierung führt zu den folgenden statistischen Schutzzielen:

  • Vermeidung von Identity Disclosure (Aufdeckung der Identität)
  • Vermeidung von Attribute Disclosure (Aufdeckung von Merkmalen)

Der Prozess der Anonymisierung führt nicht immer zu einer kompletten Anonymität. Durch verschiedene Verfahren und Techniken kann der Grad der Anonymität jedoch angehoben werden.

Anonymisierungstechniken und statistische Lösungsansätze

Mittlerweile gibt es auf formale Anonymisierung (das Weglassen aller direkten Identifikatoren) aufbauende Techniken, die auf tabellarisch strukturierte Daten angewandt werden können. Beispiele für Anonymisierungstechniken sind:

  • Verringerung der repräsentierten Personen, zum Beispiel wenn nur ein kleiner Teil der Zeilen herangezogen wird (Stichprobe)
  • Veränderung von Merkmalsausprägungen, zum Beispiel durch Verrauschen (»noise addition«) der einzelnen Einträge oder Vergröbern (»generalization«) von Werten durch Wertebereiche
  • Auflösung von Identitäten (Aggregationen)
  • Erzeugung künstlicher Daten
Tabelle 1: Formales anonymisieren. Tabelle2: Verrauschen. Tabelle 3: Weglassen und Vergröbern
© Fraunhofer FOKUS / Kompetenzzentrum Öffentliche IT

Die vorgestellten Techniken verändern die statistische Verteilung der Merkmalskombinationen. Bei der Veränderung der Merkmalskombinationen (siehe Abbildung 3) bestehen normalerweise viele Freiheitsgrade. Diese Freiheitsgrade kann man wahlweise dazu nutzen, die statistischen Korrelationen möglichst originalgetreu zu erhalten, aber auch dazu, diese zu unterdrücken oder zu manipulieren. Korrelationsinformationen können in manchen Fällen zu einer Re-Identifizierung beitragen und dann unerwünscht sein, in anderen Fällen können sie unproblematisch sein.

Formen der Re-Identifizierung (Schutzzielverletzungen)

In anonymisierten Daten dürfen keine Informationen enthalten sein, die zur Identifikation genutzt werden können. Dennoch gibt es einige Möglichkeiten der Aufdeckung von Merkmalswerten, die darüber hinaus bestehen und zur Re-Identifizierung genutzt werden können.

 

Mögliche Hilfsmittel, die Schlussfolgerungen über Merkmalswerte ermöglichen können, sind:

  1. Die Tabelle selbst: Sie ermöglicht zum Beispiel rückwärts rechnende Maßnahmen, wie sukzessives Herausstreichen,   das Herausrechnen aus eventuell vorhandenen Randsummen oder das Auswerten dominanter Einzelwerte.
  2. Öffentliche oder dem Angreifer bekannte Metadaten: Beispielsweise solche, die die Bedeutung der Tabelleninhalte präzisieren.
  3. Öffentliche oder dem Angreifer bekannte externe Zusatzinformationen: Hierunter sind insbesondere fremde Daten zu verstehen, die mit den vorliegenden Daten so verknüpft werden können, dass daraus re-identifizierende Information entsteht.

 

Darüber hinaus sind weitere Gesichtspunkte der De-Anonymisierbarkeit veröffentlichter anonymisierter Daten zu berücksichtigen. Zum einen ist nicht nur die Weitergabe genauer, sondern auch der ungefähren oder unvollständigen Informationen über natürliche Personen eine Schutzzielverletzung. Zum anderen gilt es, nicht nur die Ermöglichung gesicherter Schlussfolgerungen zu verhindern, auch die Formulierung plausibler Vermutungen oder auch nur herleitbarer Verdachtsmomente kann eine Schutzzielverletzung sein oder als Zusatzinformation zu einer solchen beitragen.

ÖFIT White Paper

In der Publikation „Anonymisierung – Schutzziele und Techniken“ gehen Jan Dennis Gumz, Dr. Mike Weber und Christian Welzel vom Kompetenzzentrum Öffentliche IT (ÖFIT) detailliert auf die bereits genannten Anonymisierungstechniken, Lösungsansätze, Re-Identifizierung und Merkmalstypen ein. Darüber hinaus wird noch eine juristische Betrachtung der Anonymisierung von Daten aufgezeigt und es werden Handlungsempfehlungen gegeben.