Datenverfremdung

Datenverfremdung

In einer vorbereitenden Phase lassen sich die Input- und Output-Daten, die Sie mit fortgeschrittenen Data Science Methoden analysieren möchten, so verfremden, dass sie für einen Außenstehenden kryptisch aber dennoch abstrakt analysierbar bleiben.

Dafür stimmen wir zunächst mit Ihnen Aufgabenstellung, Datenformat und Datenumfang sowie das detaillierte Vorgehen ab. Die Datenverfremdung geschieht dann mittels Skripten zur Datentransformation, die wir für Ih20191018_KeineKlardatenHerausgabere individuelle IT-Plattform bereitstellen und Ihnen mit offenem Quellcode aushändigen, so dass Sie jederzeit deren genaue Funktionsweise einsehen können. Die Skripte dienen dazu, Ihre Daten zu kryptifizieren, Ergebnisse aus dem nachfolgenden abstrakten Analytics einzubinden und in Klardaten zurückzuübersetzen. Wir erhalten und benötigen dabei zu keinem Zeitpunkt Zugriff auf Ihre Klardaten!

Je nach Abstimmung hierarchisieren die Skripte Ihre Stammdaten vor der Verfremdung. Dies unterbindet später den Entschlüsselungsangriff über seltene bekannte Datenattribute, wie etwa außergewöhnliche Postleitzahlen oder seltene Mitarbeitereigenschaften. Ziel ist eine sogenannte totale k-Anonymität, die bei einer Beauskunftung der Datentabelle, unabhängig von der Kombination selektierter Textattribute, immer eine Mindestanzahl k kryptifizierter resultierender Datensätze sicherstellt. Auf diese Weise bleiben auch solche Datensätze wie die von exponierten Mitarbeitern mit außergewöhnlichen Gehältern und/oder Postleitzahlen anonym. Gleiches gilt natürlich auch für andere Arten von Stammdaten.

20191019_Datenverfremdung2

Daten metrischer Attribute wie etwa Alter oder Gehalt haben ihre jeweils geschäftstypischen Häufigkeitsverteilungen über Wertebereiche. Damit ein eventueller Entschlüsselungsangriff über die statistische Verteilung ins Leere geht, verfremden wir diese Daten so, dass die Häufigkeitsverteilungen der jeweiligen Attribute annähernd normalverteilt resultieren. Damit haben alle metrischen Attribute eine annähernd gleiche und nebenbei noch besonders auswertungsfreundliche statistische Verteilung.

 

vorherige Seite nächste Seite