de en
Zurück

Online Magazine

Bias: Über die Wichtigkeit lupenreiner Datensätze

Sind die Daten, die einem Algorithmus zugrunde liegen, so heterogen wie möglich und unter lauteren Bedingungen gesammelt worden, können wir von lupenreinen Datensätzen sprechen. Doch was bedeutet dies genau und was sind die Konsequenzen, wenn die weisse Weste der Daten Flecken kriegt?


von Luca Furrer

Der Mensch steht im Zentrum – besonders beim Thema Digitalisierung. Auf den ersten Blick erscheint dies paradox: Je mehr Digitalisierung, desto weniger braucht es den Menschen, würde man meinen. Schaut man jedoch genauer hin, ist das Gegenteil der Fall: Bei der Digitalisierung geht es ganz grundsätzlich um Daten und deren gewinnbringenden Einsatz. Diese Daten müssen jedoch erst einmal generiert werden. Und (unter anderem) hier kommt der Mensch ins Spiel. Eine künstliche Intelligenz (KI) schafft keine neuen Daten, sondern lernt auf Basis von vorhandenen Daten, die wir Menschen generiert haben. Wählen wir nun «unsaubere» Daten als Lerngrundlage für die KI, führt dies entsprechend zu unsauberen Ergebnissen.

Nehmen wir das Beispiel Bewerbungsprozess: Eine Studie der ETH Zürich, die das Verhalten von Recruitern auf der schweizweit grössten Job-Plattform «Job-Room» untersucht, kommt zum Schluss, dass (entgegen der Meinung vieler) die Digitalisierung die Diskriminierung im Bewerbungsprozess nicht verstärkt. Dies aufgrund des banalen Faktes, dass es die Diskriminierung im Bewerbungsverfahren schon lange vor dem Einsatz digitaler Hilfsmittel gab. Das sieht man zum Beispiel bei der Ethnie: Tauscht man das Foto, den Namen oder die Nationalität im CV aus – alle drei Informationen sagen nichts über die Qualifikation der Person für den Job aus – und ersetzt sie mit Informationen, die mit denjenigen des Recruiters übereinstimmen (gleiche Nationalität, gleiche Hautfarbe, ähnlich klingende Namen), steigt die Wahrscheinlichkeit, dass die Person für ein Gespräch eingeladen wird. Wenn man nun auf Basis dieses voreingenommenen Verhaltens einen Algorithmus trainiert, werden die Ergebnisse der KI ebenfalls unfair und «biased» sein.

Ängste in Bezug auf KI zielen meist darauf ab, dass sich eine künstliche Intelligenz verselbständigt und nicht mehr unter Kontrolle ist. Diese Angst hat einen wahren Kern – Stichwort «Black Box».

Springen wir von hier mal kurz in die Thematik «künstliche Intelligenz» und «Algorithmen». Die kritischen Stimmen gegenüber KI sind zwar nicht mehr so laut wie auch schon, verstummt sind sie aber noch lange nicht. Die Zweifel und Ängste zielen meist darauf ab, dass sich eine künstliche Intelligenz verselbständigt und nicht mehr unter Kontrolle ist. Diese Angst hat einen wahren Kern – Stichwort «Black Box». Eine Black Box ist dann entstanden, wenn man nicht mehr nachvollziehen kann, wie eine KI vom Input zu ihrem Output gekommen ist. In heiklen Bereichen, wie zum Beispiel dem oben genannten Bewerbungsprozess, müssen solche Black Boxes zwingend verhindert werden.

Ein Bias entsteht in den zugrundeliegenden Daten

Eine KI kann jedoch nicht einfach aus sich selbst heraus entstehen und ganz von allein lernen. Am Anfang jeder KI steht der Mensch, der dem Algorithmus anhand diverser Inputs vorgibt, was die KI lernen und wohin sie sich entwickeln soll. Wenn wir nun eine KI haben, die voreingenommene Entscheide fällt, müssen wir genau hinsehen, welche «Bias» schon bei den ganz ursprünglichen Daten und allenfalls auch bei den Programmiererinnen und Programmierern selbst vorhanden sind.

Zwei Beispiele dazu: Im Dokumentarfilm «Coded Bias» erzählt MIT-Absolventin Joy Boulamwini, wie sie eine Gesichtserkennungssoftware untersuchte und feststellte, dass die Gründer der Software alle weisse Männer waren. Natürlich hatten die Erfinder nicht die Absicht, eine voreingenommene oder gar rassistische Software zu programmieren. Sie trainierten die KI einfach mit den ihnen zur Verfügung stehenden Daten – vielleicht zuallererst mit Fotos von Freunden und Familien. Am Schluss hatten sie eine KI, die Gesichter von weissen Männern mit über 95-prozentiger Treffsicherheit erkennen konnte. Diejenigen von schwarzen Frauen aber nur mit knapp 70 Prozent. Wie gesagt: Es war mit grosser Wahrscheinlichkeit nicht die Absicht der Gründer, eine Software zu entwickeln, die Schwierigkeiten damit hat, Gesichter mit dunkler Hautfarbe zu identifizieren. Sie trainierten ihre KI einfach mit Daten, die nicht das gesamte Spektrum der Menschen abdeckte. Aus dieser Undifferenziertheit entstanden sogenannte «Bias» – Fehler im KI-System – die im weiteren Lernverlauf der künstlichen Intelligenz fatale Folgen haben können.

Ein weiteres Beispiel sind «Twitter-Trolle»: Bots, die auf der Messenger-Plattform «losgelassen» wurden und sich in kürzester Zeit zu Rassisten entwickelten. Wie kam es dazu? Ganz einfach: Sie lernten von dem, was bereits auf der Plattform war, verinnerlichten dies und wurden sozusagen zu Meistern ihres Fachs – in diesem Fall zu rechtsextremen Rassisten, die üble Hasstiraden verbreiteten. Alle Nachrichten entstanden auf Basis von Tweets, die ursprünglich von Menschen geschrieben worden waren. Das heisst, dass eine KI nicht von sich aus zum Rassisten oder zur Rechtsextremen wird, sondern einfach von uns Menschen lernt und das Gelernte adaptiert. Deshalb ist es so essenziell, mit welchen Daten ein Algorithmus trainiert wird. Sind diese Daten bereits «voreingenommen», sprich, nicht heterogen genug, kann eine davon lernende KI niemals unvoreingenommen handeln. Denn dazu bräuchte die KI ein Bewusstsein, wodurch sie ihre Handlungen hinterfragen kann. Da dies nicht der Fall ist, ist dies Sache von uns Menschen. Eine KI ist nur so gerecht und unvoreingenommen, wie wir es sind.

Die sogenannten «Twitter-Trolle» lernten von dem, was bereits auf der Plattform war, verinnerlichten dies und wurden sozusagen zu Meistern ihres Fachs – in diesem Fall zu rechtsextremen Rassisten, die üble Hasstiraden verbreiteten.

In den USA ist die Bundesbehörde «Federal Trade Commission (FTC)» solchen unlauteren Algorithmen, die aufgrund von «unsauberen» Daten keine fairen Entscheide fällen, auf der Spur. Ihre Arbeit deckte unter anderem auch unlauteres Verhalten beim Programmieren der App «Kurbo» auf (Quelle: Destroying personal digital data). Die Mitarbeitenden der FTC fanden heraus, dass einige Datensätze, auf denen die App basiert, illegal gesammelt wurden. Und zwar jene Daten von unter 13-jährigen Usern. Laut Gesetz hätten die Betreiber der App von diesen Usern eine Datenschutz-Zustimmung der Eltern gebraucht, diese hatten sie jedoch nicht eingeholt. Daher musste das Unternehmen hinter der Kurbo-App alle illegal gesammelten Daten sowie den Algorithmus, der mit diesen Daten arbeitete, vernichten.

Doch das ist einfacher gesagt als getan: Wenn man einen Algorithmus auf Basis von Datensätzen trainiert, gibt es nicht mehr einfach nur einen Datensatz, nach dem man suchen und den man dann einfach löschen könnte. Dieses Prinzip lässt sich gut an einem Malkasten demonstrieren: Wir haben drei kleine Farbtöpfe: Rot, Blau und Gelb. Damit wir nun eine grüne Wiese aufs Papier malen können, nehmen wir etwas blaue Farbe und mischen sie mit der gelben. Das Ergebnis ist uns etwas zu hell, also fügen wir noch Rot hinzu und bekommen einen dunkleren Grünton. Diese Farbmischung ist nun perfekt für unsere Wiese. Im Nachhinein können wir jedoch nicht mehr ganz genau sagen, wie viel Farbe wir von welchem Topf genommen haben, um genau dieses Grün zu erhalten. So ähnlich ist es auch mit den Datensätzen, die einem Algorithmus zugrunde liegen: Die Marketingabteilung nimmt beispielsweise einen Teil von Datensatz A und mischt ihn mit Datensatz B, während die Sales-Mitarbeitenden zu einem Teil von Datensatz A noch einen Teil von Datensatz C mischen und so weiter. So kann es sein, dass sich Daten aus einem bestimmten Datensatz in verschiedenen neuen Datensätzen und Algorithmen befinden. Spezifische Daten danach zu 100 Prozent verschwinden zu lassen, grenzt an eine Unmöglichkeit.

 

Abbildung 1: Einzelne Daten im Nachhinein aus allen Algorithmen zu löschen, ist schier unmöglich – wie das genaue Farb-Verhältnis in einem Gemälde nachzuvollziehen. (Photo Credit: Susan Wilkinson auf Unsplash)

WIE BAUEN WIR EIN SYSTEM, DEM MAN VERTRAUEN KANN?

Systeme, die auf Machine Learning oder anderen Formen der künstlichen Intelligenz basieren, übernehmen immer mehr wichtige Entscheidungen. Umso wichtiger, dass wir Systeme bauen, denen wir auch vertrauen können. Aber wie?

Dieser Artikel zeigt, dass es bei vertrauenswürdigen KI-Systemen auf die gleichen Qualitäten ankommt wie bei menschlichen Entscheidungsträgern.

Die Verantwortung liegt überall dort, wo Daten gesammelt werden

Neben dem schier unmessbaren Aufwand, spezifische Daten zu entfernen, wirkt sich ihre Löschung sowie der Verzicht auf einzelne Algorithmen auf die gesamte Anwendung bzw. auf das gesamte Nutzererlebnis aus. Die Betreiber der Kurbo-App mussten dies schmerzlich feststellen. Schmerzlich nicht nur wegen des schieren Aufwandes beim Löschen der Daten, sondern auch weil die behördlichen Sanktionen den Verlust eines wichtigen Wettbewerbsvorteils mit sich brachten. Denn gewisse Algorithmen sind für das Nutzererlebnis in der Anwendung oder auf der Plattform zuständig. Je besser dieser Algorithmus ist, desto besser wird auch das Nutzererlebnis – und schon hat man einen Wettbewerbsvorteil gegenüber der Konkurrenz.

Im Kern geht es also um die Daten, die zu 100 Prozent korrekt und so heterogen wie möglich sein sollen. Verantwortlich für diese lupenreinen Daten sind wir Menschen – denn ein Algorithmus hat weder ein Bewusstsein noch ein Gerechtigkeitsempfinden, wodurch das Einsetzen korrekter Daten befähigt wird. Obwohl es sich hier um ein Tech-Thema handelt, sind nicht nur die Programmiererinnen und Programmierer in der Pflicht, sondern auch alle Projektleiterinnen und CEOs – sprich, alle Stellen im gesamten Unternehmen, wo Daten gesammelt werden. So lohnt es sich beispielsweise auch als Marketing-Abteilung, sich zweimal zu überlegen, ob man die Consent-Hürde wirklich so tief wie möglich halten und dadurch möglichst viele Daten sammeln will, oder doch lieber sichergeht, dass die Daten, die man bekommt, auch ganz sicher nutzbar sind.

Die Programmiererinnen und Programmierer können ihrerseits den Lernprozess der KI überwachen und steuern, neue Daten überprüfen bzw. sich versichern, dass es «gute» Datensätze sind und so schauen, dass die Daten keine Flecken auf ihren weissen Westen kriegen. Sie können die KI auch regelmässig darauf prüfen, dass sie sich immer noch verhält wie erwartet und nicht abgedriftet ist.

Die Herausforderung einer fairen KI kann weder durch die Technikerinnen und Techniker noch durch das Management allein gemeistert werden. Sie benötigt eine Zusammenarbeit aller Beteiligten und begleitet die KI vom Projektstart bis an ihr Lebensende.

Deine Ansprechperson

MEHR TECH-THEMEN:

TechTalk
Data Analytics Machine Learning

7 Habits zur Verkürzung der Time-to-Value im Process Mining
TechTalk
KI im Business Data Analytics Machine Learning

Wie können Banken wirklich KI-getrieben werden?
TechTalk
KI-Ethik KI im Business

TechTalk Audio: Responsible AI & ChatGPT
Gelesen