de en
Zurück

Online Magazine

Selektive Trainingsdaten für eine ethische KI

Wie macht man KI-Systeme ethischer? KI-Ethiker Thilo Hagendorff von der Universität Tübingen plädiert für ein Machine Learning Training, das auf vorselektierten Daten aufbaut. Small Data statt Big Data, ein beabsichtigter Bias. Denn nur so können wir KI in die Richtung bewegen, in die wir sie haben wollen.

Mit Thilo Hagendorff sprach Eliane Eisenring

KI nimmt heutzutage fast jeden Lebensbereich ein und ihr Wirkungsbereich wächst. Wie dringend ist die Debatte zur ethischen Ausrichtung von KI?
Die Tatsache, dass hier eine Technologie in viele Lebensbereiche gleichzeitig eindringt, sorgt tatsächlich für eine gewisse Dringlichkeit. KI-Systeme kommen ja auch zunehmend in sogenannten High-Stakes-Bereichen zum Einsatz, zum Beispiel in der Medizin, im Strassenverkehr oder im Polizeiwesen. Sofern wir dort die Entscheidungsfindung Computern überlassen wollen, ist es wichtig, dass entsprechende Überprüfungen dieser Systeme stattfinden. In der EU passiert das gerade, und das ist sicher positiv zu bewerten.

Es gibt viele Stimmen, die Bedenken äussern, wenn es um KI und Ethik geht. In Ihrem Paper «Linking Human And Machine Behavior» zeigen Sie, statt nur Missstände anzuprangern, effektiv Wege auf, wie man KI ethischer machen kann.
Ich spreche mich dafür aus, dass KI-Ethik nicht nur als eine Disziplin gesehen wird, die rote Linien zieht oder moralische Verbote ausspricht. Ethik kann auch positive Visionen entwickeln und konkret umsetzbare Vorschläge dafür machen, wie man zu einer guten Technikentwicklung kommen kann.

Ihr Ansatz baut darauf auf, dass Maschinen darauf trainiert werden, dem allgemeinen Wohl zu dienen, richtig?
Ja, es geht um eine sozialverträglichere Technikgestaltung. Maschinelles Verhalten ist sehr stark das Produkt der Daten, mit denen die Systeme trainiert werden. Das ist ähnlich wie bei uns Menschen: Wir bekommen Reize von aussen und die bestimmen ein Stück weit, wie wir uns verhalten. Bei KI-Systemen, die in den Bereich des überwachten maschinellen Lernens fallen, ist es genauso.

Maschinelles Verhalten ist sehr stark das Produkt der Daten, mit denen die Systeme trainiert werden. Es ist ähnlich wie bei uns Menschen: Wir bekommen Reize von aussen und die bestimmen ein Stück weit, wie wir uns verhalten.

Oder anders gesagt: Die Performance einer KI hängt von der Qualität der ihr verabreichten Daten ab. Wie wird Datenqualität heutzutage definiert? Und wie sollte Sie Ihrer Meinung nach definiert werden?
Derzeit werden Daten vor allem dahingehend ausgesucht, dass sie einem bestimmten Geschäftszweck dienen und die Qualitätskriterien sind technisch – wie aktuell sind die Daten, wie viele Fehler hat es im Datenset, wie lesbar sind sie, und Ähnliches. Ausserdem fokussiert man darauf, enorme Datenmengen zum Training zu benutzen – theoretisch alle Daten, die man aus einem bestimmten Bereich irgendwie sammeln kann.
Ich plädiere nun dafür, dass man nicht diesen, abgesehen von technischen Überlegungen, «bigger is better» Ansatz weiterverfolgt, sondern dass man anfängt, stärker qualitativ zu selektieren. Dass man Daten, sofern es sich um Verhaltensdaten handelt, unter ethischen Aspekten aussucht und nur von bestimmten Subpopulationen benutzt, nämlich von denjenigen Personen, die ein Verhalten zeigen, das aus ethischer Perspektive wünschenswert ist.

Haben Sie dafür ein Beispiel?
Nehmen wir nachhaltiges Konsumverhalten: Bei einer Online-Shopping-Plattform habe ich viele Machine Learning Systeme, die Produkte ranken oder vorschlagen und die eventuell Preise dynamisch anpassen. Jetzt habe ich zwei Möglichkeiten: Entweder ich trainiere diese Algorithmen auf dem Einkaufsverhalten aller Menschen oder ich identifiziere ein bestimmtes Kundensegment, von dem ich durch Tracking weiss, dass sie ein eher nachhaltiges Konsumverhalten haben und nutze nur die Verhaltensdaten dieser Subpopulation, um meinen Rankingalgorithmus zu trainieren. Das bedeutet am Ende, dass nachhaltigere Produkte ein höheres Ranking bekommen oder eher empfohlen werden oder ähnliches.

Diese Selektierung führt dazu, dass man Small Data statt Big Data zum Training verwendet: Ist Big Data für Machine Learning nicht das non plus ultra?
Nicht zwingend – Es gibt bereits viele technische Ansätze und Verbesserungen, wie Lernen auch mit weniger Daten stattfinden kann.
Ausserdem hat Big Data auch Nachteile: Viele Datenspuren, die man sammelt, sind einfach beiläufig benutzt worden, und häufig sind die Daten auch nicht exakt zu dem Zweck gesammelt worden, für den sie dann später verwendet wurden. Man sammelt einfach und sammelt und sammelt und zieht dann Schlüsse aus Daten, die man nebenbei aus Apps und weiss ich nicht was alles gezogen hat.

Ich plädiere dafür, dass man nicht diesen «bigger is better» Ansatz weiterverfolgt, sondern dass man anfängt, stärker qualitativ zu selektieren. Dass man Daten von Personen benutzt, die ein aus ethischer Perspektive wünschenswertes Verhalten zeigen.

Man könnte sagen, selektive Daten, wie Sie sie vorschlagen, führen zu einem Bias. Ist das nicht problematisch?
Innerhalb des KI-Feldes ist Bias etwas Schlechtes, etwas, das man vermeiden soll, weil es zu algorithmischer Diskriminierung führt. Ich finde aber, wir sollten Biases als etwas Ambivalentes sehen und nicht als etwas pur Negatives. Wir können uns ja auf einen absichtlichen Bias einigen, der auch zu einer Diskriminierung führt, aber zu einer, die aus ethischer Perspektive wünschenswert ist.

Biases sind also nur kritisch, wenn sie entstehen, ohne dass wir das wollen?
Richtig. Derzeit nehmen wir Verhaltensdaten, wo wir sie eben herbekommen können und dann sind zufällig irgendwelche Biases in den Daten drin, und zwar diejenigen, die auch in der Gesellschaft vorherrschend sind. Ich würde nun sagen: Lasst uns diese Trainingsdaten vorselektieren, damit sie Biases repräsentieren, die wir auch wollen, zum Beispiel den Bias, dass in Textdaten möglichst wenige Beleidigungen drin sind. Oder denjenigen, dass in Onlineshops Produkte bevorzugt werden, die nachhaltig sind.

Wer bestimmt denn, was ein wünschenswerter Bias ist?
Das ist eine legitime Frage, die auch oft kritisch gestellt wird, vor allem in Bezug auf zugespitzte Fälle, in denen es ein Dilemma gibt – wen soll das Auto überfahren: Das Kind oder die ältere Frau? Mehrheitlich geht es aber um Anwendungen, bei denen wir ohnehin einen kulturellen Konsens haben. Wir sind uns zum Beispiel darüber einig, dass wir möglichst sichere autonome Autos haben wollen, oder darüber, dass Nachhaltigkeit wichtig ist. Entsprechend können wir KIs auf Werte wie Sicherheit oder Nachhaltigkeit trainieren.

Ich finde, wir sollten Biases nicht als etwas pur Negatives sehen. Wir können uns ja auf einen absichtlichen Bias einigen: Zum Beispiel darauf, dass wir möglichst sichere autonome Autos haben wollen, oder dass Nachhaltigkeit wichtig ist. Entsprechend können wir KIs auf Werte wie Sicherheit oder Nachhaltigkeit trainieren.

Ihr Ansatz setzt voraus, dass Unternehmen, wie e-commerce Plattformen, moralische über monetäre Interessen setzen. Halten Sie das für realistisch?
Ethisch gebotene Handlungen widersprechen nicht selten ökonomischen Imperativen. Die Frage ist dann, welcher Logik man folgt. Dass die Priorisierung ethischer Richtlinien in manchen Fällen unrealistisch ist, sollte uns nicht davon abhalten, diese Forderungen zu stellen.

Das Thema Social Responsibility, welches Sie hier ansprechen, ist ja nicht mehr ganz neu in der Business-Welt ...
Ja, das ist dort mittlerweile auch angekommen. Am Ende des Tages muss man sich fragen, was die absolut übergreifenden Werte sind – etwa Frieden, Sicherheit, Nachhaltigkeit – und wenn wir immer nur ökonomischen Massstäben nachfolgen, dann kompromittieren wir diese anderen Werte, die menschliches Leben lebenswert machen.

In Ihrem Paper erwähnen Sie Facebook: Da gab es bezüglich KI-Training kritische Stimmen, die man einfach überstimmt beziehungsweise ignoriert hat.
Es gab den Vorschlag, die Verhaltensdaten von sogenannten Superusern aus den Berechnungen auszuschliessen, sodass sie nicht mehr ins Training der KI einfliessen, und der ist scheinbar von Facebook abgelehnt worden. Hier gilt immer noch die Maxime: Viel Interaktion mit dem Feed sorgt für viel Werbewert. Aber gerade bei Facebook ist es essentiell, dass man sich der enormen Schäden, die durch diese Plattform in der Gesellschaft entstehen, endlich bewusst wird. Mit grosser Macht kommt grosse Verantwortung. Da ist das Monetäre nicht mehr alles.

Ethiker warnen ja davor, dass Ethik als rein kosmetische Etikette gebraucht wird, hinter der sich Unternehmen verstecken können.
Es gibt tatsächlich viele Fälle, in denen KI-Ethik eine Art Feigenblatt-Funktion hat. Man präsentiert eine Ethikkommission oder -richtlinie gegenüber der Öffentlichkeit, um kritische Stimmen zu beruhigen. Faktisch wird aber «business as usual» betrieben.
Die Kritik von Forscherinnen und Forschern geht aber noch weiter: Die ständige Berufung auf Ethikrichtlinien ist eigentlich ein Abwehrmechanismus gegenüber rechtlichen Normen. Man will sie verhindern, indem man auf interne Governance-Mechanismen verweist und dadurch bindende KI-Gesetze als überflüssig abstempelt.

Sie erwähnten eingangs die EU: Diese arbeitet derzeit an einem Artificial Intelligence Act. Wie bewerten Sie das?
Das ist ein ziemlich grosser Schritt, denn dieser Act wird zumindest für Europa eine bindende Regulierung für KI-Systeme bringen, mit entsprechenden Verboten für Anwendungen mit unakzeptablem Risiko, wie biometrische Gesichtserkennung von Personen in Echtzeit. Ich kann mir vorstellen, dass dies globale Auswirkungen haben wird – ähnlich wie die Datenschutzgrundverordnung, mit der Europa eine gewisse Vorreiterrolle eingenommen hat. Gerade grosse Unternehmen wollen ihre Produkte für verschiedene Märkte optimieren und da macht es Sinn, sich von vorneherein an die höchsten Rechtsstandards anzupassen.

Die ständige Berufung auf Ethikrichtlinien ist eigentlich ein Abwehrmechanismus gegenüber rechtlichen Normen. Man will sie verhindern, indem man auf interne Governance-Mechanismen verweist und dadurch bindende KI-Gesetze als überflüssig abstempelt.

Um zurück zu Ihrer Arbeit über ethisches Machine Learning zu kommen: Sind Sie aktuell in Projekte involviert, die ein Training durch den von Ihnen geschilderten Ansatz einsetzen?
Ich plane etwas in der Richtung, bin allerdings noch nicht dazu gekommen. Ich weiss aber, dass es in der Autoindustrie bereits gemacht wird: Verhaltensdaten werden darauf selektiert, dass nur die Daten derjenigen Autofahrerinnen und Autofahrer benutzt werden, die im manuellen Modus ein Verhalten zeigen, dass man als sicher bezeichnen kann.

Eine philosophische Frage zum Schluss: Sie schreiben, dass Maschinen nur so moralisch sind, wie die Daten, die sie bekommen und wie die Menschen, die diese Daten generieren. Ist die Ethik-Diskussion rund um KI also eigentlich eine Diskussion um die Notwendigkeit der Ausweitung ethischen Verhaltens im Allgemeinen?
Das kann man durchaus so sehen. Interessanterweise ist sich momentan kaum jemand bewusst, wie häufig er oder sie einen Beitrag dazu leistet, eine KI zu trainieren. Wenn ich irgendwo einen Kommentar voller Schimpfwörter hinterlasse, wird der mit sehr hoher Wahrscheinlichkeit Teil von Trainingsdaten und die bestimmen dann das maschinelle Verhalten irgendwelcher Anwendungen. Wenn man sich bewusst ist, dass wir alle die «Lehrer» von KI-Systemen sind, könnte man sagen, dass jeder eine – zwar sehr geringe, aber nichtsdestotrotz existierende – Teilverantwortung trägt, wie sich diese Systeme schlussendlich verhalten. Und diese Verantwortung ernst zu nehmen, hiesse, dass man mit Computern auf eine Weise interagiert, die einer gewissen ethischen Überprüfung standhält.

Zur Person

Der 34-jährige Thilo Hagendorff forscht seit 2014 an der Universität Tübingen zu Machine Learning und KI-Ethik. Hagendorff ist Autor mehrerer Sachbücher und unzähliger anderer Fachbeiträge zum Thema künstliche Intelligenz und Ethik: Allein 2021 hat er zehn wissenschaftliche Publikationen (mit-)verfasst. In seiner Freizeit setzt der Baden-Württemberger sich ebenfalls für ethisches Verhalten ein – gegenüber Tieren. Hagendorff ernährt sich seit 14 Jahren vegan, gleichzeitig fährt er Radrennen, am liebsten Mountainbike- oder Ultraradmarathons.

IN GESPRÄCHSLAUNE? MEHR GESPRÄCHSPARTNER FINDEST DU HIER:

Im Gespräch mit
Nachhaltigkeit KI in der Forschung Machine Learning KI

KI verscheucht Wölfe
Im Gespräch mit
AI for good KI in der Forschung Machine Learning

KI überwacht bewaffnete Konflikte
Im Gespräch mit
Nachhaltigkeit AI for good KI in der Forschung KI

KI & das Klima
Gelesen