Explainable Artificial Intelligence (XAI): Wie Machine-Learning-Vorhersagen interpretierbar(er) werden

Fachbeitrag RISC Software GmbH

21.10.2022

Künstliche Intelligenz ist auf künstliche neuronale Netzwerke zurückzuführen, die dem menschlichen Gehirn nachempfunden sind. In bestimmten Situationen ist es notwendig, die Entscheidungsgrundlage der Modelle aus dem Bereich Deep-Learning für Vorhersagen erklären zu können.

Sie unterstützt uns bei der Wahl unserer Kleidung, erleichtert uns die Kommunikation über Sprachbarrieren hinweg, assistiert uns beim Fahren und vereinfacht die Navigation. All diese Bereiche durchdringt Künstliche Intelligenz (KI) und ist damit aus unserem Alltag nicht mehr wegzudenken. Künstliche Intelligenz ist großteils auf tiefe, künstliche neuronale Netzwerke zurückzuführen, die dem menschlichen Gehirn nachempfunden sind. Welche Faktoren für die Vorhersagen entscheidend sind, bleibt dabei meist im Dunkeln. Modelle aus dem Bereich Deep-Learning sind aufgrund ihrer Architektur zwar oft einsehbar, aber nicht interpretierbar (sog. Black Boxes). Das bedeutet, dass Modellvorhersagen und daraus abgeleitete Entscheidungen von Menschen ohne zusätzliche Software nicht nachvollzogen werden können. In bestimmten Situationen ist es jedoch notwendig, die Entscheidungsgrundlage der Vorhersage erklären zu können.

Wird beispielsweise über ein Machine-Learning- (ML-) Modell die Bewilligung eines Kredits entschieden, sind die Beweggründe, die für bzw. gegen die Bewilligung sprechen, durchaus wichtig. Ein weiterer Bereich, in dem die Transparenz von KI-Systemen gefordert wird, ist die Medizin. Fachexpert:innen sollten sich keinesfalls blind auf die Vorhersagen eines ML-Modells verlassen, denn diese sind nicht immer korrekt. Das Vertrauen in das Modell kann jedoch gestärkt werden, wenn die Faktoren, die für die Entscheidung des Modells signifikant waren, offengelegt werden können und damit Nachvollziehbarkeit bzw. Transparenz gegeben ist (siehe auch Fachbeitrag “Vertrauen in die Künstliche Intelligenz”). Welche technischen Methoden zur besseren Interpretation der Modellentscheidungen zum Einsatz kommen können, wird in diesem Fachartikel am Beispiel eines Textklassifikators im medizinischen Bereich gezeigt.

Use-Case: KI als Unterstützung bei der Diagnosefindung

Im medizinischen Bereich ist die Diagnose einer Krankheit ein wichtiger Teil des täglichen Arbeitsablaufs. Die “International Statistical Classification of Diseases and Related Health Problems” (ICD) wird weltweit verwendet, um Diagnosen eindeutig zu kategorisieren. ICD-Codes sind hierarchisch organisiert und werden in 19 Krankheitskapitel eingeteilt. Jedes Kapitel besteht aus mehreren Kategorien, welche sich wiederum in Subkategorien unterteilen. Wird ein Bericht über eine Diagnose erstellt, muss diesem ein ICD-Code zugeordnet werden. Die Zuordnung der ICD-Codes erfordert aufgrund der Komplexität und Vielfältigkeit umfangreiches Domänen-Wissen und wird daher von Personen mit medizinischer Expertise vorgenommen. Dieser Prozess ist zeitaufwändig und teuer, kann aber mithilfe von Techniken des maschinellen Lernens effizienter gestaltet werden. Dazu wird ein Modell speziell darauf trainiert, einen ICD-Code basierend auf einer textuellen Beschreibung (z.B. Anamnese oder Entlassungsbericht) vorherzusagen. In einem weiteren Schritt sollen die treibenden Faktoren für die Modellentscheidung identifiziert werden, bspw. indem die aussagekräftigsten Teile des Textes markiert werden. Um eine solche Erklärung zu generieren, gibt es verschiedene Möglichkeiten. Nicht immer ist klar, welche Technik am besten für den konkreten Anwendungsfall geeignet ist. Auch das verwendete Modell spielt hier eine entscheidende Rolle. Erklärmethoden lassen sich dazu in zwei Kategorien einteilen: modell-agnostische Erklärmethoden können die Vorhersage eines beliebigen Modells erklären, modell-spezifische sind auf die Erklärung der Vorhersage von bestimmten Modellen spezialisiert.

Wie sieht die Erklärung einer Vorhersage aus?

Eine Erklärung kann unterschiedliche Formen annehmen und ist abhängig von den verwendeten Daten. Soll beispielsweise die Vorhersage zu einem Bild erklärt werden, werden die relevanten Bildbereiche markiert. Bei tabellarischen Daten wird die Stärke des Beitrags durch die Wichtigkeit der Spalten (sog. “Features”) bewertet. Im konkreten Anwendungsfall zur Interpretation der Diagnosevorhersagen basierend auf Textdaten liegt die Erklärung in der Gewichtung einzelner Textteile oder Wörter – je ausschlaggebender ein Wort für die Vorhersage des Modells war, desto höher ist das Gewicht.

Zwei der am häufigsten eingesetzten modell-agnostischen Erklärmethoden sind LIME und SHAP. Die Vorgehensweise, wie die Gewichtung der Eingabedaten erfolgt, ist bei LIME und SHAP unterschiedlich und wird im nachfolgenden exemplarisch vorgestellt.

LIME

LIME steht für Local Interpretable Model-Agnostic Explanations [1]. “Local” bedeutet in diesem Kontext, dass LIME nicht das gesamte Modell erklärt, sondern nur eine Vorhersage des Modells. Die von LIME generierte Erklärung ist damit nicht für jeden beliebigen Eingabewert gültig, sondern muss für jeden Eingabewert explizit erzeugt werden. “Interpretable” bedeutet, dass die von LIME erzeugte Erklärung – im Vergleich zu den internen Zuständen des zugrundeliegenden Modells – besser interpretierbar für den Menschen ist. “Model-Agnostic” bezeichnet eine Erklärmethode, die unabhängig von der Architektur für jedes beliebige Vorhersagemodell eine Erklärung generieren kann. “Explanations” steht für die von LIME gelieferte Erklärung.

LIME erstellt auf Basis der gegebenen Eingabedaten neue, leicht veränderte Instanzen der Eingabedaten. Die ursprünglichen Eingabedaten werden dabei pertubiert (d.h. modifiziert, indem gewisse Wörter bzw. Wortteile zufällig oder nach einem vorgegebenen Schema entfernt werden). Ist der Eingabetext beispielsweise “the patient suffers from severe headaches”, wäre ein pertubiertes Sample “the patient suffers from headaches” oder “patient suffers headaches”. Diese pertubierten Eingabedaten werden dann verwendet, um ein einfacheres Modell zu erstellen, welches als sog. White-Box-Modell dient und die Vorhersage des Black-Box-Modells erklären kann. In Abbildung 1 wird die Funktionsweise von LIME vereinfacht dargestellt.

SHAP

SHAP verwendet einen anderen Ansatz, um eine Vorhersage zu erklären. Die Basis hierfür bilden die sog. Shapleywerte von Lloyd S. Shapley [2] aus der Spieltheorie. Ziel ist es, Spieler:innen in einem Spiel einen Anteil zuordnen zu können, gemessen an dem Beitrag des:der jeweiligen Spieler:in zum Spiel. Es ist beispielsweise möglich, dass zwei Spieler:innen A und B gemeinsam einen sehr guten Profit erreichen können. Spielen jedoch Spieler:in A und C zusammen, ist der Profit geringer. Um den individuellen Beitrag der Spieler:innen berechnen zu können, wird jede mögliche Kombination getestet. Diese Vorgehensweise kann auch für die Vorhersage eines ML-Modells verwendet werden. Ein:e Spieler:in ist ein Teil der Eingabewerte, der generierte Profit ist die Veränderung der Vorhersagewahrscheinlichkeit. Die Berechnung für jede mögliche Kombination an Teilen der Eingabewerte ist innerhalb einer angemessenen Laufzeit jedoch nicht möglich. Wie diese Problematik gelöst wurde, kann im originalen Paper „A Unified Approach to Interpreting Model Predictions“ von Lundberg und Lee [3] nachgelesen werden.

Welche Erklärmethode ist besser?

Eine Bewertung, welche Erklärmethode “besser” ist, kann immer nur im Kontext eines spezifischen Anwendungsfalls evaluiert werden. Erklärmethoden können miteinander verglichen werden, indem Personen mit Expertise für die jeweilige Domäne zurate gezogen werden, welche die generierten Erklärungen bewerten. Es gibt allerdings auch Ansätze, um Erklärmethoden miteinander vergleichen zu können, ohne Fachpersonal zu benötigen [4], da dieses nicht immer zur Verfügung steht. Dazu werden unterschiedliche Eigenschaften bewertet, u. a. folgende:

Die Effizienz einer Erklärmethode kann bewertet werden, indem die benötigte Zeit, um eine Erklärung zu generieren, gemessen wird.
Darüber hinaus sollen die generierten Erklärungen stabil sein. Stabilität bedeutet in diesem Kontext, dass, wenn die Erklärmethode mehrere Erklärungen mit demselben Eingabewert generiert, diese Erklärungen möglichst ähnlich sein sollten.
Am spannendsten ist wohl die Frage, ob die generierte Erklärung aussagekräftig ist. Mit anderen Worten, wie effektiv ist die Erklärung der Erklärmethode?

Unsere Erfahrung am Anwendungsfall des ICD-Klassifikators hat gezeigt, dass im Vergleich auf Effizienz, Stabilität und Effektivität SHAP verglichen mit LIME effizienter, stabiler und effektiver ist. LIME ist gut geeignet, um das “wichtigste” Wort in einem Text zu finden. Nachteilig ist, dass die von LIME generierte Erklärung durch die Pertubation des Inputtextes stark variiert und damit nicht immer verlässlich ist. Zusätzlich ist die Laufzeit von SHAP im Vergleich zu LIME geringer.

Fazit

Eine Erklärung für die Vorgänge in ML-Modellen kann in bestimmten Bereichen nützlich, in anderen notwendig sein. LIME und SHAP bieten die Möglichkeit, einen Einblick in die Funktionsweise von ML-Modellen zu erhalten. Obwohl auch die Erklärmethoden nicht immer vollständig und genau sind, können sie Endanwender:innen in vielen Fällen durch einfache Hervorhebungen in Texten oder Bildern bei der Überprüfung der ML-Vorhersagen unterstützen.