KI bewerten: Confusion Matrix und Capture Rate Tables

Die letzten Jahre haben uns allen eindrucksvoll vor Augen geführt, welche Folgen KI-Anwendungen für unser nicht nur berufliches, sondern auch alltägliches Leben haben können. Die rasante Verbreitung von ChatGPT und anderen Large Language Models ist nur das wohl prominenteste Beispiel für eine sich mehr und mehr durchsetzende Entwicklung.

Hinter diesen KIs stecken immer auch Algorithmen, Regelbücher nach denen ein Computer seine Entscheidungen trifft. Bevor man aber als Entwicklerteam bei einem Algorithmus ankommt, der alle zufriedenstellt, sind meistens viele andere Versionen ins Land gezogen. Immer wieder müssen verschiedene Algorithmen miteinander verglichen werden und bewertet, welcher die besseren Ergebnisse erzeugt. Wichtig dabei: sogenannte Confusion Matrix und Capture Rate Tables.

Genau an dieser Stelle siedelt sich eines unserer Projekte an. Wir haben gemeinsam mit einem Partner aus der Industrie ein digitales Tool entwickelt, dass eben diese Bewertung einfacher machen. Wie? Im Wesentlichen durch übersichtliche, modulare Darstellungsmöglichkeiten der Ergebnisse. Wie das alles funktioniert und wieso wir solche Lösungen für Unternehmen aller Größen als sinnvoll erachten, lest ihr in diesem Artikel.

Algorithmen als Kern

Algorithmen sind zentral, wenn es um KI geht. Sie sind das Set an Regeln, nach dem Entscheidungen getroffen werden, Sätze formuliert, Elemente erkannt und vieles mehr. In unserem Fall handelt es sich um Bilderkennungsalgorithmen und die Anwender interessiert besonders, wie gut einer von vielen Algorithmen denn nur die relevanten Merkmale eines Bildes erkannt hat. Man könnte sagen, es geht um Qualitätskontrolle im Entwicklungsprozess. Zum besseren Verständnis ein Beispiel:

Knowledge Discovery und Brezeln

Ein Bäcker hat besonders hohe Ansprüche an die Optik der Brezeln, die seine Manufaktur verlassen. Es sind aber schlichtweg zu viele Brezeln, um sie alle selbst in Augenschein zu nehmen. Daher möchte er eine Qualitätskontrolle für die Brezeloptik einführen, die automatisiert läuft. Er braucht also eine Computervision-Lösung. In der Praxis heißt das, von jeder Brezel wird ein Bild erstellt, das dann automatisiert geprüft wird.
Der Bäcker kennt sich aber selbst mit alledem nicht aus, er beauftragt lieber ein Team von KI-Experten. Jetzt haben die aber natürlich wenig Ahnung von Brezeln, müssen sich also zunächst das zugehörige Domänenwissen erschließen. Dahinter steckt die etwas philosophisch anmutende Frage: Was ist eine Brezel? Man kann hier von einer Ontologie sprechen. Der Begriff stammt eigentlich aus der Philosophie und beschreibt die Lehre vom Sein. Er hat aber auch in der Informatik eine Bedeutung. Dabei geht es um in Sprache gefasste formale Beziehungen zwischen Objekten. Anhand des Brezel-Beispiels könnte man sagen: Eine Brezel ist ein Objekt, das aus Teig, Lauge und Salz besteht. Und der Teig besteht dann wiederum aus Dingen. Außerdem aber hat eine Brezel eine Form, Größe et cetera.

Wenn wir von Wissensmodellierung sprechen, meinen wir die systematische Erkundung eines Objektes oder Themas, oder eben die Ontologie eines Objektes. Eine Brezel besteht also aus ganz verschiedenen Elementen, die alle am Ende zu ihrem Aussehen beitragen. Wenn man diese Aspekte technologisch überprüfen will, entwickelt man am besten einen Algorithmus pro Aspekt. Das heißt, einen Algorithmus für den Bräunungsgrad, einen für die Salzstreuung und so weiter.

Die KI bewerten können

Woher wissen nun der Bäcker und insbesondere die KI-Experten, ob die Algorithmen gut arbeiten? Dafür müssen Brezelbilder gelabeled werden. Was heißt das? Das Wissen des Bäckers muss für Computer verständlich werden, sozusagen in Maschinensprache übersetzt. Computer brauchen Zahlen und Kennwerte, anhand welcher sie dann Bilder klassifizieren können. Das könnte dann etwas so aussehen:

Man erstellt also von Hand einen Testdatensatz, mit dem Wissen des Bäckers. Ausgehend von diesem kann das Team nun messen, wie leistungsfähig die Algorithmen sind. Die dahinter stehende Frage lautet immer: Erkennt der Algorithmus einen Aspekt, z. B. Die Salzmenge korrekt? Also: Wenn die Brezel faktisch genug Salz hat, wird sie auch so eingeordnet? Dazu lässt man den Algorithmus die Testdaten einmal selbst klassifizieren.

Knowledge Discovery

Dann beginnt ein Prozess, der auch Knowledge Discovery genannt wird. Inmitten der vermutlich großen Menge an Daten, die ein oder mehrere Algorithmen nun produziert haben, stecken wertvolle Erkenntnisse für die Verbesserung eben dieser.

Um die Antwort auf diese Fragen übersichtlich darzustellen gibt es sogenannte Confusion Matrixes.

Confusion Matrix

Eine Confusion Matrix ist meistens eine Vier-Felder-Tabelle. Die Zeilen repräsentieren die tatsächlichen Klassen der Datenpunkte, also z. B. die Brezel hat faktisch die gewünschte Salzmenge. Die Spalten wiederum repräsentieren die vom Modell vorhergesagten Klassen der Datenpunkte, also z. B. laut Modell hat die Brezel die gewünschte Menge an Salz abbekommen. Jeder bewertete Fall (z. B. 20 Brezeln) wird in eines der vier Felder eingeordnet.

	Tatsächlich Positiv	Tatsächlich negativ
Vorhergesagt Positiv	True Positive (9)	False Positive (3)
Vorhergesagt Negativ	False Negativ (2)	True Negative (6)

Schematische Darstellung einer Confusion Matrix, mit 20 eingeordneten Brezeln

Fälle einer Confusion Matrix

Die Matrix kennt vier Fälle:

True Positive (TP): Fälle, die korrekt als positiv klassifiziert wurden. Beispiel: Die Brezel hat die gewünschte Menge Salz und wurde auch so eingeordnet.
True Negative (TN): Fälle, die korrekt als negativ klassifiziert wurden. Beispiel: Die Brezel hat nicht die gewünschte Menge Salz und wurde auch so eingeordnet.
False Positive (FP): Fälle, die fälschlicherweise als positiv klassifiziert wurden. Beispiel: Die Brezel hat nicht die gewünschte Menge Salz, wurde aber als solche eingeordnet.
False Negative (FN): Fälle, die fälschlicherweise als negativ eingeordnet wurden. Beispiel: Die Brezel hat die gewünschte Menge Salz, wurde aber eingeordnet, als hätte sie diese nicht.

Ausgehend von diesen vier Bezeichnungen lassen sich verschiedene Kennwerte berechnen. Die werden wir jetzt hier nicht alle ausführen, aber einen schon: die Genauigkeit oder im Englischen Precision. Die beschreibt den prozentualen Anteil aller korrekt klassifizierten Fälle im Verhältnis zur Gesamtfallzahl. Als Formel:

Accuracy = (TP + TN) / (TP + TN + FP + FN)

Die Accuracy gibt Anwendern einen guten allgemeinen Eindruck darüber, wie gut einzelne Elemente eines Datensatzes von einem Algorithmus vorhergesagt werden können. Schön und gut, aber unser Bäcker bzw. Algorithmusentwickler wollen ja genauer wissen, wann ihr System gut funktioniert und wann nicht. Da kommt die Capture Rate Table ins Spiel.

Capture Rate Table

Die eben erklärte Confusion Matrix kann als Vorstufe für eine Capture Rate Table dienen. In dieser etwas größeren Tabelle werden zwei Variablen, die von Interesse sind, miteinander ins Verhältnis gesetzt, genau genommen werden all ihre Merkmalsausprägungen auf X- und Y-Achse aufgetragen. Es geht wieder um das Salz, jetzt aber nicht nur um die Menge. Eine Capture Rate Table könnte wie folgt aussehen:

In den farbig hinterlegten Feldern sehen wir nun die jeweiligen Accuracy, für unterschiedliche Verteilungen und wie gut dann die Unterschiede in der Menge erkannt werden. Wir sehen, dass je gleichmäßiger die Verteilung ist, desto besser erkennt das Algorithmus Abweichungen des Salzes, über alle Salzfehler hinweg. Bei ungleicher Verteilung werden Abweichungen nach oben hin besser erkannt, als fehlendes Salz.

Und diese Informationen sind nun von einer Qualität, dass das Entwicklerteam daraus Schlüsse ziehen kann. Es sollte in der Produktion z. B. hohen Wert auf eine gleichmäßige Verteilung gelegt werden, weil damit automatisch Fehler bei der Salzmenge reduziert werden könnten. Diese Info kann der Bäcker nun in seine Produktion miteinfließen lassen.

Capture Rate Tables haben den Vorteil, dass sie grundsätzlich simpel zu verstehen sind. Tabellen kennen wir alle, da ist kein Einarbeiten nötig. Arbeitet man mit Farbcodes und beachtet bei der Entwicklung solcher Tools intuitive Schlüsse, können aus Millionen Datenpunkte ganz einfache Aussagen werden, wie: Achte auf die Verteilung, sonst wird das mit dem Salz erst recht nichts. Diese Qualität an Aussagen aus ursprünglich abstrakten, unübersichtlichen Daten zu holen, ist ein möglicher Einsatz für ein Knowledge Discovery Tool, wie wir es entwickeln.

Tiefer in die Daten

Aber da steckt ja vielleicht noch mehr dahinter. Man könnte sich nun ein Feld aus der Tabelle genauer anschauen.

Das Team hat, dank etabliertem Domänenwissen, eine Vermutung. Es könnte am Bräunungsgrad der Brezeln liegen. Die Capture Rate Table erlaubt nun ein Filtern all dieser Brezeln, die ein Gramm Salz zu viel haben und einen Verteilungsgleichmäßigkeit von 50%. Den Bräunungsgrad all dieser betreffenden Brezeln könnte man dann zum Beispiel in einem Balkendiagramm darstellen lassen.

Und wie vermutet, der Bräunungsgrad scheint einen Einfluss zu haben. Viele der Brezeln aus dieser Sammlung sind deutlich zu hell. Daraus kann das Entwicklerteam nun eine Optimierungsstrategie ableiten: Der Algorithmus muss besser darin werden, Salz auf hellem Hintergrund zu erkennen.

Interdisziplinäre Innovation

Wenn man dann durch solche Schritte irgendwann einen gut funktionierenden Algorithmus entwickelt hat, so lässt sich dieser für verwandte Fragestellungen einsetzen, beispielsweise Sesambrötchen. Für die lassen sich ähnliche Aspekte und Kennzahlen festhalten wie für Brezeln. So lässt sich so manche Innovation erschaffen, die über die Grenzen traditioneller Disziplinen hinaus geht. Die Arbeit mit KI ist sowieso immer interdisziplinär, da Mathematik, Data Science, Informatik und auch immer das Anwendungsgebiet, in unserem Beispiel das Backhandwerk, produktiv zusammenarbeiten müssen – sonst sind KI-Projekte zum Scheitern verurteilt. Wer’s aber richtig macht, der generiert Mehrwerte für alle Beteiligten.

Confusion Matrix und Co.: Knowledge Discovery leichtgemacht

In diesem Artikel haben wir versucht, die Bedeutung von Knowledge Discovery Prozessen in der Arbeit mit Algorithmen und KI zu verdeutlichen. Für uns sind Confusion Matrices und Capture Rate Tables die besten Beispiele, dass komplexe, große Mengen an Daten nicht immer komplex dargestellt werden müssen, um wertvolle Schlüsse daraus ziehen zu können. Die Kombination zweier simpler Darstellungsformen in einer kann bereits tiefe Erkenntnisse bieten, die Anwender weiterbringen auf ihrem Weg zur perfekten Brezel oder dem perfekten Bilderkennungsalgorithmus.