In Medias Res

Semantische Informationsextraktion für das Gesamtwerk Immanuel Kants

Konterfei Immanuel Kants

Das Gegenüberstellen der Modelle ist ein wichtiger Bestandteil um ihre Güte zu ermitteln. Auch Testreihen zur bestmöglichen Sucheingabe sind gewinnbringend.

Direktlinks zu den jeweiligen Ergebnissen:
Allgemeine Auswertung.
Teilauswertungen:
- Länge der Eingaben.

Die Auswertung erfolgte teilautomatisiert. Genauere Angaben zu dem Verfahren der allgemeinen Auswertung finden sich im Github Repositorium:

Die Ergebnisse finden sich sowohl dort, als auch graphisch aufbereitet im Folgenden.

Allgemeine Auswertung

Die Ergebnisse decken sich größtenteils mit den Erwartungen, weichen allerdings in gewissen Spezifika ab. Beispielsweise sind längere Eingaben meist zielführender, jedoch konnte das Modell von den Trainingsdaten abstrahieren und kann somit nicht nur Fragen, sondern allgemein mit möglichst genauen Beschreibungen gut umgehen. Allerdings gibt es Ausreißer, beispielsweise konnten die bielectra Modelle außerordentlich gut mit der Eingabe "freier Wille" umgehen. Bei den Modellen convbert und distilbert schnitten erwartungsgemäß die trainierten und feingetunten Varianten am besten ab, für gelectra das trainierte, feingetunte und TSDAE-unterzogene Modell. Lediglich bei bielectra war das Grundmodell etwas besser als das mit den spezifischen Daten trainierte und feingetunte, das an zweiter Stelle steht. Das TSDAE Verfahren konnte in dieser Wertung nicht wirklich überzeugen. Es zeigte sich auch, dass die trainierten Varianten aller Modelle mehr "im Sinne Kants" dachten, auch wenn es schwer ist, das konkret festzumachen. Jedenfalls wurden für die hier implementierte Suche entsprechend der Wertung die Versionen Bielectra, Convbert und Distilbert in trainiert und feingetuned gewählt, für Gelectra wurde trainiert, feingetuned und anschließend mit TSDAE behandelt gewählt. Diese Modelle können zu Beginn der Seite heruntergeladen werden.

Abschließend sei noch Kritik an der Auswertung geäußert: Trotz der Investition einer Menge Zeit ist eine Anzahl von 24 Eingaben zu klein um Ausreißer gut zu relativieren. Daher wäre es sinnvoll weitere Auswertungen durchzuführen. Ich habe festgestellt, dass man sich dem Suchverfahren annähern kann und seine Suchfertigkeiten so verbessern kann. Daher ist die Auswertung also auch kein garant dafür, dass die Ergebnisse für alle genau so aufgeschlüsselt sind. Bei einigen mögen die Ergebnisse besser sein, bei einigen schlechter. Grundsätzlich handelt es sich hierbei jedoch um ein Suchverfahren, nicht um eine generative KI, das heißt um so genauer die gesuchte Stelle beschrieben werden kann, desto besser kann die Maschine die Suche ausführen.

Teilauswertung

Auch für die Teilauswertung gibt es ein Skript auf Github. Die erhobenen Daten werden auf die entsprechenden Kategorien hin geprüft, indem Auswertungen von Eingaben die der Kategorie entsprechen denen gegenübergestellt werden, die ihr klar widersprechen. Bereits vorgenommene Teilauswertungen sind betreffen wie folgend:
- Länge der Eingaben.

Länge der Eingaben

Zur Überprüfung inwiefern die Längen der Eingaben Auswirkungen auf die Modelle hatte, werden sich Eingaben von entsprechender Länge entgegen kurzen Eingaben angeschaut. Gegenübergestellt werden konkret Eingaben der Kategorie einzelne Begriffe gegen Wortkumulation und Fließtext.

Auswertung
einzelne Begriffe lange Eingaben
gelectra MRR 0.0 0.0
gelectra gMRR 0.0 0.001567
gelectra-training MRR 0.0 0.00625
gelectra-training gMRR 0.000163 0.013202
gelectra-training-fein MRR 0.0 0.0
gelectra-training-fein gMRR 0.000407 0.005077
gelectra-training-fein-tsdae MRR 0.0 0.09375
gelectra-training-fein-tsdae gMRR 0.000061 0.097918
gelectra-tsdae MRR 0.0 0.0
gelectra-tsdae gMRR 0.000913 0.000901
gelectra-tsdae-fein MRR 0.0 0.0
gelectra-tsdae-fein gMRR 0.000529 0.004682
distilbert MRR 0.0 0.0
distilbert gMRR 0.000685 0.007826
distilbert-training MRR 0.0 0.00625
distilbert-training gMRR 0.000469 0.013833
distilbert-training-fein MRR 0.041667 0.161458
distilbert-training-fein gMRR 0.044015 0.174992
convbert MRR 0.0 0.0
convbert gMRR 0.000295 0.001134
convbert-training MRR 0.0 0.0
convbert-training gMRR 0.000395 0.004799
convbert-training-fein MRR 0.0 0.007812
convbert-training-fein gMRR 0.000382 0.009227
bielectra MRR 0.1875 0.288194
bielectra gMRR 0.196409 0.3015
bielectra-training MRR 0.0125 0.094345
bielectra-training gMRR 0.013263 0.099296
bielectra-training-fein MRR 0.184524 0.234375
bielectra-training-fein gMRR 0.190388 0.239936
bielectra-training-fein-tsdae MRR 0.0625 0.076563
bielectra-training-fein-tsdae gMRR 0.063795 0.093806
bielectra-tsdae MRR 0.015625 0.109375
bielectra-tsdae gMRR 0.017419 0.122292
bielectra-tsdae-fein MRR 0.125 0.140625
bielectra-tsdae-fein gMRR 0.127551 0.148611
Mittelwert 0.035735 0.0711

Es zeigt sich, dass für alle Modelle gleichermaßen gilt, dass längere Eingaben bessere Ergebnisse liefern. Im Mittel mehr als doppelt so gute Ergebnisse. Im Einzelnen variieren die Ergebnisse im Ausmaß dennoch stark. Gerade bei ohnehin schlechten Ergebnissen sind nur geringe Verbesserungen zu erkennen. Schlechte Modelle liefern also durch lange Eingaben nicht im Vergleich bessere Ergebnisse, nur weil mehr Verbesserung möglich ist, sondern im Gegenteil vergleichsweise schlechtere Verbesserungen. Dies gilt zumindest für die absolute Verbesserung, prozentuell ist die Verbesserung teilweise größer.