Das Gegenüberstellen der Modelle ist ein wichtiger Bestandteil um ihre Güte zu ermitteln. Auch Testreihen zur bestmöglichen Sucheingabe sind gewinnbringend.
Direktlinks zu den jeweiligen Ergebnissen:
Allgemeine Auswertung.
Teilauswertungen:
- Länge der Eingaben.
Die Auswertung erfolgte teilautomatisiert. Genauere Angaben zu dem Verfahren der allgemeinen Auswertung finden sich im Github Repositorium:
Die Ergebnisse finden sich sowohl dort, als auch graphisch aufbereitet im Folgenden.
Die Ergebnisse decken sich größtenteils mit den Erwartungen, weichen allerdings in gewissen Spezifika ab. Beispielsweise sind längere Eingaben meist zielführender, jedoch konnte das Modell von den Trainingsdaten abstrahieren und kann somit nicht nur Fragen, sondern allgemein mit möglichst genauen Beschreibungen gut umgehen. Allerdings gibt es Ausreißer, beispielsweise konnten die bielectra Modelle außerordentlich gut mit der Eingabe "freier Wille" umgehen. Bei den Modellen convbert und distilbert schnitten erwartungsgemäß die trainierten und feingetunten Varianten am besten ab, für gelectra das trainierte, feingetunte und TSDAE-unterzogene Modell. Lediglich bei bielectra war das Grundmodell etwas besser als das mit den spezifischen Daten trainierte und feingetunte, das an zweiter Stelle steht. Das TSDAE Verfahren konnte in dieser Wertung nicht wirklich überzeugen. Es zeigte sich auch, dass die trainierten Varianten aller Modelle mehr "im Sinne Kants" dachten, auch wenn es schwer ist, das konkret festzumachen. Jedenfalls wurden für die hier implementierte Suche entsprechend der Wertung die Versionen Bielectra, Convbert und Distilbert in trainiert und feingetuned gewählt, für Gelectra wurde trainiert, feingetuned und anschließend mit TSDAE behandelt gewählt. Diese Modelle können zu Beginn der Seite heruntergeladen werden.
Abschließend sei noch Kritik an der Auswertung geäußert: Trotz der Investition einer Menge Zeit ist eine Anzahl von 24 Eingaben zu klein um Ausreißer gut zu relativieren. Daher wäre es sinnvoll weitere Auswertungen durchzuführen. Ich habe festgestellt, dass man sich dem Suchverfahren annähern kann und seine Suchfertigkeiten so verbessern kann. Daher ist die Auswertung also auch kein garant dafür, dass die Ergebnisse für alle genau so aufgeschlüsselt sind. Bei einigen mögen die Ergebnisse besser sein, bei einigen schlechter. Grundsätzlich handelt es sich hierbei jedoch um ein Suchverfahren, nicht um eine generative KI, das heißt um so genauer die gesuchte Stelle beschrieben werden kann, desto besser kann die Maschine die Suche ausführen.
Auch für die Teilauswertung gibt es ein Skript auf Github. Die erhobenen Daten werden auf die entsprechenden
Kategorien hin geprüft, indem Auswertungen von Eingaben die der Kategorie entsprechen denen
gegenübergestellt werden, die ihr klar widersprechen. Bereits vorgenommene Teilauswertungen sind betreffen
wie folgend:
- Länge der Eingaben.
Zur Überprüfung inwiefern die Längen der Eingaben Auswirkungen auf die Modelle hatte, werden sich Eingaben von entsprechender Länge entgegen kurzen Eingaben angeschaut. Gegenübergestellt werden konkret Eingaben der Kategorie einzelne Begriffe gegen Wortkumulation und Fließtext.
einzelne Begriffe | lange Eingaben | |
---|---|---|
gelectra MRR | 0.0 | 0.0 |
gelectra gMRR | 0.0 | 0.001567 |
gelectra-training MRR | 0.0 | 0.00625 |
gelectra-training gMRR | 0.000163 | 0.013202 |
gelectra-training-fein MRR | 0.0 | 0.0 |
gelectra-training-fein gMRR | 0.000407 | 0.005077 |
gelectra-training-fein-tsdae MRR | 0.0 | 0.09375 |
gelectra-training-fein-tsdae gMRR | 0.000061 | 0.097918 |
gelectra-tsdae MRR | 0.0 | 0.0 |
gelectra-tsdae gMRR | 0.000913 | 0.000901 |
gelectra-tsdae-fein MRR | 0.0 | 0.0 |
gelectra-tsdae-fein gMRR | 0.000529 | 0.004682 |
distilbert MRR | 0.0 | 0.0 |
distilbert gMRR | 0.000685 | 0.007826 |
distilbert-training MRR | 0.0 | 0.00625 |
distilbert-training gMRR | 0.000469 | 0.013833 |
distilbert-training-fein MRR | 0.041667 | 0.161458 |
distilbert-training-fein gMRR | 0.044015 | 0.174992 |
convbert MRR | 0.0 | 0.0 |
convbert gMRR | 0.000295 | 0.001134 |
convbert-training MRR | 0.0 | 0.0 |
convbert-training gMRR | 0.000395 | 0.004799 |
convbert-training-fein MRR | 0.0 | 0.007812 |
convbert-training-fein gMRR | 0.000382 | 0.009227 |
bielectra MRR | 0.1875 | 0.288194 |
bielectra gMRR | 0.196409 | 0.3015 |
bielectra-training MRR | 0.0125 | 0.094345 |
bielectra-training gMRR | 0.013263 | 0.099296 |
bielectra-training-fein MRR | 0.184524 | 0.234375 |
bielectra-training-fein gMRR | 0.190388 | 0.239936 |
bielectra-training-fein-tsdae MRR | 0.0625 | 0.076563 |
bielectra-training-fein-tsdae gMRR | 0.063795 | 0.093806 |
bielectra-tsdae MRR | 0.015625 | 0.109375 |
bielectra-tsdae gMRR | 0.017419 | 0.122292 |
bielectra-tsdae-fein MRR | 0.125 | 0.140625 |
bielectra-tsdae-fein gMRR | 0.127551 | 0.148611 |
Mittelwert | 0.035735 | 0.0711 |
Es zeigt sich, dass für alle Modelle gleichermaßen gilt, dass längere Eingaben bessere Ergebnisse liefern. Im Mittel mehr als doppelt so gute Ergebnisse. Im Einzelnen variieren die Ergebnisse im Ausmaß dennoch stark. Gerade bei ohnehin schlechten Ergebnissen sind nur geringe Verbesserungen zu erkennen. Schlechte Modelle liefern also durch lange Eingaben nicht im Vergleich bessere Ergebnisse, nur weil mehr Verbesserung möglich ist, sondern im Gegenteil vergleichsweise schlechtere Verbesserungen. Dies gilt zumindest für die absolute Verbesserung, prozentuell ist die Verbesserung teilweise größer.