Kulturschock: Die versteckten Hürden beim AI Modellwechsel

Inhaltsverzeichnis

Die letzten Wochen waren wieder einmal geprägt von neuen LLMs die veröffentlicht wurden. Erst gestern GPT-4.5, knapp davor Claude Sonnet 3.7 und relativ knapp davor die diversen neuen DeepSeek Modelle, die ja den Markt ganz schön aufgemischt haben.

Diese Releases ziehen an unseren Kund:innen natürlich nicht vorbei. Daher kommt auch mal die Frage auf: "Können wir upgraden?"

Die Frage ist total verständlich. Die letzten Jahrzehnte haben der Welt eine Sache gelehrt: eine höhere Versionsnummer heißt doch immer das Dinge automatisch besser, schneller, schöner und toller werden… oder?

Das Phänomen AI-Modell

Bei klassischer Software trifft das ja zu (…manchmal), aber nicht unbedingt bei LLMs.

Jede Person die schonmal einen Prompt zwischen 2 AI Assistenten probiert hat zu verwenden, weiss wovon ich schreibe: was in ChatGPT gut funktioniert, fliegt in Claude nur so halb und produziert in Le Chat vielleicht gar nichts sinnvolles.

Wenn wir uns auf ChatGPT fokussieren, dann hat man vielleicht sogar schon selber erlebt dass Prompts zwischen GPT3.5 und GPT4 leicht angepasst werden mussten.

Das heißt: einfach Modell wechseln, egal ob Version oder sogar Anbieter, ist nicht einfach und erfordert gründliches Testen.

Aber warum ist das so?

Die verschiedenen AI Kulturen

Ich finde es hilfreich, die Arbeit mit verschiedenen KI-Modellen mit interkultureller Kommunikation zu vergleichen.

Wenn ich mit einer Person aus einem anderen Kulturkreis spreche, muss ich mich anpassen: Manche Konzepte ausführlicher erklären, bestimmte Metaphern oder Beispiele anpassen.

Genau so arbeiten wir mit verschiedenen KI-Modellen. Wir lernen ihren "kulturellen Kontext" kennen und passen unsere Kommunikation entsprechend an.

Wodurch entsteht das?

Ursachen

Die Ursachen für diese unterschiedlichen "Kulturen" oder "Dialekte" sind vielfältig:

Trainingsdaten: Jedes Modell wurde mit etwas anderen Datensätzen trainiert.
Architektur: Modelle bestehen aus verschiedenen Ebenen. Ähnlich wie wir Menschen nicht nur "1 Hirn" haben, sondern verschiedene Bereiche und Ebenen. Die innere Struktur der Modelle unterscheidet sich, selbst zwischen Versionen.
Sicherheitsmaßnahmen: Verschiedene Filter und Einschränkungen.

Speziell die Punkte "Trainingsdaten" und "Architektur" sind ausschlaggebend. Die zwei großen AI Anbieter, OpenAI und Anthropic, weisen beide offen auf diese Tatsache hin.

Hier ein Auszug aus dem Anthropic Claude 3.7 Release:

[…]we’ve optimized somewhat less for math and computer science competition problems, and instead shifted focus towards real-world tasks that better reflect how businesses actually use LLMs

Oder aus GPT4.5:

We trained it using new supervision techniques…

For GPT-4.5 we developed new, scalable (alignment) techniques…

Es verhält sich also ähnlich wie bei uns Menschen: wir wachsen in ganz unterschiedlichen Umgebung auf und sprechen alle unsere eigene Sprache ("Ideolekt"). Erklärungen die für eine Person funktionieren, versteht eine andere gar nicht.

Das Modell-Babel: Eine Herausforderung & Chance

Diese Vielfalt an "AI-Kulturen" erschwert zwar die Übertragbarkeit von Prompts, bietet aber auch Chancen. Vielfalt heisst nämlich auch, dass jedes Modell in anderen Bereichen glänzt.

Wie findet man heraus wo die Stärken liegen? Darauf gibt es leider keine klare Antwort. Wenn man Communities wie Reddit durchstöbert, unterscheiden sich die Meinungen. Die einen meinen GPT4o ist super im Schreiben von kreativen Texten. Andere Personen finden dass Sonnet einen guten Stil hat.

Am Ende des Tages heisst das für uns alle: Geschmäcker sind verschieden. Testen, nicht annehmen.

Wo in deinem Business könnten LLMs echte Mehrwerte liefern?

Ob Textanalyse, Automatisierung oder effiziente Workflows – die richtigen Use Cases machen den Unterschied. Lass uns herausfinden, wie du AI sinnvoll in deine Prozesse integrieren kannst!

Was bedeutet das für mein Projekt?

Bei einem Modellwechsel müssen sämtliche Prompts einer AI Anwendung geprüft werden. Aber natürlich nicht auf einmal.

Kriterien festlegen: "Einfach loslegen" ist in dem Fall nicht angebracht. Es müssen konkrete Punkte festgelegt werden an denen man festmacht dass ein Modell besser funktioniert. Projektvertraute Personen sind hier oft besonders gut und schnell.
Experiment: Anstatt eine gesamte Anwendung gleich umzuwerfen, nimmt man sich einen Task und testet diesen. Idealerweise arbeiten hier die Personen die bereits für die Prompts verantwortlich sind. Timeboxing ist hier auch eine willkommene Technik um nicht unwirtschaftlich zu agieren.

Wenn die ersten Experimente positiv ausfallen,

wiederholt man diese für alle Prompts oder…
stellt nur diesen einen Prompt um

Damit kann man den Aufwand stark begrenzen.

Letztlich, muss man das ganze noch live bringen:

Routing: will man ein neues Modell verwendbar haben, müssen erstmal vom Development-Team die entsprechenden Weichen gelegt werden. Damit wird es möglich die gesamte Anwendung zwischen Modellen wechseln zu lassen.
Internes Testing: das gesamte Projekt-Team evaluiert das neue Modell in der App. Hier wird wieder auf die vorher festgelegten Kriterien geprüft, aber auch auf empfundene Qualität geachtet.
Public Testing: Optional, aber sinnvoll bei AI Apps die höhere User:innen-Zahlen haben. Ein "Staged Rollout" stellt nach und nach User:innen um. Ein harter Wechsel aller Nutzer:innen kann zu Chaos & Überlastung führen.

Das klingt jetzt erstmal nach gefühlten 3 Wochen Aufwand, ist es aber nicht immer.

Man muss nicht alles auf einmal machen. Ganz im Gegenteil: wenn das Projekt aus vielen einzelnen Prompts besteht, ist es sogar besser schrittweise zu testen.
Projektvertraute Personen wissen schnell welche Kriterien wichtig sind.
Entwickler:innen sollten den bestehenden Code auf solche Fälle bereits vorbereitet haben.

Mehr Kunst, wenig Wissenschaft

Unmissverständliche Kommunikation ist mit Menschen schon schwierig – mit KI-Systemen, die jeweils ihre eigene "Sprache" sprechen, ist es eine echte Kunst.

Wer mit verschiedenen AI-Modellen arbeitet, sollte sich darauf einstellen, für jedes Modell eigene Prompt-Strategien zu entwickeln. Es ist wie das Erlernen verschiedener Dialekte derselben Grundsprache – mit etwas Übung wird man mehrsprachig in der Welt der künstlichen Intelligenzen.