KI und Terminologie
5. Dezember 2024
Klaus Fleischmann
CEO
Der Sommer ist vorbei, aber trotz Nebelschwaden geht es beim Thema KI weiter heiß her. In zahlreichen internen Experimenten, Kund:innenprojekten, Proof-of-Concepts und in intensiver Zusammenarbeit zwischen unseren PS- und Entwicklungsteams forschen wir sehr aktiv in diesem Bereich. Wie unsere Workshops auf der tekom und den LocWorld-Konferenzen in Dublin und Monterey, sowie unser Trainingskurs zu diesem Thema zeigen, leitet uns bei Kaleidoscope immer die Frage, wie KI in unseren Produkten und bei unseren Kund:innen den Nutzen von Terminologie erhöhen kann. Denn wir sehen in der KI-Diskussion ein großes Potenzial für die Sprachbranche im Allgemeinen und die Terminologie im Speziellen endlich die Rolle einzunehmen, die ihnen aufgrund der Sprach-Expertise zusteht. Nicht umsonst beinhaltet "Large Language Models" das Wort "Language".
KI – Die Basis
Zentral dabei ist es daher, als Sprachexpert:innen in die unternehmensinternen Diskussionen rund um das Thema KI und Sprache nicht nur involviert zu werden, sondern klar unsere Kompetenz unter Beweis zu stellen. Dieses wichtige Thema darf nicht von der IT oder anderen Abteilungen gekapert werden. Das bedeutet, dass wir im Gegenzug IT-Wissen und KI-Wissen aufbauen müssen, um konstruktive Beiträge mit unternehmensweitem Nutzen liefern zu können.
KI - Das Wissen
Genau dafür haben wir ein Workshop-Konzept erarbeitet, das einen tiefen Einblick in KI und insbesondere auch die Bedeutung und Verwendung von Terminologie in KI-Anwendungen im Unternehmen gibt. Ziel des Workshops ist es, Sprachabteilungen und/oder Terminolog:innen im Unternehmen das Wissen zu vermitteln, mit dem Sie sich aktiv in die Diskussionen rund um KI im Unternehmen einbringen können.
Wie diese Wissensvermittlung gelingen kann, zeigt unser Trainingskurs, der bereits mit großem Interesse gelaufen ist.
KI in der Terminologie
Wie kann KI die Terminologiearbeit unterstützen und effizienter machen? Diese Frage stellen wir uns nicht nur hinsichtlich der Wissensvermittlung, sondern auch konkret für den Arbeitsalltag.
Kalcium
Deshalb haben wir KI bereits an unsere Plattform Kalcium angebunden. So können Sie durch Prompts bestimmte Metadaten generieren, etwa Definitionen aber auch Zusatzinformationen wie Part of Speech, Fachgebiet, Grammatikinformationen usw. Darüber hinaus ist KI im Bereich Terminologieprüfung extrem mächtig und ermöglicht es, Texte mit korrekter Terminologie und grammatikalisch fehlerlos umzuschreiben. Denn unserer AI-Abteilung ist es gelungen, die standardmäßig mitgelieferten Prompts deutlich zu verfeinern. Und da der Markt sich offensichtlich derzeit Richtung Azure OpenAI bewegt, unterstützen wir jetzt auch diesen Anbieter. Unsere Politik dabei ist es, immer einen bereits im Unternehmen existierenden KI-Dienst anzubinden, und nicht einen eigenen mitzuliefern. Das wäre teurer und vor allem in Sachen Informationssicherheit schwieriger zu implementieren.
TermCatch
Die Termextraktion hat in den letzten zwei Jahren enorme Fortschritte gemacht, die dabei helfen, einige der großen Herausforderungen im Terminologiebereich zu lösen. Unsere schwedische Partnerfirma Fodina ist mit seiner Software TermCatch maßgeblich an diesen Weiterentwicklungen beteiligt. U.a. werden folgende Fragen adressiert:
- Wie komme ich eigentlich an die in meinem Unternehmen verwendeten Benennungen?
- Wie finde ich heraus, welche davon zusammengehören und Synonyme oder Varianten sind? Und welche Daten habe ich, um daraus Vorschläge für Vorzugsbenennungen abzuleiten?
- Wie priorisiere ich? Alphabetisch vorzugehen ist nicht optimal.
- Wie kann ich damit auch meine Termbank immer aktuell halten, z.B. wenn ein Kollege eine Excelliste übermittelt oder eine neue Abteilung ihren Content zur Terminologiearbeit zur Verfügung stellt?
- Wie kann ich Texte vor der Übersetzung auf neue Terminologie untersuchen, konsistent machen oder neue Terminologie vorab in die Zielsprachen bringen? Am besten direkt im Übersetzungsprojekt selbst?
- Und wie bekomme ich das alles kontrolliert und abgestimmt in meine Termbank?
Ideale Szenarien also für den Einsatz von TermCatch.
Was TermCatch kann:
- Aus Dateien oder Online-Inhalten Termkandidaten extrahieren
- Varianten aber auch Synonyme KI-gestützt zu Clustern gruppieren
- Metadaten wie Frequenz, Scoring, Kontext usw. liefern, um mir eine objektivere terminologische Entscheidungsbasis zu bieten
- Metadaten KI-gestützt generieren, wie etwa einen Definitionsvorschlag aber auch z.B. grammatikalische Angaben, Themenfelder, Domänen, Wortarten usw.
Damit ergeben sich also unter anderem folgende Use Cases:
- Initiale Erstellung einer Datenbasis inklusive Abgleich von Synonymen und Clustern in Begriffskandidaten
- Erweiterung bestehender Terminologie durch die Möglichkeit, neue Extraktionsergebnisse über den Bestand zu legen und auch hier wieder Synonyme und Varianten zu finden
- Vereinheitlichung mehrerer oder uneinheitlicher Bestände, indem diese als "Term Views" übereinandergelegt und verglichen werden. Auch hier ist wieder die Clustering-Funktion fundamental.
TermCatch bietet somit mehrere Vorteile:
- Es gibt uns Kontrolle über die Benennungen im Unternehmen und welche Synonyme, Varianten, Schreibweisen usw. existieren
- TermCatch ermittelt einen Score, der eine valide Datenbasis liefert, um etwa Entscheidungen zu Vorzugsbenennungen zu treffen und unsere Arbeit zu priorisieren. Zum Beispiel können auch Termkandidaten mit einem bestimmten Score automatisch erstellt werden.
- Es automatisiert zeitaufwändige Aufgabenschritte in der Terminologiearbeit
- Es ist cloudbasiert und daher schnell einsatzfähig
- Es ist in Quickterm integriert und damit auch rasch an einen Datenbestand bzw. die definierten Workflows andockbar
Was genau bietet Kaleidoscope jetzt hier an?
Uns ist es immer wichtig, nicht nur theoretische Ansätze anzubieten, sondern wirklich konkrete Lösungen durch unsere Software und Services zu liefern.
Daher sind wir mit Fodina eine Partnerschaft eingegangen und haben TermCatch in unsere Kalcium Plattform eingebunden. TermCatch bietet nicht nur die Engines und Funktionalitäten, wie das beispielsweise ja auch OpenAI kann. Es bringt zusätzlich eine perfekt auf die Anforderungen dieser Aufgaben abgestimmte Oberfläche mit. Damit können Sie in kürzester Zeit loslegen und die Terminologie KI-gestützt aufbauen oder erweitern. Oder aber Sie übergeben das gesamte Projekt einfach uns: Unsere Servicepakete haben sich hier schon oft bewährt.
So bieten wir vordefinierte Servicepakete zu Termextraktion zu fixen Bedingungen an. Sie übergeben uns die Daten, wir liefern geclusterte Termkandidaten retour, wahlweise in Quickterm, als Excel oder auch als importierbare TBX. Und falls Sie noch kein Quickterm-Abo besitzen, stellen wir es gerne für den Zeitraum der Termvalidierung zur Verfügung.
Terminologie in der KI – RAG oder TAG?
Large Language Models (LLMs) – mit Betonung auf Language - öffnen uns Sprachexpert:innen Tore im Unternehmen, die bisher verschlossen waren. Selbst die Vorstandsebenen haben inzwischen zumindest oberflächlich von Sprachtechnologie gehört. Diese Chance sollten wir nutzen und uns als Expert:innen im Unternehmen positionieren, denn unser Wissen und unsere Daten können jetzt deutlich mehr erreichen, als "nur" den Übersetzungsprozess zu verbessern.
KI, und wir meinen hier natürlich Generative KI, hat zwei große Mängel: Sie halluziniert und sie kennt unsere Firmensprache nicht. Beides lässt sich mit Terminologie lösen.
Klar, die "klassischen" Ansätze (wenn man 2 Jahre alte Technologie als klassisch bezeichnen kann) beruhen auf Prompt Engineering und Retrieval Augmented Generation (RAG). Beide Ansätze sind unserer Meinung nach für die Nutzung von Terminologie nicht ausreichend geeignet. Prompt Engineering greift nicht auf den aktuellen Wissensstand unserer Terminologie zu, und RAG ist zu unberechenbar, kompliziert, langsam und nicht zuletzt kostspielig.
Daher haben wir intensiv geforscht und bieten nun TAG – Terminology Augmented Generation. Statt Prompts mit unscharfen Vergleichen von Inputs mit groben Chunks in Vektor-Datenbanken zu vergleichen, binden wir traditionelle Terminologie-Verfahren in den Generierungsprozess ein. Wir verwenden "normale" Suchverfahren, um Kontext aus der Termbank zu extrahieren. Das geht in Echtzeit über unsere Kalcium API schnell und deutlich präziser als RAG.
Die Schwierigkeit dabei ist derzeit noch, dass Terminologiedaten für einfaches TAG zu umfangreich sind und auch IT-Teams überfordern. Zwar können LLMs Formate wie TBX oder auch JSON oder Markdown gut verarbeiten, aber insbesondere Prosaformate haben sich als besonders geeignet erwiesen.
Aktuell arbeiten wir deshalb an einem eigenen TAG-Endpunkt, der es Terminolog:innen ermöglichen wird, solche komplett neuen Ausgaben zu konfigurieren und mit ihrem Terminologiewissen genau die richtigen Daten aus der Termbank zu ziehen. Diese Konfigurationen speichern wir bereits jetzt als Retrieval-Profil. Im neuen TAG-Endpunkt kann die IT dann die API von Kalcium aufrufen und das gewünschte Profil mitgeben. Damit können wir als Terminolog:innen ideal mit der IT-Abteilung zusammenarbeiten, und die IT muss nicht den Terminologie-Output mühsam verstehen und weiterverarbeiten.
Der TAG-Endpunkt kommt zwar erst mit Kalcium 6.7.1, steht aber bei Interesse bereits jetzt für Testprojekte zur Verfügung. Erste Projekte laufen bereits.
Das neue Business Model Terminologie
Die Rechtfertigung von Terminologiearbeit, und damit verbunden das Business Model oder auch der ROI von Terminologie, waren immer schon eine Herausforderung. Terminologie ist ein Reifeprozess, der im Unternehmen qualitative, aber auch wirtschaftliche Auswirkungen hat. Siehe dazu auch das neue Terminology Maturity Model von CSA Research, das auf Initiative von Kaleidoscope entstanden ist.
KI ist ein Game Changer für das Business Model. Denn einerseits macht es die Terminologiearbeit z.B. dank Extraktion, Metadaten-Generierung, verbesserte Prüfung effizienter und damit kostengünstiger. Andererseits aber leistet Terminologie, u.a. mit dem TAG-Zugang, einen Riesenbeitrag zur produktiven Implementierung von GenAI im Unternehmen.
In der Folge ist Terminologie unterm Strich im Unternehmen einerseits günstiger, andererseits wertvoller. Die Kosten sinken, der Nutzen steigt. Dies sollte es uns in Zukunft ermöglichen, die Bedeutung von Terminologiearbeit im Unternehmen noch überzeugender darzulegen.
KI und Terminologie - Sie wollen mehr wissen?
Mehr zu Terminologie:
- Mit TermCatch und Quickterm Terminologie intelligent gewinnen und verwalten
- Terminologiemanagement, das einfach läuft
- Terminologiearbeit erfolgreich gestalten: 5 Tipps für den Start
- Wie Sie Terminologie in alle Ihre Geschäftsanwendungen integrieren
- Wozu und wie Taxonomie, Terminologie und Übersetzung integrieren?
Kaleidoscope: Taking your content global
Eigene Softwarelösungen und jahrzehntelange Expertise kombiniert Kaleidoscope mit Software ausgesuchter Technologiepartner, damit Sie mit Ihren Inhalten auf dem globalen Markt erfolgreich sein können. Mit unseren Innovationen und Weiterentwicklungen vereinfachen wir für Sie kontinuierlich das Management von Terminologie, Qualität, Review, Rückfragen und Automatisierung.
Kontaktieren Sie uns!