Was ist ein Large Action Model?
Der Begriff »Large Action Model« (LAM) lehnt sich an den Begriff »Large Language Model« (LLM, deutsch: großes Sprachmodell) an, führt dieses aber noch eine Stufe weiter. Sprachmodelle (wie z.B. GPT) nehmen natürlichsprachige Anweisungen als Eingaben und generieren eine textuelle Ausgabe auf Basis von Wahrscheinlichkeiten. Sie werden vermehrt in Assistenzsystemen genutzt, in Form von Chatbots. LAMs können dies auch, allerdings gehen sie einen Schritt weiter und leiten Aktionen (»actions«) daraus ab und führen diese aus. In diesem Kontext wird auch von Agenten gesprochen, da sie selbstständig Aufgaben ausführen können.
Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten? Diesen Fragen geht ein anderer Blogbeitrag nach. Neben grundlegenden Informationen zu Large Language Models werden auch Kriterien und Tipps für die Auswahl eines Large Language Models genannt. Nicht zuletzt werden die Grenzen von LLMs thematisiert.
Was kann ich mir konkret unter Large Action Models vorstellen?
Die Intention oder Motivation hinter LAMs kommt aus der Bedienung von Softwareapplikationen. Als Mensch interagieren wir tagtäglich mit grafischen Benutzeroberflächen (»graphical user interface«, GUI), z.B. bei der Buchung eines Hotelzimmers. Diese Interaktion wird durch LAMs nachgeahmt, indem wir dem Modell einmal zeigen (sogenanntes »one-shot learning«), wie man ein Hotelzimmer bucht, und es dies bei anschließenden Anfragen selbstständig ausführt.
Wofür benutzt man Large Action Models?
Man verwendet LAMs in Assistenzsystemen, die auf Künstlicher Intelligenz basieren. Ein Beispiel dafür ist die Bedienung von Anwendungen während der Autofahrt. Bekannt geworden sind LAMs durch das vom KI-Startup »Rabbit« angekündigte Betriebssystem »rabbit OS«. Dieses Betriebssystem funktioniert vorwiegend über Sprachbefehle und soll – trainiert durch menschliche Interaktionsdaten – mit bestehenden Apps interagieren können. Ein weiteres Beispiel, das als App-freies Smartphone in die gleiche Richtung geht, ist das von der Deutschen Telekom geplante »Concept AI Phone«.
Neurosymbolische KI: die Technologie hinter Large Action Models
LAMs nutzen neurosymbolische Modelle, um die sprachliche Effizienz von herkömmlichen, auf neuronalen Netzarchitekturen basierenden Sprachmodellen mit der Entscheidungslogik von symbolischen Modellen zu kombinieren.
Neurosymbolische KI (englisch: Neurosymbolic AI) ist ein Ansatz, der neuronale Netze und symbolische Künstliche Intelligenz (KI) kombiniert. Neuronale Netze sind sehr gut darin, mit unstrukturierten Daten wie Bildern, Text oder Audio zu arbeiten. Die symbolische KI dagegen ist besser darin, logische Schlussfolgerungen zu ziehen und Entscheidungen zu treffen, die meist auf Regeln und Logik beruhen. Neurosymbolische KI-Ansätze versuchen daher, die Vorteile beider Ansätze zu nutzen, um das System in die Lage zu versetzen, unstrukturierte Eingaben, wie z. B. natürliche Sprache, zu verstehen und logische Schlussfolgerungen zu ziehen. Dies stellt sicher, dass eine festgelegte Logik eingehalten wird, z. B. dass vor der Herausgabe von Waren diese bereits bezahlt wurden.
Alleinstehend sind Sprachmodelle nur eingeschränkt für die Bedienung von Softwareapplikationen geeignet. Um eine grafische Nutzeroberfläche bedienen zu können, müssen die Softwareapplikation sowie die darauf ausgeführte Interaktion zunächst in einer Zwischendarstellung abgebildet werden, welche für das Sprachmodell verständlich ist (z. B. Text, Sequenzen oder Bilder, falls das Modell Bildeingaben akzeptiert).
Weitere Blog-Beiträge rund um generative KI und große Sprachmodelle:
-
- Open Source Large Language Models und deren Betrieb: Tipps für den Einstieg
- Retrieval Agumented Generation: Chatten mit den eigenen Daten
- Prompt Engineering: wie kommuniziert man am besten mit großen Sprachmodellen?
Das neue »Superhelden-Modell« – Ist der Hype berechtigt?
In vielen Blogs oder Ankündigungen werden LAMs als der nächste große Schritt nach den LLMs bezeichnet, teils auch als Schritt in Richtung Artificial General Intelligence (AGI). Im Rahmen von Assistenzsystemen, wie beim Bedienen von Anwendungen während der Autofahrt, liegt der Mehrwert der Idee auf der Hand. Wie der tatsächliche Mehrwert aussehen wird, hängt allerdings auch von der Qualität der ausgeführten Aktionen ab:
Generalisierbarkeit: Zuerst wird für jede zu lernende Routine eine Beispieldemonstration durch einen menschlichen Nutzer benötigt (»one-shot learning«). Das LAM imitiert die Routine. Sie ist auch fähig, das Gelernte auszuführen, wenn die Nutzeroberfläche anders präsentiert oder leicht verändert wurde. Die Hoffnung ist, dass das LAM im Laufe der Zeit durch das gesammelte Wissen einen »konzeptionellen Blueprint« entwickelt, um auf beliebige Applikationen zu generalisieren.
Nachvollziehbarkeit: Die durch das LAM ausgeführte Routine wird beobachtbar direkt in der Applikation ausgeführt. Im Beispiel der Hotelbuchung sieht man somit, welcher Zeitraum und Ort in die Eingabefelder eingegeben werden und welche Buttons aktiviert werden. Dadurch ist nachvollziehbar, was das LAM gelernt hat und gerade tut.
Zuverlässigkeit: Wie bei allen aus Daten gelernten Modellen muss damit gerechnet werden, dass die Ausgaben bzw. im Falle von LAMs die ausgeführten Aktionen nicht immer korrekt sind. Im Kontext von Generativer KI nennt man so etwas Halluzinationen, also Ausgaben, welche weder in den Trainingsdaten noch in den bereitgestellten Kontextinformationen begründet sind. Da hier die Aktionen direkt durch das LAM ausgeführt werden statt durch einen Menschen, der die Ausgabe eventuell prüfen könnte, sind solche Modelle zunächst nur in unkritischen Anwendungsfällen einsetzbar.
Es bleibt spannend, ob sich z. B. Smartphone-Betriebssysteme, die rein auf Sprache basieren, in der Breite durchsetzen können oder eher eine faszinierende »Spielerei« für Technikenthusiasten sein werden.
Im Team Data Science fokussieren wir uns auf das Thema Qualität von KI-basierten Lösungen.
Kontaktieren Sie uns noch heute, um von unserer Expertise zu profitieren und Ihre Unternehmens-KI auf die nächste Stufe zu heben.
Unser Lösungsangebot als PDF zum Mitnehmen: