Freie Sprach-KIs ohne Cloud betreiben
LLaMA, Alpaca, Vicuna: In Netz finden sich haufenweise mittelgroße Sprachmodelle mitsamt allen Parametern. Die laufen auch auf dem eigenen Rechner.
VonPina Merkert
Nimm mir Arbeit ab, KI: „Formuliere mir eine freundliche Mail an den Support mit einer Nachfrage, wo mein Paket mit Gleitcreme abgeblieben ist.“ – Manche Aufgaben an KI-Sprachmodelle will man nicht so gern an einen Clouddienst schicken. Firmen können sogar rechtliche Probleme bekommen, wenn sie Text mit personenbezogenen Daten außerhalb der EU von KI lesen lassen. Deswegen muss man aber nicht auf Sprach-KI verzichten. Open-Source-Modelle, also neuronale Netze, deren Parameter öffentlich verfügbar sind, laufen auch ganz ohne Cloud auf der eigenen Hardware.
Die Qualität der Antworten kommt dabei durchaus an die des Sprachmodells GPT-3.5 des kostenlosen ChatGPT heran. Zusätzlich bieten die freien Modelle viel mehr Möglichkeiten, weil es Dutzende auf verschiedene Datensätze feingetunte, also nachtrainierte Varianten gibt und weil man volle Kontrolle über den Prompt hat. Mit einem eigenen Prompt kann man einem KI-Chatpartner ruckzuck zynische oder lustige Antworten entlocken, verschiedene Sprachstile vorgeben oder aktuelle Kontextinformationen, beispielweise aus einer eigenen-Datenbank vor dem Chat mitgeben.
Live on the bleeding edge
von Pina Merkert
Es ist toll, dass man inzwischen mit gigantisch großen Sprachmodellen auf dem eigenen Rechner herumspielen kann. Die Modelle sind aber alle noch sehr neu und die Software, um sie auszuführen, ist ständigen Änderungen unterworfen. Das GGML-Format hat dieses Jahr schon drei Versionen durchlaufen und es kann einem leicht passieren, dass das Datenformat eines heruntergeladenen Modells nun doch wieder nicht zur neuesten Version von llama.cpp passt.
Diese Software öffnet sich gerade durch die Umstellung auf die GGML-Variante GGUF für andere Architekturen (vor allem, um gleichzeitig LLaMA-1 und -2 zu unterstützen). Für die nicht auf LLaMA aufbauenden Falcon-Modelle gibt es aber längst einen Fork namens ggllm.cpp, bei dem nicht klar ist, ob er durch GGUF obsolet wird.
Das sind nur Beispiele für die Schnelllebigkeit der gesamten Software-Infrastruktur. Dass Bibliotheken mit neuen CUDA-Versionen funktionieren, ist ein Stück weit Glückssache. Neue Torch-Versionen können Einfluss auf Bibliotheken haben, die Torch gar nicht benutzen. Wrapper und Helper werden oft für eine bestimmte Version geschrieben und dann nicht weiter gepflegt, weil Entwickler auf ein ander