Kleine Helden der KI
Wie "Tiny Models" Großes leisten
Stell dir vor, du hättest eine Mini-App auf deinem Smartphone, die eine bestimmte Aufgabe besser erledigen kann als ein riesiger Supercomputer. Klingt verrückt? Nicht in der Welt der "Tiny Models".
Tiny Models sind wie die David's in der Welt der Künstlichen Intelligenz (KI), die gegen die Goliaths antreten. Sie sind 100x kleiner als GPT-3 und 1000x kleiner als GPT-4, passen auf dein Smartphone und schaffen es trotzdem, bei Programmieraufgaben in der Sprache Python in 50% aller Fälle genau so gut wie ein Mensch zu coden. Das ist eine Leistung, die nur zwei andere Modelle erreicht haben, die 10 bis 1000x größer sind.
Microsoft hat diese Woche so ein Modell vorgestellt. Es heißt PHI-1.
Andrej Karpati, ein kluger Kopf in der KI-Welt, glaubt, dass wir in Zukunft mehr solcher "Downscaling"-Arbeiten sehen werden. Statt immer größere Modelle zu bauen, wird der Fokus auf die Qualität und Vielfalt der Daten gelegt. Es wird mehr synthetische Datengenerierung geben. Das sind Daten, die nicht von Menschen gesammelt, sondern von Computern erzeugt wurden, um bestimmte Situationen oder Aufgaben zu simulieren.
Ein gutes Beispiel für die Leistungsfähigkeit von Tiny Models ist das Tinystory-Modell. Dieses Modell hat nur 28 Millionen "Parameter". Parameter sind wie die Einstellungen oder Regler, die das Modell nutzt, um Aufgaben zu erledigen. Trotz seiner geringen Größe schlägt es GPT-2XL, ein Modell mit 1,5 Milliarden Parametern, beim Weiterschreiben einer Geschichte. Zum Vergleich, Insider vermuten, dass GPT4 eine Billionen Parameter hat.
Die Strategie für die Entwicklung solcher Modelle ist faszinierend. Stell dir vor, du willst ein neues Rezept lernen. Du könntest tausende von Kochforen durchsuchen und versuchen, die besten Tipps und Tricks zu finden. Oder du könntest ein gut geschriebenes Kochbuch nehmen, das alle wichtigen Informationen enthält. Das ist genau das, was diese Modelle tun. Sie filtern die besten Informationen aus riesigen Datenmengen und nutzen sie, um besser zu werden.
Ein weiterer interessanter Aspekt ist, wie die sinnvollen Daten aus Internetforen extrahiert wurden. Stell dir vor, du hättest einen Lehrer, der jeden Beitrag in einem Forum bewertet und dir sagt, welche Beiträge dir beim Lernen helfen und welche nicht.
Diese neuen Erkenntnisse haben auch Auswirkungen auf die Sicherheit. Wenn wir Modelle sorgfältiger trainieren und ihnen keinen "Dreck" zeigen, werden sie vorhersehbarer und sicherer. Statt eines riesigen Modells, das alles kann, aber nichts wirklich gut, haben wir für jede Aufgabe ein spezielles Modell. Je besser und klarer die Daten, desto vorhersehbarer wird das Verhalten des KI-Modells.
In der Welt der KI, wo Größe oft mit Leistung gleichgesetzt wird, sind Tiny Models ein erfrischender Gegenbeweis. Sie zeigen, dass wir nicht immer größere und komplexere Modelle brauchen, sondern dass wir durch kluge Strategien und Fokus auf Qualität auch mit kleineren Modellen beeindruckendeErgebnisse erzielen können.
Es ist ein bisschen so, als ob du einen Haufen von riesigen, schwerfälligen Maschinen hättest, die alle möglichen Aufgaben erledigen können, aber nicht besonders gut. Und dann kommt da dieser kleine, flinke Roboter, der nur eine Aufgabe erledigen kann, aber die macht er perfekt.
Die Zukunft der KI könnte also nicht nur größer, sondern auch kleiner und spezialisierter sein. Und das ist eine aufregende Aussicht, die das Potenzial hat, die Art und Weise, wie wir KI nutzen und verstehen, grundlegend zu verändern.