Aria - Das neue multimodale MoE Sprachmodell aus Japan

Aria - Das neue multimodale MoE Sprachmodell aus Japan

Philipp Lehmann

Autor: Philipp Lehmann

IT-Consultant

Veröffentlicht am: 22.10.2024

Das Unternehmen Rhymes AI aus Tokio hat kürzlich das Open-Source-Modell Aria vorgestellt. Dieses multimodale Modell auf Basis der Mixture-of-Experts-Architektur (MoE) kann verschiedene Datentypen wie Text, Bilder, Code und Videos verstehen und verarbeiten. Damit wird es zu einem wahren Multitalent, das in einem breiten Spektrum an Aufgaben Spitzenleistungen erzielt und in Benchmarks sogar mit proprietären Modellen wie GPT-4 und Claude 3.5 konkurriert.


Trainingsprozess und Datenbasis

Diese beeindruckende Leistung ist das Ergebnis eines umfassenden Trainingsprozesses. Rhymes AI hat Aria mit 6,4 Billionen Sprach-Tokens und 40 Milliarden multimodalen Tokens trainiert, sodass das Modell in der Lage ist, mit einem Kontextfenster von 64.000 Tokens unterschiedlichste Eingaben kompetent zu verarbeiten.


Der Trainingsprozess war mehrstufig: Zunächst wurde Aria auf das Verstehen grundlegender Textinformationen trainiert. Sobald die sprachliche Grundlage gesichert war, erweiterte Rhymes AI das Modell um Bilder, Videos und Code, ohne dabei die Sprachfähigkeiten zu vernachlässigen. Der letzte Trainingsschritt konzentrierte sich darauf, Arias Fähigkeit zu stärken, präzise und detaillierte Antworten zu liefern.


Effizienz und technische Anforderungen

Aria wurde in etablierten Benchmarks gegen die besten offenen und proprietären multimodalen Modelle getestet und liefert bei multimodalen Aufgaben, wie der Dokumentenverarbeitung, dem Erkennen von Szenentexten, dem Verstehen von Videos und der Analyse von Diagrammen, vergleichbare Ergebnisse wie proprietäre Modelle wie GPT-4o und Gemini-1.5.


Neben seiner Leistung beeindruckt Aria auch durch seine Effizienz. Rhymes AI hat besonderes Augenmerk auf die Optimierung der Modellstruktur gelegt. Dank des MoE-Frameworks aktiviert Aria nur 3,9 Milliarden Parameter pro Token, im Vergleich zur vollen Aktivierung bei Modellen wie Pixtral-12B und Llama3.2-11B, was es zum effizientesten Open-Source-Modell in Bezug auf die aktivierten Parameter macht. Dadurch wird eine ressourceneffiziente Verarbeitung ermöglicht, die gleichzeitig schnelle und präzise Ergebnisse liefert.


Diese Konzepte sind zwar bereits bekannt und werden bereits von diversen Modellen umgesetzt (Mixtral-8x7B als MoE, Pixtral als multimodales LLM), aber Aria ist das erste Modell im Open-Source-Bereich, dass diese beiden Architekturen kombiniert.


Aria biete damit eine leistungsstarke Open-Source-Alternative zu proprietären Modellen bietet, benötigt jedoch zur effizienten Ausführung eine GPU mit mindestens 80 GB VRAM. Um das Modell zugänglicher zu machen, arbeitet Rhymes AI bereits an quantisierten Versionen.