Eagle & Local LLM
eagle.cool zur Assetverwaltung
Ich meine, als erstes hat mich tatsächlich Gemini auf das Programm aufmerksam gemacht: eagle.cool.
Das ist ein Tool designed speziell zur Verwaltung grafischer Assets, wie UI-Elemente, Design-Elemente, oder – genau – auch Scrapbooking-Elemente.
Es kann von Haus aus schon jede Menge wie bspw. nach ähnlichen Farben suchen, es erkennt sofort doppelte Dateien, man kann intelligente Ordner anlegen die auf Grund von Regeln gefüllt werden etc. pp. Es speichert die Images in einer eigenen „Datenbank“ = Verzeichnisstruktur. Dadurch ist das durchscrollen durch Mengen an Bildern richtig flott. Ohne dass man „Locked-In“ ist.
AI-gestütztes Autotagging
Für eagle.cool gibt es ettliche Plugins, u.a. eines namens „AI Autotagger„. Damit ist es möglich, mit selbst konfigurierbaren Prompts ein LLM (= Large Language Model, wie zB. ChatGPT, Gemini…) mit den Bilddateien zu befeuern, die Bilder analysieren zu lassen und Keywords & Description zurückzuerhalten, die automatisch als Eigenschaften des Bildes abgelegt werden.
Da wurde es für mich richtig interessant:
Lokaler Betrieb eines LLMs
Natürlich kann man hier seinen API-Key für die großen Modelle angeben, was ich jedoch nicht habe (kostenpflichtig – kann schnell richtig teuer werden). Alternativ kann man aber auch ein lokal laufendes Open-Source-LLM nutzen!
Dazu braucht man eine „Runtime-Umgebung“, so nenne ich das jetzt mal. Also ein Programm, dass das Ganze drumherum orchestriert, um ein LLM überhaupt lokal nutzbar zu machen.
Ich ließ mich von Gemini leiten, und probierte sowohl Ollama als auch LM Studio aus. Ich fand, dass mir LM Studio bessere Ergebnisse lieferte, und bin nun dabei geblieben.
Auswahl des Modells
Ein LLM sollte aus Performance-Gründen möglichst komplett in den Speicher der Grafikkarte geladen werden können. Da ich eine 12GB Gigabyte GeForce RTX 3060 GAMING OC 12G 2.0 LHR habe, kommen für mich lokale Modelle bis so ca. 8GB in Frage, damit noch Platz fürs Verarbeiten und natürlich die normale Grafikanzeige bleibt.
Da ich ja Bilder analysieren möchte, muss es „Visioning“ beherrschen. Gemini empfahl mir das von Alibaba Cloud zur Verfügung gestellte „Qwen3“ und zwar konkret Qwen3-VL-8B. Das hat eine Größe von 6,2 GB, passt also prima.
Das Runterladen dieser Modelle dauert übrigens erstaunlich lange, verglichen mit z.B. Steam oder EA. Das liegt wohl an den Source-Servern von „Hugging Face„, wo die Modelle gehostet werden.
Konfiguration in LM Studio
Soooo tief bin ich da noch nicht eingestiegen, das ist wirklich eine Wissenschaft für sich. Ich habe mit Hilfe von Gemini die Token-Anzahl angepasst (auf 8000) und die Temperature runtergedreht. Das klingt lustig, ist aber der Wert für die Kreativität eines Modells. Je höher die Temperatur, desto kreativer die Ergebnisse. Das kann Vor- und Nachteile haben….
Später habe ich jedoch festgestellt, dass AI Autotagger bei der API-Ansteuerung die Temperature sowieso immer auf 0 setzt.
Die Prompts
Wie geschrieben, gibt man im Plugin selbst die Prompts an, welche ans LLM gesendet werden. Damit habe ich eine ganze Weile rumexperimentiert, natürlich auch mit Hilfe großer LLMs (nutze da derzeit hauptsächlich Gemini). Auf jedenfall sollte man sie in Englisch schreiben. Ich habe festgestellt, dass getrennte Prompts für Elemente, Paper und Alphabet am sinnvollsten funktioniert, denn dadurch kann ich „Paper“ und „Alpha“ für diese Elementtypen fest vorgeben.
Bei den Embellishments (wie Blümchen, Bänder, Bilderrahmen, Karten usw.) lasse ich in mehreren Schritten das Objekt analysieren und identifizieren.
Für alle Bilder lasse ich auch eine Beschreibung generieren. Darin sind wichtige Infos enthalten wie zB. bei einem Wordart-Element der Text, der abgebildet ist. Das funktioniert ziemlich zuverlässig. Oder das Material des Elements, wie zB. Metall o.ä. Ich brauche dies bspw., wenn ich für eine Geburtstagskarte nach „Birthday“ als Wordart suche.
Fun Facts
Trotz allem Finetuning hat die KI immer mal wieder Aussetzer und seltsame Anwandlungen. Beispielsweise habe ich zwei identische Blumen, eine in blau, eine in grün. Die eine Blume wird korrekt als „Flower“ erkannt, die zweite ist dann nur noch ein „Ornament“…. Der beste Patzer war aber, als sie „Streugut“, also so einzelne Diamanten“ als „Paperclip = Büroklammer“ erkannt haben wollte….
Das bedeutet, dass ich alle Elemente kontrolliere und die Tags ggf. korrigiere. Dennoch ist es eine große Arbeitserleichterung, als alles manuell taggen zu müssen, von der Auto-Beschreibung mal ganz abgesehen.
Die Such- und Filtermöglichkeiten in eagle haben meinen Workflow beim Scrapbooking jetzt schon deutlich vereinfacht. Nun muß ich die Fleißarbeit durchziehen, meine Scrapbooking-Elemente-Sammlung komplett da reinzuladen. Das wird dauern….. es sind ja „nur“ 120GB = 97.000 Dateien…… (omg 😮).
Qwen2.5 vs. Qwen 3
Noch ein Fun Fact: Ich frage Gemini immer mal wieder, ob es ein besseres / neueres Modell als Qwen3 gibt für meinen Anwendungszweck. Und heute hat er mir tatsächlich erzählen wollen, dass Qwen2.5 das allerneueste LLM von Alibaba und supergut für meine Zwecke geeignet sei.
Ich fand es zwar komisch, dass eine V2.5 neuer sein soll als eine V3, aber ok, was weiß ich schon…. also Modell runtergeladen und ausprobiert – das Autotagging funktionierte überhaupt nur für einen Bruchteil der testweise prozessierten Bilder, beim Rest kam es zu Fehlern. Ich also Gemini wieder befragt: „ich hatte vorher Qwen3, habe nun auf Deinen Rat hin Qwen2.5 runtergeladen, und es funzt richtig schlecht.“ Da meinte er doch tatsächlich: Qwen3 gibt es gar nicht, das muss ein von der Community angepasstes Qwen 2.5 sein.
Nun wurde es mir zu bunt und ich schaute selbst nach: Auf AlibabaCloud wird eindeutig Qwen3 als das neueste Modell beschrieben. Dies bei Gemini nochmal so reingeworfen. Worauf er sich 10000mal entschuldigte usw., kennt man ja.
Das war jetzt alles nicht schlimm, aber es zeigt eben auch wieder, dass man sich echt nie blind auf die Aussagen der AI verlassen darf.
Fazit
Es macht wahnsinnigen Spaß, damit zu experimentieren und nebenbei auch Wissen aufzubauen.
Als nächstes würde mich ja brennend OpenClaw interessieren….. aber dafür braucht man nun wirklich einen API-Key, und außerdem ein System, das kaputtgespielt werden kann. Kurz beschrieben ist dies die „entfesselte“ Nutzung von AI. Wenn sie auf dem System alles darf und kann. Da sollte man wirklich wissen, was man tut, aber die Ergebnisse sind echt next level „Hallo, Zukunft“!
Schaut Euch das Video mal an, es ist mega krass, was Keno (von heise.de) damit erlebt: