Bildänderungen mit Flux1

Im Rahmen eines Experiments wurde das Bildgenerierungs-KI-Modell flux1devbnbnf4v2 getestet, um dessen Leistungsfähigkeit unter realistischen Bedingungen zu evaluieren. Hier war das Ziel, dass ich bestehende Bilder mit der KI möglichst realistisch aussehend modifiziere.

Das KI-Modell

Das getestete Modell, flux1devbnbnf4v2, ist eine fortgeschrittene Version des ursprünglichen FluxModells, entwickelt von ehemaligen Stability AIEntwicklern bei Black Forest Labs. Es sich um ein Text-zu-Bild-Diffusionsmodell, das mithilfe eines iterativen Prozesses aus einem gegebenen Textprompt ein latentes Bild erzeugt und dieses dann in ein finales, hochqualitatives Bild dekodiert.

Testsystem und Hardware-Anforderungen

Testsystem:

Grafikkarte: NVIDIA RTX 3060 Ti (8 GB VRAM)
Arbeitsspeicher: 32 GB RAM

Hardware-Anforderungen für Flux-Modell:

Erforderliche GPU: NVIDIA-Grafikkarte
Mindestanforderung: 3 GB VRAM für grundlegende Funktionalitäten
Empfohlen für anspruchsvolle Modelle: 6–8 GB VRAM für flüssige Inferenzzeiten

Arbeitsspeicher:

Empfohlen: 32 GB RAM für die Verarbeitung großer Datenmengen bei der Bildgenerierung

Installation

Einsatz von pinokio.computer

Zur Installation und Verwaltung des FluxModells kam das Tool pinokio.computer zum Einsatz. Dieses KI-Tool fungiert als Browser zur Installation und Administration verschiedener KI-Anwendungen. Mit nur einem Klick können alle erforderlichen Pakete und Modelle installiert, gestartet und aktualisiert werden – was den sonst oft komplexen Setup-Prozess erheblich vereinfacht.

Stable Diffusion WebUI Forge

Das Modell wurde über die Web-Oberfläche „Stable Diffusion WebUI Forge“, als „Forge“ in pinokio.computer, angesprochen. Forge ist eine Plattform, die auf Stable Diffusion WebUI basiert und kann ebenfalls über pinokio.computer installiert werden.

Ergebnisse aus dem Experiment

Prompt: clear blue water, only water

Prompt: clear blue water

Der selbe Prompt, aber unterschiedliche Ergebnisse

Prompt: person sitting on office chair at desk, business clothing, work, office, office desk, office chair, sitting, looking into camera

Bildgenerierung in mehreren Schritten - Entfernung des Krans am Heimathafen

Schritt 1

Prompt: building, alley, clear blue sky

Schritt 2

Prompt: Ultra-detailed, photorealistic urban scene capturing the gap between two distinct buildings. A narrow, winding alley fills the space, extending into the background with a clear vanishing point perspective. One building features a modern glass facade while the other boasts classic brickwork, both rendered with realistic architectural details and natural lighting. The alley is paved, textured, and subtly lit, evoking an authentic city atmosphere with hints of urban elements like street signs or graffiti in the distance

Negativ Beispiel

Trotz vieler Angaben ist es schwierig einen Prompt zu definieren und die richtigen Modelleinstellungen zu treffen, um z.B. genau im maskierten Bereich ein Schild am Gebäude generieren zu lassen.

Prompt: Ultra-detailed, photorealistic image of a sleek, prominent company sign. The sign elegantly displays the text 'cronos Ai Labs' in a bold, stylish font, illuminated by warm ambient lighting. Crisp details, balanced composition, and high resolution

Inpainting Maske

Fazit

Das Experiment mit dem flux1devbnbnf4v2 Modell hat gezeigt, dass selbst Systeme mit einem begrenzten Videospeicher von 8 GB, kombiniert mit ausreichend Arbeitsspeicher (32 GB RAM), beeindruckende Ergebnisse erzielen. Besonders bemerkenswert ist, dass der Einsatz von pinokio.computer den Installations- und Verwaltungsaufwand signifikant reduziert. Zudem ermöglicht die Integration von Stable Diffusion WebUI Forge eine einfache Benutzung des Modells.

Mitwirkende

Alif Borgmeier

Experiment Einreicher

Erfahrungsberichte und Learnings

Bereits mit handelsüblicher Hardware beeindruckende Ergebnisse möglich

Prompts sollten möglichst detailliert gestaltet werden

Es sind noch viele Justierungen in den Modellparametern notwendig, um das gewünschte Ergebnis zu erzielen

Bei großen Änderungen noch einen Durchlauf mit neuem Prompt und neuer Maske starten zum ausbessern