Künstliche Intelligenz ist in der Lage, kreative Aufgaben zu lösen, indem sie auf bereits bestehende Lösungen aufbaut. Dies geschieht durch das Sammeln und Analysieren von Daten sowie durch das Finden von Mustern in diesen Daten. Auf diese Weise kann eine künstliche Intelligenz neue Lösungen für Probleme finden, die bisher nicht gelöst wurden.
Kreative Künstliche Intelligenz
Künstliche Intelligenz kann auf vielfältige Weise kreativ sein. Zum einen kann sie neue Lösungen für Probleme finden, die bisher als unlösbar galten. Zum anderen kann sie auch völlig neuartige Dinge erschaffen, die niemand zuvor für möglich gehalten hätte. In diesem Artikel werden wir einige Beispiele dafür betrachten, wie KI kreativ sein kann.
Beispielsweise können Texte automatisch erstellt werden. Dies ist bereits heute mit bestimmten Programmen möglich. Allerdings sind diese Texte oft nicht sehr interessant oder kreativ. In Zukunft wird es aber immer besser möglich sein, Texte zu erstellen, die den Lesern tatsächlich etwas zu sagen haben.
Auch Bilder und Videos können bereits heute durch KI erstellt werden. Die Qualität dieser Medien wird aber in Zukunft noch stark verbessert werden. So wird es bald möglich sein, realistische und atemberaubende Welten zu erschaffen, die vorher nur in Science-Fiction-Romanen oder -Filmen existiert haben.
Musik kann ebenfalls durch KI kreiert werden. Auch hier gilt: Die Qualität wird sich in Zukunft weiter verbessern. Stellen Sie sich vor, Sie könnten Ihre Lieblingsmusik hören, die aber von einer künstlichen Intelligenz komponiert und aufgeführt wurde – das wäre doch etwas ganz Besonderes!
Für viele Menschen ist Kreativität etwas, das nur Menschen haben. Doch das stimmt nicht: Auch Künstliche Intelligenzen können kreativ sein. In Zukunft werden sie immer mehr Bereiche unseres Lebens beeinflussen und unser Leben auf vielfältige Weise bereichern.
Wirkliche Kreativität?
Aber sind Menschen, die Künstliche Intelligenz für ihre Kunst einsetzen, im wahren Sinne des Wortes wirklich kreativ? Oder steht die Kreativität der Maschine im Vordergrund?
Eine künstliche Intelligenz ist in der Lage, aufgrund von Algorithmen Muster zu erkennen und neue, bisher unbekannte Muster zu generieren. Diese Fähigkeit bezeichnet man als Kreativität.
Auch wenn es sich bei den Ergebnissen um nicht-intentionale Kunstwerke handelt, kann man durchaus behaupten, dass die Maschine selbst kreativ ist. Menschen hingegen müssen ihre Kreativität intentional einsetzen und stehen daher immer in der Verantwortung für die Kunstwerke, die entstehen – auch wenn sie mit Hilfe einer künstlichen Intelligenz entstanden sind.
Werden künstlich erzeugte Werke hohe Preise auf dem Kunstmarkt erzielen können? Und wenn ja, wer sollte das Geld dafür bekommen? Diese Frage ist noch lange nicht geklärt und wird die Diskussion um Künstliche Intelligenz in den kommenden Jahren sicherlich weiter anheizen.
Wenn es jetzt wieder langweilig wird, liegt das daran, dass nun wieder ich die Feder übernehme. Eine KI hätte natürlich interessantere Dinge zu sagen.
Was die KI noch nicht kann, ist eine eigene Meinung zu entwickeln. Diese fehlt ihr, weil sie immer nur das wiedergibt, was ihr beigebracht wurde. Die Kunst der Zukunft wird also von Menschen gemacht – auch wenn Maschinen mithilfe von Künstlicher Intelligenz unterstützend tätig sind.
Durch die Zusammenarbeit von Mensch und Maschine wird es jedoch möglich sein, Dinge zu erschaffen, die vorher undenkbar waren. Die kreativen Fähigkeiten des Menschens sind begrenzt, aber durch die KI können wir sie erweitern. Wir sollten uns also nicht von der KI unterkriegen lassen, sondern sie als Werkzeug nutzen, um unsere Kreativität zu steigern. Künstliche Intelligenz ist ein sehr wertvolles Werkzeug, aber sie kann niemals die Kreativität des Menschen ersetzen. KI kann helfen, unsere Ideen zu verfeinern und zu perfektionieren, aber sie kann niemals die Kunst der Zukunft erschaffen.
Kreative Textgeneratoren
Jetzt kann ich es Ihnen ja verraten: Der bisherige Text wurde automatisch durch eine KI generiert. Von mir wurden nur die Überschriften vorgegeben. Wenn die KI mit ihrem Latein am Ende war, habe ich sukzessiv die kursiv geschriebenen Passagen ergänzt und dann die KI fortsetzen lassen. Ähnliches gilt für das Fazit am Ende des Artikels. Dabei habe ich den für deutsche Texte geeigneten KI Texter von Neuroflash eingesetzt.
Die KI ist sogar selbstkritisch: “Allerdings sind diese Texte oft nicht sehr interessant oder kreativ.” So harsch würde ich das aber nicht ausdrücken.
Anstelle von “Die kreativen Fähigkeiten des Menschens” hätte ich “Die kreativen Fähigkeiten des Menschen” geschrieben, aber ich möchte ja nicht zu pingelig sein.
Da nun leider die freien 2000 Wörter dieses Monats aufgebraucht sind, muss ich wieder selbst aktiv werden und bis auf das Fazit am Ende stammt der Text ab hier nun von mir.
Eine Bearbeitungsvariante der Textgeneratoren ist das Umschreiben von bestehenden Texten. Damit können zum Beispiel Plagiatsjäger in die Irre geführt werden oder im Zustand starker Emotionalität geschriebene Emails automatisch in einem höflichen Ton neugeschrieben werden.
Länger etabliert sind auch automatische Übersetzungen, die inzwischen kaum zu Beanstandungen Anlass liefern. Für unsere Online-Hilfe in DeltaMaster verwenden wir etwa DeepL. Allerdings spielt hier Kreativität eine kleinere Rolle.
Text to Image
Mich faszinieren die Möglichkeiten der kreativen Bilderzeugung. Der Einsatz von KI wird hier meiner Meinung nach die bestehende Ordnung etwa im Kunstbetrieb kräftig durcheinanderwirbeln.
Vor ein paar Wochen hat ein von einer KI erzeugtes Bild einen Wettbewerb gewonnen und für heftige Kontroversen gesorgt (Tod der Kunst: Von KI generiertes Bild gewinnt Kunstwettbewerb in den USA).
In meinem Beitrag Bildanalyse: Inhaltsangabe aus dem Oktober 2018 ging es um Verfahren, Objekte in Bildern zu erkennen oder Bilder zu segmentieren. Schon damals hatte ich die Generative Adversarial Networks (GAN) angesprochen, die diese Richtung umkehren und aus einer Segmentierung ein realistisches Bild generieren.
Inzwischen sind die Fortschritte gewaltig: Vor wenigen Wochen wurde eine Version des sogenannten Stable-Diffusion-Modells veröffentlicht, das aus rein verbalen Szenenbeschreibungen sehr wirklichkeitsnahe Bilder erzeugt. Diese sind zwar nicht immer 100-prozentig perfekt, aber schon sehr beeindruckend.
Dieses Verfahren lässt sich zum Beispiel auf der Seite von Hugging Face ausprobieren. Sämtliche Bilder stammen von diesem Generator, wobei in der gezeigten Demo nicht alle Parameter erreichbar sind und man mit den (unbekannten) Voreinstellungen leben muss. Das zugrundeliegende Modell wurde auf der Basis von fast 6 Milliarden Bildern trainiert, bei denen eine Textbeschreibung des Inhalts vorlag.
Beispielsweise führt die Eingabe von “many business people in a conference room look at a big screen depicting their boss” zum folgenden neu generierten Bild, das in keiner Datenbank zu finden sein wird:
Ich hatte ja nicht verlangt, dass der Boss von vorne zu sehen sein muss!
Da die Bildausgabe von einem zufällig erzeugten Seed abhängt, kann das Ergebnis bei einem erneuten Durchlauf schon komplett anders aussehen:
Der Boss mit verschiedenen Gemütszuständen
Und nun soll der Chef wütend sein:
Dann doch lieber gut gelaunt:
Natürlich kann es auch eine weibliche Führungskraft sein. Bei der alleinigen Angabe von “Boss” werden zwar auch Frauen gezeigt, aber doch seltener. Wahrscheinlich gibt es einfach mehr Bilder mit männlichen Bossen:
Gesichter sind oft etwas verzerrt und Körper können mit gewissen Unstimmigkeiten dargestellt werden. Die Forschung arbeitet daran.
Darstellung in einer vorgegebenen Art
Mit bestimmten Parametern lässt sich anstelle einer photorealistischen Darstellung auch ein Bild generieren, das in der Art eines vorgegebenen Künstlers oder einer Epoche gezeichnet wird.
Speziell aktive Künstler werden sich hier noch umgucken und umstellen müssen, da nun jede Person auch ohne Vorkenntnisse Bilder generieren kann, die den jeweiligen Stil imitieren. Voraussetzung ist natürlich, dass es auch genügend viele Bilder dieses Künstlers in der Datenbank gibt.
Besonders spannend ist es, Dinge zusammenzubringen, die zeitlich nicht zusammengehören.
So sähe eine Kassiererin in einer Bäckerei im 15. Jahrhundert aus:
Auch das Basketball-Spiel war bereits im 14. Jahrhundert bekannt, wie das folgende Bild beweist:
Gut, es sind gerade zwei Bälle im Spiel und ein vorhandener Korb würde sich positiv auf den Spielstand auswirken, aber der Stil des Bildes passt in diese Epoche.
Und so sahen junge Damen beim Flippern im 17. Jahrhundert aus:
Bemerkenswert, aber nicht unbedingt überraschend ist, dass bei diesen Bildern eine künstlerische Darstellung gewählt wurde. Fotos aus dieser Zeit existieren natürlich nicht und dieser Zusammenhang wird implizit vom Modell gelernt.
Eine Kette von KI-Einsätzen
Da wir gesehen haben, dass eine KI auch Texte erzeugen kann, könnte zu Sätzen eine Illustration erzeugt werden. Ich halte es nicht für unmöglich, dass Bildergeschichten oder sogar vollständige Spielfilme entstehen könnten.
Beispielsweise hatte der Textgenerator von oben den Satz “Eine KI hätte natürlich interessantere Dinge zu sagen.” erzeugt. Mittels einer Translator-App wird dies zu “Of course, an AI would have more interesting things to say.” übersetzt. Wird damit der Bildgenerator gefüttert, entsteht dann das folgende Bild:
Der Generator ist noch nicht in der Lage, innerhalb der Bilder vernünftige Sätze zu bilden.
Lassen wir das Ganze durch einen nicht näher bestimmten zeitgenössischen Künstler interpretieren, ergibt sich
Ohne mich weit aus dem Fenster lehnen zu müssen, behaupte ich, dass diese Art der Kunst einen massiven Einfluss vor allem auf die aktuell aktive Kunstszene haben wird.
Weitere Beispiele
Die Kreativität des Menschen bei Verwendung dieser Text-to-Image-Generatoren drückt sich eher in der übermittelten Beschreibung der Szene aus. Mit den im Prinzip vorhandenen Parametern könnte man eine Darstellung auch feiner steuern, hochauflösend und realistischer. Die gezeigten Bilder werden in wenigen Sekunden generiert.
Mit “Successful business man very happy with his mobile phone, 19th century” generiert man zum Beispiel das folgende Bild:
Obwohl nicht explizit angegeben, wird nun von der KI eine Darstellung als Foto in Schwarzweiß ausgewählt.
Wir können auch einmal eine Dame ein Selfie machen lassen. Im 16. Jahrhundert hätte es so ausgesehen:
Wie wäre es mit einem Bild für die kommende Werbekampagne unseres Kaffees?
Das gibt es auch als modernere Variante:
Oder mag jemand Spaghetti?
Oder Fastfood?
Fängt man einmal mit dem Generieren von Bildern durch die Angabe von Szenenbeschreibungen an, so kann man nicht so leicht wieder aufhören. Die verschiedenen Generatoren sind sehr leistungsfähig und der Sucht-Faktor ist hoch.
Manche Generatoren verstehen manche Beschreibungen besser, andere erzeugen dazu die realistischeren Bilder, halten sich aber nicht an alle Details. Als Alternativen zu dem genannten Generator fallen mir zum Beispiel Dall-E2, Nightcafé oder Midjourney ein.
Fazit
Die Möglichkeiten, KI kreativ einzusetzen, sind somit sehr zahlreich. Wir können uns in Zukunft auf viele neue und spannende Entwicklungen gefasst machen. Besonders in der Kunst muss Kreativität neu definiert werden. Wer weiß, vielleicht wird schon bald ein Meisterwerk von einer künstlichen Intelligenz komponiert und aufgeführt – das wäre doch etwas ganz Besonderes! [Bemerkung: Hier wiederholt sich die KI ein wenig, ein ähnlicher Text wurde bereits oben erzeugt!]
Wie soll man später menschliche Kreativität von der Kreativität einer KI unterscheiden? Vielleicht wird es gar nicht so einfach sein, zwischen den beiden zu unterscheiden – und das ist auch gut so.
Quellen
1. Textgenerator von Neuroflash: im Demo-Modus 2000 Wörter pro Monat frei
2. Stable-Diffusion-Generator bei Hugging Face, theoretische Grundlagen bei
Rombach, Robin and Blattmann, Andreas and Lorenz, Dominik and Esser, Patrick and Ommer, Björn, High-Resolution Image Synthesis With Latent Diffusion Models, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2022, pp. 10684-10695
Die erzeugten Werke dürfen gemäß der CreativeML Open RAIL-M-Lizenz frei verwendet werden, solange grob ausgedrückt keine Personen oder Institutionen herabgewürdigt oder Gesetze gebrochen werden. Im Attachment A finden Sie den genauen Wortlaut.