ポッドキャストのサムネイルを作ってみよう!

(勢いでこのドメインを購入して既に放置気味なのですが・・・)

今回は、これからやってみようかなぁ~どうしようかなぁ~と考えているポッドキャストのサムネイルをAIさんに作ってもらおうかなと思います!

どんなサムネイルにしようか考える

せっかく「ローカルAIについてのブログ」を作ろうとしているのですから、基本的には「ローカルで動くAI」でサムネイルを作りたいなぁと思うのですが・・・

まず、初めに具体的に「どんなサムネイルを作りたいか」を考えて見ました!!

最初のサムネイル案

ということでこんな感じ~

  • 画面中央に配信主(の代わりとして使いがちな)キャラクターを配置
    • 配信主は寝ている感じで、「全部AIに任せちゃおう!」みたいな感じ
  • 配信主が見ている夢的な感じで、AIちゃんが色々なことをやっている感じのイラストを配置
    • 例えば、なんかプログラミングっぽいウィンドウを操作したり
    • 画像生成っぽいものを作っていたり
    • 波形っぽいものが映っている画面があったり
    • フォルダーの整理をしている感じにしたかったり・・・
    • AIちゃんについて
      • やっぱり、可愛い感じのキャラクターだったら嬉しいよね!!!
      • 若干イラつきながらも、頑張って作業をしている感じ!!
      • AIっぽさを出したいから、
        • 近未来的な服装、装飾をしていてほしい(私がアホなので具体的ことは言えない)
        • なんとなく、髪の毛が基本白髪で先端にかけて水色っぽいグラデーションがいいなぁ・・・
        • 頭にコンテキスト長を表すHPバーみたいなのがあったり、ニューロンっぽい丸がつながった模様や、パーティクルが飛んでいると面白そうかなぁ~

という感じで・・・「AIに任せちゃおう!」 みたいな感じのサムネイルが作りたいですね!!

方針

ということで「作りたいもののイメージはできた」ので、次はこれをプロンプトとして指示できるような形にしていきたいと思います!!

もちろん、私ではAIさんへの指示プロンプトは書けないので、さっきの情報などをもとにAIさんにプロンプトを作ってもらおうかと思います!!!

ということで、Geminiさん、ChatGPTさんにプロンプトを作ってもらいました!!(そこはローカルじゃないんかい!!って感じですが・・・いつかは完全ローカルでも試してみたいですね・・・)

ということで、さっき作った画像を私なりに細か~くした下の文章をもとにプロンプトを作成して~!!とお願いしまくりました!!

正方形、サムネイル用イラスト
画面下部、前面にケモ耳が生えた茶髪の可愛い中性的なキャラクターのバストアップで布団を顎まで描けて寝ているキャラクターの顔が描かれている。アイマスクをつけていて、おでこの辺りにずれて掛かっている。

画面背景に前面のキャラクターが見ている夢が漫画の吹き出しのような形で吹き出しの中に描かれている

右側に白髪、セミロングの髪の毛で先端に行くにつれて淡い水色のグラデーションになっている可愛い女性キャラクターがいる。ジト目で少し怒ったような表情をしており、後ろ髪に薄くAIのニューロンのつながりの記号のようなSNSを表すアイコンのような模様が入っている。キャラクターの頭部右上にゲームの丸ゲージに様な輪っかが斜めにかかっている。左手で画面左側に映っているいくつかのウィンドウを操っているような操作をしており、右手で、前面のキャラクターを突っついている。全体的に近未来的な衣装を着けていて、白衣と制服、いくつかリボン的なものが付いた衣装の上に、透けているパーカーのようなものをつけている。パーティクルとして、キャラクターの周りにAIのニューロンのつながりの記号のようなSNSを表すアイコンのような模様がいくつか浮いている。キャラクターの腰辺りまで描写されている。キャラクターのおでこ辺りにそのキャラクターの感情が顔文字として浮くようになっており、「(# ゚Д゚)」の顔文字がデジタル調に表示されている。

画面左側では、白髪の女性が操作しているいくつかのウィンドウが、キャラクターに対して曲面上に開かれている。

正面にある一番大きなウィンドウは、その中に三段階内側にポップアップしたウィンドウになっていて、ターミナル様な画面を開いていて、一番前面のターミナル上にはエラーが表示され、次のコマンド入力待ちになっている。

一番大きなウィンドウの左側に、別のウィンドウが開かれており、波形のようなものが表示されている。

波形が表示されているウィンドウの左側に(イラスト全体としては正面の少し左に位置する)、フォルダーアイコンに対して怒りマークがついたマウスカーソルが無理やりファイルを詰め込もうとしているアイコンが表示されている。

正面の一番大きなウィンドウの右側に(イラスト全体としては奥まった正面に位置する)写真のようなイラストが表示されている。イラストはあまり書き込まれていない感じで、画面左側にいる白髪のキャラクターがピースをしている、旅行中の一場面を表しているようなイラストとなっている。そのイラストの右上に重なるように鉛筆のアイコンが表示されている。

結果

ということで・・・作成してもらったプロンプト&モデルとして「Z-Image-Turbo」を利用してComfyUIで生成してみました!!(ワークフローはその辺で拾ったものです・・・あとPCの性能問題があるので軽量な構成にしつつ・・・)

「以下の情報をもとにプロンプトを作成して~」とお願いしてできたプロンプトを利用したもの

作った画像その1

作った画像その2

大体こんな感じのプロンプトで生成しました。

Refined Image Generation Prompt
[Overall Composition & Style]
Masterpiece, high-quality anime style illustration, square composition. The scene is a dual-layered "Dream Projection."

Foreground: A close-up, bust-up shot of a sleeper.

Background: A vivid, glowing dream world appearing as a large thought bubble or a surreal space behind the sleeper.

Interaction: The dream-character's right hand reaches down to "poke" the sleeper in the foreground, breaking the boundary between the dream and reality.

[Foreground: The Sleeper]
At the bottom center, a cute androgynous character with soft brown hair and animal ears (kemomimi) is sleeping. They are covered up to their chin by a thick, textured quilted duvet. A cat-ear sleep mask is pushed up onto their forehead. The shot is a tight bust-up, focusing on their peaceful sleeping face and the top of the blanket.

[Background: The White-Haired Dream Girl]
A girl with semi-long white hair and light blue gradient tips stands in the dream world (visible from the waist up).

Pose & Action: She looks down toward the sleeper with a disgruntled, pouting "mutton-face" expression. Her left hand is outstretched to the side, elegantly manipulating floating holographic windows. Her right hand reaches forward and downward to gently poke the sleeping character below.

Head Details: A digital emoticon "(# ゚Д゚)" floats clearly on her forehead. Floating diagonally above the left side of her head is a monochrome (black and white) circular game-style gauge ring.

Outfit: A fusion of a Japanese school uniform (seifuku) with ribbons and a white lab coat. Over this, she wears a translucent, iridescent tech-style parka/bolero. The outfit is detailed with futuristic metallic buckles.

[Floating UI & Holographic Windows]
A series of curved holographic screens surround the girl:

Center-Left: A large terminal window with triple-layered pop-up boxes showing error messages like "Data Stream Sync Failure" and a blinking cursor waiting for a command.

Left Side: A window displaying a digital audio waveform.

Far-Left: A folder icon with an "angry-mark" mouse cursor forcefully stuffing files into it.

Right Side: A sketchy, simple photo of the white-haired girl making a peace sign on a trip, with a pencil icon overlapping its corner.

[Atmosphere & Details]
Floating particles of AI neuron network patterns and SNS-like icons drift around the girl. Soft digital glow, cyberpunk aesthetic, vibrant but clean colors. The lighting transitions from the warm, cozy glow of the bed to the cool, ethereal neon blue of the dream world.

「以下の情報を英語に翻訳して」で翻訳したものを突っ込んだもの

作った画像その3

作った画像その4

大体下のようなプロンプトで生成しました。

Square, thumbnail illustration.

At the bottom foreground of the screen, a cute androgynous character with brown hair and animal ears is shown in a bust-up view, sleeping under a blanket pulled up to their chin. They are wearing an eye mask, which is slightly pushed up onto their forehead.

The background of the screen is composed like a dream that the foreground character is seeing.

On the right side, there is a cute female character with semi-long white hair that gradually transitions into a pale light blue gradient toward the tips. In her back hair, there are faint patterns resembling AI neural network connections or social media-like icons. Around the upper right side of her head, there is a tilted ring resembling a circular game gauge.

With her left hand, she appears to be manipulating several windows displayed on the left side of the screen. With her right hand, she is pinching or interacting with the foreground character. She is wearing a futuristic outfit overall: a combination of a lab coat and a uniform, decorated with several ribbon-like elements, and over it, a translucent hoodie-like garment.

As particle effects, several symbols resembling AI neural networks or social media icons are floating around her. She is depicted down to around her waist.

Around her forehead, her emotions are displayed as a digital-style emoticon, showing “(# ゚Д゚)”.

On the left side of the screen, several windows that the white-haired character is operating are arranged along a curved surface facing the character.

The largest window in the center front contains three layers of nested pop-up windows. It displays a terminal-like interface, and on the foremost terminal screen, an error message is shown, waiting for the next command input.

To the left of the largest window, there is another window displaying something like a waveform.

Further to the left of the waveform window (positioned slightly left of center in the overall composition), there is an icon showing a mouse cursor with an anger mark, forcefully trying to cram files into a folder icon.

To the right of the largest central window (positioned deeper in the scene), there is a photo-like illustration. It is drawn in a relatively simple style, depicting the white-haired character on the left side of the screen making a peace sign, as if it were a scene from a trip. Overlapping the upper right of that image is a pencil icon.

まとめ

ということでいくつか生成してみましたが・・・

  • 「画像生成用のプロンプトを作って~とお願いしたプロンプト」⇒ 多分、クオリティ的なものを指示するキーワードを入れてくれているからか、ぱっと見いい感じ! な画像が生成されている感じがする!
  • 「上のプロンプトを英語に翻訳して~とお願いしたプロンプト」⇒ 普通に出してほしい要素自体はほとんど出てくれている気がする!!ただよくある綺麗なアニメキャラクターという感じではない緩い感じのイラストになっている気がする

という感じの結果になりました!!

・・・これまでそこまで本気でAIで使う用の画像を作ろとしたことがなかったのですが・・・「思ったよりプロンプトを考えるのが大変ですね・・・!!

まずそもそも、頭の中で考えているイメージを言語化するのが難しいし、ローカルで動かせるモデルの制限とか、プロンプトが悪いからか細かいニュアンスを伝えるのが難しいですね・・・(今回のものでいうと、AIちゃんの感情的なものが頭の前に顔文字として出てくるとか、頭にゲージっぽいものが出てくるみたいな指示がうまくできなかったり、あくまで夢の中にAIキャラクターがいるんだよ~っていうのを指示したりなどなど・・・)

今後別のモデルが出たときにも同じ題材でどれだけうまく作れるか試してみたいですね・・・!!

おわり

関係ないですけど・・・このブログを書いている自分に関する記事を作った方が良い気がしてきましたね・・・

自分の知識とか、パソコンの性能とかとか・・・そういったものがないと「読んでみたけど、こいつレベル低すぎてためにならんがw」みたいなことがしょっちゅう起きちゃいそうで・・・

おまけ

nano banana 2さんが途中で作ってくれたものが結局一番良かったとは思うんだ・・・;;やはり強い・・・

nano banana 2さんが作ってくれたもの