【AI解説】DALL-E2とは何？

2023年5月17日

最近、AI技術の進化が目覚ましいですね。

その先駆けともいえるOpenAIが開発した画像生成AI「DALL-E2」というAIがあります。

プロンプトを入力するだけで画像を自動生成してくれるので大変便利ですが、ChatGTPと比べるとそこまで話題に上らないのでよくわからない…という方もいらっしゃると思います。

今回はそのDALL-E2についてより詳しく解説していきたいと思います。

DALL-E2とは

DALL-E2とはOpenAIが開発した画像生成AIです。

DALL-E2(ダリツー)と読みます。

あなたのイメージをプロンプトとして入力するだけで、イメージに近い画像が手軽に生成されます！

名前の通り、有名な画家のサルバドール・ダリとピクサーのWALL・E（ウォーリー）が由来となっています。

サルバドール・ダリ
スペイン・フィゲーラス出身の画家。特徴的な髭と『記憶の固執』(1931年)という作品が有名です。ぐにゃぐにゃになった時計の作品、といえばわかりやすいかも。

WALL・E
2008年に公開された長編アニメーション映画。同作の主人公のロボットの名前がWALL・E（ウォーリー）です。

一言で言うと「文章を入力することによってイメージに近い画像を生成してくれるAI」です。

DALL-E2はOpenAIのサービスサイトから登録し、利用することができます。

ちなみに登録方法や使い方を解説している記事もありますのでよかったら参考にしてください。

DALL-E2は主に2つの技術をメインに使って開発されました。

その技術についても簡単に解説いたします。

CLIPとは2021年にOpenAIが発表した技術です。

正式名称は【Contrastive Language-Image Pretraining】となります。

大量の画像とテキストをベクトル化し、その組み合わせを事前に学習。

その類似度を算出後、特定の画像に対して適切な画像を選択する技術です。

つまり、大量にある情報の中から「犬」というテキストと「犬の画像」の類似度を算出し、入力されたプロンプトの内容から最も類似度が高いと思われる画像を生成してくれる、ということです。

ベクトル化
繰り返しの処理で配列の要素を演算できるように変形させることです。

拡散モデルは現在の画像生成のベースになっている技術です。

現在の画像生成についてざっくりと説明すると、ある画像にノイズを当て続け、完全にノイズになったものから逆にノイズを取り除き、元の画像とノイズから復元した画像が近しいものになるように学習する技術になります。

この元の画像とノイズから復元した画像の誤差を少なくする試みが拡散モデルと呼ばれるものです。

他にもテキストをベクトル化する際にTransformerという技術が利用されていたり、CNNが利用されていたりと様々な技術を利用しDALL-E2は開発されたのです。

今回はDALL-E2の簡単な仕組みなどについて解説いたしました。

この記事を読んで少しでも面白そう、やってみたいと感じられた方は実際に利用してみてくださいね。

今後も生成系のAIは開発され、さまざまな特色を持ったものが増えていくことでしょう。

他の生成系のAIについても解説をしていきますのでよかったらそちらもお読みくださいね。