ChatGPT(GPT-4)でマルチモーダルな画像入力!コードインタプリターで成功

ChatGPT Plus向けのコードインタプリターによって、GPT-4モデルのベータ機能でファイルのアップロードが可能になりました。

ExcelやCSVファイルをアップすると、ChatGPTがファイルにアクセスして計算やグラフ作成など、様々処理をしてくれます。

そんな中、画像ファイルの内容の説明をリクエストしたところ、ChatGPTが画像内の情報を読み取ってくれました。

Bardでマルチモーダル対応が始まりましたが、ChatGPT(GPT-4)でもマルチモーダル対応が発表されるかもしれません。

ChatGPT新機能「コードインタプリター」

ChatGPTの新機能として発表されたコードインタプリターが話題を集めています。

コードインタプリターでは、これまでは不可能だったChatGPTでコードを実行させることが可能になった機能です。

GPT-4のコードインタープリター機能は有料版ChatGPT Pulsのベータ版機能として利用可能

有料プランであるChatGPT Plusユーザーが利用可能で、「Setting>Beta features」からコードインタプリターを有効にすると利用できるようになります。

コードインタプリターではプログラムを走らせるのに加え、オプションでファイルをアップロードする機能が搭載されました。

ChatGPTのコードインタプリターでは、ChatGPTでコード実行が可能になっただけではなく、オプションでファイルアップロードが可能に

アップロードしたファイルにChatGPTがアクセスし、データ解析、グラフ作成、ファイル編集、計算などを依頼できます。

ExcelやCSVの分析やグラフ化

コードインタプリターで話題を集めている機能はExcelやCSVなどの数値データの分析やグラフ化です。

これまでのChatGPTも分析はできましたが、コードインタプリターが登場する前は、マークダウン記法で表データをテキスト入力する必要がありました。

コードインタプリターによってエクセルファイルを直接アップロードできます。

ChatGPTのコードインタプリター機能でエクセルやCSVの数値データの分析や加工、編集が可能に

アップロードしたファイルをChatGPTが自動的にデータを読み込み、編集や加工、計算を依頼できます。

それだけでなく、ChatGPTへのプロンプトでリクエストすれば、データの傾向を捉えて解釈して分析までしてくれます。

ChatGPTの新機能「コードインタプリター」でエクセルファイルからグラフ作成を依頼したところ、画像を生成

与えたデータからグラフの生成までChatGPT(GPT-4)に依頼すれば作成可能です。

そのため数値データがコードインタプリターでChatGPTに送れば、グラフ化して傾向を分析するレポートの自動作成ができるところまで来ています。

コードインタプリターで画像の読み取りに成功

コードインタプリターでファイルアップロードができるようになったので、画像ファイルをアップしてみました。

以前Youtube動画用のスライド画像をChatGPTのコードインタプリターにアップし、「画像に写っている内容を日本語で説明してください。」を依頼してみました。

ChatGPT(GPT-4)のコードインタプリターで1度だけマルチモーダル入力に成功した画像

すると、画像に掲載されているテキスト情報を読み取り、内容を説明してくれました。

ChatGPTのコードインタプリターで画像によるマルチモーダル入力に成功し、画像内容の説明と解釈を生成

画像はGoogleスライドで作成したもので、大きいタイトル文字から吹き出しに加え、ウェブページのスクショもありますが、いずれもしっかり認識されています。

さらに、「全体として、この画像はGoogle Apps Scriptのプロパティサービスの概要、使い方、そして具体的な利用例を解説した教材となっています。」と考察も加えてくれています。

ついにChatGPT(GPT-4)がマルチモーダル対応?

さきほど紹介したChatGPTのコードインタプリターでは、画像ファイルをアップして、内容の説明を依頼するテキストを一緒に投稿しました。

その結果、テキストと画像で一緒に指示ができるマルチモーダルな応答をGPT-4が実現しています。

これは、2023年3月にGPT-4が発表されたときに紹介されたマルチモーダルな使い方です。

OpenAIのGPT-4はマルチモーダル対応で画像情報を読み取って応答できるように

とうとう、GPT-4のマルチモーダル対応ができた!と驚きました。

画像の読み取りを複数回検証するも失敗

しかし、1度は画像の読み取りリクエストに成功したものの、その後、同じ指示を複数回繰り返して検証しても、失敗しました。

ChatGPTのコードインタプリターで画像を読み取って内容を説明するマルチモーダルは1度だけ成功したものの、移行は「画像の解析能力がない」と応答され失敗

何度GPT-4に依頼しても、「画像解析能力は持たない」との回答がありました。

そのため、まだGPT-4自体はマルチモーダル対応したとは言えません。

GPT-4のコードインタプリターでマルチモーダルな応答が1度だけですが成功したのは確率的にはとても珍しかったようです。

Bardも7/13にマルチモーダル対応

ChatGPTと競合しているGoogleの生成AI、Bardでは2023年7月13日にマルチモーダル対応が可能となりました。

ChatGPTと競合するGoogleの生成AIであるBardはGoogleレンズを使ったマルチモーダルに対応

GPT-4発表時にマルチモーダル対応の話があったものの、GPT-4よりもBardが先にマルチモーダル対応したことにネットなどで驚きに声が挙がっています。

ただ、OpenAIもこのままBardの先行を許すはずもなく、マルチモーダル対応を至急進めると見込まれます。

そのため、私が遭遇したGPT-4のコードインタプリターでのマルチモーダル入力は、もう間もなく実現すると推測しています。

まとめ・終わりに

今回、ChatGPTのコードインタプリターでマルチモーダル入力に成功したことを紹介しました。

有料のChatGPT PlusでGPT-4のベータ版機能のコードインタプリターで画像をアップロードし、内容の説明をリクエストしたところ、画像内容の情報を読み取り、考察も生成してくれました。

残念ながらその後、画像のマルチモーダルをコードインタプリターで何度も検証したものの、「画像解析できない」と失敗してしまいました。

しかし、ライバルのBardもマルチモーダル対応がリリースされており、当初からマルチモーダル対応を謳っていたGPT-4がそのままなはずはありません。

OpenAIもChatGPTでマルチモーダル機能のリリース準備を進めていると推測されます。

そんな中、たまたま未発表のGPT-4でマルチモーダルができたので、まもなく実装されるであろうマルチモーダル機能を心待ちにしましょう。