Bing AIでもマルチモーダルな画像投稿が可能に!画像認識+検索結果を応答

マイクロソフトの生成AIであるBing AIでも画像投稿の機能がリリースされました。

生成AIではマルチモーダル対応が進んでいる中、BingAIでは画像投稿とテキスト入力ができます。

BingAIのマルチモーダル対応によって画像認識+検索で業務効率がアップしそうです。

生成AIでマルチモーダル対応が進む

2023年7月ごろから生成AIでマルチモーダル対応が発表される機会が増えています。

元々はGPT-4発表時にマルチモーダル対応が大きな話題を集めました。

GPT-4が3/15公開!ChatGPT Plusでの使い方と応答精度を解説

テキストのプロンプトと一緒に画像もアップすることで、2つの入力に応じた応答結果を生成してくれます。

GPT-4に先んじてGoogleの生成AIであるBardがマルチモーダル機能をリリースしました。

英語版Bardがマルチモーダル対応!(日本不可)Googleレンズで画像認識

グーグル社が展開している画像認識サービスのGoogleレンズをBardに組み込むことで、投稿画像が認識できるようになりました。

ChatGPTでもコードインタプリター機能で画像認識はできないものの、画像のアップロードには対応したので、間もなくマルチモーダル対応を発表すると推測しています。

BingAIもマルチモーダル(画像投稿)可能に

グーグルのBardに続いて、マイクロソフトのBingAIでもマルチモーダル機能が実装されました。

マイクロソフトのEdgeブラウザでBing AIを開くと「画像を使用してBingチャットができるようになった」と表示

EdgeブラウザからBingAIにアクセスすると、画像もアップロードできるようになったと情報がポップアップが表示されます。

これまではテキスト入力のみ可能だったのが、テキスト+画像を投稿できるマルチモーダルが可能です。

BingAIとのチャットページにアクセスし、入力窓の右側にある画像追加のアイコンが実装されています。

パソコンの場合、BingAI単体を開き、画像投稿のアイコンで画像をアップロードまたは画像URLの指定が可能

画像追加のアイコンをクリックすると、端末からの画像アップロードまたは画像URLの指定ができるようになっています。

画像認識した情報から検索も

BingAIのマルチモーダル機能を試してみました。

GASのプロパティサービスを解説するYoutube動画のサムネイル画像を投稿し、画像内容を説明してもらいました。

BingAIでYoutubeのサムネイル画像をマルチモーダルで入力した結果、画像認識して応答結果をBingAIがチャットで生成

この画像は、Google Slidesのプレゼンテーションスライドの一枚ですね。GASの3種類のプロパティサービスについて説明しているようです。プロパティサービスとは、Google Apps Scriptでデータを保存するための機能です。3種類のプロパティサービスとは、スクリプトプロパティ、ユーザープロパティ、ドキュメントプロパティのことです。それぞれの使い方と注意点については、以下のようになります。

  • スクリプトプロパティ: スクリプト全体で共有されるデータを保存する。スクリプトエディターから設定するか、コードで操作する。値は文字列型で保存される。最大サイズは9KB。
  • ユーザープロパティ: スクリプトを実行するユーザーごとに異なるデータを保存する。コードで操作する。値は文字列型で保存される。最大サイズは9KB。
  • ドキュメントプロパティ: スクリプトがバインドされたドキュメント(スプレッドシートやドキュメントなど)に関連するデータを保存する。コードで操作する。値は文字列型で保存される。最大サイズは9KB。

注意点としては、以下のことが挙げられます。

  • プロパティサービスは、永続的なデータストアではなく、キャッシュとして使うことが推奨される。データの整合性やセキュリティを保証しない。
  • プロパティサービスは、同時に多くのリクエストを処理できない場合がある。その場合は、LockServiceやCacheServiceを併用することが推奨される。
  • プロパティサービスは、値を文字列型で保存するため、数値やオブジェクトなどの他の型のデータを保存する場合は、変換が必要になる。

以上が、画像に書かれたテキスト情報の読み取り結果です。GASの3種類のプロパティサービスについて、少しでも理解が深まったでしょうか?😊

: [Properties Service  |  Apps Script  |  Google Developers] : [Class PropertiesService  |  Apps Script  |  Google Developers]

BingAIからの応答結果では、画像内のテキスト情報を画像認識するのに加え、それらの情報をベースに検索で得られた補足の説明も生成しています。

BingAIは元々検索エンジンであるBingの強みも活かし、マルチモーダル入力に対して、画像認識と検索による応答を返してくれます。

さらにオウムの写真を投稿して、鳥の種類となぜ頭の羽が広がっているか尋ねてみました。

BIngAIにマルチモーダル入力でオウムの種類と頭の羽を広げている理由を尋ねた結果

こんにちは、これはBingです。ご質問ありがとうございます。😊

この鳥はオウムの仲間で、タイハクオウムという種類です1。タイハクオウムはインドネシアのモルッカ諸島に生息する大型のオウムで、全身が白い羽毛で覆われています。頭には黄色い冠羽があり、感情や気分によって上げたり下げたりできます2

冠羽はオウム科の鳥に特有の特徴で、インコ科の鳥にはありません3。冠羽は仲間とのコミュニケーションや敵に対する防御手段に使われます4。例えば、冠羽を上げると興奮や好奇心を表すことがありますし、下げると落ち着いたり不安になったりすることがあります5。もちろん、個体差や状況によっても異なるので、一概には言えませんが、冠羽の動きはオウムの感情を読み取る手がかりになることがあります。

この写真のオウムは冠羽を上げていますが、それはカメラに興味を持っているかもしれませんし、飼い主さんと遊びたいと思っているかもしれません。オウムはとても賢くて人懐っこい鳥なので、飼い主さんとのスキンシップや遊びが大好きです。

私もオウムのような冠羽を持っていたら楽しいだろうなと思います。😊

あなたはオウムを飼っていますか?それとも鳥が好きですか?私は鳥が大好きで、特にオウムやインコのような色鮮やかで可愛らしい鳥に惹かれます。🐦

あなたのお好きな鳥は何ですか?私はあなたとお話しすることが楽しみです。😊

BingAIは画像の鳥がオオバタンというオウム、頭の羽は冠羽といい、興奮や好奇心で広がることを教えてくれました。

ただ、実際には画像のオウムはアオメキバタンで、オオバタンではありませんでした。

細かな違いの分類などは苦手なようです。

ログイン不要でも1日5回まで利用可能

2023年5月にBingAIがログイン不要で利用できるようになりました。

Autoworkerのブログ記事でもBing AIがログイン不要になったタイミングで取り上げています。

Bing AIがログイン不要で誰でも利用可能に!ゲストの1日の回数上限や制限は?

元々はBingAIを利用するには、Edgeでマイクロソフトアカウントにログインが必須でした。

しかし、現在はEdgeブラウザでゲストユーザーとして1日5回までBingAIが利用可能です。

画像投稿機能もゲストユーザーで利用できるので、回数は少ないですが、BingAIの画像アップロードによるマルチモーダルを試すことができます。

マルチモーダルなBingAI活用で業務効率アップ

マルチモーダルなBingAIはテキスト+画像による2つの入力を組み合わせたリクエストが可能です。

従来のテキストのみの場合、画像に関する情報を人間が入力する必要がありました。

マルチモーダル対応によって、画像認識した情報に加えて、テキストで指示ができるので、画像の何を知りたいか意図が伝えやすいです。

BingAIを使えば、従来は調べるのが面倒だったこともより簡単に応答してもらえるので、業務効率がアップします。

わからないものがあった時に写真で撮影して、BingAIに聞き、深掘りしていけば、短時間で調査が完了できそうです。

まとめ・終わりに

今回、マイクロソフトの生成AIであるBingAIで画像投稿できるマルチモーダル機能がリリースされたことを紹介しました。

グーグルの英語用Bardでもマルチモーダル対応が話題を集めましたが、BingAIもテキストと一緒に画像も入力できるようになりました。

それによって画像の情報を認識した上でプロンプトで質問することが可能です。

Youtubeサムネイル画像などは画像内のテキストを正確に読み取り、その情報を検索してさらに補足情報を教えてくれます。

ただ、鳥の種類を尋ねた際は画像検索でも誤った情報が出るように適切な種類を回答できませんでした。

しかし、BingAIに画像とテキストのマルチモーダルな入力を行えば、調査などの仕事はかなり効率化できます。

画像を調べる業務をしている場合は無料で使えるBingAIを活用してみましょう。