英語版Bardがマルチモーダル対応!(日本不可)Googleレンズで画像認識
2023年7月13日にグーグルが開発する生成AIであるBardがマルチモーダルな入力に対応したことを発表しました。
Googleレンズと連携してBardにアップロードされた画像の情報を読み取ることができます。
まだ英語版Bardのみ利用可能で、日本からはマルチモーダルは利用できませんが、どういった機能か紹介します。
BardはChatGPT対抗の生成AI
「Bard」はChatGPTに対抗してGoogle社が開発した生成AIです。
2022年末に登場したChatGPTが大流行したことで、グーグルがレッドアラートを出し、急ピッチでサービス開発して2023年3月にベータ版として一般ユーザーに試験公開されました。
その後、多言語対応を進み、5月には日本語でもBardが利用できるようになりました。
さらに、プログラミングのコード生成機能もリリースされてどんどん進化しており、Bardの利用範囲が拡大しています。
Bardがマルチモーダル入力をリリース
2023年7月13日にBardがマルチモーダル対応で画像入力が可能になったとリリースされました。
Bardの最新情報にマルチモーダル入力に関する実装情報が掲載されています。
これまでのBardへの入力方法はテキストしかありませんでした。
しかし今回のリリースによって、テキストだけでなく画像による入力もできるようになりました。
GPT-4に先行してBardがマルチモーダル対応
元々マルチモーダル対応が話題を集めたのは、GPT-4が2023年3月にリリースされたタイミングでした。
GPT-4の機能として、画像とテキスト情報をリクエストできると発表しました。
GPT-4は膨大な学習パラメータによる精度の高さに加え、マルチモーダル対応が驚きを集めました。
しかし、GPT−4を利用可能なChatGPTではマルチモーダルはごく稀なケースを除いて、利用することはできません。
GPT-4で話題を集めたマルチモーダルが、OpenAIよりも先に競合であるGoogleのBardがリリースしたことも話題を呼んでいます。
Googleレンズと連携して画像読み取り
BardでのマルチモーダルはGoogleレンズと連携することで実現しています。
Googleレンズは画像に写っている物体などを画像認識して何か識別して調べてくれるサービスです。
写っているものが何か言葉で分からない時に、Googleレンズを使えば画像に写ったものをAIが判定してくれます。
元々Googleは画像認識に関するAIを盛んに研究開発し、その成果物としてGoogleレンズが生まれました。
Googleレンズを取り入れることで、Bardでも画像を認識した情報をもとにテキストを生成可能です。
生成系AIではChatGPTに先行されていましたが、Googleの強みをBardに取り入れて競合に追いつこうとしています。
日本のBardではマルチモーダル入力不可
ここまでBardがマルチモーダル対応し、画像入力が可能になったと紹介してきました。
しかし、現時点でGoogle Lensによるマルチモーダルな入力ができるのは英語版Bardのみです。
残念ながら、日本からBardにアクセスした場合には、画像入力できる表示はありません。
Bardがリリースされた際もまず英語版がリリースされ、日本語対応したのは2ヶ月経過してからでした。
そのため、しばらくすれば日本のBardでもマルチモーダル対応すると考えられるので、もう少々待ちましょう。
まとめ・終わりに
今回、Googleが開発する生成AI「Bard」がマルチモーダル対応として画像入力機能をリリースしたことを紹介しました。
Googleが開発している画像認識サービスであるGoogle Lensと連携し、Bardにアップロードした画像の中身を読み取りしてくれます。
マルチモーダルによる画像入力は、GPT−4をOpenAIが発表した際に紹介され、AIの未来を感じさせる入力に多くの人が驚きました。
そんなマルチモーダル機能をChatGPT(GPT-4)ではなく、競合のBardが先行してリリースしたことも話題を集めています。
しかし、現時点ではBardのマルチモーダルは英語のみ対応しており、日本からBardにアクセスしても利用できません。
日本版Bardで利用できるようになるまで、もうしばらく待ちましょう。
関連記事
GASでGPT-4oのAPIの利用方法!画像含むマルチモーダル入力のサンプルコード
OpenAIが2024年5月に発表したGPT-4の後継モデルであるGPT-4oは ...
GASでBardのAPI(VertexAI API)を実行する方法!PaLM2の応答生成
生成AIのBardをAPIで利用したい場合、GCP(Google Cloud P ...
Googleの対話AI「Bard」が一般公開予定と発表!いつから利用可能か、LaMDAの性能も紹介
GoogleはChatGPTに対応するAIであるBardを一般ユーザーに向けて公 ...
GASでGemini APIのマルチモーダル利用方法!画像とプロンプト同時入力
2023年12月13日に公開されたGemini APIによって、現時点でGemi ...
Googleの生成AI Bardが日本でも利用可能に(英語のみ)!音声入力も検証
Googleの対話型AIであるBardが日本からも利用できるようになりました。 ...
ディスカッション
コメント一覧
まだ、コメントがありません