英語版Bardがマルチモーダル対応！(日本不可)Googleレンズで画像認識

2023年7月17日

2023年7月13日にグーグルが開発する生成AIであるBardがマルチモーダルな入力に対応したことを発表しました。

Googleレンズと連携してBardにアップロードされた画像の情報を読み取ることができます。

まだ英語版Bardのみ利用可能で、日本からはマルチモーダルは利用できませんが、どういった機能か紹介します。

BardはChatGPT対抗の生成AI

「Bard」はChatGPTに対抗してGoogle社が開発した生成AIです。

2022年末に登場したChatGPTが大流行したことで、グーグルがレッドアラートを出し、急ピッチでサービス開発して2023年3月にベータ版として一般ユーザーに試験公開されました。

Googleの対話AI「Bard」が米/英で一般利用可能に! 日本語の公開はいつ?

その後、多言語対応を進み、5月には日本語でもBardが利用できるようになりました。

Bard(バード)がついに日本語対応！日本語での応答精度や速度を検証

さらに、プログラミングのコード生成機能もリリースされてどんどん進化しており、Bardの利用範囲が拡大しています。

2023年7月13日にBardがマルチモーダル対応で画像入力が可能になったとリリースされました。

Bardの最新情報にマルチモーダル入力に関する実装情報が掲載されています。

これまでのBardへの入力方法はテキストしかありませんでした。

しかし今回のリリースによって、テキストだけでなく画像による入力もできるようになりました。

元々マルチモーダル対応が話題を集めたのは、GPT-4が2023年3月にリリースされたタイミングでした。

GPT-4の機能として、画像とテキスト情報をリクエストできると発表しました。

GPT-4が3/15公開！ChatGPT Plusでの使い方と応答精度を解説

GPT-4は膨大な学習パラメータによる精度の高さに加え、マルチモーダル対応が驚きを集めました。

しかし、GPT−4を利用可能なChatGPTではマルチモーダルはごく稀なケースを除いて、利用することはできません。

GPT-4で話題を集めたマルチモーダルが、OpenAIよりも先に競合であるGoogleのBardがリリースしたことも話題を呼んでいます。

BardでのマルチモーダルはGoogleレンズと連携することで実現しています。

Googleレンズは画像に写っている物体などを画像認識して何か識別して調べてくれるサービスです。

写っているものが何か言葉で分からない時に、Googleレンズを使えば画像に写ったものをAIが判定してくれます。

元々Googleは画像認識に関するAIを盛んに研究開発し、その成果物としてGoogleレンズが生まれました。

Googleレンズを取り入れることで、Bardでも画像を認識した情報をもとにテキストを生成可能です。

生成系AIではChatGPTに先行されていましたが、Googleの強みをBardに取り入れて競合に追いつこうとしています。

ここまでBardがマルチモーダル対応し、画像入力が可能になったと紹介してきました。

しかし、現時点でGoogle Lensによるマルチモーダルな入力ができるのは英語版Bardのみです。

残念ながら、日本からBardにアクセスした場合には、画像入力できる表示はありません。

Bardがリリースされた際もまず英語版がリリースされ、日本語対応したのは2ヶ月経過してからでした。

そのため、しばらくすれば日本のBardでもマルチモーダル対応すると考えられるので、もう少々待ちましょう。

今回、Googleが開発する生成AI「Bard」がマルチモーダル対応として画像入力機能をリリースしたことを紹介しました。

Googleが開発している画像認識サービスであるGoogle Lensと連携し、Bardにアップロードした画像の中身を読み取りしてくれます。

マルチモーダルによる画像入力は、GPT−4をOpenAIが発表した際に紹介され、AIの未来を感じさせる入力に多くの人が驚きました。

そんなマルチモーダル機能をChatGPT(GPT-4)ではなく、競合のBardが先行してリリースしたことも話題を集めています。

しかし、現時点ではBardのマルチモーダルは英語のみ対応しており、日本からBardにアクセスしても利用できません。

日本版Bardで利用できるようになるまで、もうしばらく待ちましょう。

Posted by yamamoto