GPT-4が3/15公開!ChatGPT Plusでの使い方と応答精度を解説
まもなく公開とウワサされていたGPT-4が2023年3月15日にOpenAIより公開されました。
ChatGPTを含めたGPT3.5系に比べ、応答の正確性を測るベンチマーク指標もGPT-4では大幅に向上しています。
さらに入力方法はテキストだけでなく、画像入力ができるマルチモーダル対応です。
GPT-4はすでに有料版のChatGPT Plusユーザーの場合、ChatGPTのウェブ版で試すことができます。
そこで、GPT-4の発表内容や性能、実際にChatGPT Plusで従来のChatGPTと比較してみます。
GPT-4が2023年3月15日公開
日本時間の2023年3月15日午前にOpenAIがGPT-4を公開したことを発表しました。
私たちは、ディープラーニングのスケールアップを目指すOpenAIとして、取り組みの最新マイルストーンであるGPT-4を作成しました。
GPT-4は大規模なマルチモーダルモデル(画像とテキストの入力を受け付け、テキスト出力を出す)で、多くの実世界のシナリオでは人間より能力が劣るものの、さまざまな専門的・学術的ベンチマークで人間レベルの性能を発揮します。
具体的な数値は出ていないものの、従来のGPT3.5系よりも大規模な自然言語モデルになっています。
さらに、テキスト以外にも画像入力ができるマルチモーダル対応なのも大きなポイントです。
OpenAIによると、まだまだ人間には劣る面はあるものの、専門的・学術的なベンチマークでは人間レベルのパフォーマンスを発揮するとのことです。
独マイクロソフトがGPT-4公開をリーク
先日投稿した記事ではドイツのマイクロソフトのCTOであるアンドレア・ブラウンが、AIに関するイベントで「GPT-4がリリース間近」とリークしたことを紹介しました。
その時点ではまだOpenAIや業務提携しているアメリカのマイクロソフトからは特に情報はなかったため、あくまで噂レベルでした。
しかし、今回のドイツのマイクロソフトのCTOが事前にリークしていた内容と時期や性能なども合致していました。
そのため、マイクロソフトなどの一部のメンバーはGPT-4がリリースされることを把握していたようです。
GPT-4はGPT-3.5よりもベンチマーク指標MMLUが大幅向上
GPT-4の凄さを知る上で、ベンチマーク指標に用いられているのが「MMLU」です。
MMLUは「Massive Mulititask Language Understanding」の4文字の頭文字を取っています。
MMLUは言語モデルのマルチタスク性能を測定するために作られたベンチマークです。
OpenAIはGPT-4のMMLUの数値グラフを提示しています。
それによると、GPT-4の英語での数値は85.5%とGPT-3.5の70.1%よりも15%以上向上しています。
我々の日本語でもGPT-4は79.9%と、GPT3.5の英語版よりも上回っています。
一部の言語では従来のGPT-3.5の英語よりもスコアが低いものもありますが、主要な言語のほとんどが大幅な応答精度がアップしました。
司法試験など専門分野では人間レベルのパフォーマンス
さらにOpenAIではGPT-4を使って色々な模擬試験を行ってどれぐらいの点数が獲得できたか表も公開しています。
英語の司法試験で90番目以内と上位10%の成績が取れるほど、専門的な内容に対する応答能力が高いです。
GPT-3.5の時点でも一定の点数は取れているものの、さらにGPT-4では点数アップしています。
それゆえにGPT-4は専門的な内容に対する応答性能が高いと、OpenAIがアピールする根拠となっています。
GPT-4は画像入力のマルチモーダル対応
さらに、GPT-4は入力できるのがテキストだけでなく、画像も含めたマルチモーダル対応です。
ChatGPTなどではAIに応答してもらうには、すべて情報をテキストで入力する必要がありました。
しかし、GPT-4ではマルチモーダル対応されたことによって、画像を見て内容理解ができます。
実際にOpenAIが公開しているサンプル事例では、画像がおかしいところについて尋ねたところ、GPT-4は正しく回答しています。
移動するタクシーの屋根に取り付けられたアイロン台で男性がアイロンをかけていることを画像から読み取り、その上で、テキストプロンプトの質問にも正確に回答しています。
さらに複数画像を入力して、それぞれの画像ごとの情報を説明するとともに、「ディスプレイ用のVGAケーブルでiPhone用のLightningケーブルを作ったユーモア」という点を的確に回答しています。
マルチモーダル対応は、各種言語での正確性の向上に加えてGPT-4の凄さを表す2大ポイントです。
有料のChatGPT PlusではGPT-4が実行可能に
有料版であるChatGPT PlusユーザーはすでにGPT-4を利用できるようになっています。
無料版ユーザーの方も1ヶ月20ドルの課金を行えば、GPT-4が使えるとのお知らせが表示されます。
これまではChatGPT Plusは従来版と高速版の2種類でしたが、それに加えて、GPT-4が選択できるようになりました。
なお、GPT-4は試せるものの、「GPT-4 currently has a cap of 100 messages every 4hour」と4時間ごとに100メッセージの上限があります。
GPT-4が追加されて、これまでのChatGPT Plusにはなかったスペック項目(5段階評価)が表示されるようになりました。
- Reasoning(推論):GPT-4=5、GPT-3.5(Default)=3
- Speed(応答速度):GPT-4=2、GPT-3.5(Default)=5
- Conciseness(簡潔さ):GPT-4=4、GPT-3.5(Default)=2
スピードの部分は遅くなったものの、それ以外の推論能力や簡潔さは従来のChatGPTを上回っています。
ChatGPT Plusを使いGPT-4の動作を検証
実際にChatGPT Plusアカウントで、従来のChatGPTとGPT-4の動作を比較してみました。
まず従来のChatGPTでスラムダンクについてストーリーを尋ねてみました。
以前質問した際よりも応答結果の内容はスラムダンクのストーリーについて正しくなっています。
しかし、全国大会決勝、陵南高校との対戦、そして全国一と結末の部分が明らかな誤りでした。
続いて新しくChatGPT Plusで選択できるようになったGPT-4に切り替えて、同じプロンプトで尋ねてみました。
応答結果が出てくる速度はChatGPTよりも遅かったです。
内容の部分では、スラムダンクに登場人物に誤りがありました。
主人公以外に出てくる4人のうち、2人が登場しない人物でした。
しかし、それ以外の部分の応答文はスラムダンクのストーリーを捉えています。
そのため、「従来のChatGPTよりも正確性は高まっているが、完全に正確ではない」と言えそうです。
織田信長が勝利した合戦について尋ねたのですが、岐阜城の戦いの相手が斎藤道三になっていたり、長篠の戦いで制圧した国が違ったり、姉川の戦いは年も間違っています。
Wikipediaやその他のウェブ情報である程度正確な応答を学習できる歴史についても、まだ日本語だとGPT-4でも正確な回答ができないようです。
GPT-4のAPIウェイトリストも同時公開
GPT-4が登場して気になるのが、プログラミングからGPT-4を利用するためのAPIです。
今回はGPT-4公開が発表されたのと同時に、APIについても以前同様ウェイトリストが公開されています。
氏名やメールアドレス、利用用途などを入力することでウェイトリスト登録可能です。
GPT-4のAPIも公開されたらすぐ使いたい場合に、ウェイトリストに登録しておきましょう。
※GPT-4のAPIウェイトリストの登録方法や詰まりやすいポイントについて、以下の記事で解説しています。
まとめ・終わりに
今回、OpenAIからGPT-4が発表されたことを紹介しました。
2023年3月15日に公開されたGPT-4はこれまでのChatGPTよりも応答性能が向上しています。
さらにマルチモーダル対応によって画像入力も可能になりました。
すでにChatGPT Plusで試すことができたので、実行したところ、速度は従来版よりも遅かったものの、より正確な応答結果が返ってきました。
今後マルチモーダル対応の画像入力もできるGPT-4が登場し、AIの導入は進んでいくと推測しています。
AI普及の流れに乗り遅れないように、いまのうちにAIのさらなる進化系であるGPT-4をぜひ試してみましょう。
ディスカッション
コメント一覧
まだ、コメントがありません