5月14日10時頃(日本時間で14日午前3時)にGoogle ioが始まりました。
さまざまなサービスがアップデートされることを発表されるなかで私は今回Geminiについてのアップデート情報を紹介したいと思います
Gemini 1.5 Pro:モデルの大幅な強化
以前私がGemini1.5Proについてこのような記事を投稿しましたが、さらなるアップデートがありGoogleは、幅広いタスクで優れたパフォーマンスを発揮するGemini 1.5 Proを強化したことを発表しました。このモデルは、従来のGemini1.5 Proを大幅に進化させ、より洗練された機能と高いパフォーマンスを実現しています。
主な特徴:
- 拡張されたコンテキストウィンドウ: 200万トークンという広大なコンテキストウィンドウにより、より複雑な情報を理解し、より長いテキストを処理することが可能になりました。
- 強化された能力: コード生成、論理的推論とプランニング、マルチターン会話、音声と画像の理解において、大幅な性能向上を実現しました。
- 音声理解の追加: Gemini APIとGoogle AI Studioに音声理解機能が追加されました。これにより、動画内の音声と画像を理解することが可能になりました。
このようにGemini1.5Proは大幅な強化がされていることがわかります。
このように100万トークンのときでも圧倒的なトークンを処理できていたのに200万トークンまで対応するようなったのでトークンの処理数で比較するとGemini1.5Proが一番優れていると言えます。
Gemini1.5Flash:新たなモデル登場
Gemini1.5Flashというモデルが発表されました。
モデルの特徴
・軽量で高速
・100万トークンのロングコンテテキストウィンドウ
というような特徴を持っています。決して軽量で高速だからと言って性能を妥協しているわけではなく、大規模かつ高頻度のタスクに最適化しているとGoogleが発表しているため性能も高いと伺えます。
また個人的な考えとして処理したいレベルのタスクに応じてGemini1.5ProとGemini1.5Flashを使い分けるといいと思いました。
例えば高度な処理を要求するのであればGemini1.5Proが最適ですしGemini1.5Proほどのタスク処理を要求しないのであればGemini1.5Flashで高速に処理させたほうが低コストかつ高速な処理を実現できます。
Gemini1.5Flashを使ってみた
GeminiFlashがどの程度高速動くのかの参考としてこちらの映像をどうぞ
見ていただいてわかると思いますが出力されるスピードがはっきりと速いことがわかるとおもいます。
これによって処理してほしいタスクを投げて返ってくるまでの時間が大幅に短くなるためストレスフリーな使い心地になるところまた処理結果を待つ時間を少ないということはより生産的に活動できるためいい事だらけですね
Gemini Nano:マルチモーダルに進化
Gemini Nanoがテキストの入力のみならず画像を処理できるように強化されました。
主なアップデート
- Circle to Searchの進化: 宿題のサポート機能が追加され、生徒は問題を丸で囲むだけで、ステップバイステップの解説を得ることができます。
- Geminiの進化: 画面上にあるものや使用しているアプリのコンテキストを理解する能力が向上しました。
- Gemini Nanoの進化: マルチモーダル機能が追加され、テキストだけでなく、景色、音、話し言葉などの文脈を理解できるようになります。
- TalkBackの進化: Gemini Nanoのマルチモーダル機能が搭載され、視覚障害者や弱視者が画像内の情報をより明確に理解できるようになります。
- 詐欺検出アラート: Gemini Nanoを用いた通話中の詐欺検出機能がテスト段階に入りました。疑わしい会話パターンを検出すると、リアルタイムでアラートを提供することで、ユーザーを詐欺から守ります。
以下にAndroidでGemini Nanoがどのように機能するようになるのが詳細に載っているので気になる人はぜひ見てみてください。
ベンチマーク
今回紹介されたGemini1.5Flashと強化されたGemini1.5Proがどの程度の性能であるかがベンチマークとして公開されているので表に表しました。
以下にベンチマークが公開されているDeepMindの公式サイトがありますの載せておきます
また英語で書かれていますので翻訳して読んでもいいですし、私がテーブル形式でまとめましたのでそちらで読んでも構いません。
そのベンチマークでわかるようにGemini1.5Pro(2024年2月)よりも今回のGemini 1.5 Pro (2024年5月)のほうがすべての項目においてパフォーマンスが高いことがわかります。
興味深い点としてはGemini1.5ProよりもGemini1.5Flashのほうがオーディオの項目で優れたパフォーマンスであることがベンチマークに現れているというところです。なぜそうなるかはわからないですがオーディオの処理で個人で比較して確認してみるのもありですね
能力 | ベンチマーク | 説明 | Gemini 1.0 Pro | Gemini 1.0 Ultra | Gemini 1.5 Pro (2024年2月) | Gemini 1.5 Flash | Gemini 1.5 Pro (2024年5月) |
一般 | MMLU | 57の科目(STEM、人文科学などを含む)の質問の表現 | 71.8% | 83.7% | 81.9% | 78.9% | 85.9% |
コード | Natural2Code | Pythonコード生成。ウェブにリークされていないHumanEvalのようなデータセットを使用 | 69.6% | 74.9% | 77.7% | 77.2% | 82.6% |
数学 | MATH | 難解な数学の問題(代数、幾何学、プレカルキュラスなどを含む) | 32.6% | 53.2% | 58.5% | 54.9% | 67.7% |
推論 | GPOA (main) | 生物学、物理学、化学の専門家が書いた難解な質問のデータセット | 27.9% | 35.7% | 41.5% | 39.5% | 46.2% |
Big-Bench Hard | 多段階の推論を必要とする多様な難解タスク | 75.0% | 83.6% | 84.0% | 85.5% | 89.2% | |
多言語 | WMT23 | 言語翻訳 | 71.7% | 74.4% | 75.2% | 74.1% | 75.3% |
画像 | MMMU | 複数分野の大学レベルの推論問題 | 47.9% | 59.4% | 58.5% | 56.1% | 62.2% |
MathVista | 視覚的文脈での数学的推論 | 46.6% | 53.0% | 54.7% | 58.4% | 63.9% | |
オーディオ | FLEURS (55言語) | 自動音声認識(単語誤り率に基づく、低いほど良い) | 6.4% | 6.0% | 6.6% | 9.8% | 6.5% |
ビデオ | EgoSchema | ビデオ質問回答 | 55.7% | 61.5% | 65.1% | 65.7% | 72.2% |
Project Astra:新たなAIアシスタント
新たなAIアシスタントとして「Project Astra」が発表されました
このAIアシスタントはGeminiのモデルをもとに作られているそうです。以下にYoutubeでGoogleがそれについて動画を公開しているのでそれを載せたいと思います。
Project Astraのデモでは、以下の特徴が示されています。
- 高速処理: Gemini モデルに基づいた Astra エージェントは、動画フレームを継続的にエンコードし、動画と音声入力をイベントのタイムラインに結合することで、情報を高速に処理します。
- 自然な会話: Google の主要な音声モデルを活用することで、Astra エージェントは幅広いイントネーションで自然な会話を実現します。
- コンテキスト理解: Astra エージェントは、会話中のコンテキストを理解し、迅速に応答します。
機能の一部は今年後半のGeminiアプリやwebから体験できるそうでGoogle製品にも導入される予定だそうです。
個人的にスマートグラスとの親和性が高そうな機能であると思っています。そのため今後そのようなAIアシスタントとスマートグラスが組み合わさったデバイスがいつか登場するのではないか少し期待しています
感想
今回はGeminiの幅広いアップデートがされてより使いやすく用途が拡張されたように感じました。
Geminiは今後もコンテキストウィンドウを強化する方向性に進みそうな気がします。そのため使いこなすためにも使用するユーザーが個人で多くのその大量のトークンを処理させるために活用できるデータを持っているとより面白いことができると思いました。
コメント