※この記事は2024年5月13日に作成されたものです、そのため現在の性能とは異なる可能性があります。新たなアップデートがあり次第最新の記事を提供したいと思います。
みなさんはGemini1.5Proを使ったことはありますか?
2024年の2月頃に登場しているのでつい最近というほどでもないのですが改めてどのようなものかをまとめたいと思います。
概要
GeminiはGoogleが開発したLLM(大規模言語モデル)になります。
2023年の12月頃にはGemini1.5 Ultra、Pro、Nanoが登場しています
ですが今回は新たにGemini1.5Proというモデルが登場しました。
特徴
このモデルはいくつかの点において高いパフォーマンスを発揮していたりと優れている部分があります。
なのでそれを紹介したいと思います。
コンテキストウィンドウの大幅な増加
これまでのモデルはではもちろん一度に処理できるトークン数に上限があります
GPT4turboでは128K
claude3では200K
しかし今回のGemini1.5Proではそれらのモデルよりも大幅に処理できるトークン数が増加したのです
画像出典 Google
このように図で見ると明らかですがGemini1.5Proは100万トークンの処理ができます。
また100万トークン処理できるということから以下のように単純に文字以外からだとこの量を処理できます。
・1時間のビデオ
・11時間のオーディオ
・3万行以上のコードベース
・70万語以上の単語
100,000行のソースコードの処理
Gemini1.5Proは100,000行を超えるコードのプロンプトを処理できるようになっています。
適切に推論して修正案を考えてくれることから他のモデルと比べると大きなメリットだと思います。
MoEアーキテクチャ
Gemini1.5ProはMoEアーキテクチャを採用しているモデルとなっています。
※MoEとはMixture of Expertsの略であり複数のエキスパートが用意されトークンごとに適切にそれらのエキスパートに割り当てて処理をすることで効率的かつ高い精度を実現するためのモデルです。
どこから利用できるのか
Gemini1.5ProはGoogle AI StudioとAPIでの利用が可能となっています。手軽に触ってみたい場合やAPIを使うことが苦手な人にはとりあえずGoogle AI Studioから使ってみましょう(Googleアカウントが必要になります。)
Google AI Studioアクセス方法:リンク先
google driveからアクセス
さきほどのリンク以外にもGoogle Driveからアクセスする手順もあります。
・driveの新規をクリック
・その他をクリック
Google AI Studioをクリック
以上で完了となります。
使ってみよう
ではここから実際に使ってみようと思います。
まずは簡単なプロンプトからやってみましょう。
「あなたの自己紹介をしてください」と送ってみることにしました。
ちゃんと返ってきましたね。
この辺は他のLLMも同じように返してくれるので性能の差を比較することはできないでしょう
難易度を上げて試してみよう
次にGemini1.5proでは動画からの入力を処理できるようになっているので私がclaudeに対して「あなたの自己紹介をして」というやり取りをした動画を渡したところなんの動画であるかを把握してくれています。
これは結構使い勝手が良さそうですね、さらに性能が良くなると動画を処理させて要点をまとめるという感じのこともできそうなの要約だったらもしくは、授業のレポートをまとめるくらいはできるようになりそうですね
感想
正直100万トークンも処理できるということがすごいなと思ったのだが、それを使いこなせていないためどこまで処理できるかを試すためにもトークン数の多いテキストや動画を活用とそれに適したプロンプトを考えることが重要であり、それをするためにも使いまくらなければないなと実感しました。
コメント