このサイトについて

このサイトを作った理由

AIモデル比較に込めた考え方

AIモデルの選定は、勘ではなくデータに基づくべきだと考えています。

背景にある課題

AIモデルの状況は週単位で変化します。新しいモデルが登場し、料金体系が変わり、スループットが更新され、ベンチマークのランキングが入れ替わる。本番環境でモデルを選定する際には、ユーザー体験・運用コスト・開発スケジュールに直結する判断が求められます。そのためには、信頼性が高く、最新の比較データが不可欠です。

現時点で最も高速なモデルはどれか。実際の総コストはいくらか。コーディング・推論・クリエイティブといった用途別に、能力はどう異なるのか。

いずれも基本的な問いですが、正確に答えることは容易ではありません。性能データはベンダーごとに散在し、価格の表記方法は統一されておらず、公開された比較情報の多くは数週間で陳腐化してしまいます。

さらに、モデルの能力がどのように伝えられるかという構造的な偏りがあります。新しいモデルが発表される際、強調されるベンチマークはそのモデルが優位性を持つ領域に集中します。各社が強みを前面に出すことは自然なことです。しかしその結果、実務者が目にするのは各モデルの「勝っている部分」だけを集めた景色になります。不得意な領域やトレードオフは、多くの場合、導入を決めた後に初めて明らかになります。

私たちの原則

マーケティングではなく透明性を

ベンダーが公表するベンチマークにはマーケティングの側面があります。独立した標準化された比較は、エンジニアリングのためのインフラです。実測値に基づくスループット、実際の価格、正規化された能力スコアを継続的に追跡・更新しています。

速度は重要な指標である

スループットは開発者体験を左右します。100 tps と 1,000 tps の違いは段階的なものではなく、AIとの協業のあり方そのものを変えます。実務上の可能性を決定づける指標だからこそ、計測する意味があります。

オープンであることを前提に

すべてのデータは公開YAMLファイルに格納されています。チャートはソースから再現可能で、データセット全体をMarkdown形式でダウンロードできます。不正確な情報があれば、誰でもプルリクエストで修正できます。

コントリビューション歓迎

本プロジェクトはAIドリブン推進室のチームが主体的に運営し、調査・更新の大部分を自ら行っています。データの誤りや未掲載のモデルにお気づきの際は、プルリクエストをお送りいただければ迅速に反映いたします。

プロジェクトの始まり

このプロジェクトは、CyberAgentのAIドリブン推進室から生まれました。CyberAgentグループはインターネット広告、メディア、エンターテインメントをはじめとする多様な事業を展開しており、数多くの子会社・事業部がそれぞれのユースケースでAI活用を推進しています。モデルプロバイダーを評価するための信頼性の高いリファレンスが必要になったとき、グループ内のすべてのチームに確実に届ける最もシンプルな方法は、公開することでした。

社内用のスプレッドシートがダッシュボードになり、やがてオープンソースプロジェクトへと発展しました。公開したことで、グループ内のどのチームも常に最新のデータにアクセスできると同時に、社外の開発者コミュニティにも同じリソースを提供できるようになりました。スタートアップの創業者でも、個人開発者でも、エンタープライズアーキテクトでも、私たちが自社グループのために構築したリファレンスを同じように活用いただけます。

計測方法

データだけでなく、その算出方法についても透明であることを目指しています。以下に現在の方法論と、その限界を記載します。

1
スループットと価格
スループットと価格は、各プロバイダーの公式ドキュメント、OpenRouterのメタデータ、サードパーティのベンチマークを組み合わせて更新しています。特定のプロバイダーに紐づく行では、そのプロバイダー自身の公開価格と直結APIの計測値を優先します。ソース間で数値が食い違う場合は、アグリゲータ情報と公開ベンチマークを突き合わせ、単純に最速の主張を採用するのではなく、現時点で最も妥当な数値を選びます。
2
能力スコア
ダッシュボードの中で最も解釈の余地が大きい部分であり、その算出過程について率直に説明します。各ラボがモデル発表時に公開するベンチマーク結果、サードパーティによる評価、独立したコミュニティベンチマークなど、複数のソースからスコアを収集しています。これらを0〜100のスケールに正規化し、横断的に比較できるようにしています。ここでの大きな課題は、各ラボが自社モデルの優位な領域のベンチマークを強調し、不得意な領域を省略する傾向があることです。これを補うため、独立した情報源との照合を行い、可能な限り欠落部分を補完しています。結果として得られるのは、方向性として有用な複合的な全体像ですが、完全に正確なものではありません。
3
おすすめ
品質(絶対スコア)、コスト効率(スコア÷価格)、速度(スコア×スループット)の3軸でアルゴリズムにより算出しています。上記の能力スコアをもとにしているため、同様の注意点が当てはまります。

限界について率直に述べます。能力スコアは概算値であり、方法論はまだ完全に再現可能な段階には至っていません。ベンチマークごとに測定対象は異なり、学術的な評価で高スコアを獲得したモデルが、実際のタスクでは異なる挙動を示すこともあります。これらの数値は評価の出発点としてご活用ください。最終的な判断材料として提示するものではありません。

今後の方向性

方法論は段階的に改善していく計画です。まず、競争的評価プラットフォームによるELOベースのランキングを取り入れること。静的なベンチマークよりも、モデル間の相対的な実力を正確に捉えることができます。次に、独立した研究者による評価の比重を高めること。ラボ公式の数値よりも、実務的な性能をより正確に反映する傾向があります。そして、スコアを手動ではなく体系的に更新できる、再現可能な評価パイプラインの構築です。なお、改善にあたっては意図的に慎重なアプローチを取ります。ラボには人気のあるベンチマークに最適化するインセンティブがあり、ベンチマークへの過度な最適化は実際の性能と乖離したスコアを生み出す可能性があるためです。方法論に変更を加えた際は、その内容を公開して記録します。

ご協力のお願い

データの誤り、未掲載のモデル、古くなったベンチマークにお気づきの際は、ぜひお知らせください。一つひとつの修正が、コミュニティ全体の判断材料をより確かなものにします。

Issue / PR を送る
AI := Driven
AIドリブン推進室によるオープンソースプロジェクト
©CyberAgent, Inc. · AIドリブン推進室(AI Driven Office)