AIモデル比較
AIモデルプロバイダーの速度・価格・能力・おすすめを比較·なぜ作ったか →
スループット (トークン/秒)
| モデル | プロバイダー | 計画力 | コーディング | 画像理解 | リサーチ | 創造性 | 平均 |
|---|---|---|---|---|---|---|---|
| GPT-5.4 Pro | OpenAI | 95 | 94 | 84 | 95 | 86 | 90.8 |
| GPT-5.4 | OpenAI | 93 | 93 | 84 | 93 | 85 | 89.6 |
| Gemini 3.1 Pro | Google Vertex | 93 | 88 | 81 | 94 | 90 | 89.2 |
| Claude Opus 4.6 | Anthropic | 92 | 88 | 74 | 91 | 95 | 88.0 |
| Kimi K2.5 | Moonshot AI | 87 | 88 | 90 | 92 | 80 | 87.4 |
| Qwen 3.5 397B | Alibaba Cloud (Qwen) | 88 | 88 | 85 | 90 | 85 | 87.2 |
| Gemini 3 Flash | Google AI Studio | 82 | 84 | 81 | 90 | 88 | 85.0 |
| Qwen 3.5 27B | Alibaba Cloud (Qwen) | 86 | 85 | 82 | 86 | 82 | 84.2 |
| GPT-5.3-Codex | OpenAI | 87 | 92 | 75 | 85 | 78 | 83.4 |
| Claude Sonnet 4.6 | Anthropic | 85 | 86 | 72 | 84 | 88 | 83.0 |
| GLM 5 | SiliconFlow | 83 | 84 | 64 | 87 | 80 | 79.6 |
| Gemini 3.1 Flash-Lite | Google AI Studio | 78 | 76 | 77 | 80 | 78 | 77.8 |
| MiniMax M2.5 | MiniMax | 90 | 91 | 35 | 89 | 80 | 77.0 |
| GLM 4.7 | Cerebras (Direct) | 76 | 80 | 58 | 82 | 74 | 74.0 |
| Claude Haiku 4.5 | Anthropic | 72 | 75 | 73 | 70 | 78 | 73.6 |
| GPT-5.3-Codex-Spark | OpenAI | 90 | 93 | 10 | 82 | 75 | 70.0 |
| Grok Code Fast 1 | xAI | 68 | 78 | 55 | 72 | 70 | 68.6 |
| Llama 3.1 8B | Taalas | 45 | 55 | 10 | 42 | 40 | 38.4 |
ニュース&更新
AIモデルの性能とインフラに関する最新動向
GPT-5.4 — OpenAIの100万トークンコンテキスト統合モデル、Codexラインを置き換え
OpenAIがGPT-5.4をリリースしました。これまで別々だったCodexコーディングライン、推論機能、汎用知識を 1つのモデルに統合し、OpenAIメインラインモデルとして初のネイティブPC操作機能を追加しました。 注目の機能は1,050,000トークンのコンテキストウィンドウですが、注意点があります:272Kトークンを超える 入力は2倍のコスト(入力$5/M、出力$22.50/M、標準は$2.50/$15)で、長いコンテキストでの性能は大幅に低下します。 GPT-4.1は1Mトークンでのneedle-in-haystackテストで100%を記録しましたが、実際のエージェントタスクでは コンテキストが長くなるほど性能が低下し、以前の指示を見失い、参照をハルシネーションし、注意が拡散します。 OpenAIはGPT-5.4に「コンパクション」トレーニングを施してトラジェクトリを圧縮していますが、独立評価は保留中です。 ほとんどのユースケースでは256Kトークン以下が最適です。 最大の進歩はエージェント系ベンチマーク:OSWorldが75%(人間の72.4%を超過)、GDPvalが44職種で83%、 ARC-AGI-2が73.3%に到達。コーディングではSWE-Bench ProでGPT-5.3-Codexに匹敵(57.7% vs 56.8%)しつつ、 汎用知識が大幅に強化されています。GPT-5.2 Thinkingは2026年6月5日に廃止予定で、GPT-5.4が後継です。 Codexは引き続きGPT-5.4系で動作し、優先処理ではより高速な経路も提供されますが、公開ベースラインとして重要なのは 標準APIの約78 tok/sと$2.50/$15です。この条件でもClaude Opus 4.6より明確に高速で、価格はGemini 3.1 Proに近い水準です。
Mercury 2が拡散型LLMを再び低遅延競争に戻す
Inceptionは、初代Mercury系の後継としてMercury 2を投入しました。公式にはBlackwell GPU上で 1,009トークン/秒、128Kコンテキスト、価格は入力$0.25/M・出力$0.75/Mです。独立計測はそれより控えめですが、 それでも十分に異常値です。Artificial Analysisの最新公開スナップショットでは約655 tok/sで、 一般的なフロンティアAPIを大きく上回る低遅延を維持しています。強みは絶対性能より速度で、 短いエージェントループ、低遅延チャット、対話的なコーディング支援のように応答速度を最優先する用途で特に光ります。
Taalas HC1がSilicon Llamaで約17Kトークン/秒を達成
Taalasは、HC1チップ上でSilicon Llama 3.1 8Bをユーザーあたり約17Kトークン/秒で動かせると公表しました。 GPU推論と異なり、HC1はモデルを専用シリコンに焼き込み、HBM中心の構成に頼らない設計を取っています。 公開されているハードウェア仕様もかなり攻めています。TSMC 6nm、815mm²、530億トランジスタ、24人のチーム、 調達額は約$169Mです。ただし品質面の注意点もあり、Taalas自身が初代Silicon Llamaは3-bitと6-bitを混ぜた 強い量子化を使っているため、フル精度のGPU実装と同等品質ではないと明記しています。それでも速度面の余裕は非常に大きく、 体感遅延のほぼない会話AI、即時要約、高頻度なエージェントループを現実的にする水準です。
正確なデータを一緒に作りましょう
価格の間違い・未掲載モデル・古いベンチマークを見つけたら、Issue や Pull Request をお送りください。皆さんの修正がコミュニティの力になります。
