AI := Driven最新データ · 2026年3月
エフェクトOFF
EN日本語

AIモデル比較

AIモデルプロバイダーの速度・価格・能力・おすすめを比較·なぜ作ったか →

NEW
GPT-5.4 — OpenAIの100万トークンコンテキスト統合モデル、Codexラインを置き換え
ACBAutoCodeBench 言語別ランキング — 21言語のパス率を比較
開く →
スピードチャンピオン
Llama 3.1 8B(Taalas)
17,000
トークン/秒

スループット (トークン/秒)

Alibaba Cloud (Qwen)
Anthropic
Cerebras (Direct)
Google AI Studio
Google Vertex
Inception (Mercury)
MiniMax
Moonshot AI
OpenAI
SiliconFlow
Taalas
xAI
Fast Mode
GLM 4.7 × Cerebras ガイド
1,000 tps でAIコーディング — OpenCodeセットアップガイド
Taalas HC1 — 速度新記録
17,000 tps — 量子化込みでも際立って速いカスタムシリコン
モデルプロバイダーTPS入力 円/M出力 円/M>200K 入力 円/M>200K 出力 円/M
Llama 3.1 8B無料体験 →Taalas17,000
GPT-5.3-Codex-Spark無料体験 →OpenAI965263円2,100円
Mercury 2FAST無料体験 →Inception (Mercury)65538円113円
GLM 4.7無料体験 →Cerebras (Direct)538338円413円
Gemini 3.1 Flash-Lite無料体験 →Google AI Studio31838円225円
MiniMax M2.5無料体験 →MiniMax18345円180円
Grok Code Fast 1無料体験 →xAI17330円225円
Gemini 3 Flash無料体験 →Google AI Studio13275円450円
GPT-5.4 FastFAST無料体験 →OpenAI116750円4,500円1,500円6,750円
Gemini 3.1 Pro無料体験 →Google Vertex103300円1,800円600円2,700円
Opus 4.6 FastFAST無料体験 →Anthropic1034,500円22,500円9,000円33,750円
Claude Haiku 4.5無料体験 →Anthropic88150円750円
Qwen 3.5 27BAlibaba Cloud (Qwen)8845円360円
GPT-5.4無料体験 →OpenAI78375円2,250円750円3,375円
GPT-5.3-Codex無料体験 →OpenAI62263円2,100円
Qwen 3.5 397BAlibaba Cloud (Qwen)5590円540円
Kimi K2.5無料体験 →Moonshot AI4490円450円
Claude Sonnet 4.6無料体験 →Anthropic43450円2,250円
Claude Opus 4.6無料体験 →Anthropic41750円3,750円
GLM 5無料体験 →SiliconFlow3645円383円
GPT-5.4 Pro無料体験 →OpenAI314,500円27,000円
ニュース & コミュニティ

ニュース&更新

AIモデルの性能とインフラに関する最新動向

2026年3月5日releaseopenaicomputer uselong contextcodex replacement

GPT-5.4 — OpenAIの100万トークンコンテキスト統合モデル、Codexラインを置き換え

OpenAIがGPT-5.4をリリースしました。これまで別々だったCodexコーディングライン、推論機能、汎用知識を 1つのモデルに統合し、OpenAIメインラインモデルとして初のネイティブPC操作機能を追加しました。 注目の機能は1,050,000トークンのコンテキストウィンドウですが、注意点があります:272Kトークンを超える 入力は2倍のコスト(入力$5/M、出力$22.50/M、標準は$2.50/$15)で、長いコンテキストでの性能は大幅に低下します。 GPT-4.1は1Mトークンでのneedle-in-haystackテストで100%を記録しましたが、実際のエージェントタスクでは コンテキストが長くなるほど性能が低下し、以前の指示を見失い、参照をハルシネーションし、注意が拡散します。 OpenAIはGPT-5.4に「コンパクション」トレーニングを施してトラジェクトリを圧縮していますが、独立評価は保留中です。 ほとんどのユースケースでは256Kトークン以下が最適です。 最大の進歩はエージェント系ベンチマーク:OSWorldが75%(人間の72.4%を超過)、GDPvalが44職種で83%、 ARC-AGI-2が73.3%に到達。コーディングではSWE-Bench ProでGPT-5.3-Codexに匹敵(57.7% vs 56.8%)しつつ、 汎用知識が大幅に強化されています。GPT-5.2 Thinkingは2026年6月5日に廃止予定で、GPT-5.4が後継です。 Codexは引き続きGPT-5.4系で動作し、優先処理ではより高速な経路も提供されますが、公開ベースラインとして重要なのは 標準APIの約78 tok/sと$2.50/$15です。この条件でもClaude Opus 4.6より明確に高速で、価格はGemini 3.1 Proに近い水準です。

速度比較
GPT-5.4
1x
GPT-5.3-Codex
1.26x
Claude Opus 4.6
1.9x
コンテキスト: 1.05M tokens
最大出力: 128K tokens
入力価格: $2.50/M
出力価格: $15/M
OSWorld: 75% (>human)
SWE-Bench Pro: 57.7%
2026年2月24日releaseinferencelatencydiffusion

Mercury 2が拡散型LLMを再び低遅延競争に戻す

Inceptionは、初代Mercury系の後継としてMercury 2を投入しました。公式にはBlackwell GPU上で 1,009トークン/秒、128Kコンテキスト、価格は入力$0.25/M・出力$0.75/Mです。独立計測はそれより控えめですが、 それでも十分に異常値です。Artificial Analysisの最新公開スナップショットでは約655 tok/sで、 一般的なフロンティアAPIを大きく上回る低遅延を維持しています。強みは絶対性能より速度で、 短いエージェントループ、低遅延チャット、対話的なコーディング支援のように応答速度を最優先する用途で特に光ります。

速度比較
Gemini 3.1 Flash-Lite
2.06x
Grok Code Fast 1
3.79x
GPT-5.4
8.4x
コンテキスト: 128K tokens
入力価格: $0.25/M
出力価格: $0.75/M
公式速度: 1,009 tok/s
AA実測速度: 655 tok/s
Inception (Mercury)
発表を見る
2026年2月20日speed recordinferencecustom silicon

Taalas HC1がSilicon Llamaで約17Kトークン/秒を達成

Taalasは、HC1チップ上でSilicon Llama 3.1 8Bをユーザーあたり約17Kトークン/秒で動かせると公表しました。 GPU推論と異なり、HC1はモデルを専用シリコンに焼き込み、HBM中心の構成に頼らない設計を取っています。 公開されているハードウェア仕様もかなり攻めています。TSMC 6nm、815mm²、530億トランジスタ、24人のチーム、 調達額は約$169Mです。ただし品質面の注意点もあり、Taalas自身が初代Silicon Llamaは3-bitと6-bitを混ぜた 強い量子化を使っているため、フル精度のGPU実装と同等品質ではないと明記しています。それでも速度面の余裕は非常に大きく、 体感遅延のほぼない会話AI、即時要約、高頻度なエージェントループを現実的にする水準です。

速度比較
Claude Opus 4.6
415x
GPT-5.3-Codex
274x
GLM 4.7 (Cerebras)
31.6x
プロセス: TSMC 6nm
ダイサイズ: 815mm²
トランジスタ: 53B
量子化: Mixed 3-bit + 6-bit
チーム: 24
資金: $169M

この比較をシェア

AIモデルを検討中の方に教えてあげませんか?シェアが増えるほどデータも充実します。

正確なデータを一緒に作りましょう

価格の間違い・未掲載モデル・古いベンチマークを見つけたら、Issue や Pull Request をお送りください。皆さんの修正がコミュニティの力になります。

Issue / PR を送る