モデル	プロバイダー	TPS	入力円/M	出力円/M	>200K 入力円/M	>200K 出力円/M
Llama 3.1 8B無料体験 →	Taalas	17,000	—	—	—	—
GPT-5.3-Codex-Spark無料体験 →	OpenAI	965	263円	2,100円	—	—
Mercury 2FAST無料体験 →	Inception (Mercury)	655	38円	113円	—	—
GLM 4.7無料体験 →	Cerebras (Direct)	538	338円	413円	—	—
Gemini 3.1 Flash-Lite無料体験 →	Google AI Studio	318	38円	225円	—	—
MiniMax M2.5無料体験 →	MiniMax	183	45円	180円	—	—
Grok Code Fast 1無料体験 →	xAI	173	30円	225円	—	—
Gemini 3 Flash無料体験 →	Google AI Studio	132	75円	450円	—	—
GPT-5.4 FastFAST無料体験 →	OpenAI	116	750円	4,500円	1,500円	6,750円
Gemini 3.1 Pro無料体験 →	Google Vertex	103	300円	1,800円	600円	2,700円
Opus 4.6 FastFAST無料体験 →	Anthropic	103	4,500円	22,500円	9,000円	33,750円
Claude Haiku 4.5無料体験 →	Anthropic	88	150円	750円	—	—
Qwen 3.5 27B	Alibaba Cloud (Qwen)	88	45円	360円	—	—
GPT-5.4無料体験 →	OpenAI	78	375円	2,250円	750円	3,375円
GPT-5.3-Codex無料体験 →	OpenAI	62	263円	2,100円	—	—
Qwen 3.5 397B	Alibaba Cloud (Qwen)	55	90円	540円	—	—
Kimi K2.5無料体験 →	Moonshot AI	44	90円	450円	—	—
Claude Sonnet 4.6無料体験 →	Anthropic	43	450円	2,250円	—	—
Claude Opus 4.6無料体験 →	Anthropic	41	750円	3,750円	—	—
GLM 5無料体験 →	SiliconFlow	36	45円	383円	—	—
GPT-5.4 Pro無料体験 →	OpenAI	31	4,500円	27,000円	—	—

モデル	プロバイダー	計画力	コーディング	画像理解	リサーチ	創造性	平均
GPT-5.4 Pro	OpenAI	95	94	84	95	86	90.8
GPT-5.4	OpenAI	93	93	84	93	85	89.6
Gemini 3.1 Pro	Google Vertex	93	88	81	94	90	89.2
Claude Opus 4.6	Anthropic	92	88	74	91	95	88.0
Kimi K2.5	Moonshot AI	87	88	90	92	80	87.4
Qwen 3.5 397B	Alibaba Cloud (Qwen)	88	88	85	90	85	87.2
Gemini 3 Flash	Google AI Studio	82	84	81	90	88	85.0
Qwen 3.5 27B	Alibaba Cloud (Qwen)	86	85	82	86	82	84.2
GPT-5.3-Codex	OpenAI	87	92	75	85	78	83.4
Claude Sonnet 4.6	Anthropic	85	86	72	84	88	83.0
GLM 5	SiliconFlow	83	84	64	87	80	79.6
Gemini 3.1 Flash-Lite	Google AI Studio	78	76	77	80	78	77.8
MiniMax M2.5	MiniMax	90	91	35	89	80	77.0
GLM 4.7	Cerebras (Direct)	76	80	58	82	74	74.0
Claude Haiku 4.5	Anthropic	72	75	73	70	78	73.6
GPT-5.3-Codex-Spark	OpenAI	90	93	10	82	75	70.0
Grok Code Fast 1	xAI	68	78	55	72	70	68.6
Llama 3.1 8B	Taalas	45	55	10	42	40	38.4

ニュース & コミュニティ

ニュース＆更新

AIモデルの性能とインフラに関する最新動向

2026年3月5日releaseopenaicomputer uselong contextcodex replacement★

GPT-5.4 — OpenAIの100万トークンコンテキスト統合モデル、Codexラインを置き換え

OpenAIがGPT-5.4をリリースしました。これまで別々だったCodexコーディングライン、推論機能、汎用知識を 1つのモデルに統合し、OpenAIメインラインモデルとして初のネイティブPC操作機能を追加しました。注目の機能は1,050,000トークンのコンテキストウィンドウですが、注意点があります：272Kトークンを超える入力は2倍のコスト（入力$5/M、出力$22.50/M、標準は$2.50/$15）で、長いコンテキストでの性能は大幅に低下します。 GPT-4.1は1Mトークンでのneedle-in-haystackテストで100%を記録しましたが、実際のエージェントタスクではコンテキストが長くなるほど性能が低下し、以前の指示を見失い、参照をハルシネーションし、注意が拡散します。 OpenAIはGPT-5.4に「コンパクション」トレーニングを施してトラジェクトリを圧縮していますが、独立評価は保留中です。ほとんどのユースケースでは256Kトークン以下が最適です。最大の進歩はエージェント系ベンチマーク：OSWorldが75%（人間の72.4%を超過）、GDPvalが44職種で83%、 ARC-AGI-2が73.3%に到達。コーディングではSWE-Bench ProでGPT-5.3-Codexに匹敵（57.7% vs 56.8%）しつつ、汎用知識が大幅に強化されています。GPT-5.2 Thinkingは2026年6月5日に廃止予定で、GPT-5.4が後継です。 Codexは引き続きGPT-5.4系で動作し、優先処理ではより高速な経路も提供されますが、公開ベースラインとして重要なのは標準APIの約78 tok/sと$2.50/$15です。この条件でもClaude Opus 4.6より明確に高速で、価格はGemini 3.1 Proに近い水準です。

速度比較

GPT-5.4

1x

GPT-5.3-Codex

1.26x

Claude Opus 4.6

1.9x

コンテキスト: 1.05M tokens

最大出力: 128K tokens

入力価格: $2.50/M

出力価格: $15/M

OSWorld: 75% (>human)

SWE-Bench Pro: 57.7%

OpenAI

発表を見る

2026年2月24日releaseinferencelatencydiffusion

Mercury 2が拡散型LLMを再び低遅延競争に戻す

Inceptionは、初代Mercury系の後継としてMercury 2を投入しました。公式にはBlackwell GPU上で 1,009トークン/秒、128Kコンテキスト、価格は入力$0.25/M・出力$0.75/Mです。独立計測はそれより控えめですが、それでも十分に異常値です。Artificial Analysisの最新公開スナップショットでは約655 tok/sで、一般的なフロンティアAPIを大きく上回る低遅延を維持しています。強みは絶対性能より速度で、短いエージェントループ、低遅延チャット、対話的なコーディング支援のように応答速度を最優先する用途で特に光ります。

速度比較

Gemini 3.1 Flash-Lite

2.06x

Grok Code Fast 1

3.79x

GPT-5.4

8.4x

コンテキスト: 128K tokens

入力価格: $0.25/M

出力価格: $0.75/M

公式速度: 1,009 tok/s

AA実測速度: 655 tok/s

Inception (Mercury)

発表を見る

2026年2月20日speed recordinferencecustom silicon★

Taalas HC1がSilicon Llamaで約17Kトークン/秒を達成

Taalasは、HC1チップ上でSilicon Llama 3.1 8Bをユーザーあたり約17Kトークン/秒で動かせると公表しました。 GPU推論と異なり、HC1はモデルを専用シリコンに焼き込み、HBM中心の構成に頼らない設計を取っています。公開されているハードウェア仕様もかなり攻めています。TSMC 6nm、815mm²、530億トランジスタ、24人のチーム、調達額は約$169Mです。ただし品質面の注意点もあり、Taalas自身が初代Silicon Llamaは3-bitと6-bitを混ぜた強い量子化を使っているため、フル精度のGPU実装と同等品質ではないと明記しています。それでも速度面の余裕は非常に大きく、体感遅延のほぼない会話AI、即時要約、高頻度なエージェントループを現実的にする水準です。

速度比較

Claude Opus 4.6

415x

GPT-5.3-Codex

274x

GLM 4.7 (Cerebras)

31.6x

プロセス: TSMC 6nm

ダイサイズ: 815mm²

トランジスタ: 53B

量子化: Mixed 3-bit + 6-bit

チーム: 24

資金: $169M

Taalas

仕組みを読む

正確なデータを一緒に作りましょう

価格の間違い・未掲載モデル・古いベンチマークを見つけたら、Issue や Pull Request をお送りください。皆さんの修正がコミュニティの力になります。

Issue / PR を送る

AIモデル比較

スループット （トークン/秒）

ニュース＆更新

GPT-5.4 — OpenAIの100万トークンコンテキスト統合モデル、Codexラインを置き換え

Mercury 2が拡散型LLMを再び低遅延競争に戻す

Taalas HC1がSilicon Llamaで約17Kトークン/秒を達成

この比較をシェア

正確なデータを一緒に作りましょう

スループット（トークン/秒）