言語

AutoCodeBench 言語別ランキング

AutoCodeBench の言語別パス率。原論文が2025年半ばまでのモデルしかカバーしていなかったため、GPT-5.4 で再実行しました。

ACB-Full 全体
53.3%
10512 / 19740
今の有力候補
Elixir, Kotlin, C#
87.4% — 72.4%
対象言語数
21言語
2026-03-11

主な発見

Elixir が 87.4% で首位 — 原論文でもトップであり、その優位性を再確認。
上位5言語(Elixir、Kotlin、C#、Ruby、Julia)はすべて合格率57%以上。両実行で安定。
主要言語(Python、JS、Go)は42–49%に集中し、原論文の相対順位と一致。
全体パス率(53.3%)は原論文の Opus 4 結果(52.4%)と1ポイント以内。ベンチマーク難易度が適切に調整されていることを示唆。

トップパフォーマンス言語

AutoCodeBench で最も強いコーディング言語。ランキングは原論文とほぼ一致しています。

1
Elixir
874/1000
87.4%
優秀
2
Kotlin
765/1000
76.5%
強い
3
C#
724/1000
72.4%
強い
4
Ruby
630/1000
63.0%
強い
5
Julia
570/1000
57.0%
中程度

言語別パス率

ベンチマーク合格率順 — 高いほど良い。色はパフォーマンス区分を示します。

優秀(≥80%)×1強い(≥60%)×3中程度(≥50%)×9やや低い(≥40%)×7低い(<40%)×1平均

原論文との比較

原論文の Claude Opus 4 と GPT-5.4 再実行の並列比較。ランキングはほぼ安定。

言語Opus 4GPT-5.4 M差分
Elixir80.3%87.4%+7.1
Kotlin72.5%76.5%+4.0
C#74.9%72.4%-2.5
Ruby61.0%63.0%+2.0
Julia55.5%57.0%+1.5
Dart54.0%56.5%+2.5
R52.5%54.5%+2.0
TS Effect53.6%
Java55.9%51.1%-4.8
Racket68.9%51.0%-17.9
Scala50.3%50.8%+0.5
Shell51.6%50.5%-1.1
C++44.1%50.0%+5.9
TypeScript47.2%49.2%+2.0
Perl44.5%44.5%0.0
Python40.3%43.9%+3.6
Swift50.0%43.5%-6.5
Go37.2%42.9%+5.7
JavaScript38.6%42.9%+4.3
Rust38.7%40.2%+1.5
PHP28.1%35.7%+7.6
ACB-Full 全体52.4%53.3%+0.9
Opus 4 出典: AutoCodeBench 論文(arxiv.org/abs/2508.09101)Table 4, Reasoning Mode。
再実行日: 2026-03-11。ベンチマーク: AutoCodeBench fork(arxiv.org/abs/2508.09101)。モデル: GPT-5.4 Medium。