言語
AutoCodeBench 言語別ランキング
AutoCodeBench の言語別パス率。原論文が2025年半ばまでのモデルしかカバーしていなかったため、GPT-5.4 で再実行しました。
ACB-Full 全体
53.3%
10512 / 19740
今の有力候補
Elixir, Kotlin, C#
87.4% — 72.4%
対象言語数
21言語
2026-03-11
主な発見
Elixir が 87.4% で首位 — 原論文でもトップであり、その優位性を再確認。
上位5言語(Elixir、Kotlin、C#、Ruby、Julia)はすべて合格率57%以上。両実行で安定。
主要言語(Python、JS、Go)は42–49%に集中し、原論文の相対順位と一致。
全体パス率(53.3%)は原論文の Opus 4 結果(52.4%)と1ポイント以内。ベンチマーク難易度が適切に調整されていることを示唆。
トップパフォーマンス言語
AutoCodeBench で最も強いコーディング言語。ランキングは原論文とほぼ一致しています。
1
Elixir
874/1000
87.4%
優秀2
Kotlin
765/1000
76.5%
強い3
C#
724/1000
72.4%
強い4
Ruby
630/1000
63.0%
強い5
Julia
570/1000
57.0%
中程度言語別パス率
ベンチマーク合格率順 — 高いほど良い。色はパフォーマンス区分を示します。
優秀(≥80%)×1強い(≥60%)×3中程度(≥50%)×9やや低い(≥40%)×7低い(<40%)×1平均
原論文との比較
原論文の Claude Opus 4 と GPT-5.4 再実行の並列比較。ランキングはほぼ安定。
| 言語 | Opus 4 | GPT-5.4 M | 差分 |
|---|---|---|---|
| Elixir | 80.3%159/198 | 87.4%874/1000 | +7.1 |
| Kotlin | 72.5%145/200 | 76.5%765/1000 | +4.0 |
| C# | 74.9%149/199 | 72.4%724/1000 | -2.5 |
| Ruby | 61.0%121/199 | 63.0%630/1000 | +2.0 |
| Julia | 55.5%111/200 | 57.0%570/1000 | +1.5 |
| Dart | 54.0%108/200 | 56.5%565/1000 | +2.5 |
| R | 52.5%105/200 | 54.5%545/1000 | +2.0 |
| TS Effect | — | 53.6%536/1000 | — |
| Java | 55.9%105/188 | 51.1%511/1000 | -4.8 |
| Racket | 68.9%136/198 | 51.0%510/1000 | -17.9 |
| Scala | 50.3%101/200 | 50.8%508/1000 | +0.5 |
| Shell | 51.6%97/188 | 50.5%505/1000 | -1.1 |
| C++ | 44.1%82/186 | 50.0%500/1000 | +5.9 |
| TypeScript | 47.2%94/199 | 49.2%492/1000 | +2.0 |
| Perl | 44.5%89/199 | 44.5%445/1000 | 0.0 |
| Python | 40.3%79/196 | 43.9%439/1000 | +3.6 |
| Swift | 50.0%100/199 | 43.5%435/1000 | -6.5 |
| Go | 37.2%71/191 | 42.9%429/1000 | +5.7 |
| JavaScript | 38.6%71/184 | 42.9%429/1000 | +4.3 |
| Rust | 38.7%77/199 | 40.2%402/1000 | +1.5 |
| PHP | 28.1%55/196 | 35.7%357/1000 | +7.6 |
| ACB-Full 全体 | 52.4%2055/3919 | 53.3%10512/19740 | +0.9 |
Opus 4 出典: AutoCodeBench 論文(arxiv.org/abs/2508.09101)Table 4, Reasoning Mode。
再実行日: 2026-03-11。ベンチマーク: AutoCodeBench fork(arxiv.org/abs/2508.09101)。モデル: GPT-5.4 Medium。
