言語

AutoCodeBench 言語別ランキング

AutoCodeBench の言語別パス率。原論文が2025年半ばまでのモデルしかカバーしていなかったため、GPT-5.4 で再実行しました。

ACB-Full 全体

53.3%

10512 / 19740

今の有力候補

Elixir, Kotlin, C#

87.4% — 72.4%

対象言語数

21言語

2026-03-11

主な発見

Elixir が 87.4% で首位 — 原論文でもトップであり、その優位性を再確認。

上位5言語（Elixir、Kotlin、C#、Ruby、Julia）はすべて合格率57%以上。両実行で安定。

主要言語（Python、JS、Go）は42–49%に集中し、原論文の相対順位と一致。

全体パス率（53.3%）は原論文の Opus 4 結果（52.4%）と1ポイント以内。ベンチマーク難易度が適切に調整されていることを示唆。

AutoCodeBench で最も強いコーディング言語。ランキングは原論文とほぼ一致しています。

1

Elixir

874/1000

87.4%

優秀

2

Kotlin

765/1000

76.5%

強い

3

C#

724/1000

72.4%

強い

4

Ruby

630/1000

63.0%

強い

5

Julia

570/1000

57.0%

中程度

ベンチマーク合格率順 — 高いほど良い。色はパフォーマンス区分を示します。

優秀(≥80%)×1強い(≥60%)×3中程度(≥50%)×9やや低い(≥40%)×7低い(<40%)×1平均

原論文の Claude Opus 4 と GPT-5.4 再実行の並列比較。ランキングはほぼ安定。

言語	Opus 4	GPT-5.4 M	差分
Elixir	80.3%159/198	87.4%874/1000	+7.1
Kotlin	72.5%145/200	76.5%765/1000	+4.0
C#	74.9%149/199	72.4%724/1000	-2.5
Ruby	61.0%121/199	63.0%630/1000	+2.0
Julia	55.5%111/200	57.0%570/1000	+1.5
Dart	54.0%108/200	56.5%565/1000	+2.5
R	52.5%105/200	54.5%545/1000	+2.0
TS Effect	—	53.6%536/1000	—
Java	55.9%105/188	51.1%511/1000	-4.8
Racket	68.9%136/198	51.0%510/1000	-17.9
Scala	50.3%101/200	50.8%508/1000	+0.5
Shell	51.6%97/188	50.5%505/1000	-1.1
C++	44.1%82/186	50.0%500/1000	+5.9
TypeScript	47.2%94/199	49.2%492/1000	+2.0
Perl	44.5%89/199	44.5%445/1000	0.0
Python	40.3%79/196	43.9%439/1000	+3.6
Swift	50.0%100/199	43.5%435/1000	-6.5
Go	37.2%71/191	42.9%429/1000	+5.7
JavaScript	38.6%71/184	42.9%429/1000	+4.3
Rust	38.7%77/199	40.2%402/1000	+1.5
PHP	28.1%55/196	35.7%357/1000	+7.6
ACB-Full 全体	52.4%2055/3919	53.3%10512/19740	+0.9

Opus 4 出典: AutoCodeBench 論文（arxiv.org/abs/2508.09101）Table 4, Reasoning Mode。

再実行日: 2026-03-11。ベンチマーク: AutoCodeBench fork（arxiv.org/abs/2508.09101）。モデル: GPT-5.4 Medium。