ガイド · 2026年3月

1K

GLM 4.7 × Cerebras

公式には最大約1,000トークン/秒 — コーディング反復をほぼ即時化する速度

Cerebrasは自社スタック上でGLM 4.7を約1,000トークン/秒と案内しています。サードパーティ計測はそれより低めですが、それでも一般的なクラウド推論よりかなり高速です。高いコーディング性能と無料枠を考えると、高速な反復を重視する開発者にとって依然として有力な選択肢です。

このガイドでは、推奨される2フェーズワークフローを紹介します。まず設計にはフロンティアプランニングモデルを使い、次に実際のコード生成にはCerebras上のGLM 4.7を使って超高速で実行します。

約1,000

トークン/秒

131K

コンテキストウィンドウ

$2.25

100万入力トークンあたり

$2.75

100万出力トークンあたり

無料枠

ゼロコストで始められる

64Kコンテキストウィンドウ

10リクエスト/分

100万トークン/日

推論・ストリーミング・ツール呼び出し対応

2フェーズワークフロー

最高の計画力 + 最速の実行力

PLAN

CODE

SHIP

Phase 1

フェーズ1 — 計画

Gemini 3.1 Pro または Claude Opus 4.6

フロンティアモデルでアーキテクチャの決定、タスク分解、ファイル計画、エッジケース分析を行います。これらのモデルは曖昧さを推論し、構造化されたプランを生成するのに優れています。

機能を具体的なサブタスクに分解
ファイル構造とインターフェースを決定
エッジケースとエラーハンドリングパターンを特定
擬似コードまたは詳細な仕様を作成

Phase 2

フェーズ2 — コーディング

Cerebras上のGLM 4.7

計画を1,000 tpsで実行します。GLM 4.7はコーディングベンチマークで80/100を獲得しています。明確なプランがあれば、実装には十分な能力です。速度の利点は圧倒的で、他では30秒かかるタスクがここでは2〜3秒で完了します。

プランから実装コードを生成
高速イテレーション — 修正・リファクタ・テスト
ユニットテストとドキュメントの作成
一括操作：リファクタ・移行・変換

OpenCodeでのセットアップ

3ステップ、2分で完了

1

1. OpenCodeをインストール

ワンラインインストール — macOS、Linux、WSLで動作：

bash

curl -fsSL https://opencode.ai/install | bash

2

2. Cerebras APIキーを取得

サインアップまたはログインしてAPIキーを取得： cloud.cerebras.ai

次にOpenCodeを認証：

bash

opencode auth login

プロバイダーリストから「Cerebras」を選択し、APIキーを貼り付けます。

3

3. GLM 4.7を選択

OpenCodeセッション内でGLMモデルに切り替え：

opencode

/models

モデルリストからzai-glm-4.7を選択。1,000 tpsでコーディングする準備完了です。

GLM 4.7 — モデル詳細

内部仕様の概要

モデルID

zai-glm-4.7

機能

推論 — デフォルトで有効（Chain-of-Thought）
ストリーミング — リアルタイムトークン出力
構造化出力 — JSONモード
ツール呼び出し / 関数呼び出し
ビジョン — 画像理解

ベンチマークスコア（0〜100）

計画力

コーディング

画像理解

リサーチ

クリエイティブ

プロのコツ

1

まず計画を立てる

Opus/Geminiで2分間プランを立てると、どのモデルでも20分のイテレーションを節約できます。

2

推論はデフォルトでON

GLM 4.7はChain-of-Thought推論を自動的に使用します。追加のプロンプトなしでより良い回答が得られます。

3

構造化出力を活用

コード生成にはJSON構造化レスポンスをリクエストして、クリーンでパース可能な出力を得ましょう。

4

一括操作が光る

1,000 tpsでは、コードベース全体のリネームやテストスイート生成などがほぼ瞬時に完了します。

リソース

Cerebras GLM 4.7 ドキュメント OpenCode × Cerebras 統合ガイド Cerebras Cloud コンソール OpenCode — ホームページ