OpenClaw:ゼロから始める GPT-5.4 ネイティブPC操作 Agent 実装ガイド
AI Agent 分野を常にチェックしているなら、2026年3月にリリースされた GPT-5.4 は絶対に見逃せないマイルストーンです。これは OpenAI 初の、ネイティブで「コンピューター操作(Computer Use)」をサポートしたフラッグシップモデルです。つまり、対話ボックスの中でチャットするだけでなく、人間のようにスクリーンショットから座標を認識し、ブラウザ、ターミナル、さらには Excel のタスクを直接操作できることを意味します。
今日は、現在最も注目されているオープンソースの Agent フレームワーク OpenClaw を使い、知識ゼロから GPT-5.4 を導入して、自動化インテリジェント・エージェントの旅を始める方法を解説します。
難易度: 入門レベル | 所要時間: 15 分 | 得られるもの: GPT-5.4 を設定し、初のエンドツーエンド UI 自動化タスクを実現する
ターゲット読者
- AI を「対話」から「実行」へとアップグレードしたい開発者。
- 低コストで効率的な Agent 運用ソリューションを探しているエンジニア。
コア依存関係と環境
- Node.js: v20.0.0 以降
- OpenClaw: v2.4.1+ (GPT-5.4 ルーティング対応を確認)
- モデルサポート: GPT-5.4 (コストを 50% 削減できる Defapi 経由の利用を推奨)
プロジェクト構造ツリー
OpenClaw の構造は非常に明快です。主な操作は設定ファイルとタスク定義に集中しています:
openclaw-project/
├── .env # API キーの保存
├── config.json # コアモデルと Agent 挙動の設定
├── tasks/ # 自動化タスクスクリプト (.ts/.js)
│ └── web-search.ts # 今回実装する検索タスク
├── logs/ # Agent の実行ログとスクリーンショット
└── package.json
ステップ・バイ・ステップ
1. インストールと初期化
まず、OpenClaw が最新バージョンであり、GPT-5.4 の最新プロトコルに対応していることを確認します。
# クローンまたはプロジェクトディレクトリに移動
git clone https://github.com/openclaw/openclaw.git
cd openclaw
# 依存関係をインストールし最新版に更新
npm install && npm run openclaw:update
2. 多様な設定方法
OpenClaw は GPT-5.4 に接続するための複数の方法を提供しています。お好みのスタイルに合わせて選んでください:
- ギーク向け(コマンドライン法):ターミナルからワンクリックでモデルを切り替えます。
openclaw config set agents.defaults.model.primary "openai/gpt-5.4" - 初心者向け(インタラクティブガイド):
openclaw onboardを実行し、プロンプトに従うだけで設定が完了します。openclaw onboard --auth-choice openai-codex - 本番環境向け(設定ファイル):
config.jsonを直接編集します。JSON5 をサポートしているため、コメントも記述可能です。
3. API 接続設定とコスト削減の裏技
次にモデルの接続を設定します。従来の OpenAI 公式 API は高価で、特に GPT-5.4 のような膨大なコンテキストを扱うタスクでは Token の消費が非常に速くなります。
[!TIP]
Defapi プラットフォームとの併用を強くお勧めします。
Defapi は、開発者に高性能かつ低コスト(公式価格の約 50%)でトップクラスの大規模モデルを提供する、先進的なサードパーティ AI モデル配信プラットフォームです。
最も重要なのは、GPT-5.4 の Prompt Caching(プロンプトキャッシュ) を完全にサポートしている点です。キャッシュを有効にすると、システム指示や長い履歴などの重複するプロンプトが再利用され、読み取りコストが大幅に抑えられ、レスポンス速度も飛躍的に向上します。
.env ファイルで一括設定:
# Defapi に接続し、節約モードを有効化
OPENAI_API_KEY=dk-your_defapi_key_here # Defapi のキーは通常 dk- で始まります
OPENAI_BASE_URL=https://api.defapi.org # 正しい Defapi のエンドポイントに修正
4. 「長期タスク」向けの最適化
数時間から数日間実行し続ける Agent の場合、ハートビート(Heartbeat)とキャッシュ戦略を有効にする必要があります。config.json を開きます:
{
"agents": {
"default": {
"heartbeat": { "every": "55m" }, // 55分ごとに生存確認を行い、キャッシュを維持
"params": { "cacheRetention": "long" }, // 長期キャッシュを強制有効化
"features": {
"native_computer_use": true,
"dynamic_tool_search": true
}
}
}
}
5. 初のネイティブ操作タスクの作成
では、自動化タスクを書いてみましょう。Agent に自動でブラウザを操作させ、最新の AI ニュースを検索させます。GPT-5.4 のネイティブな CUA 能力により、人間のように操作できます。
tasks/ai-news.ts に以下を記述します:
import { createAgent } from 'openclaw';
async function runTask() {
const agent = await createAgent({
name: "NewsCollector",
goal: "Chromeを開き、2026年3月の最新のAIに関するブレイクスルーを検索し、上位3件の結果をまとめてください"
});
// GPT-5.4 は自動的に環境を認識し、ブラウザを呼び出します
await agent.start();
// 重要:GPT-5.4 はネイティブなスクリーンショット分析能力を備えているため、追加のビジョンモデルは不要です
console.log("タスク完了!");
}
runTask();
6. 起動と実行
以下のコマンドを実行すると、OpenClaw がブラウザウィンドウを立ち上げ、GPT-5.4 がマウスとキーボードの制御を開始するのがわかります:
npx ts-node tasks/ai-news.ts
[!WARNING]
実行中は手動でマウスを動かしたり、ブラウザウィンドウを操作したりしないでください。Agent の座標計算にズレが生じる可能性があります。
よくあるトラブルシューティング
Q: model_not_found というエラーが出ます。
A: OpenClaw のバージョンを確認してください。v2.4.1 以降のバージョンのみが openai/gpt-5.4 の ID を正しくマッピングしています。また、Defapi を使用している場合は、アカウントで GPT-5.4 Standard の枠が有効であることを確認してください。
Q: Agent の動作が急に遅くなりました。
A: GPT-5.4 が数百万のコンテキストを処理する場合、履歴(History)が長すぎると推論時間が長くなります。config.json で max_history_turns: 15 を設定し、定期的に対話キャッシュをクリーンアップすることをお勧めします。
Q: クリックの座標がズレます。
A: ディスプレイの拡大倍率(Scaling)が 100% であることを確認してください。GPT-5.4 の認識能力は高いですが、非標準の DPI 環境下では座標変換に 10〜20 ピクセルの誤差が生じることがあります。
Q: Defapi は GPT-5.4 Pro をサポートしていますか?
A: 現在 Defapi は主に GPT-5.4 Standard をサポートしており、これはほとんどの自動化 Agent タスクにおいて最高のコストパフォーマンスを発揮します。非常に高度な推論が必要な場合は、推論モードの設定を有効にすることを検討してください。
推薦図書 / 応用方向
- 1.05M コンテキストの活用: Agent を 24 時間連続稼働させ、数千行の実行ログを処理する際のメモリ(記憶)の持続性を観察してみてください。
- カスタムツールセット: GPT-5.4 の
Tool Search特性を利用し、コンテキスト溢れを心配することなく、100 以上のローカル API を Agent に提供することが可能です。