OpenClaw:ゼロから始める GPT-5.4 ネイティブPC操作 Agent 実装ガイド

AI Expert

AI Agent 分野を常にチェックしているなら、2026年3月にリリースされた GPT-5.4 は絶対に見逃せないマイルストーンです。これは OpenAI 初の、ネイティブで「コンピューター操作(Computer Use)」をサポートしたフラッグシップモデルです。つまり、対話ボックスの中でチャットするだけでなく、人間のようにスクリーンショットから座標を認識し、ブラウザ、ターミナル、さらには Excel のタスクを直接操作できることを意味します。

今日は、現在最も注目されているオープンソースの Agent フレームワーク OpenClaw を使い、知識ゼロから GPT-5.4 を導入して、自動化インテリジェント・エージェントの旅を始める方法を解説します。

難易度: 入門レベル | 所要時間: 15 分 | 得られるもの: GPT-5.4 を設定し、初のエンドツーエンド UI 自動化タスクを実現する

ターゲット読者

  • AI を「対話」から「実行」へとアップグレードしたい開発者。
  • 低コストで効率的な Agent 運用ソリューションを探しているエンジニア。

コア依存関係と環境

  • Node.js: v20.0.0 以降
  • OpenClaw: v2.4.1+ (GPT-5.4 ルーティング対応を確認)
  • モデルサポート: GPT-5.4 (コストを 50% 削減できる Defapi 経由の利用を推奨)

プロジェクト構造ツリー

OpenClaw の構造は非常に明快です。主な操作は設定ファイルとタスク定義に集中しています:

openclaw-project/
├── .env                # API キーの保存
├── config.json         # コアモデルと Agent 挙動の設定
├── tasks/              # 自動化タスクスクリプト (.ts/.js)
│   └── web-search.ts   # 今回実装する検索タスク
├── logs/               # Agent の実行ログとスクリーンショット
└── package.json

ステップ・バイ・ステップ

1. インストールと初期化

まず、OpenClaw が最新バージョンであり、GPT-5.4 の最新プロトコルに対応していることを確認します。

# クローンまたはプロジェクトディレクトリに移動
git clone https://github.com/openclaw/openclaw.git
cd openclaw

# 依存関係をインストールし最新版に更新
npm install && npm run openclaw:update

2. 多様な設定方法

OpenClaw は GPT-5.4 に接続するための複数の方法を提供しています。お好みのスタイルに合わせて選んでください:

  • ギーク向け(コマンドライン法):ターミナルからワンクリックでモデルを切り替えます。
    openclaw config set agents.defaults.model.primary "openai/gpt-5.4"
    
  • 初心者向け(インタラクティブガイド)openclaw onboard を実行し、プロンプトに従うだけで設定が完了します。
    openclaw onboard --auth-choice openai-codex
    
  • 本番環境向け(設定ファイル)config.json を直接編集します。JSON5 をサポートしているため、コメントも記述可能です。

3. API 接続設定とコスト削減の裏技

次にモデルの接続を設定します。従来の OpenAI 公式 API は高価で、特に GPT-5.4 のような膨大なコンテキストを扱うタスクでは Token の消費が非常に速くなります。

[!TIP]
Defapi プラットフォームとの併用を強くお勧めします。
Defapi は、開発者に高性能かつ低コスト(公式価格の約 50%)でトップクラスの大規模モデルを提供する、先進的なサードパーティ AI モデル配信プラットフォームです。
最も重要なのは、GPT-5.4 の Prompt Caching(プロンプトキャッシュ) を完全にサポートしている点です。キャッシュを有効にすると、システム指示や長い履歴などの重複するプロンプトが再利用され、読み取りコストが大幅に抑えられ、レスポンス速度も飛躍的に向上します。

.env ファイルで一括設定:

# Defapi に接続し、節約モードを有効化
OPENAI_API_KEY=dk-your_defapi_key_here # Defapi のキーは通常 dk- で始まります
OPENAI_BASE_URL=https://api.defapi.org # 正しい Defapi のエンドポイントに修正

4. 「長期タスク」向けの最適化

数時間から数日間実行し続ける Agent の場合、ハートビート(Heartbeat)とキャッシュ戦略を有効にする必要があります。config.json を開きます:

{
  "agents": {
    "default": {
      "heartbeat": { "every": "55m" }, // 55分ごとに生存確認を行い、キャッシュを維持
      "params": { "cacheRetention": "long" }, // 長期キャッシュを強制有効化
      "features": {
        "native_computer_use": true,
        "dynamic_tool_search": true 
      }
    }
  }
}

5. 初のネイティブ操作タスクの作成

では、自動化タスクを書いてみましょう。Agent に自動でブラウザを操作させ、最新の AI ニュースを検索させます。GPT-5.4 のネイティブな CUA 能力により、人間のように操作できます。

tasks/ai-news.ts に以下を記述します:

import { createAgent } from 'openclaw';

async function runTask() {
  const agent = await createAgent({
    name: "NewsCollector",
    goal: "Chromeを開き、2026年3月の最新のAIに関するブレイクスルーを検索し、上位3件の結果をまとめてください"
  });

  // GPT-5.4 は自動的に環境を認識し、ブラウザを呼び出します
  await agent.start();
  
  // 重要:GPT-5.4 はネイティブなスクリーンショット分析能力を備えているため、追加のビジョンモデルは不要です
  console.log("タスク完了!");
}

runTask();

6. 起動と実行

以下のコマンドを実行すると、OpenClaw がブラウザウィンドウを立ち上げ、GPT-5.4 がマウスとキーボードの制御を開始するのがわかります:

npx ts-node tasks/ai-news.ts

[!WARNING]
実行中は手動でマウスを動かしたり、ブラウザウィンドウを操作したりしないでください。Agent の座標計算にズレが生じる可能性があります。

よくあるトラブルシューティング

Q: model_not_found というエラーが出ます。
A: OpenClaw のバージョンを確認してください。v2.4.1 以降のバージョンのみが openai/gpt-5.4 の ID を正しくマッピングしています。また、Defapi を使用している場合は、アカウントで GPT-5.4 Standard の枠が有効であることを確認してください。

Q: Agent の動作が急に遅くなりました。
A: GPT-5.4 が数百万のコンテキストを処理する場合、履歴(History)が長すぎると推論時間が長くなります。config.jsonmax_history_turns: 15 を設定し、定期的に対話キャッシュをクリーンアップすることをお勧めします。

Q: クリックの座標がズレます。
A: ディスプレイの拡大倍率(Scaling)が 100% であることを確認してください。GPT-5.4 の認識能力は高いですが、非標準の DPI 環境下では座標変換に 10〜20 ピクセルの誤差が生じることがあります。

Q: Defapi は GPT-5.4 Pro をサポートしていますか?
A: 現在 Defapi は主に GPT-5.4 Standard をサポートしており、これはほとんどの自動化 Agent タスクにおいて最高のコストパフォーマンスを発揮します。非常に高度な推論が必要な場合は、推論モードの設定を有効にすることを検討してください。

推薦図書 / 応用方向

  • 1.05M コンテキストの活用: Agent を 24 時間連続稼働させ、数千行の実行ログを処理する際のメモリ(記憶)の持続性を観察してみてください。
  • カスタムツールセット: GPT-5.4 の Tool Search 特性を利用し、コンテキスト溢れを心配することなく、100 以上のローカル API を Agent に提供することが可能です。