AIエージェントが自律的にコンピュータを操作する「Computer Use」技術が急速に普及しつつあります。Anthropic の Claude や OpenAI のエージェントが画面を認識してマウス・キーボードを操作する技術は、2024 年後半から 2026 年にかけて各社が競争する最重要分野のひとつです。
しかし、実際に AI エージェントをデスクトップ操作に活用しようとすると、「エージェントに自分の PC を直接触らせるのはリスクがある」「安全な実行環境をどう用意すればよいか」という問題にぶつかります。本番 PC への直接アクセスは、意図しないファイル削除や誤操作のリスクを抱えています。
この課題を解決するのが、Y Combinator 採択のオープンソースプロジェクト「trycua/cua」です。Cua は、AI エージェント向けの安全な仮想マシン(VM)環境を提供する OSS インフラストラクチャで、「Docker がアプリをコンテナ化するように、Cua はデスクトップ操作を安全な仮想環境内に閉じ込める」という設計思想を持っています。
本記事では、trycua/cua の仕組み・コンポーネント構成・類似 OSS との違いを整理し、エンジニアが採用判断するための情報を提供します。
trycua/cua とは?AIエージェント向けデスクトップ操作基盤を解説

trycua/cua は、AI エージェントがフルデスクトップを安全に操作するためのオープンソース基盤です。macOS、Linux、Windows、Android に対応したサンドボックス(仮想マシン/コンテナ)を提供し、その中でエージェントが自律的に操作できます。
Y Combinator(X25 バッチ・Winter 2025 採択)が公式に次のように評しています。
「Cua is the Docker for computer-use agents, an open-source framework that enables AI agents to control full operating systems within lightweight virtual containers, and works with any language model.」
(出典: Y Combinator 公式 X アカウント)
2026 年 5 月時点での主な指標は以下の通りです。
指標 | 値 |
|---|---|
GitHub スター数 | 15,500 |
フォーク数 | 958 |
ライセンス | MIT(オプション依存に AGPL-3.0) |
主要言語 | Python / Swift / TypeScript |
最終更新 | 2026-05-02(cua-driver-v0.1.2 リリース) |
YC バッチ | X25(Winter 2025) |
MIT ライセンスで商用利用も可能です(ただし、OmniParser を使用する場合は CC-BY-4.0、Ultralytics を使用する場合は AGPL-3.0 の制約が発生します)。
5つのコンポーネント構成と役割

Cua は単一のツールではなく、5 つのコンポーネントが組み合わさったスイートです。用途に応じて必要なコンポーネントのみを使用できます。
Cua Sandbox — クロスプラットフォームの統一 API
Cua の中核となる Python SDK です。Linux、macOS、Windows、Android の VM またはコンテナをプログラムから制御する統一 API を提供します。
インストール:
pip install cua # Python 3.11 以上が必要
(出典: trycua/cua GitHub README)
主な特徴は以下の通りです。
- ホットスタート: サンドボックス起動が 1 秒未満
- スナップショット・フォーク: 特定の状態を保存し、並列実行が可能
- 統一 API: OS の違いを意識せずにマウス、キーボード、スクリーンショット取得を実行できる
Cua Driver — macOS バックグラウンド操作の仕組み
macOS ネイティブアプリのバックグラウンド操作に特化したコンポーネントです。最大の特徴は、ユーザーの操作を妨げないバックグラウンド動作です。通常の Computer Use はカーソルを奪い取りますが、Cua Driver はカーソルを動かさずにエージェントが操作できます。
Accessibility API が対応していない Chromium の Web コンテンツや Canvas ベースのツールにも対応しています。
インストール:
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/cua-driver/scripts/install.sh)"
(出典: trycua/cua GitHub README)
Lume — Apple Silicon 上の軽量 VM 管理
macOS および Linux の仮想マシンを管理するコマンドラインツールです。Apple の Virtualization.Framework を活用することで、Apple Silicon(M1/M2/M3/M4)上で 97% のネイティブ CPU 速度を実現します。
システム要件:
- Apple Silicon Mac(M1/M2/M3/M4)
- macOS 13.0 以降
- メモリ: 最小 8GB(推奨 16GB)
- ストレージ: 30GB 以上
インストールはシェルスクリプト経由で行います。
/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/trycua/cua/main/libs/lume/scripts/install.sh)"
(出典: Lume インストールガイド)
Homebrew でのインストールも可能です。
brew tap trycua/lume && brew install lume
主なコマンドは lume create(VM 作成)、lume run(VM 起動)、lume ls(VM 一覧)などです。
CuaBot — コーディングエージェント向けサンドボックス
Claude Code や Cursor などのコーディングエージェントが安全にデスクトップ操作を実行するためのサンドボックス CLI です。H.265 ビデオ、共有クリップボード、ネイティブウィンドウに対応しています。
npx cuabot
Cua-Bench — エージェント評価・ベンチマーク
OSWorld、ScreenSpot、Windows Arena などの標準ベンチマークに対応した評価ツールです。エージェントの軌跡(trajectory)エクスポートも可能で、訓練データの収集にも使用できます。
クイックスタート — Python でサンドボックスを立ち上げる

以下は、Linux サンドボックスを起動してスクリーンショット取得・マウス操作・キーボード入力を行う最小サンプルです。
# 出典: https://github.com/trycua/cua(README より)
from cua import Sandbox, Image
async with Sandbox.ephemeral(Image.linux()) as sb:
result = await sb.shell.run("echo hello")
screenshot = await sb.screenshot()
await sb.mouse.click(100, 200)
await sb.keyboard.type("Hello from Cua!")
await sb.mobile.gesture((100, 500), (100, 200))
Sandbox.ephemeral() は一時的なサンドボックスを作成し、async with ブロックを抜けると自動で削除されます。Image.linux() の他に、Image.macos() や Image.windows() も利用可能です(クラウド環境では全 OS 対応、ローカルでは Apple Silicon 限定)。
詳しくは公式ドキュメントを参照してください。
内部のアーキテクチャは、以下の 3 層で構成されています。
- Agent SDK(
cua-agent): LLM との推論ループを担う。Claude、Gemini、Qwen、UI-TARS に対応 - Computer SDK(
cua-computer): VM/コンテナの制御と操作実行を担う - Computer Server: FastAPI ベースのアクション処理サーバー
基本的な動作サイクルは「スクリーンショット取得 → LLM による推論 → OS 操作の実行」の繰り返しです。
e2b・browser-use との違い — 何を選ぶべきか

Computer Use Agent の OSS は Cua 以外にも複数存在します。選定の際に比較されやすい e2b と browser-use との違いを整理します。
e2b との比較(コード実行 vs デスクトップ操作)
e2b は AI が生成したコードを安全に実行するサンドボックス環境として知られています。
観点 | Cua(trycua/cua) | e2b |
|---|---|---|
主な用途 | フルデスクトップ GUI 操作(ネイティブアプリ含む) | AI 生成コードの実行 |
macOS 対応 | ネイティブ(Virtualization.Framework) | Linux 中心(Desktop Sandbox は追加機能) |
GUI 操作 | マウス・キーボード・スクリーンショット | 主に CLI/コード実行 |
ローカル実行 | Apple Silicon で 97% ネイティブ速度(Lume 経由) | クラウド中心 |
Cua を選ぶべきケース: AI エージェントに Photoshop、CAD ツール、レガシーアプリなどのネイティブ GUI アプリを操作させたい場合。
e2b を選ぶべきケース: AI に Python や Node.js のコードを安全に実行させたい場合(GUI 操作は不要)。
browser-use との比較(Web のみ vs フルデスクトップ)
browser-use はブラウザ自動化に特化した OSS です。DOM 操作とスクリーンショットを組み合わせてブラウザを操作します。
観点 | Cua(trycua/cua) | browser-use |
|---|---|---|
操作対象 | フルデスクトップ(ネイティブアプリ含む) | ブラウザのみ |
技術アプローチ | VM/サンドボックス + スクリーンショット | DOM 操作 + スクリーンショット |
セキュリティ | VM による完全隔離 | ブラウザプロセス分離のみ |
信頼性(Web タスク) | 標準的 | DOM ベースのため高い(80% の一般タスク) |
Cua を選ぶべきケース: ブラウザ以外のネイティブアプリ操作が必要な場合、または VM による完全隔離が必要な場合。
browser-use を選ぶべきケース: Web 操作タスクのみで十分な場合(信頼性・速度で有利)。
採用判断フローチャート
以下の順番で判断することを推奨します。
- Web ブラウザの操作のみで完結するか? → Yes: browser-use を検討
- AI に生成コードを実行させるだけか? → Yes: e2b を検討
- ネイティブアプリや OS 全体を操作したいか? → Yes: Cua(trycua/cua)が適切
Claude Code・Cursor との統合方法(MCP 経由)
CuaBot を使うことで、Claude Code や Cursor などのコーディングエージェントが Cua のサンドボックスに直接アクセスできるようになります。
インストールはコマンドひとつです。
npx cuabot
MCP Server 経由での連携により、例えば「このリポジトリをクリーンなmacOS環境で動作確認して」といった指示をコーディングエージェントに与えると、エージェントが Cua のサンドボックスを起動して実際に操作・確認してくれます。
詳細な統合手順は公式ドキュメントを参照してください。対応モデルは Claude(Anthropic)、Gemini(Google)、Qwen(Alibaba)、UI-TARS です。
リポジトリの健全性と今後の展望
trycua/cua の採用を検討する際、メンテナンス状況の確認は重要な判断材料です。
健全性の指標(2026-05-03 時点):
- 最終コミット: 2026-05-02(cua-driver-v0.1.2 リリース)
- 総コミット数: 3,215
- リリース数: 476
- スター数: 15,500(活発な成長を継続)
- YC 採択: Winter 2025(X25)→ バックアップと認知度あり
積極的に開発が続いており、短期間で多くのリリースが行われています。ただし、成長中のプロジェクトのため API の変更が頻繁に起こる可能性があります。プロダクション導入前にはリリースノートの確認を推奨します。
ライセンスの注意点:
- 本体: MIT ライセンス(商用利用可)
- OmniParser 使用時: CC-BY-4.0(帰属表示が必要)
- Ultralytics 使用時(オプション): AGPL-3.0(ソースコード公開義務が発生する可能性あり)
企業での利用時は、Ultralytics を有効化する場合は AGPL-3.0 の影響範囲を法務部門と確認することを推奨します。
コミュニティの既知の課題(HN スレッドより):
- ローカルデプロイ時に WebSocket タイムアウトが発生するケースがある(GitHub Issues で追跡中)
- 信頼性は使用するビジョン言語モデルの品質に依存する(Qwen2.5-VL 32B や Claude Sonnet 等の大きなモデルを推奨)
まとめ
trycua/cua は、AI エージェントにデスクトップ操作を安全に任せるための OSS インフラストラクチャです。以下の観点でまとめます。
- 何をするか: 仮想マシン(VM)内で AI エージェントがフルデスクトップを操作できる環境を提供する
- 何が嬉しいか: 本番 PC を守りながら、ネイティブアプリや OS 全体を操作するエージェントを実現できる
- 誰に向いているか: ネイティブアプリの自動化、CAD/デザインツール操作、レガシーシステムとの連携を AI エージェントで実現したいエンジニア
- e2b との違い: e2b はコード実行特化、Cua はフルデスクトップ GUI 操作特化
- browser-use との違い: browser-use はブラウザのみ、Cua はネイティブアプリを含む全 OS 操作に対応
詳しくは GitHub リポジトリ および 公式ドキュメント をご確認ください。
本記事はドキュメントベースの情報に基づいています。動作確認を含む実装の詳細は公式ドキュメントを参照してください。


