GUIエージェントという技術カテゴリが、開発者コミュニティの間で急速に注目を集めています。人間がブラウザやデスクトップアプリケーションを操作するのと同じように、AIが画面を「見て」自律的にマウスとキーボードを動かす——そのような仕組みを実現するOSSが続々と登場しています。
その中でも特に大きな注目を集めているのが、ByteDanceが公開した bytedance/UI-TARS-desktop です。2026年5月時点でGitHubスター数34,200を超え、AIエージェント分野で急速に存在感を高めています。
しかし「GUIエージェントを試してみたい」と思ったとき、同種のOSSが複数存在することで「何を選べばよいか」迷ってしまうケースが多くあります。UI-TARS-desktopとは何か、Open InterpreterやOpenAdaptと何が違うのか、自分のプロジェクトに採用すべきかどうか——本記事ではそれらの判断に必要な情報を整理します。
UI-TARS-desktopとは:2つのプロダクトで構成されるOSSスタック
UI-TARS-desktop は、ByteDanceが開発・公開したマルチモーダルAIエージェントスタックです。Apache-2.0ライセンスで公開されており、商用利用も含めて自由に利用できます。
リポジトリは実質的に2つの独立したプロダクトを含んでいます。
Agent TARSは、CLI(コマンドラインインターフェース)およびWeb UIで動作する汎用マルチモーダルAIエージェントです。ターミナル・ブラウザ・コンピュータ操作を統合的に扱い、Claude 3.7やGPT-4o、ByteDance製のDoubao-1.5など主要なLLMを接続して利用できます。
UI-TARS Desktopは、ローカルコンピュータのネイティブGUI操作に特化したElectronベースのデスクトップアプリケーションです。自然言語の指示を受け取り、画面をキャプチャしてVLM(視覚言語モデル)に送信し、クリック位置やキーボード入力などのアクションを生成して実行します。
どちらも同一リポジトリで管理されており、基盤となる @ui-tars/sdk を共有しています。
GUIエージェントのしくみ:スクリーンショット → VLM → アクション
UI-TARS-desktopが採用しているアプローチの核心は、スクリーンショットのみを視覚入力として使うという点にあります。DOMのアクセスやAPIへの依存なしに、人間が画面を見て操作するのと同様のプロセスでGUI操作を実現します。
処理の流れは次のとおりです。
- ユーザーが自然言語でタスクを指示する
- エージェントが現在の画面のスクリーンショットを取得する
- スクリーンショットと指示内容をVLMに送信する
- VLMがクリック座標・キーボード入力・スクロール等のアクションを予測して返す
- エージェントがそのアクションを実行し、次のスクリーンショットを取得して繰り返す
この設計によってWindows・macOS・ブラウザ・Android等のプラットフォームを横断する汎用性が生まれます。DOMへのアクセスが不要なため、特定のフレームワークや実装に依存しません。
UI-TARS-desktopに付属するモデル(UI-TARS-1.5 / Doubao-1.5-UI-TARS)は、GUI操作に特化した専用VLMとして設計されており、公開ベンチマークでも高い精度を記録しています。
- OSWorld(コンピュータ操作タスクのベンチマーク): UI-TARS-1.5 が 24.6@50steps で当時最高水準
- AndroidWorld(Androidアプリ操作タスク): 46.6%
これらの結果はClaude 3.7やGPT-4oといった汎用LLMを上回る水準であり、GUI操作に特化した専用モデルの有効性を示しています(出典: UI-TARS-2 Technical Report)。
Agent TARS CLI:ターミナルから起動できるマルチモーダルエージェント

Agent TARSは、CLIから手軽に始められる点が特徴です。Node.js 22以上の環境があれば、以下のコマンドで即座に起動できます。
# npxで即時起動(README.md より)
npx @agent-tars/cli@latest
# グローバルインストール
npm install @agent-tars/cli@latest -g
# プロバイダ・モデルを指定して起動
agent-tars --provider anthropic --model claude-3-7-sonnet-latest --apiKey your-api-key
agent-tars --provider volcengine --model doubao-1-5-thinking-vision-pro-250428 --apiKey your-api-key
出典: bytedance/UI-TARS-desktop README.md
対応プロバイダはVolcengine(Doubao)・Anthropic(Claude)・OpenAI(GPT-4o)などで、各プロバイダのAPIキーを指定して利用します。
ハイブリッドブラウザ制御もAgent TARSの重要な特徴です。Webページの標準的なHTML要素に対してはDOM操作(高速・安定)を適用し、CanvasレンダリングされたコンテンツやSPAの動的生成コンテンツに対してはGUIビジョンで対応します。コンテキストを分析して両モードを自動切替することで、ブラウザ操作の精度と安定性を両立しています。
また、MCP(Model Context Protocol)統合により、外部のMCPサーバーをマウントして実世界のツールと接続できます。ファイルシステム・Web検索・APIアクセスなどを組み合わせた複合的なタスクを単一のエージェントで処理することが可能です。
イベントストリームプロトコルは、エージェントの動作状態をリアルタイムで観測するための仕組みです。ツール呼び出しの内容・中間結果・最終応答がイベントとしてストリームに流れ、Web UIがそれを購読してリアルタイム可視化します。デバッグやログ分析において有用な設計です。
詳細なセットアップ手順は 公式ガイド(agent-tars.com/guide) を参照してください。
UI-TARS Desktop:ローカルPCを直接操作するElectronアプリ
UI-TARS Desktopは、Electronをベースにしたネイティブデスクトップアプリケーションです。主にローカルコンピュータのGUIを自然言語で操作することを目的としています。
macOSでは以下のコマンドでインストールできます。
# Homebrew経由(docs/quick-start.md より)
brew install --cask ui-tars
Windowsでは公式リリースページからインストーラーをダウンロードして実行します。
macOSでは初回起動時に「アクセシビリティ」と「スクリーン録画」の権限が必要です。設定後、VLMプロバイダとAPIキーを構成し、チャット画面からタスクを入力します。
v0.2.0からはRemote Computer OperatorとRemote Browser Operatorが追加されました。ネットワーク越しに別のコンピュータやブラウザインスタンスを操作する機能で、どちらも無料で利用できます。ローカルPCの操作だけでなく、リモート環境への適用範囲が広がっています。
対応モデルはUI-TARS-1.5(Hugging Face経由でセルフホスト)とDoubao-1.5-UI-TARS(VolcEngine API)です。自前のモデルをホストしてプライベートな環境で利用することもできます。
@ui-tars/sdk:カスタムオペレータを実装する開発者向け設計
@ui-tars/sdk は、GUIオートメーションエージェントを構築するためのクロスプラットフォームSDKです。独自のオペレータ(操作対象)を実装することで、デスクトップ・ブラウザ・モバイルなど任意の環境にエージェントを適用できます。
SDKの基本的な使い方は以下のとおりです(公式SDKドキュメント より)。
import { GUIAgent } from '@ui-tars/sdk';
import { NutJSOperator } from '@ui-tars/operator-nut-js';
const guiAgent = new GUIAgent({
model: {
baseURL: config.baseURL,
apiKey: config.apiKey,
model: config.model,
},
operator: new NutJSOperator(),
onData: ({ data }) => console.log(data),
});
await guiAgent.run('send "hello world" to x.com');
出典: bytedance/UI-TARS-desktop docs/sdk.md
Operator インターフェースは2つのコアメソッドで定義されます。
screenshot(): 現在の画面状態をキャプチャし、Base64エンコードした画像とスケールファクター(DPR)を返しますexecute(): モデルが予測したアクション(クリック座標・テキスト入力・スクロール等)を受け取り実行します
この設計により、デスクトップ操作用の NutJSOperator・ブラウザ操作用の WebOperator・モバイル操作用の MobileOperator といった実装が共通のインターフェースに準拠しています。独自のプラットフォームに向けたカスタムオペレータも同様のインターフェースを実装することで作成できます。
Open Interpreter・OpenAdaptとの比較:どのGUIエージェントを選ぶか

UI-TARS-desktopと同様にGUI自動化を扱うOSSとして、openinterpreter/open-interpreterとOpenAdaptAI/OpenAdaptが代表的な比較対象です。
比較項目 | UI-TARS-desktop | open-interpreter | OpenAdapt |
|---|---|---|---|
アプローチ | ビジョンベースのGUIエージェント | コード実行 + GUI操作ハイブリッド | デモンストレーション記録→再生型 |
主な対象 | デスクトップ・ブラウザ・CLI | デスクトップ・Web・Shell | デスクトップ(Windows/macOS) |
VLM依存 | 専用モデル(UI-TARS系)or 外部LLM | 外部LLM(GPT-4o等) | 外部LLM |
ゼロショット操作 | 可能 | 可能 | 不得意(事前の記録が必要) |
コード実行 | 非対応(GUI操作に特化) | 対応(Shell・Pythonなど) | 非対応 |
ライセンス | Apache-2.0 | MIT | Apache-2.0 |
ユースケース別の選び方として、以下を参考にしてください。
UI-TARS-desktopが適している場合: GUI操作に特化したエージェントを構築したい。GUIベンチマークで高い精度が求められる。MCP統合で外部ツールと組み合わせたい。TypeScript/Node.js環境でSDKを使って拡張したい。
Open Interpreterが適している場合: コード実行とGUI操作の両方を組み合わせたワークフローを自動化したい。Pythonエコシステムとの親和性を重視する。Shell操作を含む複合的なタスクを扱う。
OpenAdaptが適している場合: 同じワークフローを繰り返し実行する定型業務を自動化したい。一度デモを記録して再生させる学習ベースのアプローチを好む。繰り返しタスクの再現性を最優先にする。
まとめ:採用判断のチェックポイント
UI-TARS-desktopの採用を検討する際の判断軸を3点に整理します。
1. GUI操作に特化しているか
コード実行やShell操作との融合が必要な場合はOpen Interpreterが適しています。純粋にGUIを視覚的に操作するエージェントが必要な場合、UI-TARS-desktopのビジョン特化設計が有効です。
2. OSS・商用利用の自由度
Apache-2.0ライセンスのため、商用プロダクトへの組み込みや改変・再配布が可能です。ByteDanceが継続的に開発・メンテナンスしており、2026年5月時点で34,200超のスターと活発なコミュニティが存在します。
3. 専用モデルvs外部LLM
UI-TARS系の専用VLMを使う場合はGUIベンチマーク性能が最大化されます。一方で、Claude 3.7やGPT-4oなど既存のAPI契約を活用したい場合も、Agent TARSはそれらのプロバイダをサポートしています。
詳細な仕様・最新情報は以下の公式リソースを参照してください。



