「ローカルで動く AI VTuber を自分のプロジェクトに取り入れたいけれど、どの OSS を選べばいいのか判断できない」——このような悩みを抱えて検索にたどり着いた方は少なくないはずです。GitHub Trending や SNS で「Open-LLM-VTuber」という名前を見かけ、気にはなっているものの、実際に採用してよいのか踏み切れないという段階かもしれません。
AI キャラクター・音声会話アプリのジャンルは新興分野で、似たコンセプトの OSS が複数存在します。それぞれ対応するキャラ技術(2D か 3D か)、主要言語、想定用途が異なるため、機能一覧だけを眺めても「自分の用途に合うのはどれか」を見極めるのは簡単ではありません。さらに OSS を採用するうえでは、機能の充実度だけでなく、開発が活発か・ライセンス上の制約はないかといったメンテナンス面の確認も欠かせません。
そこで本記事では、ローカルで動作する OSS の AI VTuber「Open-LLM-VTuber」について、何ができる OSS なのか・どんな仕組みで動くのか・類似 OSS(Amica や AITuber OnAir)とどう違うのか・採用前に押さえるべき注意点は何かを、採用判断という観点から整理します。
なお本記事は GitHub の公式リポジトリと公式ドキュメントをもとにした調査記事であり、筆者が実際にインストールして動作させた検証結果ではありません。記載する手順・仕様はすべて公式情報に基づく要約です。最新の挙動は必ず公式ドキュメントでご確認ください。
Open-LLM-VTuberとは|ローカルで動くAI VTuber/Live2Dコンパニオン
Open-LLM-VTuber は、リアルタイムの音声会話と Live2D アバターを組み合わせた、ローカル環境で動作する AI コンパニオン(対話相手)の OSS です。公式の説明では「ハンズフリーの音声インタラクション、音声割り込み、Live2D の表情を備え、各プラットフォーム上でローカルに動作する形で、あらゆる LLM と会話できる」ものとされています(Open-LLM-VTuber リポジトリ(GitHub))。
一言で言うと何ができるOSSか
このプロジェクトの特徴は、次の3点に集約できます。
- 音声で会話できる: マイクで話しかけると AI が音声で応答します。ヘッドホンを使わなくても AI が自分の声を拾わないよう設計された音声割り込みに対応します。
- 画面やカメラを「見る」ことができる: 視覚認識機能により、カメラ映像・スクリーン・スクリーンショットを認識した会話が可能です。
- Live2D アバターが表情を持つ: 会話内容に応じて Live2D キャラクターの表情がマッピングされ、デスクトップ上にキャラクターを常駐させる「ペットモード」も備えます。
そして最大の特徴は、ローカルモデルを使えば完全にオフラインで動作する点です。会話データを端末内に保持できるため、外部にデータを送りたくない用途にも適しています。Web 版とデスクトップクライアントの2つの利用形態があり、デスクトップ版では透明背景でキャラクターを最前面に表示し、クリックを背後のアプリに透過させる「デスクトップペットモード」が使えます。
名称の由来も用途を理解する手がかりになります。当初の目標が、クローズドソースの AI VTuber である「neuro-sama」を、Windows 以外でもオフラインで動作するオープンソースとして再現することだったため、この名前が付けられています(出典: README)。つまり Open-LLM-VTuber は、配信用ツールキットというより「個人のそばに常駐する AI キャラクター」を志向したプロジェクトと言えます。
基本情報(スター数・言語・ライセンス・メンテ状況)
採用判断の前提となる基本情報を整理します。以下の数値は GitHub API(gh api /repos/Open-LLM-VTuber/Open-LLM-VTuber)の取得値です。
項目 | 値 |
|---|---|
owner/name | Open-LLM-VTuber/Open-LLM-VTuber |
主要言語 | Python |
スター数 | 11,190 |
フォーク数 | 1,288 |
最終 push | 2026-05-15 |
ライセンス | MIT から制約付きライセンスへ移行中(後述の注意点を参照) |
対応 OS | Windows / macOS / Linux |
リポジトリ属性 | 公開・非アーカイブ・非フォーク |
スター数が 1 万を超えており、フォークも 1,000 件以上あることから、AI VTuber 系 OSS の中では関心の高いプロジェクトであることがわかります。リポジトリはアーカイブされておらず(archived=false)、他リポジトリからのフォークでもない(fork=false)独立した本家プロジェクトです。ライセンスは MIT から制約付きのライセンスへ移行が進んでおり、採用判断に大きく関わるため、「採用前に押さえるべき注意点」の章で詳しく扱います。
Open-LLM-VTuberの主要機能と仕組み
ここでは、Open-LLM-VTuber が「自分のやりたいこと」を実現できるかを判断できるよう、機能を「対話・インタラクション」「アーキテクチャ」「対応モデルの広さ」の3つの観点で整理します。
対話・インタラクション機能
README で挙げられている対話関連の主な機能は次のとおりです(出典: Open-LLM-VTuber リポジトリ(GitHub))。
- 視覚認識: カメラ・画面・スクリーンショットを認識した会話
- 音声割り込み: ヘッドホン不要で、AI が自分の発した音声を拾わない仕組み
- タッチフィードバック: キャラクターへのインタラクションに対する反応
- Live2D 表情の感情マッピング: 会話内容に応じた表情変化
- ペットモード: デスクトップ常駐(最前面表示・クリック透過・ドラッグ移動)
- AI の内心表示・能動発話: AI 側から話しかける動作
- チャットログ永続化: 過去の会話を保存し再開可能
- TTS 翻訳: 例として、中国語で会話しつつ AI は日本語音声で応答するといった使い分け
これだけの対話機能が揃っているため、「デスクトップに常駐させて雑談相手にする」「画面を見せながら作業を手伝ってもらう」といった 1:1 のコンパニオン用途に厚みがあります。なお長期記憶機能は一時的に削除されており、復帰予定と注記されています(出典: README)。記憶を前提とした用途を考えている場合は、この点を踏まえて判断する必要があります。
アーキテクチャ(モジュール構成)
Open-LLM-VTuber は、役割ごとに分かれたモジュールを設定ファイルで切り替えるモジュラー設計を採用しています。公式ドキュメントによると、主要な構成要素は以下です(公式ドキュメント Quick Start)。
- LLM: 応答テキストを生成する言語モデル(既定は Ollama)
- ASR: 音声を文字に変換する音声認識(既定は sherpa-onnx)
- TTS: テキストを音声に変換する音声合成(既定は Edge TTS)
- Live2D: アバターの表示・表情制御
- Agent: 記憶系などの拡張インターフェース
この構成のメリットは、各コンポーネントを独立して差し替えられる点にあります。たとえば「LLM はローカルの Ollama、音声合成だけクラウド API」といった組み合わせも、設定ファイルの編集で実現できる想定です。バックエンドは Python で実装され、起動するとブラウザから http://localhost:12393 でアクセスできます。
対応モデルの広さ(ローカル/クラウドの選択肢)
採用判断で見落とせないのが、対応モデルの網羅性です。README では非常に幅広いモデル・サービスへの対応が挙げられています(出典: README)。
種別 | 対応例 |
|---|---|
LLM | Ollama, OpenAI(および互換 API), Gemini, Claude, Mistral, DeepSeek, Zhipu AI, GGUF, LM Studio, vLLM など |
ASR(音声認識) | sherpa-onnx, FunASR, Faster-Whisper, Whisper.cpp, Whisper, Groq Whisper, Azure ASR など |
TTS(音声合成) | sherpa-onnx, pyttsx3, MeloTTS, Coqui-TTS, GPTSoVITS, Bark, CosyVoice, Edge TTS, Fish Audio, Azure TTS など |
ローカルで完結させたい場合は Ollama + ローカル ASR/TTS、手軽さを優先する場合は OpenAI や Claude などのクラウド API、というように、運用方針に応じて選択肢を持てる点が強みです。「特定のローカル LLM を使いたい」「クラウド API のコストを抑えてローカルに寄せたい」といった要件があるエンジニアにとって、この対応幅の広さは採用を後押しする材料になります。
動作環境とセットアップの全体像
ここでは、導入の現実性を見積もれるよう、公式ドキュメントのセットアップ手順を要約します。以下はあくまで公式ドキュメント Quick Startの内容の要約であり、筆者が環境構築して確認したものではありません。実際に導入する際は必ず公式ドキュメントの最新版をご参照ください。
必要環境・依存
- Python: 3.10 以上、3.13 未満(公式の記述は「Python version >= 3.10, < 3.13」)
- FFmpeg: 音声処理に必須。別途インストールが必要
- uv: 推奨のパッケージ/依存管理ツール(PowerShell / curl / Homebrew で導入)
- Ollama: ローカル LLM を動かす場合に使用(ollama.com から入手)
- GPU: ローカル実行は M シリーズ Mac・NVIDIA GPU・近年の AMD GPU(ROCm 互換が望ましい)・高性能 CPU が推奨。各コンポーネントを API に置けば軽量な環境でも動作しうる
- ブラウザ: Chrome 推奨。公式は「Edge, Safari など他のブラウザには既知の問題がある」と明記
セットアップの流れ
公式ドキュメントでは、おおむね次のステップが示されています(出典: 公式ドキュメント Quick Start)。
git clone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber --recursive
uv sync
uv run run_server.py
ollama run qwen2.5:latest
上記コマンドは公式 Quick Start からの抜粋です(出典: 公式ドキュメント Quick Start)。流れとしては、サブモジュールを含めてリポジトリを取得し(--recursive)、uv sync で仮想環境を作成、uv run run_server.py で設定ファイル生成とサーバー起動を行い、別途 Ollama で LLM を用意する、という構成です。LLM の設定は conf.yaml を編集して行い、Ollama の場合は次のような設定例が示されています。
ollama_llm:
base_url: http://localhost:11434
model: qwen2.5:latest
temperature: 0.7
上記の設定例は公式 Quick Start からの抜粋です(出典: 公式ドキュメント Quick Start)。起動後は http://localhost:12393 にアクセスして利用します。
導入時に注意したいポイント
採用判断の観点では、次の3点が「つまずきやすい箇所」として挙げられます。
- Python のバージョン制約: 3.10 以上・3.13 未満という範囲が指定されているため、最新の Python をそのまま使うと動作しない可能性があります。
- ブラウザが実質 Chrome 限定: マイクや表示まわりで Chrome 以外は既知の問題があるとされるため、検証は Chrome を前提にする方が安全です。
- リモート利用時の HTTPS 要件: マイクをリモート環境で利用する場合、セキュアコンテキスト(HTTPS)が必要になります。LAN 越しに別端末から使う構成を想定している場合は、この制約を見込んでおく必要があります。
これらは「自分の環境ですぐ動くか」を左右する要素です。手元の Python 環境やネットワーク構成と照らし合わせて、導入コストを見積もる材料にしてください。
Amica・AITuber OnAirとの違い|類似OSSとの比較と選び方
AI VTuber/AI キャラクター系の OSS は複数あり、Open-LLM-VTuber だけを見て採用を決めるのは早計です。ここでは代表的な類似 OSS である Amica と AITuber OnAir と比較し、用途別の選び方を整理します。
比較表(用途・技術スタック・対応モデル・向いている人)
観点 | Open-LLM-VTuber | Amica | AITuber OnAir |
|---|---|---|---|
キャラ技術 | 2D(Live2D) | 3D(VRM) | 構築する側で選択 |
主要言語 | Python | TypeScript | TypeScript |
主な形態 | 完結したコンパニオンアプリ | Web フロント主体のインターフェース | 配信向けツールキット(部品の組み合わせ) |
想定用途 | 1:1 対話・デスクトップ常駐 | 3D キャラとの対話 | ライブ配信での視聴者反応 |
モデル対応の広さ | 非常に広い(ASR/TTS/LLM の選択肢が多い) | 音声合成・音声認識に対応 | チャット/LLM/TTS を組み合わせて構築 |
各リポジトリの属性は GitHub の公開情報に基づきます。Amica は 3D(VRM)キャラクターを TypeScript/Web フロント主体で扱う OSS で、ライセンスは MIT、スター数は約 1,538 です(出典: Amica(GitHub))。AITuber OnAir は、ライブ配信の視聴者コメントへの反応を含む AITuber を構築するための TypeScript 製ツールキットで、開発者が部品を組み合わせて使う性格が強いプロジェクトです(出典: AITuber OnAir(GitHub))。
用途別の選び方
上記の違いを踏まえると、選び方の指針は次のように整理できます。
- ローカル/オフラインで 2D コンパニオンを常駐させたい → Open-LLM-VTuber: デスクトップペットモード・音声割り込み・視覚認識など、1:1 のコンパニオン体験に厚みがあり、設定ファイルだけで導入できる完結したアプリです。対応モデルの幅広さも強みです。
- 3D(VRM)キャラクターと対話したい → Amica: キャラクターを 3D で表現したい、Web フロント中心で TypeScript ベースに揃えたい場合は Amica が候補になります。
- ライブ配信で視聴者コメントに反応させたい → AITuber OnAir: 配信向けに部品を組み合わせて AITuber を構築したい場合は、配信ユースケースに特化した AITuber OnAir が向きます。
つまり「2D の常駐コンパニオン × ローカル運用 × モデルを柔軟に差し替えたい」という要件であれば Open-LLM-VTuber が有力候補になり、「3D が欲しい」「配信特化」であれば別の選択肢を検討する、という判断軸になります。
採用前に押さえるべき注意点(開発段階・ライセンス)
最後に、採用の最終判断に関わるリスク材料を中立的に整理します。
開発段階・メンテナンス状況
README には「early stages(初期段階)」「under active development(活発に開発中)」という記述があり、さらに v2.0 を完全な書き直しで開発中であることが明示されています(出典: README)。v2.0 は早期の議論・計画フェーズにあり、現行の v1 については引き続きバグ修正と既存 PR への対応が継続される、とされています。
これは「活発に開発されている」というプラス面と、「将来的に大きな作り直しが入る可能性がある」という不確実性の両面を持ちます。実際、v1.0.0 は破壊的変更を含み再デプロイが必要だったとされ、v1.0.0 以降の更新は uv run update.py で行う旨が案内されています(出典: README / 公式ドキュメント)。本番運用で安定性を最優先したい場合は、この開発段階の特性を踏まえ、バージョン更新時の手間を見込んでおく必要があります。最終 push は 2026-05-15 で、開発が継続している点は確認できます。
ライセンス(MIT から制約付きライセンスへ移行中)
ライセンスは、採用判断で最も注意すべきポイントです。このプロジェクトは従来「コード本体は MIT ライセンス」でしたが、現在は MIT から商用利用を制限する制約付きライセンスへの移行が段階的に進められています(出典: 公式ブログ v1.2.0 リリースノート)。GitHub API 経由でライセンスが NOASSERTION(標準的な SPDX ライセンスとして自動判定できない状態)として返却されるのも、こうしたライセンス構成の変更が進行中であることと無関係ではありません。
公式ブログのリリースノートによると、ライセンスの移行状況は次のように整理できます(出典: 公式ブログ v1.2.0 リリースノート)。
- フロントエンド: すでに独自ライセンス「Open-LLM-VTuber License 1.0」へ移行済みです。
- バックエンド: v1.2.0 時点では MIT のままですが、v1.3〜v1.4 頃に、商用利用を制限する修正版 Apache 2.0 ライセンスへ統合される予定とされています。
- 同梱の Live2D サンプルモデル: 従来どおり別ライセンスが適用されるため、特に商用利用時は個別にライセンスを確認する必要があります。
利用条件について公式は、次のように整理しています(出典: 公式ブログ v1.2.0 リリースノート)。
- 別途ライセンス不要(無償で利用可能): 個人プロジェクト・教育・学術研究・非営利での利用、YouTube/Twitch/Bilibili などでの VTuber 配信・動画制作。
- 別途商用ライセンスが必要(予定): 有償アクセス・サブスクリプション・ホスティングサービス(SaaS)としての提供、ソフトウェアの再パッケージ・再販・リブランド、有償の商用製品への組み込み。
つまり、個人・教育・配信用途であれば引き続き無償で利用できる一方、商用 SaaS や有償サービスへ組み込む場合は、別途ライセンスが必要になる予定である点に注意が必要です。なお公式は「たとえ SaaS を立ち上げたとしても、Open-LLM-VTuber のコアをクローズドソース化する予定はなく、完全にオフライン・ローカルで動作させられる性質を変えるつもりもない」と表明しています(出典: 公式ブログ v1.2.0 リリースノート)。
重要なのは、これらが移行の途中段階にあるという点です。どのバージョンでどのライセンスが適用されるかは時期によって異なり、今後さらに変わる可能性があります。商用での採用を検討している場合は特に、採用前に必ず利用するバージョンの公式 LICENSE ファイルと公式ブログで、最新のライセンス状況を確認してください。
プライバシー
ローカルモデルを使えば完全にオフラインで動作し、会話データを端末内に保持できる設計です(出典: README)。外部にデータを送信したくない用途では、この点が採用の決め手になることもあります。
まとめ|Open-LLM-VTuberが向いているケース
Open-LLM-VTuber は、ローカル/オフラインで動く 2D(Live2D)の AI コンパニオンを求めるエンジニアに向いた OSS です。整理すると、採用判断は次のようになります。
向いているケース
- ローカル・オフラインでの運用を重視し、会話データを端末内に保ちたい
- 2D(Live2D)キャラクターをデスクトップに常駐させ、音声で 1:1 の対話をしたい
- 使う LLM・ASR・TTS を柔軟に差し替えたい(ローカルとクラウドを使い分けたい)
他の選択肢を検討したいケース
- 3D(VRM)キャラクターが欲しい → Amica
- ライブ配信で視聴者コメントに反応させたい → AITuber OnAir
- 安定版を本番で運用したい → v2.0 書き直し中という開発段階を踏まえて慎重に判断する
- 商用 SaaS や有償サービスへ組み込みたい → ライセンスが MIT から制約付きへ移行中のため、商用ライセンスの要否を必ず確認する
スター数 11,190 という関心の高さ、幅広いモデル対応、ローカル完結という設計は、コンパニオン用途で試す価値のある OSS であることを示しています。一方でライセンス(MIT から制約付きライセンスへの移行中で、商用利用には別途ライセンスが必要になる予定)と開発段階(v2.0 への移行)は、採用前に必ず確認しておきたいポイントです。
まずは公式のOpen-LLM-VTuber リポジトリ(GitHub)と公式ドキュメント Quick Startで、自分の環境・用途との適合性を確認することをおすすめします。本記事の情報は調査時点(2026年6月)のものであり、機能・仕様(特にライセンス)は更新される可能性があるため、最新情報は公式ソースでご確認ください。


