テーマを入力するだけで、スクリプト作成から動画合成まですべてのプロセスを自動化できる OSS が登場しています。Pixelle-Video は、Alibaba International の AI チームである AIDC-AI が開発した全自動短動画エンジンで、GitHub で 9,000 件以上のスターを獲得しています。
「AI で動画を自動生成したい」と考えるエンジニアにとって、MoneyPrinterTurbo や NarratoAI など類似ツールが多く、どれを選ぶべきか迷うことがあります。Pixelle-Video は ComfyUI をベースとしたモジュール型パイプラインという独自のアーキテクチャを持ち、画像・動画生成の質を高めたいユースケースに向いています。
本記事では、Pixelle-Video の仕組み・主な機能・インストール方法・類似ツールとの違いを、公式ドキュメントとリポジトリの情報をもとに解説します。実際にインストールや動作確認は行わず、ドキュメントベースでの紹介となります。
Pixelle-Video とは|AI全自動短動画エンジンの概要
Pixelle-Video は、「テーマを入力するだけで AI が動画を自動生成する」ことを目的として設計された OSS です。スクリプトの自動作成から始まり、AI 画像・動画の生成、音声合成(TTS)、BGM 追加、そして最終的な動画合成まで、一連の処理を自動で完結させます。
開発背景と開発元(AIDC-AI とは)
Pixelle-Video を開発した AIDC-AI(Alibaba International Digital Commerce AI)は、Alibaba Group の国際 EC 部門傘下の AI 研究チームです。Marco-o1(大規模推論モデル)や ComfyUI-Copilot(ComfyUI 向け AI アシスタント)など、複数の OSS を公開しており、AI エコシステムへの積極的な貢献で知られています。
Pixelle-Video の開発には MoneyPrinterTurbo、NarratoAI、ComfyKit などの先行プロジェクトが参考にされており、それらの設計思想を取り込みつつ、ComfyUI との深い統合という形で差別化を図っています。
リポジトリの基本情報
項目 | 値 |
|---|---|
GitHub | |
スター数 | 9,294(2026年4月時点) |
フォーク数 | 1,470 |
ライセンス | Apache-2.0 |
主要言語 | Python(76.1%)、HTML(22.9%) |
最終更新 | 2026年4月13日 |
Apache-2.0 ライセンスのため、商用利用・改変・配布が可能です(著作権表記の維持が必要)。最終更新が 2026年4月であることからも、アクティブにメンテナンスされていることが確認できます。
Pixelle-Video の仕組みとパイプライン構造
Pixelle-Video の中核は、4段階のモジュール型パイプラインです。各ステップが独立したモジュールとして設計されており、使用する AI モデルやエンジンをステップごとに自由に変更できます。
4段階パイプラインの解説
テーマ入力
↓
① スクリプト生成(LLM)
↓
② 画像計画(ビジュアル設計)
↓
③ フレーム処理(AI 画像・動画生成)
↓
④ 動画合成(TTS + BGM + 最終合成)
↓
完成動画
出典: Pixelle-Video README_EN.md
① スクリプト生成: ユーザーが入力したテーマをもとに、LLM(GPT-4o、Qwen、DeepSeek、Ollama など)がナレーション用のスクリプトを自動作成します。スクリプトは各シーンの内容・長さ・言語などを考慮して生成されます。
② 画像計画: 生成されたスクリプトの各フレーズに対して、どのような画像・映像を生成するかを計画するステップです。テキストから画像生成プロンプトへの変換が行われます。
③ フレーム処理: ComfyUI を介して、実際の AI 画像・動画の生成を行います。FLUX、Qwen 系の画像生成モデルや、WAN 2.1 などの動画生成モデルに対応しています。
④ 動画合成: TTS で生成した音声と AI 生成の映像を組み合わせ、BGM を追加して最終的な動画として出力します。複数の TTS エンジン(Edge-TTS、Index-TTS、ChatTTS など)から選択できます。
ComfyUI 統合の意味
Pixelle-Video が他の動画自動生成ツールと大きく異なる点は、画像・動画生成に ComfyUI を深く統合していることです。
ComfyUI はノードベースの画像・動画生成フレームワークで、FLUX や Stable Diffusion などの最新モデルを柔軟に組み合わせられます。Pixelle-Video はこの ComfyUI をパイプラインの中核に据えることで、高品質な AI 生成ビジュアルを動画に使用できる点が特徴です。
また、AIDC-AI は ComfyUI-Copilot という ComfyUI 向けの AI アシスタントも開発しており、ComfyUI エコシステムとの親和性が高い点も採用検討時のポイントになります。
LLM・TTS・画像生成モデルの組み合わせ
各ステップで使用するモデルは独立して選択可能です:
ステップ | 対応モデル / エンジン |
|---|---|
スクリプト生成 LLM | GPT-4o、Qwen(通義千問)、DeepSeek、Ollama(ローカル) |
画像生成 | FLUX、Qwen 系モデル、ComfyUI ワークフロー |
動画生成 | WAN 2.1(ComfyUI 経由) |
TTS 音声合成 | Edge-TTS、Index-TTS、ChatTTS |
クラウド GPU | RunningHub(48GB VRAM マシン対応) |
ローカルで Ollama + ComfyUI を組み合わせることで、API コストゼロでの運用も可能です。
主要機能と対応モデル一覧
対応 LLM・画像生成モデル
Pixelle-Video は特定のプロバイダーに依存しない設計を採用しており、国内外の主要 LLM に対応しています。OpenAI の GPT-4o のような商用 API はもちろん、ローカル実行可能な Ollama にも対応しているため、コストや運用方針に合わせた柔軟な選択が可能です。
TTS エンジンと音声クローン機能
音声合成は複数の TTS エンジンに対応しており、Edge-TTS では日本語を含む多言語の音声生成が可能です。さらに音声クローン機能も実装されており、特定の話者の声を再現した音声での動画生成もドキュメント上では記述されています。
2026年追加の新パイプライン
2026年1月に複数の新しいパイプラインが追加されました:
- モーション転送パイプライン(2026-01-26): 参照動画と画像を入力として、モーションを転送した動画を生成します
- デジタルヒューマンパイプライン(2026-01-14): AI 生成の仮想人物が動画内で解説を行う形式の動画生成
- Image-to-Video パイプライン(2026-01-14): 静止画を入力として動画を生成
これらの追加により、単純なスライドショー形式の動画生成を超えた、動きのあるコンテンツ制作が可能になっています。
インストールと初期設定方法
詳細なインストール手順は公式ドキュメントのインストールページに記載されています。
Windows オールインワンパッケージの使い方
Windows ユーザー向けには、Python や ffmpeg などの依存関係を含んだオールインワンパッケージがリリースページから配布されています。
- GitHub リリースページからパッケージをダウンロード・展開
start.batをダブルクリックして起動- ブラウザで
http://localhost:8501にアクセス - Web UI(Streamlit ベース)でモデル設定・テーマ入力を行い動画生成
Python 環境を別途構築する必要がなく、最も簡単に始められる方法です。
macOS/Linux でのインストール手順
macOS または Linux では、Python 3.10 以上の環境が必要です。パッケージ管理には uv の使用が推奨されています。
git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video
uv sync
uv run streamlit run web/app.py
pip を使う場合は仮想環境を作成した上で pip install -e . でインストールできます。起動後は Windows と同様に http://localhost:8501 の Web UI にアクセスします。
コスト比較
Pixelle-Video の運用コストはモデルの選択によって大きく変わります:
構成 | 概算コスト | 条件 |
|---|---|---|
Ollama + ローカル ComfyUI | 無料 | NVIDIA GPU(VRAM 6GB 以上)が必要 |
Qwen(通義千問)+ ローカル ComfyUI | 3シーン動画あたり約 0.01〜0.05 元 | API 利用料のみ |
OpenAI + RunningHub クラウド | 高コスト | GPU マシンのレンタル費用が発生 |
ローカル GPU 環境があれば完全無料での運用が可能です。GPU を持っていない場合でも、Qwen API を使うことで低コストでの運用が実現します。
MoneyPrinterTurbo・NarratoAI との違いと使い分け
AI 短動画自動生成の OSS は複数存在しますが、それぞれ異なる設計思想と強みを持っています。自分のユースケースに合ったツールを選ぶために、代表的な2ツールとの違いを整理します。
MoneyPrinterTurbo との比較
MoneyPrinterTurbo は Pixelle-Video の参考プロジェクトの一つですが、現在のスター数は約 50,000 と大きく上回る成熟したツールです。
項目 | Pixelle-Video | MoneyPrinterTurbo |
|---|---|---|
スター数 | 約 9,300 | 約 50,000 |
アーキテクチャ | ComfyUI 統合モジュール型 | MVC(Web UI + REST API) |
画像生成 | AI 生成(ComfyUI 統合) | 既存素材のダウンロード・組み合わせが主 |
動画生成 | WAN 2.1 等 AI 動画モデル | 静止画スライドショー形式が主 |
カスタマイズ性 | 各ステップでモデル交換可能 | LLM プロバイダーの切り替え |
バッチ生成 | ドキュメント記載なし | 対応(一括生成機能あり) |
向いているケース | AI 生成ビジュアルで高品質な動画を作りたい | 素早く大量のテキスト解説動画を量産したい |
MoneyPrinterTurbo は成熟度が高く、大量生成や安定運用に向いています。一方、Pixelle-Video は ComfyUI 統合による高品質な AI 生成ビジュアルを動画に使いたい場合に強みがあります。
NarratoAI との比較
NarratoAI は MoneyPrinterTurbo から派生したツールで、映画・ドラマなどの既存動画にナレーションを追加する用途に特化しています。
項目 | Pixelle-Video | NarratoAI |
|---|---|---|
主なユースケース | テーマからゼロで動画を生成 | 既存動画への解説・字幕追加 |
入力形式 | テキスト(テーマ・キーワード) | 動画ファイル + スクリプト |
ComfyUI 統合 | あり | なし |
向いているケース | オリジナルコンテンツ動画を自動生成したい | 既存コンテンツの解説動画を作りたい |
NarratoAI は「既存映像の活用」に特化しており、Pixelle-Video とは用途が異なります。
3ツールの使い分けガイド
やりたいこと | 推奨ツール |
|---|---|
YouTube Shorts / TikTok 向け動画を素早く大量生成したい | MoneyPrinterTurbo |
AI 生成ビジュアルを使った高品質なオリジナル動画を作りたい | Pixelle-Video |
映画・ドラマなど既存動画に解説ナレーションを追加したい | NarratoAI |
ComfyUI のワークフローを活かして動画生成を自動化したい | Pixelle-Video |
Python 環境を構築したくない(Windows のみ) | Pixelle-Video(オールインワンパッケージ) |
採用する際の判断基準と注意点
採用に向く・向かない条件
Pixelle-Video を自プロジェクトに採用すべきかを判断する際の基準を整理します。
採用に向く条件:
- AI 生成ビジュアル(画像・動画)を使った SNS コンテンツを自動化したい
- ComfyUI の既存ワークフローを動画生成パイプラインに組み込みたい
- ローカル GPU 環境があり、コストゼロで運用したい
- モジュール型の設計を活かして、独自の AI モデルをパイプラインに差し込みたい
採用に向かない条件:
- 大量の動画を素早くバッチ生成したい(MoneyPrinterTurbo を推奨)
- 既存動画に解説ナレーションを追加する用途(NarratoAI を推奨)
- GPU なしで低コストに始めたい(ComfyUI はローカル実行に GPU を推奨)
- 成熟した安定性・大きなコミュニティを重視する(MoneyPrinterTurbo の方がスター数・採用実績ともに多い)
メンテナンス状況の評価
指標 | 評価 |
|---|---|
最終コミット | 2026年4月13日(アクティブ) |
リリース | v0.1.15(2026年1月)まで確認 |
新機能追加 | 2026年1月にモーション転送・デジタルヒューマン・Image-to-Video を追加 |
コミュニティ | Discord・WeChat グループあり |
最終更新が 2026年4月時点と最近であり、定期的に新機能が追加されていることから、メンテナンス状況は健全と判断できます。ただし v0.1.x という段階のため、API の破壊的変更のリスクには注意が必要です。
ライセンス(Apache-2.0)の確認
Pixelle-Video は Apache License 2.0 を採用しています。このライセンスの主な条件は以下のとおりです:
- 商用利用・改変・配布が可能
- 著作権表記の維持が必要(NOTICE ファイルの同梱)
- 特許権の付与が含まれる(一部制約あり)
- 派生物への同一ライセンスの強制はなし(コピーレフトなし)
詳細は GitHub リポジトリのライセンスページをご確認ください。
本記事では、Pixelle-Video の仕組み・機能・インストール方法・類似ツールとの違いを、公式リポジトリとドキュメントをもとに解説しました。ComfyUI を核とした高品質な AI 生成ビジュアルを活かした動画自動生成に興味のあるエンジニアにとって、検討に値する OSS です。採用を検討する際は、自プロジェクトの GPU 環境・ユースケース・必要な成熟度を踏まえて、MoneyPrinterTurbo や NarratoAI と比較しながら判断することをおすすめします。


