AIを使った画像や動画の生成を試みると、たいてい二つの壁にぶつかります。一つは、ComfyUI や InvokeAI などのローカルツールを使う場合のセットアップの複雑さ。もう一つは、Midjourney や商用サービスを使う場合の月額コストやコンテンツ制限です。
「もっと自由に、多くのモデルを、できれば低コストで試したい」——そういったニーズを持つエンジニアの間で注目を集めているのが、Open Generative AI です。GitHub で 1 万以上のスターを獲得し、2026 年 5 月時点でもアクティブに開発が続けられているこのプロジェクトは、画像・動画・リップシンク・映像・ワークフローの 5 つのスタジオを 1 つの UI に統合した OSS です。
ただし、「セルフホスト」という言葉の受け取り方によっては、期待と実態がずれる可能性があります。本記事では、Open Generative AI の仕組みと機能の全体像を整理し、ComfyUI・InvokeAI との違いをふまえた上で「自分のプロジェクトに採用すべきか」の判断材料を提供します。
プロダクト自体を評価するための動作検証は行わず、公式ドキュメントと README にもとづいた情報を整理しています。
Open Generative AI とは—5 つのスタジオを統合した OSS 生成プラットフォーム
Open Generative AI は、Anil Matcha 氏が開発した OSS の AI メディア生成スタジオです。Higgsfield AI・Freepik AI・Krea AI・Openart AI といった商用サービスの無料代替として公開されており、2026 年 5 月時点でスター数は 10,919、フォーク数は 1,921 に達しています。
技術スタックは Next.js(フロントエンド)と Electron(デスクトップアプリ)の組み合わせで構成されており、クロスプラットフォームで動作します。
5 つのスタジオの概要
Open Generative AI は以下の 5 つのスタジオで構成されています。
Image Studio テキストから画像を生成する「テキスト→画像」(50 以上のモデル)と、既存画像を変換する「画像→画像」(55 以上のモデル)の 2 モードを備えます。最大 14 枚の参照画像を組み合わせた生成も可能です。
Video Studio テキストから動画を生成する「テキスト→動画」(40 以上のモデル)と、画像を動画化する「画像→動画」(60 以上のモデル)を提供します。Kling・Sora・Veo など商用サービスとして知られる最新モデルにも対応しています。
Lip Sync Studio ポートレート画像または動画に音声を合わせ、口パク動画を生成するスタジオです。ポートレート+音声のパターン(3 モデル)と動画+音声のパターン(6 モデル)に対応します。
Cinema Studio カメラ種類(8 種)・レンズ(11 種)・焦点距離(6 段階)・絞り値(3 段階)を組み合わせた、映像制作者向けの細かいパラメータ設定が可能なスタジオです。
Workflow Studio ノードベースのビジュアルパイプラインエディタです。複数のAIモデルを繋ぎ合わせて自動化されたワークフローを構築できます。コミュニティテンプレートの閲覧・実行にも対応しています。
対応 AI モデルの数と種類
合計 200 以上のモデルに対応しており、主な内訳は以下の通りです。
カテゴリ | モデル数 | 代表的なモデル |
|---|---|---|
テキスト→画像 | 50 以上 | Flux Dev、Nano Banana 2、Seedream 5.0、GPT-4o |
画像→画像 | 55 以上 | Flux Kontext Pro、Nano Banana 2 Edit |
テキスト→動画 | 40 以上 | Kling v3、Sora 2、Veo 3、Wan 2.6 |
画像→動画 | 60 以上 | Kling I2V、Veo3 I2V、Seedance 2.0 I2V |
リップシンク | 9 | Infinite Talk、Wan 2.2、LTX 2.3 Lipsync |
リポジトリの活動状況
最終プッシュは 2026 年 5 月 1 日で、定期的なリリースが続いています。現時点の最新バージョンは v1.0.9 です(Releases ページ で確認できます)。
なお、README には MIT ライセンスと記載されていますが、GitHub API 上ではライセンス情報が未設定の状態になっています。商用利用を検討する場合は README の記述を根拠として判断することになりますが、正式な SPDX 識別子での設定が確認できないため注意が必要です。
セルフホストの実態—UI と API の分離を正確に理解する
Open Generative AI のリポジトリ名や説明文には「Self-hosted」という言葉が含まれていますが、これは「完全なローカル実行」とは異なります。この点を正確に理解することが、採用判断において最も重要です。
Muapi.ai クラウド API を経由する生成フロー
デフォルト設定では、Open Generative AI の UI はセルフホスト(または公式のホスト版を利用)できますが、実際の AI 生成処理は Muapi.ai のクラウド API を経由します。
つまり、画像や動画の生成には Muapi.ai の API キーが必要です。生成に使われるコンピューティングリソースは Muapi.ai のサーバーに依存しており、インターネット接続が必須です。「UI が手元に置ける」という意味でのセルフホストであり、「生成処理を手元で完結させる」という意味ではありません。
Muapi.ai の API キーの取得は muapi.ai から行います。利用料金は Muapi.ai の料金体系に従います(BYOK:Bring Your Own Key 方式)。
ローカル推論エンジン(sd.cpp・Wan2GP)の使い分け
完全なローカル実行を希望する場合、2 つのローカル推論エンジンがオプションとして提供されています。
sd.cpp(バンドル済み) Stable Diffusion を C++ で実装したエンジンで、Metal/CUDA/Vulkan/ROCm に対応しています。macOS Apple Silicon では M2 以上で 1〜2 秒/ステップ程度のパフォーマンスが目安です。
Wan2GP(別途サーバーが必要) CUDA または ROCm を搭載した GPU サーバーが必要です。デスクトップアプリには統合されておらず、別途セットアップが必要です。
ローカル推論エンジンを使う場合でも、対応しているモデルは一部に限られます。Sora や Veo といった最新のクラウドモデルはローカルでは動作しません。
コスト構造(無料ではなく BYOK)
Open Generative AI 自体はオープンソースで無料ですが、生成処理に Muapi.ai API を使用する場合はその利用料が発生します。「無料の代替ツール」という説明は、プロプライエタリな UI や月額サブスクリプションが不要という意味であり、生成コストがゼロになるわけではありません。
ローカル推論エンジンを使えば API コストをゼロにできますが、その場合は対応モデルが限定され、GPU リソースの確保も別途必要です。
インストールと初期設定—デスクトップアプリと Web 版の違い
デスクトップアプリのインストール手順(OS 別)
Releases ページ から各 OS に対応したインストーラーをダウンロードします。
OS | インストーラー |
|---|---|
macOS Apple Silicon |
|
macOS Intel |
|
Windows x64 |
|
Linux | AppImage または |
macOS でのインストール後、以下のコマンドが必要になる場合があります(公式 README より)。
xattr -cr "/Applications/Open Generative AI.app"
出典: https://github.com/Anil-matcha/Open-Generative-AI
Web 版のセットアップ手順
開発者向けに Web 版のセットアップ手順も提供されています。Node.js v18 以上が必要です。
git clone --recurse-submodules https://github.com/Anil-matcha/Open-Generative-AI.git
cd Open-Generative-AI
npm run setup
npm run dev # http://localhost:3000 で起動
出典: https://github.com/Anil-matcha/Open-Generative-AI
Electron デスクトップアプリとして起動する場合は、npm run dev の代わりに npm run electron:dev を使用します。
Muapi.ai API キーの取得
muapi.ai でアカウントを作成し、ダッシュボードから API キーを発行します。API キーは sk- から始まる形式です。セキュリティ上の理由から、API キーはブラウザの localStorage に保存され、Muapi.ai 以外のサーバーには送信されないとされています(公式の説明より)。
ComfyUI・InvokeAI との違い—3 ツールの使い分けガイド
Open Generative AI を評価する上で、代表的な OSS ツールとの比較が参考になります。
3 ツールの機能比較表
比較項目 | Open Generative AI | ComfyUI | InvokeAI |
|---|---|---|---|
対応モデル数 | 200 以上(クラウド含む) | Stable Diffusion 系中心 | Stable Diffusion 系中心 |
動画生成 | 対応(クラウドモデル) | 限定的(プラグイン次第) | 非対応(画像中心) |
リップシンク | 対応 | 非対応 | 非対応 |
ローカル完結 | 一部のみ(sd.cpp 等) | 完全対応 | 完全対応 |
インターネット接続 | 必須(クラウドモデル使用時) | 不要(ローカル実行時) | 不要(ローカル実行時) |
セットアップの難易度 | 低(インストーラー提供) | 中〜高(環境構築が必要) | 中(GUI は整備済み) |
API コスト | Muapi.ai 利用料が発生 | なし(ローカル) | なし(ローカル) |
GPU 要件 | クラウドモデル使用時は不要 | 必須(ローカル実行) | 必須(ローカル実行) |
ユースケース別の使い分けガイド
Open Generative AI が適している状況:
- Sora・Veo・Kling など最新の商用クラウドモデルを手軽に試したい
- 画像・動画・リップシンクを 1 つの UI で管理したい
- ローカル GPU 環境の構築を省きたい
- コンテンツフィルターなしでの生成が必要な用途(倫理的責任は利用者が負う)
ComfyUI が適している状況:
- 高度なノードベースのワークフローを自前で設計したい
- データをローカルに閉じて処理したい(プライバシー重視)
- Stable Diffusion 系モデルを徹底的にカスタマイズしたい
- 継続コストをゼロに抑えたい(GPU 環境がある場合)
InvokeAI が適している状況:
- canvas 編集・インペイント・アウトペイントに特化した作業をしたい
- プロ向けの洗練された UI で静止画品質を追求したい
- ローカル環境でのデータプライバシーを確保しつつ、操作性も重視したい
Open Generative AI を避けるべき状況
- 完全なローカル実行が必要な場合(医療・法務など機密データを扱う場合)
- API コストをゼロにしなければならない場合
- インターネット接続ができない環境での利用
Workflow Studio の活用—ノードベースの AI パイプラインを構築する
Workflow Studio の設計思想
Workflow Studio は、複数の AI 処理ステップを「ノード」として視覚的に繋いでパイプラインを構築するエディタです。単一モデルの 1 回の生成にとどまらず、「テキスト→画像→画像→動画」といった多段階の処理を 1 つのフローとして定義できます。
ComfyUI のノードエディタと発想は近いですが、Open Generative AI の Workflow Studio はクラウドモデルへの接続を前提としており、ローカルモデルのパラメータ調整に特化した ComfyUI とは用途が異なります。
コミュニティテンプレートの利用方法
他のユーザーが公開しているワークフローテンプレートを読み込んで実行できます。新しいワークフローをゼロから設計する前に、コミュニティテンプレートで類似のユースケースを探すことで、設計の参考や学習のスタート地点として活用できます。
ライセンスとコミュニティ—開発継続性の判断基準
MIT ライセンスの適用範囲と注意点
README には MIT ライセンスと明記されていますが、GitHub の API レスポンスでは license: null となっています。SPDX 識別子としての正式な設定が確認できないため、商用プロジェクトへの組み込みを検討する際は、リポジトリの SPDX ファイルを直接確認するか、作者に問い合わせることを推奨します。
開発・コミュニティの状況
- コミット数: 144(2026 年 5 月時点)
- Issues: 8 件オープン中
- Pull Requests: 1 件オープン中
- 最終更新: 2026-05-01(アクティブ)
コミュニティは Reddit(r/muapi)および Discord で活動しています。作者の Twitter アカウントは @matchaman11 です。
無検閲利用における倫理的責任
Open Generative AI はコンテンツフィルターを持たない設計です。「無検閲」は技術的な自由を指しますが、生成物の内容に関する法的・倫理的責任は利用者が負います。各国の法律や利用規約を確認した上で使用してください。
まとめ
Open Generative AI は、200 以上のクラウド AI モデルを 1 つの UI で利用できる OSS スタジオです。画像・動画・リップシンク・映像・ワークフローを統合した点と、デスクトップアプリによる低いセットアップコストが特徴です。
一方で、「セルフホスト」は UI のセルフホストを指し、生成処理は Muapi.ai のクラウド API に依存します。完全なローカル実行や API コストゼロを求める場合は ComfyUI や InvokeAI が適しています。
採用可否の判断基準をまとめると以下の通りです。
- 最新のクラウドモデルを手軽に試したい → Open Generative AI
- ローカル完結・コストゼロが必須 → ComfyUI / InvokeAI
- 静止画の精緻な編集が中心 → InvokeAI
- 複雑なカスタムワークフロー → ComfyUI
プロジェクト自体は公式の GitHub リポジトリ から、インストール不要のホスト版は dev.muapi.ai/open-generative-ai から確認できます。


