VoxCPM2 を本番環境で動かすのに最低どのくらいの GPU VRAM が必要ですか？

2B パラメータのモデルサイズから、GPU VRAM は 16GB 以上が推奨されます。RTX 4090 での基本推論は RTF 約 0.30 ですが、Nano-vLLM を使えば RTF 約 0.13 まで改善でき、スループットが重要な本番環境では導入を検討する価値があります。

Voice Design・Controllable Cloning・Ultimate Cloning のどれを選べばよいですか？

参照音声がない・素早くキャラクター音声をプロトタイプしたい場合は Voice Design 、話者の声を保ちながら感情や速度を制御したい場合は Controllable Cloning 、既存人物の声を最高精度で再現しトランスクリプトも用意できる場合は Ultimate Cloning を選んでください。

Controllable Voice Cloning で生成結果が毎回変わるのですが、本番パイプラインに組み込めますか？

Controllable Cloning は実行ごとに生成結果が変動することが公式に認められており、1〜3 回生成して最良の結果を選ぶ運用が推奨されています。本番パイプラインに組み込む場合は、品質スコアリングの仕組み（例: MOS 推定モデルとの組み合わせ）をセットで設計してください。

CosyVoice や F5-TTS ではなく VoxCPM2 を選ぶ決め手は何ですか？

Voice Design（参照音声なしで声を設計）が必要な場合、またはコードとモデルの両方を Apache-2.0 で商用利用したい場合が主な決め手です。中国語方言への深い対応が必要なら CosyVoice、軽量・高速推論を最優先するなら F5-TTS の方が適しています。

音声クローニング機能を自社サービスに組み込む際に法的・倫理的に注意すべきことは何ですか？

本人の同意なしに他者の声を複製すること、および詐欺・なりすましへの悪用が利用規約で明示的に禁止されています。本番環境に組み込む前に、エンドユーザーの同意取得フローと悪用検知の仕組みを事前に設計することが公式に推奨されています。

GPU のないサーバーや CPU 環境でも VoxCPM2 を動かせますか？

VoxCPM.cpp （C++ 実装）が CPU・CUDA・Vulkan に対応しており、GPU を持たないサーバーやエッジデバイスへのデプロイに利用できます。また ONNX・MLX-Audio・Rust 実装の voxcpm_rs もエコシステムとして提供されています。

Tokenizer-Free TTS「VoxCPM2」の仕組みと設計

Q: VoxCPM2 を本番環境で動かすのに最低どのくらいの GPU VRAM が必要ですか？

2B パラメータのモデルサイズから、GPU VRAM は 16GB 以上 が推奨されます。RTX 4090 での基本推論は RTF 約 0.30 ですが、Nano-vLLM を使えば RTF 約 0.13 まで改善でき、スループットが重要な本番環境では導入を検討する価値があります。

Q: CosyVoice や F5-TTS ではなく VoxCPM2 を選ぶ決め手は何ですか？

Voice Design（参照音声なしで声を設計）が必要な場合 、または コードとモデルの両方を Apache-2.0 で商用利用したい場合 が主な決め手です。中国語方言への深い対応が必要なら CosyVoice、軽量・高速推論を最優先するなら F5-TTS の方が適しています。

音声合成機能をプロダクトに組み込もうとしたとき、「どの OSS を選べばよいか」「Tokenizer-Free とは何を意味するのか」という疑問に直面するエンジニアは少なくありません。クラウド TTS API は手軽ですが、コスト・データ主権・カスタマイズ性の観点で限界があります。一方、OSS TTS は選択肢が増え続けており、どれを選ぶかの判断が難しくなっています。

2026 年 4 月、GitHub Trending に登場し一気に注目を集めたのが OpenBMB/VoxCPM の最新版「VoxCPM2」です。スター数は 26,108（2026年6月時点）に達し、フォーク数も 2,969 を超えています。Zenn や note には日本語の使用レポートが複数投稿されており、「日本語が完璧」という評価も見られます。しかし、こうした記事の多くは体験ベースの紹介にとどまり、「なぜ Tokenizer-Free なのか」「どのクローニングモードを選ぶべきか」という技術的な判断材料を提供しているものは少ない状況です。

本記事では、VoxCPM2 の技術アーキテクチャ（4 ステージパイプライン）を原理から解説し、3 つの音声生成モードの使い分けを整理します。さらに CosyVoice・F5-TTS との具体的な比較を通じて、「自分のプロジェクトに VoxCPM2 を採用すべきかどうか」を判断するための情報を体系的に提供します。

Contents — 目次

VoxCPM2 とは何か
Tokenizer-Free アーキテクチャの仕組み
3 つの音声生成モードと使い分け
30 言語対応とファインチューニング
CosyVoice・F5-TTS との比較
デプロイと本番運用オプション
利用上の注意点

—Workee / フリーランス向け

Workee で
次の案件を探す。

スキルと希望条件に合う案件だけが並ぶ、フリーランスエンジニア向けポータル。マッチング・進捗確認・契約更新までマイページで完結します。

Styleスキルマッチ型ポータル

Fee登録・稼働中も無料

Serviceマッチング・進捗・契約まで

無料で登録するサービス詳細を見る

Workee for Freelance

VoxCPM2 とは何か

OpenBMB と VoxCPM シリーズの開発経緯

VoxCPM2 は、清華大学 AI 産業研究院と ModelBest が共同で運営する OSS 研究組織「OpenBMB」が開発したテキスト音声合成（TTS）モデルです。OpenBMB は大規模言語モデル「MiniCPM」シリーズでも知られており、効率的なモデル設計を強みとする研究グループです。

VoxCPM シリーズはバージョンを重ねるごとに大幅な進化を遂げています。初期の VoxCPM-0.5B は 0.5B パラメータ・16kHz・中英 2 言語対応の小規模モデルでしたが、VoxCPM1.5 では 0.6B パラメータ・44.1kHz へとスケールアップされました。そして 2026 年 4 月リリースの VoxCPM2 では、2B パラメータ・48kHz・30 言語対応という大幅な機能拡張が実現されています。

VoxCPM2 の研究成果は論文「VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning」として ICLR 2026 で発表されており、学術的な信頼性も担保されています（arXiv:2509.24650）。

VoxCPM2 の主要スペック

項目	VoxCPM2	VoxCPM1.5	VoxCPM-0.5B
パラメータ数	2B	0.6B	0.5B
サンプルレート	48kHz	44.1kHz	16kHz
対応言語数	30	2（中英）	2（中英）
Voice Design	あり	なし	なし
RTF（RTX4090）	~0.30	~0.15	~0.17

30 言語への対応・48kHz のスタジオ品質出力・Voice Design（参照音声不要で声を生成できる機能）の追加が VoxCPM2 の主要な差別化点です。

Tokenizer-Free アーキテクチャの仕組み

VoxCPM2 を理解する上で最も重要な概念が「Tokenizer-Free」です。このアーキテクチャは、詳細が公式ドキュメントのアーキテクチャページで解説されています。

従来型 TTS との比較（離散トークン vs 連続空間）

従来型の TTS モデルは、おおむね以下の処理フローで音声を生成します。

テキスト入力を受け取る
テキストを「離散トークン」（有限の音声単位の集合）に変換する（トークナイズ）
離散トークンから音声波形を合成する

このアプローチの問題点は、離散トークン化の段階で音声の微細な情報（イントネーション・感情的なニュアンス・話者固有の癖）が失われる可能性があることです。離散化は本質的に「量子化」であり、情報の損失を伴います。

VoxCPM2 はこのボトルネックを「AudioVAE V2」という変分オートエンコーダを導入することで解消しています。AudioVAE V2 が音声を連続潜在空間で表現し、モデルがその連続空間上で直接音声表現を生成します。離散化のステップを完全に排除した「Tokenizer-Free」設計により、音声の自然な流暢性と表現力を連続空間のまま保持できます。

4 ステージパイプライン（LocEnc / TSLM / RALM / LocDiT）の設計

VoxCPM2 の生成パイプラインは 4 つのコンポーネントで構成されています。

LocEnc（ローカルエンコーダ）

入力テキストの音声的・言語的な特徴をローカルな単位でエンコードします。文字列・音素レベルの情報を抽出し、後段のモジュールが利用できる形式に変換する役割を担います。

TSLM（テキスト空間言語モデル、Text Space Language Model）

テキストの意味的文脈をモデル化します。入力テキスト全体の意味的な流れを把握し、生成する音声のプロソディー（韻律）の大枠を決定します。

RALM（リファレンス適応言語モデル、Reference Adaptive Language Model）

参照音声（クローニング時に使用する話者の声サンプル）の特徴を抽出・適応させます。Voice Design モードでは参照音声の代わりにテキスト説明を入力として受け取ります。話者の個性・音色・スタイルを連続空間で保持します。

LocDiT（ローカル拡散トランスフォーマー、Local Diffusion Transformer）

前段の 3 モジュールが生成した表現を統合し、AudioVAE V2 の潜在空間上で音声を拡散モデルにより生成します。このステップが最終的な 48kHz 高品質音声の出力を担当します。

AudioVAE V2 の役割

AudioVAE V2 は非対称なエンコード/デコード設計を採用しており、内蔵スーパーレゾリューション機能により 48kHz のスタジオ品質音声を実現します。従来の TTS が 16kHz や 22kHz の出力に留まることが多いのと対照的に、VoxCPM2 は高いサンプルレートを標準出力としています。

3 つの音声生成モードと使い分け

VoxCPM2 が提供する音声生成モードは 3 種類あり、ユースケースに応じて使い分けることが重要です。以下のコード例はいずれも OpenBMB/VoxCPM の README に掲載されている公式コード例です。

Voice Design（参照音声なし・テキスト説明のみ）

Voice Design は VoxCPM2 の最も特徴的な機能です。参照音声ファイルを用意する必要がなく、テキストで声の特徴を記述するだけで新しい声を生成できます。

python

wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome!",
    cfg_value=2.0
)

テキストの冒頭に (声の説明) を括弧で囲んで記述し、その後に読み上げさせたい本文を続けます。cfg_value はテキスト説明への追従度を制御するパラメータで、値が大きいほど説明に忠実な声が生成されます。

適したユースケース: 新規キャラクター・AIアシスタントの声を一から設計したい場合、参照音声を取得できない場合、多数の異なる声のバリエーションを素早く生成したい場合。

Controllable Voice Cloning（感情・速度・表現の制御）

参照音声ファイルを入力として、感情・速度・トーンを自然言語の指示でコントロールしながら音声を生成するモードです。

python

wav = model.generate(
    text="(slightly faster, cheerful tone)This is a cloned voice.",
    reference_wav_path="path/to/voice.wav"
)

テキストの冒頭に表現の制御指示を記述し、reference_wav_path に参照音声のパスを渡します。特定の話者の声のスタイルを保ちながら、場面に応じたトーン調整が可能です。なお、制御可能生成は実行ごとに安定性が変動することがあるため、1〜3回の実行で最良の結果を選ぶことが推奨されています。

適したユースケース: ナレーション・有声化コンテンツで感情表現をコントロールしたい場合、同一話者の声でありながら場面ごとに表現を変えたい場合。

Ultimate Cloning（参照音声 + トランスクリプトによる高精度再現）

参照音声とそのトランスクリプト（テキスト化された内容）の両方を提供することで、声のあらゆる細微性を最大限に再現する高精度クローニングモードです。

python

wav = model.generate(
    text="This is an ultimate cloning demonstration.",
    prompt_wav_path="path/to/voice.wav",
    prompt_text="reference transcript",
    reference_wav_path="path/to/voice.wav"
)

prompt_wav_path と prompt_text のペアでトランスクリプト付き参照音声を渡し、reference_wav_path で話者の声を提供します。RALM がトランスクリプトと音声を対応付けることで、Controllable Cloning よりも高い話者再現精度が期待できます。

適したユースケース: 特定人物の声を可能な限り正確に再現したいコンテンツ制作、音声データが十分にある場合の話者モデル構築。

注意点: 音声クローニング機能は、本人の同意なしに他者の声を複製すること、詐欺・なりすましへの悪用は禁止されています。倫理的な利用範囲内での活用が求められます。

30 言語対応とファインチューニング

VoxCPM2 が対応する 30 言語は以下の通りです（公式ドキュメントを参照）。

アラビア語・ミャンマー語・中国語・デンマーク語・オランダ語・英語・フィンランド語・フランス語・ドイツ語・ギリシャ語・ヘブライ語・ヒンディー語・インドネシア語・イタリア語・日本語・クメール語・韓国語・ラオス語・マレー語・ノルウェー語・ポーランド語・ポルトガル語・ロシア語・スペイン語・スワヒリ語・スウェーデン語・タガログ語・タイ語・トルコ語・ベトナム語

加えて、四川話・粤語・吳語・東北話・河南話・陝西話・山東話・天津話・閩南話の 9 種の中国語方言にも対応しています。

言語タグ不要の自動判別: 入力テキストに言語タグを付与する必要がなく、テキストを入力するだけで自動的に言語を判別して音声を生成します。日本語テキストをそのまま渡せば日本語音声が生成されるため、多言語対応アプリケーションへの組み込みが容易です。

ファインチューニングによる適応

VoxCPM2 は SFT（フルファインチューニング）と LoRA の両方に対応しています。5〜10分程度の音声データがあれば、特定の話者・言語・ドメインへの適応が可能です。既存の音声データを活用して自社サービス固有の音声モデルを作りたい場合にも対応できます。

CosyVoice・F5-TTS との比較

OSS TTS の採用判断では、候補モデルを具体的な比較軸で整理することが欠かせません。VoxCPM2 の主要な競合である CosyVoice と F5-TTS との比較を以下にまとめます。

3 モデル比較表

比較軸	VoxCPM2	CosyVoice 3	F5-TTS
アーキテクチャ	Tokenizer-Free 拡散自己回帰（連続空間）	LLM + Flow Matching（離散トークン）	Diffusion Transformer + Flow Matching
パラメータ数	2B	0.5B	—
対応言語数	30言語 + 9中国方言	9言語 + 18以上の中国方言	複数（公式明示なし）
サンプルレート	48kHz	非公表	非公表
Voice Design	あり（テキスト説明のみ）	なし（命令制御のみ）	なし
ライセンス（モデル）	Apache-2.0	Apache-2.0	CC-BY-NC
RTF（参考値）	~0.30（基本）/ ~0.13（Nano-vLLM）	非公表	0.0394（L20・並行数2・Client-Server）/ 0.1467（PyTorch オフライン）
スター数	26,108	21,500（概算）	14,700（概算）
主な強み	Voice Design・多言語・48kHz・商用利用可	中国語方言充実・双方向ストリーミング	軽量・高速・MIT コード

F5-TTS の RTF は F5-TTS 公式 README のベンチマーク（L20 GPU・16 NFE）に基づきます。最速の 0.0394 は Client-Server モード・並行数 2 の値であり、PyTorch オフライン（バッチサイズ 1）では 0.1467 と環境によって差があります。RTF は GPU・推論方式・並行数で大きく変動するため、自社環境での実測を推奨します。

選定の考え方

VoxCPM2 が向くケース:

Voice Design が必要: 参照音声なしで声を設計したい、キャラクター音声を素早くプロトタイプしたい
多言語が必要: 日本語を含む広い言語圏に対応したい
高品質な音声出力: 48kHz のスタジオ品質が求められるコンテンツ制作
商用利用: コードとモデルの両方を Apache-2.0 で商用利用したい

CosyVoice が向くケース:

中国語方言への深い対応: 18 以上の中国方言に対応し、ピンイン・音素による発音精密制御が必要
リアルタイムストリーミング: ネイティブな双方向ストリーミング推論が必要

F5-TTS が向くケース:

軽量・高速推論最優先: TensorRT-LLM や Client-Server 構成での高速推論が必要（L20・並行数 2 で RTF 0.0394 を達成）
コードのみの商用利用: コード部分の MIT ライセンスで利用したい（モデルは CC-BY-NC で非商用）
シンプルな音声クローニング: Voice Design は不要で、音声クローニングのみで十分

デプロイと本番運用オプション

基本インストールと動作要件

HuggingFace モデルページからモデルを取得し、以下のコマンドでインストールできます。

bash

pip install voxcpm

動作要件: Python ≥3.10（<3.13）、PyTorch ≥2.5.0、CUDA ≥12.0 が前提です。

基本インストール時の推論速度は RTF ~0.30（RTX 4090）であり、2B パラメータのモデルサイズを考慮すると GPU VRAM は 16GB 以上を用意することが推奨されます。

高スループット推論（Nano-vLLM / vLLM-Omni）

本番環境でより高いスループットが必要な場合、以下の 2 つのオプションがあります。

Nano-vLLM: RTF ~0.13（RTX 4090）を実現する高スループット推論エンジンです。

bash

pip install nano-vllm-voxcpm

vLLM-Omni: OpenAI 互換の /v1/audio/speech エンドポイントを提供します。既存のクラウド TTS API クライアントとの互換性を保ちながら、セルフホストへの移行が可能です。

bash

vllm serve openbmb/VoxCPM2 --omni --port 8000

非 GPU 環境対応（VoxCPM.cpp）・ComfyUI 統合

VoxCPM.cpp: CPU・CUDA・Vulkan に対応した C++ 実装です。GPU を持たないサーバーでの推論や、エッジデバイスへのデプロイを検討している場合に利用できます。

ComfyUI 拡張: ノードベースのワークフローツール ComfyUI と統合することで、視覚的なパイプライン設計が可能になります。音声生成ワークフローを GUI 上で構築したいユーザーに向いています。

その他、Rust 実装の voxcpm_rs、クロスプラットフォーム推論向けの ONNX・MLX-Audio もエコシステムとして提供されており、ターゲット環境に応じた柔軟なデプロイが可能です。

利用上の注意点

Apache-2.0 ライセンスと商用利用

VoxCPM2 のコード・モデルの両方が Apache-2.0 ライセンスで提供されており、商用利用が可能です。ただし Apache-2.0 の要件として、再配布時にライセンス表示と変更点の明記が必要です。コードとモデルのライセンスが異なる OSS TTS（F5-TTS のモデルは CC-BY-NC）と比較した場合の優位点のひとつです。

音声クローニングの倫理的制限

VoxCPM2 の利用規約・公式ドキュメントは、音声クローニング機能の倫理的な使用を明示的に求めています。具体的には以下の行為が禁止されています。

本人の同意なしに他者の声を複製すること
詐欺・なりすまし等の違法行為への悪用

本番環境に音声クローニング機能を組み込む場合は、エンドユーザーの同意フローの設計・悪用検知の仕組みなど、安全性評価を事前に実施することが推奨されます。

制御可能生成の安定性

Controllable Voice Cloning モードでは、実行ごとに生成結果が多少変動することがあります。同じ入力でも品質に差が出る場合があるため、1〜3 回の生成を行い最良の結果を選ぶ運用が推奨されています。本番パイプラインに組み込む場合は、品質スコアリングの仕組みと組み合わせることを検討してください。

言語サポートの範囲

30 言語以外の言語は公式にサポートされておらず、品質は保証されません。対応言語外で利用する場合は十分な品質評価を行った上で判断することが必要です。

VoxCPM2 は、Tokenizer-Free という設計上の革新性・30 言語への広いカバレッジ・Voice Design による参照音声不要の声生成・Apache-2.0 での商用利用可能性を組み合わせた、2026 年時点で最も注目すべき OSS TTS のひとつです。採用判断の第一歩として、公式 HuggingFace ページからモデルを確認し、自社のユースケースに照らした小規模な検証を行うことをお勧めします。

—Workee / フリーランス向け

Workee で
次の案件を探す。

スキルと希望条件に合う案件だけが並ぶ、フリーランスエンジニア向けポータル。マッチング・進捗確認・契約更新までマイページで完結します。

Styleスキルマッチ型ポータル

Fee登録・稼働中も無料

Serviceマッチング・進捗・契約まで

無料で登録するサービス詳細を見る

Workee for Freelance

よくある質問

VoxCPM2 を本番環境で動かすのに最低どのくらいの GPU VRAM が必要ですか？: 2B パラメータのモデルサイズから、GPU VRAM は 16GB 以上が推奨されます。RTX 4090 での基本推論は RTF 約 0.30 ですが、Nano-vLLM を使えば RTF 約 0.13 まで改善でき、スループットが重要な本番環境では導入を検討する価値があります。
Voice Design・Controllable Cloning・Ultimate Cloning のどれを選べばよいですか？: 参照音声がない・素早くキャラクター音声をプロトタイプしたい場合は Voice Design、話者の声を保ちながら感情や速度を制御したい場合は Controllable Cloning、既存人物の声を最高精度で再現しトランスクリプトも用意できる場合は Ultimate Cloning を選んでください。
Controllable Voice Cloning で生成結果が毎回変わるのですが、本番パイプラインに組み込めますか？: Controllable Cloning は実行ごとに生成結果が変動することが公式に認められており、1〜3 回生成して最良の結果を選ぶ運用が推奨されています。本番パイプラインに組み込む場合は、品質スコアリングの仕組み（例: MOS 推定モデルとの組み合わせ）をセットで設計してください。
CosyVoice や F5-TTS ではなく VoxCPM2 を選ぶ決め手は何ですか？: Voice Design（参照音声なしで声を設計）が必要な場合、またはコードとモデルの両方を Apache-2.0 で商用利用したい場合が主な決め手です。中国語方言への深い対応が必要なら CosyVoice、軽量・高速推論を最優先するなら F5-TTS の方が適しています。
音声クローニング機能を自社サービスに組み込む際に法的・倫理的に注意すべきことは何ですか？: 本人の同意なしに他者の声を複製すること、および詐欺・なりすましへの悪用が利用規約で明示的に禁止されています。本番環境に組み込む前に、エンドユーザーの同意取得フローと悪用検知の仕組みを事前に設計することが公式に推奨されています。
GPU のないサーバーや CPU 環境でも VoxCPM2 を動かせますか？: VoxCPM.cpp（C++ 実装）が CPU・CUDA・Vulkan に対応しており、GPU を持たないサーバーやエッジデバイスへのデプロイに利用できます。また ONNX・MLX-Audio・Rust 実装の voxcpm_rs もエコシステムとして提供されています。

Contents — 目次

VoxCPM2 とは何か
Tokenizer-Free アーキテクチャの仕組み
3 つの音声生成モードと使い分け
30 言語対応とファインチューニング
CosyVoice・F5-TTS との比較
デプロイと本番運用オプション
利用上の注意点

—Workee / フリーランス向け

Workee で
次の案件を探す。

スキルと希望条件に合う案件だけが並ぶ、フリーランスエンジニア向けポータル。マッチング・進捗確認・契約更新までマイページで完結します。

Styleスキルマッチ型ポータル

Fee登録・稼働中も無料

Serviceマッチング・進捗・契約まで

無料で登録するサービス詳細を見る

Workee for Freelance

VoxCPM2 とは何か

OpenBMB と VoxCPM シリーズの開発経緯

VoxCPM2 の主要スペック

項目	VoxCPM2	VoxCPM1.5	VoxCPM-0.5B
パラメータ数	2B	0.6B	0.5B
サンプルレート	48kHz	44.1kHz	16kHz
対応言語数	30	2（中英）	2（中英）
Voice Design	あり	なし	なし
RTF（RTX4090）	~0.30	~0.15	~0.17

30 言語への対応・48kHz のスタジオ品質出力・Voice Design（参照音声不要で声を生成できる機能）の追加が VoxCPM2 の主要な差別化点です。

Tokenizer-Free アーキテクチャの仕組み

従来型 TTS との比較（離散トークン vs 連続空間）

従来型の TTS モデルは、おおむね以下の処理フローで音声を生成します。

テキスト入力を受け取る
テキストを「離散トークン」（有限の音声単位の集合）に変換する（トークナイズ）
離散トークンから音声波形を合成する

4 ステージパイプライン（LocEnc / TSLM / RALM / LocDiT）の設計

VoxCPM2 の生成パイプラインは 4 つのコンポーネントで構成されています。

LocEnc（ローカルエンコーダ）

TSLM（テキスト空間言語モデル、Text Space Language Model）

テキストの意味的文脈をモデル化します。入力テキスト全体の意味的な流れを把握し、生成する音声のプロソディー（韻律）の大枠を決定します。

RALM（リファレンス適応言語モデル、Reference Adaptive Language Model）

LocDiT（ローカル拡散トランスフォーマー、Local Diffusion Transformer）

AudioVAE V2 の役割

3 つの音声生成モードと使い分け

Voice Design（参照音声なし・テキスト説明のみ）

python

wav = model.generate(
    text="(A young woman, gentle and sweet voice)Hello, welcome!",
    cfg_value=2.0
)

Controllable Voice Cloning（感情・速度・表現の制御）

参照音声ファイルを入力として、感情・速度・トーンを自然言語の指示でコントロールしながら音声を生成するモードです。

python

wav = model.generate(
    text="(slightly faster, cheerful tone)This is a cloned voice.",
    reference_wav_path="path/to/voice.wav"
)

Ultimate Cloning（参照音声 + トランスクリプトによる高精度再現）

python

wav = model.generate(
    text="This is an ultimate cloning demonstration.",
    prompt_wav_path="path/to/voice.wav",
    prompt_text="reference transcript",
    reference_wav_path="path/to/voice.wav"
)

適したユースケース: 特定人物の声を可能な限り正確に再現したいコンテンツ制作、音声データが十分にある場合の話者モデル構築。

30 言語対応とファインチューニング

VoxCPM2 が対応する 30 言語は以下の通りです（公式ドキュメントを参照）。

加えて、四川話・粤語・吳語・東北話・河南話・陝西話・山東話・天津話・閩南話の 9 種の中国語方言にも対応しています。

ファインチューニングによる適応

CosyVoice・F5-TTS との比較

3 モデル比較表

比較軸	VoxCPM2	CosyVoice 3	F5-TTS
アーキテクチャ	Tokenizer-Free 拡散自己回帰（連続空間）	LLM + Flow Matching（離散トークン）	Diffusion Transformer + Flow Matching
パラメータ数	2B	0.5B	—
対応言語数	30言語 + 9中国方言	9言語 + 18以上の中国方言	複数（公式明示なし）
サンプルレート	48kHz	非公表	非公表
Voice Design	あり（テキスト説明のみ）	なし（命令制御のみ）	なし
ライセンス（モデル）	Apache-2.0	Apache-2.0	CC-BY-NC
RTF（参考値）	~0.30（基本）/ ~0.13（Nano-vLLM）	非公表	0.0394（L20・並行数2・Client-Server）/ 0.1467（PyTorch オフライン）
スター数	26,108	21,500（概算）	14,700（概算）
主な強み	Voice Design・多言語・48kHz・商用利用可	中国語方言充実・双方向ストリーミング	軽量・高速・MIT コード

F5-TTS の RTF は F5-TTS 公式 README のベンチマーク（L20 GPU・16 NFE）に基づきます。最速の 0.0394 は Client-Server モード・並行数 2 の値であり、PyTorch オフライン（バッチサイズ 1）では 0.1467 と環境によって差があります。RTF は GPU・推論方式・並行数で大きく変動するため、自社環境での実測を推奨します。

選定の考え方

VoxCPM2 が向くケース:

Voice Design が必要: 参照音声なしで声を設計したい、キャラクター音声を素早くプロトタイプしたい
多言語が必要: 日本語を含む広い言語圏に対応したい
高品質な音声出力: 48kHz のスタジオ品質が求められるコンテンツ制作
商用利用: コードとモデルの両方を Apache-2.0 で商用利用したい

CosyVoice が向くケース:

中国語方言への深い対応: 18 以上の中国方言に対応し、ピンイン・音素による発音精密制御が必要
リアルタイムストリーミング: ネイティブな双方向ストリーミング推論が必要

F5-TTS が向くケース:

軽量・高速推論最優先: TensorRT-LLM や Client-Server 構成での高速推論が必要（L20・並行数 2 で RTF 0.0394 を達成）
コードのみの商用利用: コード部分の MIT ライセンスで利用したい（モデルは CC-BY-NC で非商用）
シンプルな音声クローニング: Voice Design は不要で、音声クローニングのみで十分

デプロイと本番運用オプション

基本インストールと動作要件

HuggingFace モデルページからモデルを取得し、以下のコマンドでインストールできます。

bash

pip install voxcpm

動作要件: Python ≥3.10（<3.13）、PyTorch ≥2.5.0、CUDA ≥12.0 が前提です。

高スループット推論（Nano-vLLM / vLLM-Omni）

本番環境でより高いスループットが必要な場合、以下の 2 つのオプションがあります。

Nano-vLLM: RTF ~0.13（RTX 4090）を実現する高スループット推論エンジンです。

bash

pip install nano-vllm-voxcpm

bash

vllm serve openbmb/VoxCPM2 --omni --port 8000

非 GPU 環境対応（VoxCPM.cpp）・ComfyUI 統合

利用上の注意点

Apache-2.0 ライセンスと商用利用

音声クローニングの倫理的制限

本人の同意なしに他者の声を複製すること
詐欺・なりすまし等の違法行為への悪用

制御可能生成の安定性

言語サポートの範囲

—Workee / フリーランス向け

Workee で
次の案件を探す。

スキルと希望条件に合う案件だけが並ぶ、フリーランスエンジニア向けポータル。マッチング・進捗確認・契約更新までマイページで完結します。

Styleスキルマッチ型ポータル

Fee登録・稼働中も無料

Serviceマッチング・進捗・契約まで

無料で登録するサービス詳細を見る

Workee for Freelance

よくある質問

VoxCPM2 を本番環境で動かすのに最低どのくらいの GPU VRAM が必要ですか？: 2B パラメータのモデルサイズから、GPU VRAM は 16GB 以上が推奨されます。RTX 4090 での基本推論は RTF 約 0.30 ですが、Nano-vLLM を使えば RTF 約 0.13 まで改善でき、スループットが重要な本番環境では導入を検討する価値があります。
Voice Design・Controllable Cloning・Ultimate Cloning のどれを選べばよいですか？: 参照音声がない・素早くキャラクター音声をプロトタイプしたい場合は Voice Design、話者の声を保ちながら感情や速度を制御したい場合は Controllable Cloning、既存人物の声を最高精度で再現しトランスクリプトも用意できる場合は Ultimate Cloning を選んでください。
Controllable Voice Cloning で生成結果が毎回変わるのですが、本番パイプラインに組み込めますか？: Controllable Cloning は実行ごとに生成結果が変動することが公式に認められており、1〜3 回生成して最良の結果を選ぶ運用が推奨されています。本番パイプラインに組み込む場合は、品質スコアリングの仕組み（例: MOS 推定モデルとの組み合わせ）をセットで設計してください。
CosyVoice や F5-TTS ではなく VoxCPM2 を選ぶ決め手は何ですか？: Voice Design（参照音声なしで声を設計）が必要な場合、またはコードとモデルの両方を Apache-2.0 で商用利用したい場合が主な決め手です。中国語方言への深い対応が必要なら CosyVoice、軽量・高速推論を最優先するなら F5-TTS の方が適しています。
音声クローニング機能を自社サービスに組み込む際に法的・倫理的に注意すべきことは何ですか？: 本人の同意なしに他者の声を複製すること、および詐欺・なりすましへの悪用が利用規約で明示的に禁止されています。本番環境に組み込む前に、エンドユーザーの同意取得フローと悪用検知の仕組みを事前に設計することが公式に推奨されています。
GPU のないサーバーや CPU 環境でも VoxCPM2 を動かせますか？: VoxCPM.cpp（C++ 実装）が CPU・CUDA・Vulkan に対応しており、GPU を持たないサーバーやエッジデバイスへのデプロイに利用できます。また ONNX・MLX-Audio・Rust 実装の voxcpm_rs もエコシステムとして提供されています。

Workee で次の案件を探す。

VoxCPM2 とは何か

OpenBMB と VoxCPM シリーズの開発経緯

VoxCPM2 の主要スペック

Tokenizer-Free アーキテクチャの仕組み

従来型 TTS との比較（離散トークン vs 連続空間）

4 ステージパイプライン（LocEnc / TSLM / RALM / LocDiT）の設計

AudioVAE V2 の役割

3 つの音声生成モードと使い分け

Voice Design（参照音声なし・テキスト説明のみ）

Controllable Voice Cloning（感情・速度・表現の制御）

Ultimate Cloning（参照音声 + トランスクリプトによる高精度再現）

30 言語対応とファインチューニング

ファインチューニングによる適応

CosyVoice・F5-TTS との比較

3 モデル比較表

選定の考え方

デプロイと本番運用オプション

基本インストールと動作要件

高スループット推論（Nano-vLLM / vLLM-Omni）

非 GPU 環境対応（VoxCPM.cpp）・ComfyUI 統合

利用上の注意点

Apache-2.0 ライセンスと商用利用

音声クローニングの倫理的制限

制御可能生成の安定性

言語サポートの範囲

Workee で次の案件を探す。

よくある質問

actions/checkoutとは｜リポジトリ取得の仕組みと使い方

書籍・動画をSkillsに蒸留するOSS「cangjie-skill」の仕組み

claude-code-templatesでClaude Codeにエージェント・MCPを一括導入する方法

お役立ちブログ

事例ブログ

おすすめ紹介

Workee フリーランス向けブログ

Workee 発注者向けブログ

Workee で次の案件を探す。

VoxCPM2 とは何か

OpenBMB と VoxCPM シリーズの開発経緯

VoxCPM2 の主要スペック

Tokenizer-Free アーキテクチャの仕組み

従来型 TTS との比較（離散トークン vs 連続空間）

4 ステージパイプライン（LocEnc / TSLM / RALM / LocDiT）の設計

AudioVAE V2 の役割

3 つの音声生成モードと使い分け

Voice Design（参照音声なし・テキスト説明のみ）

Controllable Voice Cloning（感情・速度・表現の制御）

Ultimate Cloning（参照音声 + トランスクリプトによる高精度再現）

30 言語対応とファインチューニング

ファインチューニングによる適応

CosyVoice・F5-TTS との比較

3 モデル比較表

選定の考え方

デプロイと本番運用オプション

基本インストールと動作要件

高スループット推論（Nano-vLLM / vLLM-Omni）

非 GPU 環境対応（VoxCPM.cpp）・ComfyUI 統合

利用上の注意点

Apache-2.0 ライセンスと商用利用

音声クローニングの倫理的制限

制御可能生成の安定性

言語サポートの範囲

Workee で次の案件を探す。

よくある質問

actions/checkoutとは｜リポジトリ取得の仕組みと使い方

書籍・動画をSkillsに蒸留するOSS「cangjie-skill」の仕組み

claude-code-templatesでClaude Codeにエージェント・MCPを一括導入する方法

お役立ちブログ

事例ブログ

おすすめ紹介

Workee フリーランス向けブログ

Workee 発注者向けブログ

Workee で
次の案件を探す。

Workee で
次の案件を探す。

Workee で
次の案件を探す。

Workee で
次の案件を探す。