音声合成機能をプロダクトに組み込もうとしたとき、「どの OSS を選べばよいか」「Tokenizer-Free とは何を意味するのか」という疑問に直面するエンジニアは少なくありません。クラウド TTS API は手軽ですが、コスト・データ主権・カスタマイズ性の観点で限界があります。一方、OSS TTS は選択肢が増え続けており、どれを選ぶかの判断が難しくなっています。
2026 年 4 月、GitHub Trending に登場し一気に注目を集めたのが OpenBMB/VoxCPM の最新版「VoxCPM2」です。スター数は 26,108(2026年6月時点)に達し、フォーク数も 2,969 を超えています。Zenn や note には日本語の使用レポートが複数投稿されており、「日本語が完璧」という評価も見られます。しかし、こうした記事の多くは体験ベースの紹介にとどまり、「なぜ Tokenizer-Free なのか」「どのクローニングモードを選ぶべきか」という技術的な判断材料を提供しているものは少ない状況です。
本記事では、VoxCPM2 の技術アーキテクチャ(4 ステージパイプライン)を原理から解説し、3 つの音声生成モードの使い分けを整理します。さらに CosyVoice・F5-TTS との具体的な比較を通じて、「自分のプロジェクトに VoxCPM2 を採用すべきかどうか」を判断するための情報を体系的に提供します。
VoxCPM2 とは何か
OpenBMB と VoxCPM シリーズの開発経緯
VoxCPM2 は、清華大学 AI 産業研究院と ModelBest が共同で運営する OSS 研究組織「OpenBMB」が開発したテキスト音声合成(TTS)モデルです。OpenBMB は大規模言語モデル「MiniCPM」シリーズでも知られており、効率的なモデル設計を強みとする研究グループです。
VoxCPM シリーズはバージョンを重ねるごとに大幅な進化を遂げています。初期の VoxCPM-0.5B は 0.5B パラメータ・16kHz・中英 2 言語対応の小規模モデルでしたが、VoxCPM1.5 では 0.6B パラメータ・44.1kHz へとスケールアップされました。そして 2026 年 4 月リリースの VoxCPM2 では、2B パラメータ・48kHz・30 言語対応という大幅な機能拡張が実現されています。
VoxCPM2 の研究成果は論文「VoxCPM: Tokenizer-Free TTS for Context-Aware Speech Generation and True-to-Life Voice Cloning」として ICLR 2026 で発表されており、学術的な信頼性も担保されています(arXiv:2509.24650)。
VoxCPM2 の主要スペック
項目 | VoxCPM2 | VoxCPM1.5 | VoxCPM-0.5B |
|---|---|---|---|
パラメータ数 | 2B | 0.6B | 0.5B |
サンプルレート | 48kHz | 44.1kHz | 16kHz |
対応言語数 | 30 | 2(中英) | 2(中英) |
Voice Design | あり | なし | なし |
RTF(RTX4090) | ~0.30 | ~0.15 | ~0.17 |
30 言語への対応・48kHz のスタジオ品質出力・Voice Design(参照音声不要で声を生成できる機能)の追加が VoxCPM2 の主要な差別化点です。
Tokenizer-Free アーキテクチャの仕組み
VoxCPM2 を理解する上で最も重要な概念が「Tokenizer-Free」です。このアーキテクチャは、詳細が公式ドキュメントのアーキテクチャページで解説されています。
従来型 TTS との比較(離散トークン vs 連続空間)
従来型の TTS モデルは、おおむね以下の処理フローで音声を生成します。
- テキスト入力を受け取る
- テキストを「離散トークン」(有限の音声単位の集合)に変換する(トークナイズ)
- 離散トークンから音声波形を合成する
このアプローチの問題点は、離散トークン化の段階で音声の微細な情報(イントネーション・感情的なニュアンス・話者固有の癖)が失われる可能性があることです。離散化は本質的に「量子化」であり、情報の損失を伴います。
VoxCPM2 はこのボトルネックを「AudioVAE V2」という変分オートエンコーダを導入することで解消しています。AudioVAE V2 が音声を連続潜在空間で表現し、モデルがその連続空間上で直接音声表現を生成します。離散化のステップを完全に排除した「Tokenizer-Free」設計により、音声の自然な流暢性と表現力を連続空間のまま保持できます。
4 ステージパイプライン(LocEnc / TSLM / RALM / LocDiT)の設計
VoxCPM2 の生成パイプラインは 4 つのコンポーネントで構成されています。
LocEnc(ローカルエンコーダ)
入力テキストの音声的・言語的な特徴をローカルな単位でエンコードします。文字列・音素レベルの情報を抽出し、後段のモジュールが利用できる形式に変換する役割を担います。
TSLM(テキスト空間言語モデル、Text Space Language Model)
テキストの意味的文脈をモデル化します。入力テキスト全体の意味的な流れを把握し、生成する音声のプロソディー(韻律)の大枠を決定します。
RALM(リファレンス適応言語モデル、Reference Adaptive Language Model)
参照音声(クローニング時に使用する話者の声サンプル)の特徴を抽出・適応させます。Voice Design モードでは参照音声の代わりにテキスト説明を入力として受け取ります。話者の個性・音色・スタイルを連続空間で保持します。
LocDiT(ローカル拡散トランスフォーマー、Local Diffusion Transformer)
前段の 3 モジュールが生成した表現を統合し、AudioVAE V2 の潜在空間上で音声を拡散モデルにより生成します。このステップが最終的な 48kHz 高品質音声の出力を担当します。
AudioVAE V2 の役割
AudioVAE V2 は非対称なエンコード/デコード設計を採用しており、内蔵スーパーレゾリューション機能により 48kHz のスタジオ品質音声を実現します。従来の TTS が 16kHz や 22kHz の出力に留まることが多いのと対照的に、VoxCPM2 は高いサンプルレートを標準出力としています。
3 つの音声生成モードと使い分け
VoxCPM2 が提供する音声生成モードは 3 種類あり、ユースケースに応じて使い分けることが重要です。以下のコード例はいずれも OpenBMB/VoxCPM の README に掲載されている公式コード例です。
Voice Design(参照音声なし・テキスト説明のみ)
Voice Design は VoxCPM2 の最も特徴的な機能です。参照音声ファイルを用意する必要がなく、テキストで声の特徴を記述するだけで新しい声を生成できます。
wav = model.generate(
text="(A young woman, gentle and sweet voice)Hello, welcome!",
cfg_value=2.0
)
テキストの冒頭に (声の説明) を括弧で囲んで記述し、その後に読み上げさせたい本文を続けます。cfg_value はテキスト説明への追従度を制御するパラメータで、値が大きいほど説明に忠実な声が生成されます。
適したユースケース: 新規キャラクター・AIアシスタントの声を一から設計したい場合、参照音声を取得できない場合、多数の異なる声のバリエーションを素早く生成したい場合。
Controllable Voice Cloning(感情・速度・表現の制御)
参照音声ファイルを入力として、感情・速度・トーンを自然言語の指示でコントロールしながら音声を生成するモードです。
wav = model.generate(
text="(slightly faster, cheerful tone)This is a cloned voice.",
reference_wav_path="path/to/voice.wav"
)
テキストの冒頭に表現の制御指示を記述し、reference_wav_path に参照音声のパスを渡します。特定の話者の声のスタイルを保ちながら、場面に応じたトーン調整が可能です。なお、制御可能生成は実行ごとに安定性が変動することがあるため、1〜3回の実行で最良の結果を選ぶことが推奨されています。
適したユースケース: ナレーション・有声化コンテンツで感情表現をコントロールしたい場合、同一話者の声でありながら場面ごとに表現を変えたい場合。
Ultimate Cloning(参照音声 + トランスクリプトによる高精度再現)
参照音声とそのトランスクリプト(テキスト化された内容)の両方を提供することで、声のあらゆる細微性を最大限に再現する高精度クローニングモードです。
wav = model.generate(
text="This is an ultimate cloning demonstration.",
prompt_wav_path="path/to/voice.wav",
prompt_text="reference transcript",
reference_wav_path="path/to/voice.wav"
)
prompt_wav_path と prompt_text のペアでトランスクリプト付き参照音声を渡し、reference_wav_path で話者の声を提供します。RALM がトランスクリプトと音声を対応付けることで、Controllable Cloning よりも高い話者再現精度が期待できます。
適したユースケース: 特定人物の声を可能な限り正確に再現したいコンテンツ制作、音声データが十分にある場合の話者モデル構築。
注意点: 音声クローニング機能は、本人の同意なしに他者の声を複製すること、詐欺・なりすましへの悪用は禁止されています。倫理的な利用範囲内での活用が求められます。
30 言語対応とファインチューニング
VoxCPM2 が対応する 30 言語は以下の通りです(公式ドキュメントを参照)。
アラビア語・ミャンマー語・中国語・デンマーク語・オランダ語・英語・フィンランド語・フランス語・ドイツ語・ギリシャ語・ヘブライ語・ヒンディー語・インドネシア語・イタリア語・日本語・クメール語・韓国語・ラオス語・マレー語・ノルウェー語・ポーランド語・ポルトガル語・ロシア語・スペイン語・スワヒリ語・スウェーデン語・タガログ語・タイ語・トルコ語・ベトナム語
加えて、四川話・粤語・吳語・東北話・河南話・陝西話・山東話・天津話・閩南話の 9 種の中国語方言にも対応しています。
言語タグ不要の自動判別: 入力テキストに言語タグを付与する必要がなく、テキストを入力するだけで自動的に言語を判別して音声を生成します。日本語テキストをそのまま渡せば日本語音声が生成されるため、多言語対応アプリケーションへの組み込みが容易です。
ファインチューニングによる適応
VoxCPM2 は SFT(フルファインチューニング)と LoRA の両方に対応しています。5〜10分程度の音声データがあれば、特定の話者・言語・ドメインへの適応が可能です。既存の音声データを活用して自社サービス固有の音声モデルを作りたい場合にも対応できます。
CosyVoice・F5-TTS との比較
OSS TTS の採用判断では、候補モデルを具体的な比較軸で整理することが欠かせません。VoxCPM2 の主要な競合である CosyVoice と F5-TTS との比較を以下にまとめます。
3 モデル比較表
比較軸 | VoxCPM2 | CosyVoice 3 | F5-TTS |
|---|---|---|---|
アーキテクチャ | Tokenizer-Free 拡散自己回帰(連続空間) | LLM + Flow Matching(離散トークン) | Diffusion Transformer + Flow Matching |
パラメータ数 | 2B | 0.5B | — |
対応言語数 | 30言語 + 9中国方言 | 9言語 + 18以上の中国方言 | 複数(公式明示なし) |
サンプルレート | 48kHz | 非公表 | 非公表 |
Voice Design | あり(テキスト説明のみ) | なし(命令制御のみ) | なし |
ライセンス(モデル) | Apache-2.0 | Apache-2.0 | CC-BY-NC |
RTF(参考値) | ~0.30(基本)/ ~0.13(Nano-vLLM) | 非公表 | 0.0394(TensorRT-LLM + 並行数2時。F5-TTS README 参照) |
スター数 | 26,108 | 21,500(概算) | 14,700(概算) |
主な強み | Voice Design・多言語・48kHz・商用利用可 | 中国語方言充実・双方向ストリーミング | 軽量・高速・MIT コード |
選定の考え方
VoxCPM2 が向くケース:
- Voice Design が必要: 参照音声なしで声を設計したい、キャラクター音声を素早くプロトタイプしたい
- 多言語が必要: 日本語を含む広い言語圏に対応したい
- 高品質な音声出力: 48kHz のスタジオ品質が求められるコンテンツ制作
- 商用利用: コードとモデルの両方を Apache-2.0 で商用利用したい
CosyVoice が向くケース:
- 中国語方言への深い対応: 18 以上の中国方言に対応し、ピンイン・音素による発音精密制御が必要
- リアルタイムストリーミング: ネイティブな双方向ストリーミング推論が必要
F5-TTS が向くケース:
- 軽量・高速推論最優先: TensorRT-LLM 環境での高速推論が必要(並行処理時に RTF 0.0394 を達成)
- コードのみの商用利用: コード部分の MIT ライセンスで利用したい(モデルは CC-BY-NC で非商用)
- シンプルな音声クローニング: Voice Design は不要で、音声クローニングのみで十分
デプロイと本番運用オプション
基本インストールと動作要件
HuggingFace モデルページからモデルを取得し、以下のコマンドでインストールできます。
pip install voxcpm
動作要件: Python ≥3.10(<3.13)、PyTorch ≥2.5.0、CUDA ≥12.0 が前提です。
基本インストール時の推論速度は RTF ~0.30(RTX 4090)であり、2B パラメータのモデルサイズを考慮すると GPU VRAM は 16GB 以上を用意することが推奨されます。
高スループット推論(Nano-vLLM / vLLM-Omni)
本番環境でより高いスループットが必要な場合、以下の 2 つのオプションがあります。
Nano-vLLM: RTF ~0.13(RTX 4090)を実現する高スループット推論エンジンです。
pip install nano-vllm-voxcpm
vLLM-Omni: OpenAI 互換の /v1/audio/speech エンドポイントを提供します。既存のクラウド TTS API クライアントとの互換性を保ちながら、セルフホストへの移行が可能です。
vllm serve openbmb/VoxCPM2 --omni --port 8000
非 GPU 環境対応(VoxCPM.cpp)・ComfyUI 統合
VoxCPM.cpp: CPU・CUDA・Vulkan に対応した C++ 実装です。GPU を持たないサーバーでの推論や、エッジデバイスへのデプロイを検討している場合に利用できます。
ComfyUI 拡張: ノードベースのワークフローツール ComfyUI と統合することで、視覚的なパイプライン設計が可能になります。音声生成ワークフローを GUI 上で構築したいユーザーに向いています。
その他、Rust 実装の voxcpm_rs、クロスプラットフォーム推論向けの ONNX・MLX-Audio もエコシステムとして提供されており、ターゲット環境に応じた柔軟なデプロイが可能です。
利用上の注意点
Apache-2.0 ライセンスと商用利用
VoxCPM2 のコード・モデルの両方が Apache-2.0 ライセンスで提供されており、商用利用が可能です。ただし Apache-2.0 の要件として、再配布時にライセンス表示と変更点の明記が必要です。コードとモデルのライセンスが異なる OSS TTS(F5-TTS のモデルは CC-BY-NC)と比較した場合の優位点のひとつです。
音声クローニングの倫理的制限
VoxCPM2 の利用規約・公式ドキュメントは、音声クローニング機能の倫理的な使用を明示的に求めています。具体的には以下の行為が禁止されています。
- 本人の同意なしに他者の声を複製すること
- 詐欺・なりすまし等の違法行為への悪用
本番環境に音声クローニング機能を組み込む場合は、エンドユーザーの同意フローの設計・悪用検知の仕組みなど、安全性評価を事前に実施することが推奨されます。
制御可能生成の安定性
Controllable Voice Cloning モードでは、実行ごとに生成結果が多少変動することがあります。同じ入力でも品質に差が出る場合があるため、1〜3 回の生成を行い最良の結果を選ぶ運用が推奨されています。本番パイプラインに組み込む場合は、品質スコアリングの仕組みと組み合わせることを検討してください。
言語サポートの範囲
30 言語以外の言語は公式にサポートされておらず、品質は保証されません。対応言語外で利用する場合は十分な品質評価を行った上で判断することが必要です。
VoxCPM2 は、Tokenizer-Free という設計上の革新性・30 言語への広いカバレッジ・Voice Design による参照音声不要の声生成・Apache-2.0 での商用利用可能性を組み合わせた、2026 年時点で最も注目すべき OSS TTS のひとつです。採用判断の第一歩として、公式 HuggingFace ページからモデルを確認し、自社のユースケースに照らした小規模な検証を行うことをお勧めします。


