「オープンソースの音声合成(TTS)を製品に組み込みたい」と考えたとき、最初に立ちはだかるのが選定の壁です。CosyVoice、VibeVoice、F5-TTS など、性能を競い合うOSS TTSが次々と登場し、どれが自分のプロジェクトに合うのかを見極めるだけでも相当な時間がかかります。
特に商用TTS APIのコストやカスタマイズ性に限界を感じて自前ホスティングを検討し始めた段階では、「日本語を含む多言語に対応しているか」「ボイスクローンや対話生成までカバーできるか」「自社のGPU/CPU環境で運用できるか」「ライセンスは商用利用できるか」といった判断材料を一つずつ確認する必要があります。情報がリポジトリやモデルカードに散在していると、採用判断の前段だけで疲弊してしまいがちです。
本記事で取り上げる「MOSS-TTS」は、こうした多様な要件を「用途別のモデルファミリ」という設計で受け止めようとしているオープンソースプロジェクトです。単一のモデルではなく、長尺音声・多話者対話・ボイスデザイン・リアルタイム・効果音といったユースケースごとに最適化されたモデル群を提供しているのが大きな特徴です。
本記事では、MOSS-TTS が何をするOSSかという基本から、ファミリ5モデルの役割と使い分け、31言語への対応状況、3つの推論バックエンド、そして類似OSS TTSとの違いまでを、公式ドキュメントの情報をもとに整理します。なお本記事は実際のインストールや動作検証は行わず、GitHubリポジトリ・技術レポート・Hugging Face のモデルコレクションといった公開ドキュメントに基づいて解説しています。読み終えるころには、MOSS-TTS を自プロジェクトに採用すべきかどうかの判断軸が手に入るはずです。
MOSS-TTSとは|OpenMOSSが公開した音声合成OSSの概要
MOSS-TTS は、MOSI.AI と OpenMOSS チームが公開しているオープンソースの音声・音響生成モデルファミリです。リポジトリの説明によれば、高忠実度(high-fidelity)・高表現力(high-expressiveness)で、複雑な実シナリオに対応することを目標に設計されており、安定した長尺音声、多話者対話、ボイス/キャラクター設計、環境効果音、リアルタイムストリーミングTTSまでをカバーします(GitHub OpenMOSS/MOSS-TTS)。
開発元と公開状況・基本情報
プロジェクトの基本情報は次の通りです。いずれも GitHub の API から取得した値で、本記事執筆時点のものです。
項目 | 値 |
|---|---|
owner/name | OpenMOSS/MOSS-TTS |
開発元 | MOSI.AI / OpenMOSS team |
主要言語 | Python |
ライセンス | Apache-2.0 |
スター数 | 3,109 |
フォーク数 | 275 |
最終更新(push) | 2026-06-04 |
ライセンスは Apache-2.0 で、商用利用や改変・再配布がしやすい寛容なライセンスです。スター数 3,109・フォーク数 275 という規模に対して、最終更新が 2026年6月初旬と直近であることから、現時点ではメンテナンスが続いている活発なプロジェクトと見て取れます。リポジトリはアーカイブ(archived)されておらず、フォーク(他リポジトリの派生)でもなく、公開状態(public)の本家リポジトリです。採用検討の前提として「放置されたOSSではないか」という不安に対しては、まず一定の安心材料があると言えます。
開発元の OpenMOSS チームについては、技術レポートも公開されています。アーキテクチャや学習の詳細は、後述の推論バックエンドの章で改めて触れます。
なぜ「単一モデル」でなく「ファミリ」なのか
MOSS-TTS の最も特徴的な点は、機能を1つの巨大なモデルに詰め込むのではなく、用途別の複数モデルに分割している設計思想です。リポジトリの説明では、単一のTTSモデルでは「本物の人間のように聞こえる」「すべての単語を正確に発音する」「コンテンツに応じて発話スタイルを切り替える」「数十分にわたって安定する」「対話・ロールプレイ・リアルタイムに対応する」といった要件を同時に満たすのが難しいため、ワークフローを複数の本番運用可能なモデルに分割した、とされています(GitHub OpenMOSS/MOSS-TTS)。
この設計は、採用を検討するエンジニアにとって「自分のユースケースに必要なモデルだけを選んで使える」というメリットにつながります。一方で、複数モデルの役割を理解しないと選択を誤るリスクもあります。次の章で、各モデルの役割を整理します。
MOSS-TTSファミリ5モデルの役割と使い分け
MOSS-TTS ファミリは、用途別のモデルに加えて、それらを支える共通基盤と軽量版で構成されています。各モデルとサイズ・アーキテクチャは、Hugging Face のモデルコレクションとリポジトリのドキュメントで公開されています(Hugging Face モデルコレクション)。
モデル | 役割 | アーキテクチャ | サイズ |
|---|---|---|---|
MOSS-TTS | 旗艦の本番モデル。高忠実度・ゼロショットボイスクローン・長尺生成・多言語/コードスイッチ | MossTTSDelay | 8B |
MOSS-TTSD | 表現力ある多話者・超長尺の対話生成 | MossTTSDelay | 8B |
MOSS-VoiceGenerator | 参照音声なしでテキストプロンプトから声・スタイルを生成するボイスデザイン | MossTTSDelay | 1.7B |
MOSS-TTS-Realtime | リアルタイム音声エージェント向け。マルチターン文脈考慮 | MossTTSRealtime | 1.7B |
MOSS-SoundEffect | 効果音生成特化(自然環境・都市・生物・人間動作・音楽断片など) | MossTTSDelay | 8B |
旗艦 MOSS-TTS(8B)
ファミリの中心となるのが、8B パラメータの旗艦モデル MOSS-TTS です。最適なゼロショットボイスクローン(事前学習なしで参照音声から話者の声を再現する機能)に加え、長尺音声の安定生成、Pinyin(中国語のローマ字表記)/音素/長さといった細粒度の発話制御、多言語およびコードスイッチ(1つの発話内での言語切り替え)合成に対応します。汎用的なTTS用途で第一に検討する対象となるモデルです。
対話・ボイスデザイン・リアルタイム・効果音の各専用モデル
旗艦モデル以外の専用モデルは、それぞれ明確なユースケースに最適化されています。
- MOSS-TTSD(8B): 表現力のある多話者対話・超長尺の音声生成に特化したモデルです。ポッドキャストや対話形式のコンテンツ生成を想定した用途で検討対象になります。
- MOSS-VoiceGenerator(1.7B): 参照音声を用意せず、テキストプロンプトから多様な声やスタイルを設計(ボイスデザイン)するモデルです。任意のキャラクターボイスを作り出したい場合に向きます。
- MOSS-TTS-Realtime(1.7B): リアルタイム音声エージェント向けのモデルで、マルチターンの文脈を考慮します。低遅延での応答が求められる対話システムを想定した設計です。
- MOSS-SoundEffect: 自然環境・都市・生物・人間の動作・音楽断片といった効果音の生成に特化したモデルです。後継として、DiT バックボーンと Flow Matching を採用し48kHzのバイリンガル効果音を最大30秒生成できる MOSS-SoundEffect-v2.0 も公開されています。
このように、必要な機能に応じてモデルを選び分けられる点が、ファミリ構成の実務的な利点です。
共通基盤 MOSS-Audio-Tokenizer と軽量版 Nano
ファミリ全体を支える共通基盤が MOSS-Audio-Tokenizer です。これは音声を離散トークンに変換する共通の音声インターフェースで、Cat(CNN-free Causal Transformer)アーキテクチャの 1.6B モデルとして提供され、24kHz の音声を 12.5Hz に圧縮します。各モデルがこの共通トークナイザを介して音声を扱う構造になっています。
また、CPU 優先のリアルタイム軽量モデルとして MOSS-TTS-Nano(0.1B)も用意されています。これは別リポジトリで提供されており、少数のCPUコアでのストリーミング動作を想定した軽量版です。8B の旗艦モデルを動かすGPUリソースが確保しづらい環境では、こうした軽量モデルが選択肢になります。
対応言語とv1.5の改善点
製品への組み込みを検討する際、対応言語は最初に確認すべき項目の一つです。MOSS-TTS はバージョンアップにより対応言語を拡大してきました。
31言語対応の内訳
最新の MOSS-TTS-v1.5 は 31言語に対応しています。リポジトリの「Supported Languages」セクションによれば、MOSS-TTS 1.0 の20言語に加えて、広東語・オランダ語・フィンランド語・ヒンディー語・マケドニア語・マレー語・ルーマニア語・スワヒリ語・タガログ語・タイ語・ベトナム語が追加されました(GitHub OpenMOSS/MOSS-TTS)。日本語(ja)も対応言語に含まれているため、日本語の音声合成を必要とするプロジェクトでも検討対象になります。
v1.5 の主要改善
v1.5 は v1.0 からの継続学習によって構築されており、リポジトリの「MOSS-TTS-v1.5」セクションでは以下の改善点が挙げられています。
- 言語タグを指定した際の多言語合成の強化
- ボイスクローンの安定性向上(話者類似度の向上・ばらつきの低減)
- 長い参照音声と短いターゲットテキストを組み合わせたクローンの信頼性向上
- 句読点に追従する韻律の安定化
- 明示的なポーズ制御
このうち明示的なポーズ制御は、テキスト中に [pause X.Ys] という記法を埋め込むことで、指定した秒数の間(ま)を挿入できる機能です。リポジトリの例では次のように記述します。
我今天学习了一首中国的古诗,它的名字是[pause 3.2s]静夜思!
ナレーションや対話で自然な間を制御できることは、コンテンツの完成度に直結する実務的な改善点です。
3つの推論バックエンドの使い分け
採用判断で見落とされがちなのが「自社の実行環境で現実的に動かせるか」という観点です。MOSS-TTS は3つの推論バックエンドを用意しており、デプロイ環境に応じて選択できます。アーキテクチャや学習の詳細は技術レポートにまとめられています(MOSS-TTS Technical Report(arXiv:2603.18090))。
標準PyTorch経路(基本セットアップ)
最も基本となるのが、Hugging Face Transformers(PyTorch)を用いた標準経路です。Conda または uv で環境を構築し、AutoModel / AutoProcessor を trust_remote_code=True 付きで読み込みます。リポジトリの Quickstart では、次のようにモデルとプロセッサを読み込みます。
from transformers import AutoModel, AutoProcessor
import torch
processor = AutoProcessor.from_pretrained(
"OpenMOSS-Team/MOSS-TTS-v1.5",
trust_remote_code=True,
)
model = AutoModel.from_pretrained(
"OpenMOSS-Team/MOSS-TTS-v1.5",
trust_remote_code=True,
torch_dtype=torch.bfloat16,
).to("cuda")
ここで trust_remote_code=True は、モデルリポジトリに同梱されたカスタムコードを実行する許可を与えるオプションです。Transformers の標準アーキテクチャに含まれないモデルを読み込む際に必要になりますが、信頼できる提供元のリポジトリであることを確認した上で使うべきオプションである点には注意してください。FlashAttention 2 はオプションとして利用できます。
llama.cpp 経路(軽量・エッジ・CPU)
PyTorch を使わずに推論したい場合の経路が llama.cpp バックエンドです。Qwen3 をバックボーンとするモデル本体を llama.cpp で、音声トークナイザを ONNX Runtime / TensorRT で実行することで、PyTorch なしの推論を実現します。GGUF 形式の量子化重みを用いることで、8B モデルでも 8GB GPU に収まるとされ、CPU のみの構成も可能です。GPUリソースに制約のある環境や、エッジでの動作を想定する場合に有力な選択肢になります。
SGLang 経路(高速・本番スループット)
本番でのスループットを重視する場合の経路が SGLang バックエンドです。OpenMOSS が拡張した SGLang により、MOSS-TTS と Audio-Tokenizer を統合し、標準経路と比べて約3倍のスループットを実現するとされています。大量のリクエストを処理するサービスでの利用を想定した経路です。
このように、PyTorch(標準)・llama.cpp(軽量・CPU可)・SGLang(高速)という3経路が用意されていることで、検証段階から本番運用、エッジ環境まで、同じモデルファミリで対応できる幅広さがあります。
類似OSS TTSとの比較とMOSS-TTSを選ぶ判断軸
MOSS-TTS の採用を判断するうえで欠かせないのが、他のオープンソースTTSとの比較です。代表的な4つのOSS TTSと並べると、MOSS-TTS の立ち位置が見えてきます。
プロジェクト | 開発元 | 規模 | 特徴 | MOSS-TTS との違い |
|---|---|---|---|---|
MOSS-TTS | MOSI.AI / OpenMOSS | 0.1B〜8B(ファミリ) | 用途別5モデル+共通トークナイザ。多言語・対話・効果音・リアルタイム | ― |
CosyVoice(CosyVoice3 0.5B) | Alibaba | 0.5B | 9言語+18方言・超低遅延150ms | MOSS は8B旗艦を含むファミリ構成。CosyVoice は単体TTSの軽量さで勝る |
Microsoft | 1.5B | 長尺・多話者(最大90分・4話者)特化 | MOSS は多話者対話を専用モデル MOSS-TTSD として切り出す設計 | |
学術系 | 0.3B | Flow Matching ベースの軽量TTS | MOSS は本番デプロイ経路(llama.cpp/SGLang/CPU)が手厚い | |
Boson AI | 3B | Llama 3.2 3B ベース・感情表現・多話者 | MOSS はユースケース別にモデルを分割 |
この比較から見える MOSS-TTS を選ぶ判断軸は、主に次の3つです。
- ユースケースの広さ: 単発のTTSだけでなく、多話者対話・ボイスデザイン・リアルタイム・効果音まで一気通貫で扱いたい場合、用途別にモデルが揃っている MOSS-TTS の構成が活きます。CosyVoice や F5-TTS のような軽量単体モデルでは、複数の機能を1つで賄うことは想定されていません。
- デプロイ経路の柔軟さ: PyTorch・llama.cpp・SGLang・CPU と選べる経路の多さは、検証から本番・エッジまで同じファミリで対応したい場合に有利です。
- 多言語要件: 31言語(日本語含む)への対応は、多言語サービスを想定する場合の判断材料になります。
なお、リポジトリの「Evaluation」セクションには、Seed-TTS-eval などのベンチマークで上位の性能を主張する数値が掲載されています。ただしこれらは提供元による自己申告のベンチマーク結果であり、第三者による独立検証ではない点に留意が必要です。実際の品質は、自社のユースケース・言語・音声データで検証するのが確実です。MOSI.AI は Web 上での試用環境(MOSI AI Studio)を提供しており、本格的な環境構築の前に出力を確認する導線として活用できます。
ライセンス・メンテナンス状況と導入時の注意点
最後に、採用判断の締めくくりとして、ライセンス・メンテナンス状況・導入リスクを整理します。
ライセンス: Apache-2.0 です。商用利用・改変・再配布がしやすい寛容なライセンスのため、製品への組み込みを検討するうえでのライセンス上のハードルは低い部類です。ただし、各モデルの重みやデータセットに個別の利用条件が付随する可能性はあるため、本番採用時には Hugging Face のモデルカードや LICENSE ファイルを必ず確認してください。
メンテナンス状況: 最終更新(push)は 2026-06-04 と直近で、スター数 3,109・フォーク数 275 という規模があります。SoundEffect-v2.0 のような新モデルも追加されており、現時点では活発に開発が続いているプロジェクトと判断できます。リポジトリはアーカイブされておらず、フォークでもない本家の公開リポジトリです。
導入時の注意点: いくつか確認しておきたい点があります。
- 旗艦の 8B モデルは相応のGPUリソースを要します。リソースに制約がある場合は、llama.cpp 経路(8GB GPU・CPU可)や軽量版の MOSS-TTS-Nano(0.1B)を検討するとよいでしょう。
- 標準経路では
trust_remote_code=Trueが必要で、リポジトリ同梱のカスタムコードを実行します。信頼できる提供元であることを前提に利用してください。 - 前章で触れた通り、README のベンチマーク数値は自己申告であり、品質は自社データでの検証が前提となります。
なお本記事は、GitHubリポジトリ・技術レポート・Hugging Face のモデルコレクションといった公開ドキュメントに基づいて整理したものです。実際の導入時には、最新のドキュメントを確認のうえで検証することをおすすめします。
まとめ|MOSS-TTSが向いているプロジェクト
MOSS-TTS は、用途別のモデルファミリという設計で多様な音声生成ニーズに応えようとするオープンソースの音声合成プロジェクトです。最後に、採用判断の整理として、向いているケースと、他の選択肢を検討したほうがよいケースをまとめます。
MOSS-TTS が向いているケース
- 単発のTTSだけでなく、多話者対話・ボイスデザイン・リアルタイム・効果音まで幅広いユースケースをカバーしたい
- 日本語を含む多言語の音声合成が必要
- 検証から本番・エッジまで、デプロイ環境に応じて推論経路を柔軟に選びたい
- Apache-2.0 の寛容なライセンスで商用利用したい
他の選択肢を検討したほうがよいケース
- 単一言語・単機能のTTSで十分で、できるだけ軽量・低遅延に動かしたい場合は、CosyVoice や F5-TTS のような軽量単体モデルのほうが運用負荷が低い可能性があります
- 長尺・多話者に特化した用途のみであれば、VibeVoice なども比較対象になります
まずは Web 試用環境やドキュメントで自社の要件と照らし合わせ、必要なモデルだけを絞り込んでから検証に進むのが、選定の遠回りを避ける近道です。詳細な仕様やアーキテクチャは、GitHub リポジトリと技術レポートで確認できます。


