VibeVoiceとは?OSSで注目される音声AI(TTS/ASR)の全体像を解説

Microsoft Research が 2025 年 8 月に公開した音声 AI フレームワーク「VibeVoice」が、GitHub 上で 4 万スター超えを記録し、エンジニアコミュニティの大きな注目を集めています。
しかし、「TTS コードが削除された」という話も耳にして、「結局、今でも使えるのか?」「CosyVoice や F5-TTS とどう違うのか?」と戸惑っている方も多いのではないでしょうか。
本記事では、VibeVoice の 3 つのモデル構成から技術的なアーキテクチャ、類似 OSS との比較、そして「TTS コード削除」の真相まで、採用判断に必要な情報を網羅的に解説します。
注記: 本記事はドキュメント・公式サイト・技術論文に基づいた解説です。実際に環境を構築して動作確認を行ったものではありません。

目次
作業時間削減
システム化を通して時間を生み出し、ビジネスの加速をサポートします。
システム開発が可能に
VibeVoice とは?Microsoft が公開したオープンソース音声 AI

VibeVoice は、Microsoft Research が開発したオープンソースの音声 AI モデルファミリーです。テキスト音声合成(TTS)と自動音声認識(ASR)の両機能を提供し、特に「長形式の音声」「多話者の会話」を高品質に処理できる点が特徴です。
公式リポジトリは github.com/microsoft/VibeVoice で、MIT ライセンスのもとで公開されています(2026年4月現在、スター数 40,233、フォーク数 4,668)。
VibeVoice の名称は、音声に「バイブ(雰囲気)」を与えるというコンセプトに由来します。ポッドキャストのような自然な会話音声を、テキストから直接生成することを目指しています。
従来の TTS・ASR システムが 1〜2 話者の短時間音声を対象としていたのに対し、VibeVoice は以下を目標に設計されています。
- 最大 90 分の連続音声を単一パスで生成(TTS)
- 最大 4 名の話者を区別した会話音声の合成(TTS)
- 最大 60 分の長形式音声を単一パスで認識(ASR)
- 50 言語以上への対応と多言語コードスイッチング(ASR)
VibeVoice のモデルファミリー:3 種のモデル構成

VibeVoice は以下の 3 つのモデルで構成されています。
モデル | パラメータ数 | 用途 | 現在の利用状況 |
|---|---|---|---|
VibeVoice-ASR | 7B | 長形式音声認識 | コード・モデル共に公開 |
VibeVoice-TTS | 1.5B | 多話者音声合成 | コード削除済み・モデルウェイトは Hugging Face で公開 |
VibeVoice-Realtime | 0.5B | リアルタイム TTS | コード・モデル共に公開 |
VibeVoice-ASR(7B): 60 分長形式音声認識
VibeVoice-ASR は、最大 60 分の音声を分割せず単一パスで処理できる音声認識モデルです。
従来の ASR は音声を短いチャンクに分割して処理するため、話者の追跡や文脈理解が困難でした。VibeVoice-ASR はグローバルコンテキストを保持したまま処理することで、以下を実現しています。
- Who(話者識別): 誰が発話しているかを自動判定
- When(タイムスタンプ): 各発話の開始・終了時刻を出力
- What(トランスクリプション): 発話内容を文字起こし
また、固有名詞や業界用語を「ホットワード」として事前に登録し、認識精度を高めることができます。
ASR モデルの利用例(VibeVoice-ASR ドキュメントより引用):
# Gradio デモの起動
python demo/vibevoice_asr_gradio_demo.py --model_path microsoft/VibeVoice-ASR --share
技術的な詳細は VibeVoice-ASR ドキュメント を参照してください。
VibeVoice-TTS(1.5B): 90 分多話者音声合成
VibeVoice-TTS は、最大 90 分・最大 4 話者の会話音声を合成できるモデルです。
ただし、2025 年 9 月に TTS のコードがリポジトリから削除されています(詳細は後述)。現在は GitHub からコードを入手することはできませんが、モデルウェイト自体は Hugging Face(microsoft/VibeVoice-1.5B)で引き続き公開されています。
対応言語は英語・中国語のみです(他言語は予期しない出力が生じる可能性があります)。
VibeVoice-Realtime(0.5B): リアルタイムストリーミング TTS
VibeVoice-Realtime は、リアルタイム応用向けに設計された軽量の TTS モデルです。
- 初回音声出力: 約 200〜300 ms
- コンテキスト長: 8K トークン(約 10 分の音声)
- 動作環境: NVIDIA T4 または Mac M4 Pro でリアルタイム処理が可能
ストリーミングテキスト入力(タイピング中に音声生成開始)にも対応しており、音声アシスタントや会話 AI との統合に適しています。
技術仕様の詳細は VibeVoice-Realtime ドキュメント を参照してください。
なお、Realtime モデルはシングルスピーカーのみ対応(TTS の 4 話者対応とは異なります)です。
VibeVoice の技術的特徴:アーキテクチャの核心
VibeVoice の技術的な革新点は、超低フレームレート音声トークナイザーと次トークン拡散フレームワークの組み合わせにあります。
詳細な技術仕様は 公式サイト および 技術論文(arXiv: 2508.19205) を参照してください。
超低フレームレート音声トークナイザー(7.5 Hz)
従来の音声コーデックが 600〜1500 Hz 程度のフレームレートで音声をトークン化するのに対し、VibeVoice は 7.5 Hz という超低フレームレートで処理します(技術論文)。
これにより以下を実現しています。
- 音声を約 3,200 分の 1 の比率で圧縮(従来比 80 倍の効率化)
- 長時間の音声処理でもトークン数が爆発しない
- LLM の 64K コンテキストウィンドウで最大 90 分の音声を扱える
トークナイザーは「音響トークナイザー(Acoustic)」と「意味トークナイザー(Semantic)」の 2 種類で構成されており、音質の保持と意味的な文脈理解を両立しています。
次トークン拡散フレームワーク
VibeVoice の生成エンジンは、LLM(Qwen2.5)と拡散モデルを組み合わせた「次トークン拡散フレームワーク」です。
- LLM(Qwen2.5): テキスト文脈と対話フローを理解
- 拡散ヘッド(4 層): 高忠実度の音響的詳細を生成
LLM が「次に来るべき音声のコンテキスト」を予測し、拡散ヘッドがその音声を高品質に生成するという仕組みです。なお、技術論文での評価では Elevenlabs v3 alpha・Gemini 2.5 Pro preview TTS・CosyVoice 2 等との比較で主観・客観評価ともに高い成績を収めています(arXiv: 2508.19205)。
類似 OSS との比較:CosyVoice・F5-TTS との違い

VibeVoice を採用するかどうかを判断するため、代表的な類似 OSS との比較を示します。
主要指標の比較
項目 | VibeVoice(TTS 1.5B) | CosyVoice 3(0.5B) | F5-TTS |
|---|---|---|---|
パラメータ数 | 1.5B(実質 3B) | 0.5B | 〜300M |
英語 WER | 3.04% | 1.68% | 2.00% |
中国語話者類似度 | 74.4% | 78.0% | 74.1% |
最大生成長 | 90 分 | 短〜中 | 短〜中 |
多話者数 | 最大 4 名 | 1〜2 名 | 1〜2 名 |
ASR 統合 | あり(ASR 7B) | なし | なし |
ストリーミング | あり(Realtime 0.5B) | あり | あり |
TTS コード | 削除済み(モデルウェイトのみ公開) | 公開中 | 公開中 |
数値出典: arXiv: 2508.19205、CosyVoice 2 論文(arXiv: 2412.10117)
CosyVoice(Alibaba / FunAudioLLM)との比較
CosyVoice は Alibaba が開発する多言語 TTS モデルです。
CosyVoice が優位な点:
- モデルサイズが小さく(0.5B)、デプロイコストが低い
- 英語・中国語の精度(WER・話者類似度)が高い
- 中国語を含む 9 言語・18 方言に対応
- ゼロショット音声クローン機能が充実
VibeVoice が優位な点:
- 長形式生成(90 分 vs 数十秒〜数分)
- 多話者同時合成(4 名 vs 1〜2 名)
- TTS + ASR の統合ファミリー提供
採用判断の目安: 精度・効率重視 → CosyVoice / 長形式・多話者重視 → VibeVoice
F5-TTS との比較
F5-TTS はフロー・マッチングベースの非自己回帰型 TTS です。
F5-TTS が優位な点:
- アーキテクチャがシンプル(Duration モデル・音素アライメント不要)
- 軽量・高速な推論
- 活発なコミュニティ維持
VibeVoice が優位な点:
- 長形式生成能力
- LLM による文脈理解(自然な会話フロー)
- ASR との統合
採用判断の目安: シンプル・軽量重視 → F5-TTS / 長形式・文脈理解重視 → VibeVoice
TTS コードの削除と現在の利用可能範囲

VibeVoice を調べていると必ず目にする「TTS コード削除」の問題について、事実を整理します。
経緯
2025 年 8 月に公開されてから約 2 週間で、VibeVoice-TTS は深刻な悪用事例が報告されるようになりました。短い音声プロンプトから声質を再現できる特性が、声紋偽造(deepfake voice)に利用されたためです。
Microsoft は 2025 年 9 月 5 日、Responsible AI(責任ある AI)の原則に基づき、TTS のソースコードをリポジトリから削除しました。GitHub での削除後も VibeVoice は GitHub Trending の 2 位にランクインし(3,863 スター/日)、関心の高さが示されました(出典: Microsoft pulls VibeVoice speech synthesis repo after misuse | Hacker News)。
現在(2026年4月)の状況
項目 | 状況 |
|---|---|
VibeVoice-TTS コード | 削除済み(GitHub リポジトリには存在しない) |
VibeVoice-TTS モデルウェイト | Hugging Face で公開継続 |
VibeVoice-ASR コード | 公開継続(利用可能) |
VibeVoice-Realtime コード | 公開継続(利用可能) |
リポジトリのアクティブ状態 | archived=false。2026 年 4 月まで継続的に更新あり |
コミュニティによる TTS コードのバックアップ(vibevoice-community/VibeVoice)も存在しますが、公式のサポートはありません。
利用時の注意事項
VibeVoice の全モデルに共通した注意点です。
- 研究・開発目的のみ: 商用利用・実世界応用は Microsoft が推奨していない
- AI 生成の開示: 生成音声の利用時には AI による生成であることを明示する
- deepfake リスク: 音声クローニング・なりすまし・偽情報目的での利用は禁止
- 言語制限(TTS・Realtime): 英語・中国語のみ対応
VibeVoice の利用シナリオと採用判断のポイント
最後に、VibeVoice を自プロジェクトに採用するかどうかの判断基準を整理します。
VibeVoice が向いているケース
- 長時間の音声コンテンツ生成: ポッドキャスト、オーディオブック、ウェビナー録音の自動生成
- 多話者の会話音声合成: ダイアログシステム、マルチキャスト型コンテンツの自動制作
- 長尺音声の書き起こし: 会議録音(60 分以内)の議事録自動生成
- 研究・実験目的: 音声 AI の最新技術動向のキャッチアップ、アーキテクチャの学習
VibeVoice が向いていないケース
- 軽量・高速な推論が必要なケース: 7B の ASR は大規模なモデル。CosyVoice(0.5B)や F5-TTS の方が効率的
- 精度最優先のケース: 英語・中国語 WER では CosyVoice が優位
- 商用利用・プロダクション環境: 研究目的推奨のため、商用利用は慎重に検討
- TTS コードの直接改修が必要なケース: コードが削除されているため困難
採用判断フロー
目的は長形式(90分〜)または多話者(4名〜)の音声生成か?
├─ YES → VibeVoice-TTS(モデルウェイトのみ利用)
│ └─ TTS コードが必要 → コミュニティフォーク or 独自実装が必要
└─ NO → 軽量・高精度重視 → CosyVoice
シンプルな実装重視 → F5-TTS
リアルタイム処理 → VibeVoice-Realtime または CosyVoice
音声認識(ASR)が目的か?
├─ 長形式(60分〜)+ 話者分離 → VibeVoice-ASR(利用可能)
└─ 短形式 + 高精度 → Whisper large-v3
VibeVoice は長形式・多話者という特定のユースケースで他 OSS を大きく上回る性能を持っています。ただし TTS コード削除という現状も踏まえ、用途・要件に応じた慎重な判断をおすすめします。
最新情報は 公式 GitHub リポジトリ および 公式サイト で確認してください。
時間を自由に
挑戦と成長を共にできるメンバーとの出会いをお待ちしています。









