VibeVoiceが90分・4話者音声を生成できる仕組みと採用判断

Microsoft Research が 2025 年 8 月に公開した音声 AI フレームワーク「VibeVoice」が、GitHub 上で 4 万スター超えを記録し、エンジニアコミュニティの大きな注目を集めています。

しかし、「TTS コードが削除された」という話も耳にして、「結局、今でも使えるのか？」「CosyVoice や F5-TTS とどう違うのか？」と戸惑っている方も多いのではないでしょうか。

本記事では、VibeVoice の 3 つのモデル構成から技術的なアーキテクチャ、類似 OSS との比較、そして「TTS コード削除」の真相まで、採用判断に必要な情報を網羅的に解説します。

注記: 本記事はドキュメント・公式サイト・技術論文に基づいた解説です。実際に環境を構築して動作確認を行ったものではありません。

Contents — 目次

VibeVoice とは？Microsoft が公開したオープンソース音声 AI
VibeVoice のモデルファミリー：3 種のモデル構成
VibeVoice の技術的特徴：アーキテクチャの核心
類似 OSS との比較：CosyVoice・F5-TTS との違い
TTS コードの削除と現在の利用可能範囲
VibeVoice の利用シナリオと採用判断のポイント

—Workee / フリーランス向け

Workee で
次の案件を探す。

スキルと希望条件に合う案件だけが並ぶ、フリーランスエンジニア向けポータル。マッチング・進捗確認・契約更新までマイページで完結します。

Styleスキルマッチ型ポータル

Fee登録・稼働中も無料

Serviceマッチング・進捗・契約まで

無料で登録するサービス詳細を見る

Workee for Freelance

VibeVoice とは？Microsoft が公開したオープンソース音声 AI

VibeVoice は、Microsoft Research が開発したオープンソースの音声 AI モデルファミリーです。テキスト音声合成（TTS）と自動音声認識（ASR）の両機能を提供し、特に「長形式の音声」「多話者の会話」を高品質に処理できる点が特徴です。

公式リポジトリは github.com/microsoft/VibeVoice で、MIT ライセンスのもとで公開されています（2026年4月現在、スター数 40,233、フォーク数 4,668）。

VibeVoice の名称は、音声に「バイブ（雰囲気）」を与えるというコンセプトに由来します。ポッドキャストのような自然な会話音声を、テキストから直接生成することを目指しています。

従来の TTS・ASR システムが 1〜2 話者の短時間音声を対象としていたのに対し、VibeVoice は以下を目標に設計されています。

最大 90 分の連続音声を単一パスで生成（TTS）
最大 4 名の話者を区別した会話音声の合成（TTS）
最大 60 分の長形式音声を単一パスで認識（ASR）
50 言語以上への対応と多言語コードスイッチング（ASR）

VibeVoice のモデルファミリー：3 種のモデル構成

VibeVoice は以下の 3 つのモデルで構成されています。

モデル	パラメータ数	用途	現在の利用状況
VibeVoice-ASR	7B	長形式音声認識	コード・モデル共に公開
VibeVoice-TTS	1.5B	多話者音声合成	コード削除済み・モデルウェイトは Hugging Face で公開
VibeVoice-Realtime	0.5B	リアルタイム TTS	コード・モデル共に公開

VibeVoice-ASR（7B）: 60 分長形式音声認識

VibeVoice-ASR は、最大 60 分の音声を分割せず単一パスで処理できる音声認識モデルです。

従来の ASR は音声を短いチャンクに分割して処理するため、話者の追跡や文脈理解が困難でした。VibeVoice-ASR はグローバルコンテキストを保持したまま処理することで、以下を実現しています。

Who（話者識別）: 誰が発話しているかを自動判定
When（タイムスタンプ）: 各発話の開始・終了時刻を出力
What（トランスクリプション）: 発話内容を文字起こし

また、固有名詞や業界用語を「ホットワード」として事前に登録し、認識精度を高めることができます。

ASR モデルの利用例（VibeVoice-ASR ドキュメントより引用）:

bash

# Gradio デモの起動
python demo/vibevoice_asr_gradio_demo.py --model_path microsoft/VibeVoice-ASR --share

技術的な詳細は VibeVoice-ASR ドキュメントを参照してください。

VibeVoice-TTS（1.5B）: 90 分多話者音声合成

VibeVoice-TTS は、最大 90 分・最大 4 話者の会話音声を合成できるモデルです。

ただし、2025 年 9 月に TTS のコードがリポジトリから削除されています（詳細は後述）。現在は GitHub からコードを入手することはできませんが、モデルウェイト自体は Hugging Face（microsoft/VibeVoice-1.5B）で引き続き公開されています。

対応言語は英語・中国語のみです（他言語は予期しない出力が生じる可能性があります）。

VibeVoice-Realtime（0.5B）: リアルタイムストリーミング TTS

VibeVoice-Realtime は、リアルタイム応用向けに設計された軽量の TTS モデルです。

初回音声出力: 約 200〜300 ms
コンテキスト長: 8K トークン（約 10 分の音声）
動作環境: NVIDIA T4 または Mac M4 Pro でリアルタイム処理が可能

ストリーミングテキスト入力（タイピング中に音声生成開始）にも対応しており、音声アシスタントや会話 AI との統合に適しています。

技術仕様の詳細は VibeVoice-Realtime ドキュメントを参照してください。

なお、Realtime モデルはシングルスピーカーのみ対応（TTS の 4 話者対応とは異なります）です。

VibeVoice の技術的特徴：アーキテクチャの核心

VibeVoice の技術的な革新点は、超低フレームレート音声トークナイザーと次トークン拡散フレームワークの組み合わせにあります。

詳細な技術仕様は公式サイトおよび技術論文（arXiv: 2508.19205）を参照してください。

超低フレームレート音声トークナイザー（7.5 Hz）

従来の音声コーデックが 600〜1500 Hz 程度のフレームレートで音声をトークン化するのに対し、VibeVoice は 7.5 Hz という超低フレームレートで処理します（技術論文）。

これにより以下を実現しています。

音声を約 3,200 分の 1 の比率で圧縮（従来比 80 倍の効率化）
長時間の音声処理でもトークン数が爆発しない
LLM の 64K コンテキストウィンドウで最大 90 分の音声を扱える

トークナイザーは「音響トークナイザー（Acoustic）」と「意味トークナイザー（Semantic）」の 2 種類で構成されており、音質の保持と意味的な文脈理解を両立しています。

次トークン拡散フレームワーク

VibeVoice の生成エンジンは、LLM（Qwen2.5）と拡散モデルを組み合わせた「次トークン拡散フレームワーク」です。

LLM（Qwen2.5）: テキスト文脈と対話フローを理解
拡散ヘッド（4 層）: 高忠実度の音響的詳細を生成

LLM が「次に来るべき音声のコンテキスト」を予測し、拡散ヘッドがその音声を高品質に生成するという仕組みです。なお、技術論文での評価では Elevenlabs v3 alpha・Gemini 2.5 Pro preview TTS・CosyVoice 2 等との比較で主観・客観評価ともに高い成績を収めています（arXiv: 2508.19205）。

類似 OSS との比較：CosyVoice・F5-TTS との違い

VibeVoice を採用するかどうかを判断するため、代表的な類似 OSS との比較を示します。

主要指標の比較

項目	VibeVoice（TTS 1.5B）	CosyVoice 3（0.5B）	F5-TTS
パラメータ数	1.5B（実質 3B）	0.5B	〜300M
英語 WER	3.04%	1.68%	2.00%
中国語話者類似度	74.4%	78.0%	74.1%
最大生成長	90 分	短〜中	短〜中
多話者数	最大 4 名	1〜2 名	1〜2 名
ASR 統合	あり（ASR 7B）	なし	なし
ストリーミング	あり（Realtime 0.5B）	あり	あり
TTS コード	削除済み（モデルウェイトのみ公開）	公開中	公開中

数値出典: arXiv: 2508.19205、CosyVoice 2 論文（arXiv: 2412.10117）

CosyVoice（Alibaba / FunAudioLLM）との比較

CosyVoice は Alibaba が開発する多言語 TTS モデルです。

CosyVoice が優位な点:

モデルサイズが小さく（0.5B）、デプロイコストが低い
英語・中国語の精度（WER・話者類似度）が高い
中国語を含む 9 言語・18 方言に対応
ゼロショット音声クローン機能が充実

VibeVoice が優位な点:

長形式生成（90 分 vs 数十秒〜数分）
多話者同時合成（4 名 vs 1〜2 名）
TTS + ASR の統合ファミリー提供

採用判断の目安: 精度・効率重視 → CosyVoice / 長形式・多話者重視 → VibeVoice

F5-TTS との比較

F5-TTS はフロー・マッチングベースの非自己回帰型 TTS です。

F5-TTS が優位な点:

アーキテクチャがシンプル（Duration モデル・音素アライメント不要）
軽量・高速な推論
活発なコミュニティ維持

VibeVoice が優位な点:

長形式生成能力
LLM による文脈理解（自然な会話フロー）
ASR との統合

採用判断の目安: シンプル・軽量重視 → F5-TTS / 長形式・文脈理解重視 → VibeVoice

TTS コードの削除と現在の利用可能範囲

VibeVoice を調べていると必ず目にする「TTS コード削除」の問題について、事実を整理します。

経緯

2025 年 8 月に公開されてから約 2 週間で、VibeVoice-TTS は深刻な悪用事例が報告されるようになりました。短い音声プロンプトから声質を再現できる特性が、声紋偽造（deepfake voice）に利用されたためです。

Microsoft は 2025 年 9 月 5 日、Responsible AI（責任ある AI）の原則に基づき、TTS のソースコードをリポジトリから削除しました。GitHub での削除後も VibeVoice は GitHub Trending の 2 位にランクインし（3,863 スター/日）、関心の高さが示されました（出典: Microsoft pulls VibeVoice speech synthesis repo after misuse | Hacker News）。

現在（2026年4月）の状況

項目	状況
VibeVoice-TTS コード	削除済み（GitHub リポジトリには存在しない）
VibeVoice-TTS モデルウェイト	Hugging Face で公開継続
VibeVoice-ASR コード	公開継続（利用可能）
VibeVoice-Realtime コード	公開継続（利用可能）
リポジトリのアクティブ状態	archived=false。2026 年 4 月まで継続的に更新あり

コミュニティによる TTS コードのバックアップ（vibevoice-community/VibeVoice）も存在しますが、公式のサポートはありません。

利用時の注意事項

VibeVoice の全モデルに共通した注意点です。

研究・開発目的のみ: 商用利用・実世界応用は Microsoft が推奨していない
AI 生成の開示: 生成音声の利用時には AI による生成であることを明示する
deepfake リスク: 音声クローニング・なりすまし・偽情報目的での利用は禁止
言語制限（TTS・Realtime）: 英語・中国語のみ対応

VibeVoice の利用シナリオと採用判断のポイント

最後に、VibeVoice を自プロジェクトに採用するかどうかの判断基準を整理します。

VibeVoice が向いているケース

長時間の音声コンテンツ生成: ポッドキャスト、オーディオブック、ウェビナー録音の自動生成
多話者の会話音声合成: ダイアログシステム、マルチキャスト型コンテンツの自動制作
長尺音声の書き起こし: 会議録音（60 分以内）の議事録自動生成
研究・実験目的: 音声 AI の最新技術動向のキャッチアップ、アーキテクチャの学習

VibeVoice が向いていないケース

軽量・高速な推論が必要なケース: 7B の ASR は大規模なモデル。CosyVoice（0.5B）や F5-TTS の方が効率的
精度最優先のケース: 英語・中国語 WER では CosyVoice が優位
商用利用・プロダクション環境: 研究目的推奨のため、商用利用は慎重に検討
TTS コードの直接改修が必要なケース: コードが削除されているため困難

採用判断フロー

text

目的は長形式（90分〜）または多話者（4名〜）の音声生成か？
├─ YES → VibeVoice-TTS（モデルウェイトのみ利用）
│          └─ TTS コードが必要 → コミュニティフォーク or 独自実装が必要
└─ NO  → 軽量・高精度重視 → CosyVoice
          シンプルな実装重視 → F5-TTS
          リアルタイム処理 → VibeVoice-Realtime または CosyVoice

音声認識（ASR）が目的か？
├─ 長形式（60分〜）+ 話者分離 → VibeVoice-ASR（利用可能）
└─ 短形式 + 高精度 → Whisper large-v3

VibeVoice は長形式・多話者という特定のユースケースで他 OSS を大きく上回る性能を持っています。ただし TTS コード削除という現状も踏まえ、用途・要件に応じた慎重な判断をおすすめします。

最新情報は公式 GitHub リポジトリおよび公式サイトで確認してください。

—Workee / フリーランス向け

Workee で
次の案件を探す。

スキルと希望条件に合う案件だけが並ぶ、フリーランスエンジニア向けポータル。マッチング・進捗確認・契約更新までマイページで完結します。

Styleスキルマッチ型ポータル

Fee登録・稼働中も無料

Serviceマッチング・進捗・契約まで

無料で登録するサービス詳細を見る

Workee for Freelance

注記: 本記事はドキュメント・公式サイト・技術論文に基づいた解説です。実際に環境を構築して動作確認を行ったものではありません。

Contents — 目次

VibeVoice とは？Microsoft が公開したオープンソース音声 AI
VibeVoice のモデルファミリー：3 種のモデル構成
VibeVoice の技術的特徴：アーキテクチャの核心
類似 OSS との比較：CosyVoice・F5-TTS との違い
TTS コードの削除と現在の利用可能範囲
VibeVoice の利用シナリオと採用判断のポイント

—Workee / フリーランス向け

Workee で
次の案件を探す。

スキルと希望条件に合う案件だけが並ぶ、フリーランスエンジニア向けポータル。マッチング・進捗確認・契約更新までマイページで完結します。

Styleスキルマッチ型ポータル

Fee登録・稼働中も無料

Serviceマッチング・進捗・契約まで

無料で登録するサービス詳細を見る

Workee for Freelance

VibeVoice とは？Microsoft が公開したオープンソース音声 AI

公式リポジトリは github.com/microsoft/VibeVoice で、MIT ライセンスのもとで公開されています（2026年4月現在、スター数 40,233、フォーク数 4,668）。

従来の TTS・ASR システムが 1〜2 話者の短時間音声を対象としていたのに対し、VibeVoice は以下を目標に設計されています。

最大 90 分の連続音声を単一パスで生成（TTS）
最大 4 名の話者を区別した会話音声の合成（TTS）
最大 60 分の長形式音声を単一パスで認識（ASR）
50 言語以上への対応と多言語コードスイッチング（ASR）

VibeVoice のモデルファミリー：3 種のモデル構成

VibeVoice は以下の 3 つのモデルで構成されています。

モデル	パラメータ数	用途	現在の利用状況
VibeVoice-ASR	7B	長形式音声認識	コード・モデル共に公開
VibeVoice-TTS	1.5B	多話者音声合成	コード削除済み・モデルウェイトは Hugging Face で公開
VibeVoice-Realtime	0.5B	リアルタイム TTS	コード・モデル共に公開

VibeVoice-ASR（7B）: 60 分長形式音声認識

VibeVoice-ASR は、最大 60 分の音声を分割せず単一パスで処理できる音声認識モデルです。

Who（話者識別）: 誰が発話しているかを自動判定
When（タイムスタンプ）: 各発話の開始・終了時刻を出力
What（トランスクリプション）: 発話内容を文字起こし

また、固有名詞や業界用語を「ホットワード」として事前に登録し、認識精度を高めることができます。

ASR モデルの利用例（VibeVoice-ASR ドキュメントより引用）:

bash

# Gradio デモの起動
python demo/vibevoice_asr_gradio_demo.py --model_path microsoft/VibeVoice-ASR --share

技術的な詳細は VibeVoice-ASR ドキュメントを参照してください。

VibeVoice-TTS（1.5B）: 90 分多話者音声合成

VibeVoice-TTS は、最大 90 分・最大 4 話者の会話音声を合成できるモデルです。

対応言語は英語・中国語のみです（他言語は予期しない出力が生じる可能性があります）。

VibeVoice-Realtime（0.5B）: リアルタイムストリーミング TTS

VibeVoice-Realtime は、リアルタイム応用向けに設計された軽量の TTS モデルです。

初回音声出力: 約 200〜300 ms
コンテキスト長: 8K トークン（約 10 分の音声）
動作環境: NVIDIA T4 または Mac M4 Pro でリアルタイム処理が可能

ストリーミングテキスト入力（タイピング中に音声生成開始）にも対応しており、音声アシスタントや会話 AI との統合に適しています。

技術仕様の詳細は VibeVoice-Realtime ドキュメントを参照してください。

なお、Realtime モデルはシングルスピーカーのみ対応（TTS の 4 話者対応とは異なります）です。

VibeVoice の技術的特徴：アーキテクチャの核心

VibeVoice の技術的な革新点は、超低フレームレート音声トークナイザーと次トークン拡散フレームワークの組み合わせにあります。

詳細な技術仕様は公式サイトおよび技術論文（arXiv: 2508.19205）を参照してください。

超低フレームレート音声トークナイザー（7.5 Hz）

これにより以下を実現しています。

音声を約 3,200 分の 1 の比率で圧縮（従来比 80 倍の効率化）
長時間の音声処理でもトークン数が爆発しない
LLM の 64K コンテキストウィンドウで最大 90 分の音声を扱える

次トークン拡散フレームワーク

VibeVoice の生成エンジンは、LLM（Qwen2.5）と拡散モデルを組み合わせた「次トークン拡散フレームワーク」です。

LLM（Qwen2.5）: テキスト文脈と対話フローを理解
拡散ヘッド（4 層）: 高忠実度の音響的詳細を生成

類似 OSS との比較：CosyVoice・F5-TTS との違い

VibeVoice を採用するかどうかを判断するため、代表的な類似 OSS との比較を示します。

主要指標の比較

項目	VibeVoice（TTS 1.5B）	CosyVoice 3（0.5B）	F5-TTS
パラメータ数	1.5B（実質 3B）	0.5B	〜300M
英語 WER	3.04%	1.68%	2.00%
中国語話者類似度	74.4%	78.0%	74.1%
最大生成長	90 分	短〜中	短〜中
多話者数	最大 4 名	1〜2 名	1〜2 名
ASR 統合	あり（ASR 7B）	なし	なし
ストリーミング	あり（Realtime 0.5B）	あり	あり
TTS コード	削除済み（モデルウェイトのみ公開）	公開中	公開中

数値出典: arXiv: 2508.19205、CosyVoice 2 論文（arXiv: 2412.10117）

CosyVoice（Alibaba / FunAudioLLM）との比較

CosyVoice は Alibaba が開発する多言語 TTS モデルです。

CosyVoice が優位な点:

モデルサイズが小さく（0.5B）、デプロイコストが低い
英語・中国語の精度（WER・話者類似度）が高い
中国語を含む 9 言語・18 方言に対応
ゼロショット音声クローン機能が充実

VibeVoice が優位な点:

長形式生成（90 分 vs 数十秒〜数分）
多話者同時合成（4 名 vs 1〜2 名）
TTS + ASR の統合ファミリー提供

採用判断の目安: 精度・効率重視 → CosyVoice / 長形式・多話者重視 → VibeVoice

F5-TTS との比較

F5-TTS はフロー・マッチングベースの非自己回帰型 TTS です。

F5-TTS が優位な点:

アーキテクチャがシンプル（Duration モデル・音素アライメント不要）
軽量・高速な推論
活発なコミュニティ維持

VibeVoice が優位な点:

長形式生成能力
LLM による文脈理解（自然な会話フロー）
ASR との統合

採用判断の目安: シンプル・軽量重視 → F5-TTS / 長形式・文脈理解重視 → VibeVoice

TTS コードの削除と現在の利用可能範囲

VibeVoice を調べていると必ず目にする「TTS コード削除」の問題について、事実を整理します。

経緯

現在（2026年4月）の状況

項目	状況
VibeVoice-TTS コード	削除済み（GitHub リポジトリには存在しない）
VibeVoice-TTS モデルウェイト	Hugging Face で公開継続
VibeVoice-ASR コード	公開継続（利用可能）
VibeVoice-Realtime コード	公開継続（利用可能）
リポジトリのアクティブ状態	archived=false。2026 年 4 月まで継続的に更新あり

コミュニティによる TTS コードのバックアップ（vibevoice-community/VibeVoice）も存在しますが、公式のサポートはありません。

利用時の注意事項

VibeVoice の全モデルに共通した注意点です。

研究・開発目的のみ: 商用利用・実世界応用は Microsoft が推奨していない
AI 生成の開示: 生成音声の利用時には AI による生成であることを明示する
deepfake リスク: 音声クローニング・なりすまし・偽情報目的での利用は禁止
言語制限（TTS・Realtime）: 英語・中国語のみ対応

VibeVoice の利用シナリオと採用判断のポイント

最後に、VibeVoice を自プロジェクトに採用するかどうかの判断基準を整理します。

VibeVoice が向いているケース

長時間の音声コンテンツ生成: ポッドキャスト、オーディオブック、ウェビナー録音の自動生成
多話者の会話音声合成: ダイアログシステム、マルチキャスト型コンテンツの自動制作
長尺音声の書き起こし: 会議録音（60 分以内）の議事録自動生成
研究・実験目的: 音声 AI の最新技術動向のキャッチアップ、アーキテクチャの学習

VibeVoice が向いていないケース

軽量・高速な推論が必要なケース: 7B の ASR は大規模なモデル。CosyVoice（0.5B）や F5-TTS の方が効率的
精度最優先のケース: 英語・中国語 WER では CosyVoice が優位
商用利用・プロダクション環境: 研究目的推奨のため、商用利用は慎重に検討
TTS コードの直接改修が必要なケース: コードが削除されているため困難

採用判断フロー

text

目的は長形式（90分〜）または多話者（4名〜）の音声生成か？
├─ YES → VibeVoice-TTS（モデルウェイトのみ利用）
│          └─ TTS コードが必要 → コミュニティフォーク or 独自実装が必要
└─ NO  → 軽量・高精度重視 → CosyVoice
          シンプルな実装重視 → F5-TTS
          リアルタイム処理 → VibeVoice-Realtime または CosyVoice

音声認識（ASR）が目的か？
├─ 長形式（60分〜）+ 話者分離 → VibeVoice-ASR（利用可能）
└─ 短形式 + 高精度 → Whisper large-v3

最新情報は公式 GitHub リポジトリおよび公式サイトで確認してください。

—Workee / フリーランス向け

Workee で
次の案件を探す。

スキルと希望条件に合う案件だけが並ぶ、フリーランスエンジニア向けポータル。マッチング・進捗確認・契約更新までマイページで完結します。

Styleスキルマッチ型ポータル

Fee登録・稼働中も無料

Serviceマッチング・進捗・契約まで

無料で登録するサービス詳細を見る

Workee for Freelance

Workee で次の案件を探す。

VibeVoice とは？Microsoft が公開したオープンソース音声 AI

VibeVoice のモデルファミリー：3 種のモデル構成

VibeVoice-ASR（7B）: 60 分長形式音声認識

VibeVoice-TTS（1.5B）: 90 分多話者音声合成

VibeVoice-Realtime（0.5B）: リアルタイムストリーミング TTS

VibeVoice の技術的特徴：アーキテクチャの核心

超低フレームレート音声トークナイザー（7.5 Hz）

次トークン拡散フレームワーク

類似 OSS との比較：CosyVoice・F5-TTS との違い

主要指標の比較

CosyVoice（Alibaba / FunAudioLLM）との比較

F5-TTS との比較

TTS コードの削除と現在の利用可能範囲

経緯

現在（2026年4月）の状況

利用時の注意事項

VibeVoice の利用シナリオと採用判断のポイント

VibeVoice が向いているケース

VibeVoice が向いていないケース

採用判断フロー

Workee で次の案件を探す。

AIエージェントを安全に運用するOSS「agent-governance-toolkit」の仕組み

AIエージェント拡張に「Cursor Plugins」が選ばれる理由

自己ホスト型WhatsApp APIを構築するOSS「OpenWA」の仕組みと選び方

お役立ちブログ

事例ブログ

おすすめ紹介

Workee フリーランス向けブログ

Workee 発注者向けブログ

Workee で次の案件を探す。

VibeVoice とは？Microsoft が公開したオープンソース音声 AI

VibeVoice のモデルファミリー：3 種のモデル構成

VibeVoice-ASR（7B）: 60 分長形式音声認識

VibeVoice-TTS（1.5B）: 90 分多話者音声合成

VibeVoice-Realtime（0.5B）: リアルタイムストリーミング TTS

VibeVoice の技術的特徴：アーキテクチャの核心

超低フレームレート音声トークナイザー（7.5 Hz）

次トークン拡散フレームワーク

類似 OSS との比較：CosyVoice・F5-TTS との違い

主要指標の比較

CosyVoice（Alibaba / FunAudioLLM）との比較

F5-TTS との比較

TTS コードの削除と現在の利用可能範囲

経緯

現在（2026年4月）の状況

利用時の注意事項

VibeVoice の利用シナリオと採用判断のポイント

VibeVoice が向いているケース

VibeVoice が向いていないケース

採用判断フロー

Workee で次の案件を探す。

AIエージェントを安全に運用するOSS「agent-governance-toolkit」の仕組み

AIエージェント拡張に「Cursor Plugins」が選ばれる理由

自己ホスト型WhatsApp APIを構築するOSS「OpenWA」の仕組みと選び方

お役立ちブログ

事例ブログ

おすすめ紹介

Workee フリーランス向けブログ

Workee 発注者向けブログ

Workee で
次の案件を探す。

Workee で
次の案件を探す。

Workee で
次の案件を探す。

Workee で
次の案件を探す。