OpenAI Deep Research や Gemini Deep Research のようなクラウド型のリサーチエージェントは便利ですが、顧客契約や社内規定で「機密データを外部に送信できない」というケースは少なくありません。社内 PoC で代替を探すと、gpt-researcher open_deep_research local-deep-researcher など似た名前の OSS が次々に見つかり、どれを採用すべきか判断に迷う場面が増えています。
特に厄介なのが、LearningCircuit/local-deep-research(本記事の対象)と langchain-ai/local-deep-researcher(末尾 -er)のように名前がほぼ同じプロジェクトが並走していることです。READMEを流し読みするだけでは違いが見えず、PoC に進める前段階で時間を浪費しがちです。
本記事では、LearningCircuit/local-deep-research を対象に、機能カバレッジ・アーキテクチャ・セキュリティ設計・類似 OSS との差分を、公式ドキュメントベースで整理します。「採用候補から外す/PoC 候補に残す/本命として深掘りする」のいずれかを 30 分で判断できるよう、メンテナンス健全性や運用上の注意点まで一通り押さえます。
なお本記事は動作検証を行わず、公式 README・ドキュメント・リポジトリメタデータのみを情報源としています。数値は 2026-05-08 時点の取得値です。
local-deep-research とは何か(OSSの概要と立ち位置)
LearningCircuit/local-deep-research は、ローカル LLM とクラウド LLM のいずれにも対応し、複数の検索エンジン(Web・学術・プライベート文書)を横断して自律的に深掘り調査を行うオープンソースのリサーチアシスタントです。Ollama や LM Studio などのローカル推論基盤と組み合わせれば、データを外部に送信せずに「Deep Research」相当の調査ワークフローを完結できる点が最大の特徴です(GitHub README)。
リポジトリのメタデータは以下の通りです(2026-05-08 取得時点)。
項目 | 値 |
|---|---|
主言語 | Python |
ライセンス | MIT |
スター数 | 6,477 |
Fork 数 | 563 |
Open Issues | 267 |
最終 push | 2026-05-08(当日) |
作成日 | 2025-02-09 |
最新リリース | v1.6.9(2026年5月2日) |
作成から約 15 ヶ月で 6,500 弱のスターを集め、最終 push が当日、Issues も活発というメンテナンス状況です。MIT ライセンスのため商用利用・改変・配布が可能で、義務は著作権表示の維持のみです。
同名プロジェクトとの取り違え注意
混同しやすい同名プロジェクトとして、LangChain 公式の langchain-ai/local-deep-researcher(末尾 -researcher)があります。本記事の対象は LearningCircuit/local-deep-research(末尾 -research)であり、両者は機能・配布形態・ライセンスが異なる別プロジェクトです。情報を参照する際は必ず GitHub の owner と URL を確認してください。
主な機能とサポート範囲
自プロジェクトに採用できるかを判断するうえで、まず機能カバレッジを把握します。本 OSS の機能は「リサーチモード」「対応 LLM」「対応検索エンジン」「その他の高度機能」の 4 軸で整理できます。
5つのリサーチモード
README では以下の 5 つのモードが提示されています。
- Quick Summary: 30 秒〜3 分程度で引用付きの要約を生成
- Detailed Research: 包括的な分析レポートを生成
- Report Generation: Markdown / PDF 形式のレポートを出力
- Document Analysis: ローカルに置いたプライベートな知識ベースを検索対象にする
- LangGraph Agent Strategy: LLM が検索エンジンを動的に選択する自律エージェントモード
要約用途と詳細調査用途を切り替えられるため、業務の粒度に合わせた使い分けが可能です。
対応 LLM(ローカル + クラウド)
ローカル LLM・クラウド LLM の両系統がサポートされています。
カテゴリ | 対応バックエンド |
|---|---|
ローカル | Ollama(既定 |
クラウド | OpenAI(GPT-4 / GPT-3.5)/ Anthropic(Claude 3)/ Google(Gemini)/ OpenRouter 経由 100+ モデル |
ローカル側は Llama 3 / Mistral / Gemma / DeepSeek / Qwen など主要なオープンウェイトモデルに互換があり、機密データを取り扱うケースではクラウド側を無効化したまま運用できます。
10種類以上の検索エンジン
本 OSS の独自性が最も出るのが検索エンジンの幅です。アカデミック検索の対応範囲が他の Deep Research 系 OSS と比べて広く、研究・医療・法務などの専門領域での使い勝手が良好です(docs/search-engines.md)。
カテゴリ | 検索エンジン |
|---|---|
アカデミック(無料) | arXiv / PubMed / Semantic Scholar / NASA ADS / Zenodo / PubChem |
一般 | Wikipedia / SearXNG / GitHub / Elasticsearch / Wayback Machine / The Guardian / Wikinews |
プレミアム | Tavily(AI検索)/ Google(SerpAPI / Programmable Search Engine)/ Brave Search |
カスタム | ローカル文書 / LangChain retrievers(任意のベクトルストア)/ メタ検索 |
LangChain retrievers をそのまま検索エンジンとして組み込めるため、既存の社内 RAG 基盤と接続する設計も視野に入ります。
その他の機能
リサーチ機能本体に加えて、運用に役立つ機能群も整備されています。
- REST API(ユーザー単位の暗号化 DB と紐づく)
- 分析ダッシュボード(コスト・パフォーマンス・利用状況)
- Journal Quality System(21 万以上のソースを OpenAlex / DOAJ 経由で評価し、ハゲタカジャーナルを検出)
- News Subscriptions(カスタムスケジュールの自動ダイジェスト)
- WebSocket によるリアルタイム更新
- PDF / Markdown エクスポート
- LangChain 統合(任意のベクトルストアを検索エンジン化)
- MCP Server(Claude Desktop / Claude Code 連携)
特に Journal Quality System は研究・医療・法務領域で参照ソースの質をフィルタしたい場面で効きます。
仕組み(リサーチワークフローと技術アーキテクチャ)
「ブラックボックスではなく、何が動いているかを把握したい」というシニアエンジニアの懸念に応えるため、内部のリサーチワークフローを整理します。公式の解説(docs/architecture.md)によれば、概ね以下の 5 ステップで構成されます。
- クエリ受信: ユーザーが調査したいテーマを投入
- 横断検索: Web・学術・ローカル文書を複数の検索エンジンで並列に取得
- 引用付きレポート合成: LLM が取得文書を要約・統合し、出典リンク付きでレポート化
- ライブラリへの取り込み: 結果を内部ライブラリ(暗号化 DB)に保存
- 再利用: 次回以降は自前ライブラリと Web を併用して継続調査
特に「LangGraph Agent Strategy」モードでは、LLM が中間結果を見ながら次にどの検索エンジンを叩くかを動的に決定します。アカデミック領域は Semantic Scholar、一般情報は SearXNG、最新ニュースは Tavily、というように検索エンジンを切り替えるロジックがエージェント側に内包されている点が、シンプルな単一検索エンジン依存の OSS との差です。
プライバシー・セキュリティ設計
機密データを扱う検索者にとって、本 OSS の最大の差別化要因はセキュリティ設計です。公式の SECURITY.md では以下の方針が明記されています。
per-user の SQLCipher(AES-256)暗号化 DB
ユーザーごとに独立した SQLCipher データベースが用意され、AES-256 で暗号化されます。マルチユーザー運用でも、他ユーザーの調査履歴・取り込み済み文書には物理的にアクセスできない設計です。パスワードリカバリ機構は意図的に実装されておらず、サーバ管理者であっても他ユーザーの DB を復号できない「ゼロナレッジ・アーキテクチャ」を採用しています。
テレメトリ無し・外部送信は明示的な操作のみ
利用解析やトラッキングのテレメトリは実装されていません。外部 API(OpenAI など)に対する送信も、ユーザーがクラウド LLM やプレミアム検索エンジンを明示的に有効化した場合に限定されます。Ollama などローカル系のみで構成すれば、推論・検索・保存をすべてローカルに閉じ込められます。
サプライチェーン対策(Cosign 署名 / SLSA provenance / SBOM)
Docker 配布物に対しては、Cosign による署名・SLSA provenance の添付・SBOM の提供が行われています。社内のセキュリティ要件で「サプライチェーンの来歴検証」が求められるケースでも、配布物の真正性確認に必要な情報が揃っています。CodeQL・Semgrep などの静的解析もリポジトリ内で運用されています。
ベンチマークとモデル選定
「ローカル LLM だと精度が出ないのでは」という不安に対しては、公式の README とコミュニティ運営のリーダーボードが目安になります。
README では SimpleQA で約 95% の精度(GPT-4.1-mini + SearXNG + focused-iteration ストラテジ)が暫定値として示されています。これは限定サンプルでの結果であり、設定に強く依存することが README にも注記されています。Description では「Qwen3.6-27B on a 3090 で約 95%」というローカル構成の数値も示されており、適切なローカルモデル選定で実用域に到達することが示唆されています。
モデル別・設定別の比較は、コミュニティ運営の ldr-benchmarks(Hugging Face) で CSV リーダーボードとして公開されています。PoC で採用候補のローカルモデルを絞り込む際は、このデータセットを参照すると意思決定が早まります。
インストールと利用開始(公式手順の整理)
PoC に進む際の最短ルートを、公式が示している手順から整理します。インストール手段は 4 種類あり、公式は Docker Compose を「ほとんどのユーザーに推奨」としています(docs/installation.md)。
方法 | 推奨用途 |
|---|---|
Docker Compose | ほとんどのユーザー向けの推奨手段 |
Docker | 最小構成 |
pip install | 開発者・Python 統合 |
Unraid | Unraid サーバ環境 |
公式 README に記載されている Docker Compose のクイックスタートコマンドは以下の通りです(README からの抜粋・改変なし)。
curl -O https://raw.githubusercontent.com/LearningCircuit/local-deep-research/main/docker-compose.yml && docker compose up -d
出典: README.md
README によれば、起動後は約 30 秒で http://localhost:5000 の Web UI にアクセスできます。
Python から API として利用する場合の最小例も README に示されています(README からの抜粋・改変なし)。
from local_deep_research.api import quick_query
summary = quick_query("username", "password", "What is quantum computing?")
出典: README.md
API 経由の利用詳細は docs/api-quickstart.md に整理されています。MCP Server を使えば Claude Desktop・Claude Code から呼び出すことも可能で、既存のエージェント環境に組み込みやすい設計です。
類似 OSS との比較と選定の判断軸
採用判断で最も悩むのが「どれを選ぶか」です。代表的な類似 OSS と並べて主要項目を整理します。
項目 | LearningCircuit/local-deep-research | |||
|---|---|---|---|---|
Stars | 6.5k | 11.3k | 26.9k | 9.1k |
License | MIT | MIT | Apache 2.0 | MIT |
ローカル LLM 既定対応 | Ollama / LM Studio / llama.cpp 同梱 | OpenRouter 経由・Ollama 可 | OpenAI 互換 API ラッパ経由 | Ollama / LM Studio 既定 |
アカデミック検索 | arXiv / PubMed / Semantic Scholar / NASA ADS / Zenodo / PubChem 等 | Tavily 中心 + MCP 拡張 | Tavily | DuckDuckGo / Tavily / SearXNG / Perplexity |
プライベート文書検索 | 暗号化ライブラリ + LangChain retrievers | 言及なし | PDF / Word / Excel 等 | 言及なし |
暗号化(per-user DB) | SQLCipher AES-256 | なし | なし | なし |
サプライチェーン対策 | Cosign / SLSA / SBOM 等多数 | 標準 | 標準 | 標準 |
MCP Server 連携 | 対応(ldr-mcp) | MCP 互換 | 限定的 | 言及なし |
選定の判断軸を、想定読者の状況別に整理します。
- 機密データを扱う研究・医療・法務領域 →
LearningCircuit/local-deep-researchが有力。per-user の暗号化 DB と豊富なアカデミック検索エンジンが揃っている - クラウド送信が許容され、Web 中心の汎用調査 →
gpt-researcherを先に検討。スター数 26.9k とコミュニティ規模が最大で、PDF 等のローカル文書取り込みも備える - LangChain 公式エコシステムに統合したい →
langchain-ai/open_deep_researchを先に検討。LangGraph Studio との連携が前提化されている - 同名で混同しやすい LangChain 公式の軽量版 →
langchain-ai/local-deep-researcher(末尾 -er)。本記事の対象とは別プロジェクトで、機能セットも異なるので URL で必ず区別する
「ローカル完結 × アカデミック検索の幅 × per-user 暗号化」を一度に満たす選択肢は、現状では本リポジトリが最有力です。
採用前にチェックすべきポイント(メンテナンス・ライセンス・運用面)
PoC に進む前に確認しておくべき観点を整理します。
メンテナンス健全性
- 作成: 2025-02-09(運用開始から約 15 ヶ月)
- 最終 push: 2026-05-08(当日)
- Open Issues: 267 件(活発な利用とフィードバック)
- 最新リリース: v1.6.9(2026 年 5 月 2 日)
- 総リリース数: 153
リリース頻度・コミット頻度ともに高く、当面のメンテナンス停止リスクは小さいと判断できます。
ライセンス
MIT ライセンスのため、商用利用・改変・再配布が可能です。義務は著作権表示・ライセンス表記の維持のみで、社内ツールへの組み込みでもライセンス上の障害は基本的に発生しません。
運用上の留意点
- パスワードリカバリ不可: per-user 暗号化 DB の特性上、ユーザーがパスワードを失念すると当該ユーザーの調査履歴は復号できなくなります。社内運用ではパスワード管理ポリシー・代替アカウント運用を事前設計する必要があります
- クラウド連携の明示制御: クラウド LLM やプレミアム検索を有効化すると、それらのサービスへ調査クエリが送信されます。機密データを扱う運用では、設定ファイルでローカル系のみに制限するルールを社内で定義しておくと安全です
- 検索エンジンの API キー管理: Tavily / SerpAPI / Brave Search などプレミアム検索を使う場合、API キーの取扱いは秘匿情報管理の対象になります
PoC の進め方
公式手順をベースに、以下の順で読み進めると着地しやすいと思われます。
- README.md で全体像を確認
- docs/installation.md で Docker Compose セットアップ手順を取得
- SECURITY.md で暗号化方式・運用上の制約を社内のセキュリティ担当と共有
- docs/search-engines.md で必要な検索エンジンを取捨選択
- docs/api-quickstart.md で API 連携の入口を確認
まとめ
LearningCircuit/local-deep-research は、ローカル LLM とアカデミック検索を軸に、機密データを外部送信せずに Deep Research 相当の調査ワークフローを完結できる OSS です。per-user の SQLCipher 暗号化 DB、Cosign / SLSA / SBOM によるサプライチェーン対策、Journal Quality System による参照ソース品質評価など、機密性の高い領域で評価ポイントが多いプロジェクトです。
採用判断のサマリは以下の通りです。
- 機密領域・研究領域で OSS の Deep Research を探している → 有力候補
- 学術検索(arXiv / PubMed 等)の幅が要件 → 現状の選択肢のなかでは本リポジトリが最有力
- Web 中心の汎用調査でクラウド送信が許容される → まず
gpt-researcherを先に検討 - LangChain 公式エコシステムに統合したい →
langchain-ai/open_deep_researchを先に検討
なお、langchain-ai/local-deep-researcher(末尾 -er)は別プロジェクトのため、参照時は URL を必ず確認してください。次に深掘りする際は、公式の README → SECURITY.md → docs/architecture.md の順で読み進めると、機能と運用制約を最短で把握できます。



