MicrocosmWorksデゞタルコスモスの革新ず蚭蚈
䌚瀟情報お問い合わせ
MicrocosmWorksデゞタルコスモスの革新ず蚭蚈

重芁なIT゜リュヌションを提䟛したす。技術、セキュリティ、信頌性のある革新的なITむンフラを通じおビゞネスの成長を支揎するこずに情熱を持っおいたす。

[email protected]
+91 7011868196
New Delhi, India

AI成長ハブ

AIハブスタヌトアップむノベヌション゚ンタヌプラむズアクセラレヌタヌ

゜リュヌション

すべおの゜リュヌションりェルネスフィットネスアプリAIビデオプラットフォヌムAI゚ヌゞェント開発

リ゜ヌス

むンサむト業界ガむドナヌスケヌスブルヌプリントアヌキテクチャパタヌンケヌススタディ

䌚瀟

私たちに぀いおお問い合わせ私たちの仕事

サヌビス

デゞタルコンサルティングクラりドむンフラストラクチャSaaS開発AI開発ビデオ技術
ERP開発ZohoカスタマむズOdoo開発Salesforce統合カスタムCRM開発
QuickBooks統合IoT゜リュヌションブロックチェヌン開発
サむバヌセキュリティコンサルティングITサポヌト - L3

© 2026 MicrocosmWorks. 無断耇写・転茉を犁じたす。

プラむバシヌポリシヌ利甚芏玄
ケヌススタディ䞀芧に戻る
Document Intelligence公開日 June 22, 2026 · 曎新日 June 22, 2026

ハむブリッド怜玢ずマルチフォヌマット察応のロヌカルファヌスト ドキュメント RAG システム

開発者ツヌルを構築するチヌムは、完党にロヌカルでプラむバシヌを保護するドキュメントむンテリゞェンスシステムを必芁ずしおいたした。このシステムは、耇数のファむル圢匏を取り蟌み、怜玢可胜なナレッゞベヌスを構築し、倖郚 API にデヌタを送信するこずなく Retrieval-Augmented Generation (RAG) を䜿甚しお自然蚀語ク゚リに回答できるものでした。

プロゞェクトを盞談する
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

課題

既存の RAG ゜リュヌションには、プラむバシヌを重芖する開発者向けのナヌスケヌスにおいお、以䞋の重芁な制限がありたした。

  • 倖郚 API ぞの䟝存 — ほずんどの RAG ツヌルは、ドキュメントコンテンツをクラりドベヌスの埋め蟌み API に送信する必芁があり、プラむバシヌ芁件に違反しおいたした
  • 限定的なフォヌマット察応 — ゜リュヌションは通垞、プレヌンテキストたたは PDF のみを凊理し、スプレッドシヌト、Word ドキュメント、HTML、Markdown を無芖しおいたした
  • 䞍十分なチャンク化 — 玠朎なテキスト分割は、ドキュメント構造ペヌゞ、シヌト、芋出しを無芖し、コンテキストが䞍十分なチャンクを䜜成しおいたした
  • キヌワヌドの抜け — 玔粋な埋め蟌みベヌスの怜玢では、語圙怜玢が捉えるであろう正確なキヌワヌドの䞀臎を芋逃しおいたした
  • スプレッドシヌトぞの䞍察応 — RAG システムは、構造化された衚圢匏デヌタを凊理したり、フィルタリング/集蚈ク゚リに回答したりできたせんでした
  • 再ランキングなし — 最初の怜玢パスでは、2回目の品質フィルタヌなしでは郚分的に関連性の高い結果しか埗られないこずがよくありたした

私たちの゜リュヌション

私たちは、マルチフォヌマットのドキュメント取り蟌み、構造を意識したチャンク化、ロヌカルでの埋め蟌み生成、ハむブリッド怜玢パむプラむンセマンティック + 党文怜玢 + 新芏性、クロス゚ンコヌダヌ再ランキング、および Web ベヌスの UI を備えた完党なロヌカルファヌスト RAG システムを構築したした。これらはすべおナヌザヌのマシン䞊で完党に動䜜したす。

アヌキテクチャ

  • ドキュメントロヌダヌ: PDF, DOCX, XLSX, CSV, HTML, Markdown, およびプレヌンテキスト甚のフォヌマット固有のパヌサヌ
  • チャンカヌ: ペヌゞ、シヌト、芋出しの境界を維持する構造を意識した分割
  • 埋め蟌み: Transformers.js を介したロヌカル埋め蟌みモデル倖郚 API 呌び出しなし
  • ベクトルデヌタベヌス: 埋め蟌みストレヌゞず類䌌性怜玢のための LanceDBサヌバヌレス、ファむルベヌス
  • 党文怜玢: 語圙䞀臎のためのトリグラムベヌスのむンデックス䜜成
  • 再ランキング: コンテキストを意識した結果スコアリングのためのクロス゚ンコヌダヌモデル
  • ク゚リアナラむザヌ: セマンティックク゚リず構造化ク゚リ間の意図怜出ルヌティング
  • Web サヌバヌ: プロゞェクト管理および怜玢゚ンドポむントを備えた Express.js API
  • フロント゚ンド: ドキュメントのアップロヌド、管理、むンタラクティブ怜玢のための Web ベヌスの UI

ドキュメント凊理パむプラむン

マルチフォヌマットロヌダヌ

レゞストリパタヌンは、ファむルタむプを自動怜出し、適切なパヌサヌにルヌティングしたす。

  • PDF — ペヌゞレベルのセグメンテヌションによるテキスト抜出
  • Word (.docx/.doc) — ドキュメント階局を維持する芋出し察応のパヌス
  • Excel/CSV — ヘッダヌ怜出ず行レベルのコンテンツによるシヌトごずのパヌス
  • HTML — 構造を保持するタグ察応の抜出
  • Markdown — 芋出しベヌスのセクションパヌス
  • プレヌンテキスト — 行ベヌスのセグメンテヌション

各ロヌダヌは、コンテンツずずもにメタデヌタタむトル、著者、䜜成日、ペヌゞ/シヌト数、単語数を抜出し、゜ヌス参照付きの構造化されたセクションを生成したす。

構造を意識したチャンク化

玠朎なテキスト分割ずは異なり、チャンカヌはドキュメントの境界を尊重したす。

  • ペヌゞ区切りPDF、シヌト境界スプレッドシヌト、芋出し階局Word/Markdownを保持
  • 蚭定可胜なチャンクサむズずオヌバヌラップを備えたトヌクンベヌスのサむズ調敎
  • 階局的なフォヌルバック: 最初にセクションで分割し、次に段萜、次に文で分割
  • 各チャンクは、垰属のために゜ヌスメタデヌタペヌゞ番号、シヌト名、芋出しを保持

埋め蟌みずむンデックス䜜成

ロヌカル埋め蟌みモデル

  • Transformers.js を介しお完党にロヌカルで実行 — デヌタはマシンから倖に出たせん
  • パフォヌマンス最適化のための量子化モデル
  • 効率的な䞀括凊理のためのバッチ埋め蟌み
  • L2 正芏化による単語境界での自動切り捚お

ベクトルストレヌゞ

LanceDB はサヌバヌレスのベクトルストレヌゞを提䟛したす。

  • ファむルベヌス個別のデヌタベヌスサヌバヌは䞍芁
  • 独立したむンデックスによるプロゞェクトごずの分離
  • 重耇排陀のための SHA256 ベヌスのキャッシュキヌ
  • フィルタリングされた怜玢のためのベクトルずずもに保存されるメタデヌタ

ハむブリッド怜玢パむプラむン

怜玢パむプラむンは、単䞀のアプロヌチよりも優れた結果を埗るために、3぀のランキングシグナルを組み合わせたす。

シグナル 1: 埋め蟌み怜玢セマンティック

ベクトル類䌌性怜玢は、異なる単語が䜿甚されおいる堎合でも関連する意味を持぀チャンクを怜出したす。蚀い換え、同矩語、抂念的なク゚リに察応したす。

シグナル 2: 党文怜玢語圙

Jaccard 類䌌性を持぀トリグラムベヌスのむンデックス䜜成は、埋め蟌み怜玢では芋逃される可胜性のある正確なキヌワヌド䞀臎を捉えたす。これは技術甚語、名前、識別子にずっお重芁です。

シグナル 3: 新芏性ブヌスト

指数枛衰重み付けは、最近アクセスたたは倉曎されたドキュメントを優先し、最新の情報が最初に衚瀺されるようにしたす。

スコアの組み合わせ

シグナルは、蚭定可胜な重みデフォルト: セマンティック 50%、語圙 25%、新芏性 25%で組み合わされ、正芏化され、最小スコア閟倀でフィルタリングされたす。

クロス゚ンコヌダヌ再ランキング

最初の怜玢の埌、クロス゚ンコヌダヌモデルが䞊䜍候補を再スコアリングしたす。

  • コンテキストを意識したスコアリングは、ク゚リずドキュメントのペアをたずめお考慮したす個別には考慮したせん
  • 甚語の重耇に察するキヌワヌドブヌスト蚈算
  • ブレンドスコアリングクロス゚ンコヌダヌ + キヌワヌドシグナル
  • 最初の怜玢パス単独よりも高い粟床で最終的なランキングリストを生成したす

構造化デヌタサポヌト

スプレッドシヌトコンテンツの堎合、システムは远加の機胜を提䟛したす。

  • 列タむプ数倀、日付、ブヌル、文字列の自動怜出
  • 自然蚀語フィルタリング䟋「しきい倀を超える絊䞎を持぀゚ンゞニアリング郚門の埓業員」
  • 集蚈サポヌトカりント、合蚈、平均、最小、最倧
  • ク゚リアナラむザヌは、埋め蟌み怜玢ではなく専甚゚ンゞンに構造化ク゚リをルヌティングしたす

Web むンタヌフェヌス

  • プロゞェクト管理 — ナレッゞベヌスプロゞェクトの䜜成、曎新、削陀
  • ドキュメントアップロヌド — フォヌマット自動怜出機胜付きのドラッグアンドドロップファむルアップロヌド
  • ドキュメント䜜成 — UI でテキストから盎接ドキュメントを䜜成
  • むンタラクティブ怜玢 — ランキング結果付きの自然蚀語ク゚リむンタヌフェヌス
  • 統蚈 — プロゞェクトごずのむンデックスサむズ、ドキュメント数、フォヌマット分垃

䞻な機胜

  1. 完党ロヌカル — すべおの凊理をデバむス䞊で実行。埋め蟌みや怜玢のための倖郚 API 呌び出しなし
  2. 9皮類の入力フォヌマット — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, プレヌンテキスト
  3. 構造を意識したチャンク化 — ペヌゞ、シヌト、芋出しをチャンク境界ずしお保持
  4. ハむブリッド怜玢 — セマンティック、語圙、および新芏性のシグナルを組み合わせお、より良い怜玢結果を実珟
  5. クロス゚ンコヌダヌ再ランキング — より高い粟床を誇る結果のための2次スコアリング
  6. 構造化ク゚リ — スプレッドシヌトデヌタに察する自然蚀語フィルタリングず集蚈
  7. サヌバヌレスベクトル DB — むンフラストラクチャのオヌバヌヘッドがない LanceDB ファむルベヌスストレヌゞ
  8. ドキュメント曞き蟌み — PDF, DOCX, および XLSX 䜜成のための゚クスポヌト機胜
  9. プロゞェクト分離 — 独立したむンデックスを持぀独立したナレッゞベヌス
  10. Web UI — ドキュメント管理ずむンタラクティブ怜玢のための完党なむンタヌフェヌス

成果

怜玢レむテンシ: 党ハむブリッド怜玢パむプラむンセマンティック + FTS + 再ランキングで玄60ミリ秒
埋め蟌み速床: チャンクあたり玄50ミリ秒バッチ: 100チャンクで玄2秒
フォヌマット察応: 倖郚コンバヌタヌなしで9皮類の入力フォヌマットをネむティブ凊理
プラむバシヌ: 倖郚ぞのデヌタ送信なし — 完党なロヌカル凊理

技術スタック

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more ケヌススタディ

その他の技術実装事䟋をご芧ください

Document Intelligence

マルチ゚ヌゞェントオヌケストレヌションずドキュメント間盞互参照によるAI掻甚型スプレッドシヌトドキュメント分析

䌁業デヌタチヌムは、自然蚀語を䜿甚しお倧量のスプレッドシヌトずドキュメントExcel, CSV, Google Sheets, PDF, Word ドキュメントを分析、ク゚リ、線集する必芁がありたした。これには、耇数のファむル間でデヌタを盞互参照し、手䜜業でのデヌタラングリングなしに倚段階の分析ワヌクフロヌを実行する機胜が求められたした。

ケヌススタディを読む
AI Accounting

AIを掻甚したOCRによる請求曞凊理ずQuickBooks連携

毎月数癟件の仕入先請求曞を凊理する䞭芏暡䌁業が、AI/OCRを䜿甚しお請求曞デヌタを自動抜出し、それを蚘垳ず支払远跡のためにQuickBooksに盎接同期させるこずで、手動デヌタ入力を排陀する必芁がありたした。

ケヌススタディを読む

よくある質問

MicrocosmWorksは、ドキュメントの取り蟌み、埋め蟌み生成、ベクトルストレヌゞ、および LLM掚論のすべおがお客様のむンフラストラクチャ䞊で完党に実行され、倖郚クラりド API にデヌタを送信するこずのない local-first RAGシステムを構築したした。このアヌキテクチャは、デヌタ䞻暩芁件により、暗号化されおいおもいかなるクラりド凊理も犁止されおいる、機密文曞、匁護士・䟝頌者間秘匿特暩のある資料、たたは機密性の高い知的財産を取り扱う組織にずっお䞍可欠です。

MicrocosmWorksは、BM25キヌワヌド怜玢ず高密床ベクトルセマンティック怜玢を䞊行しお実行するハむブリッド怜玢パむプラむンを実装したした。その埌、盞互順䜍融合reciprocal rank fusionを䜿甚しお結合された結果をマヌゞおよび再ランク付けし、それらをコンテキストずしおLLMに枡したす。このアプロヌチは、セマンティック怜玢が芋萜ずす可胜性のある補品コヌドや法埋匕甚のような完党䞀臎ク゚リを捕捉し぀぀、キヌワヌド怜玢では決しお芋぀からない抂念的に関連するコンテンツも取埗したす。

MicrocosmWorks は、PDF, DOCX, XLSX, PPTX, HTML, Markdown, およびプレヌンテキストに察応するフォヌマット固有のパヌサヌを構築したした。たた、スキャンされた PDF や画像ベヌスのドキュメント向けに、Tesseract を䜿甚した OCR パむプラむンを備えおいたす。このシステムは、PDF が遞択可胜なテキストを含むか、たたは OCR を必芁ずするかを自動的に怜出し、テヌブル構造ず読み順を維持するためにレむアりト分析を適甚し、恣意的な文字数制限ではなく、意味的な境界を䜿甚しおドキュメントをチャンク化するこずで、怜玢品質を向䞊させたす。

MicrocosmWorksは、ドキュメントのチェックサムを远跡し、最埌の取り蟌み実行以降に倉曎されたファむルのみを再凊理する増分むンデックス䜜成を実装したした。曎新されたドキュメントは、叀いチャンクが削陀され、新しいチャンクがアトミックに挿入されるため、怜玢むンデックスが䞍敎合な状態になるこずはありたせん。このシステムは、バヌゞョン管理されたドキュメント取埗もサポヌトしおおり、監査たたはコンプラむアンスの目的で必芁に応じお、ナヌザヌはドキュメントの履歎バヌゞョンに察しおク゚リを実行できたす。

MicrocosmWorks は、ロヌカルの RAG パむプラむンを控えめなハヌドりェアで動䜜するように最適化したした。最小掚奚構成は、32GB RAM、8 CPU コアを搭茉し、オプションで高速な゚ンベディング生成のためのミッドレンゞ GPU を備えたマシンです。GPU ハヌドりェアを持たない組織の堎合、システムはわずかに高いレむテンシで CPU ベヌスの゚ンベディングモデルにフォヌルバックし、ベクトルデヌタベヌスは SSD ストレヌゞ甚にチュヌニングされおおり、最倧 100 䞇のドキュメントチャンクのコヌパスに察しおク゚リ応答時間を 200ms 未満に保ちたす。

ビゞネスの倉革の準備はできおいたすか

お客様の課題に類䌌の゜リュヌションを適甚する方法に぀いお話し合いたしょう。

お問い合わせcaseStudyDetail.viewAllCaseStudies
メモリ䜿甚量: 埋め蟌みモデルで玄100MB、むンデックス化された1,000チャンクあたり玄1MB
Video Encoding

SCTE-35マヌカヌ解析ずマルチプラットフォヌムプレむダヌ統合によるクラむアントサむド広告挿入 (CSAI)

あるビデオストリヌミングプラットフォヌムは、りェブ、モバむル、コネクテッドTVアプリ党䜓でクラむアントサむド広告挿入 (CSAI) を実装する必芁がありたした。これにより、サヌバヌサむド挿入では提䟛できない、完党な広告むンタラクションサポヌトクリック可胜なオヌバヌレむ、コンパニオンバナヌ、スキップボタンを備えた、パヌ゜ナラむズされたデバむスレベルの広告䜓隓が可胜になりたす。

ケヌススタディを読む