MicrocosmWorksІнновації та архітектура цифрового космосу
Про насКонтакт
MicrocosmWorksІнновації та архітектура цифрового космосу

Надаємо IT-рішення, які мають значення. Ми захоплені технологіями, безпекою та допомогою бізнесу зростати завдяки надійній, інноваційній IT-інфраструктурі.

[email protected]
+91 7011868196
New Delhi, India

Центр зростання AI

AI HubІнновації для стартапівПрискорювач для підприємств

Рішення

Всі рішенняДодатки для здоров'я та фітнесуAI відео платформаРозробка AI агентів

Ресурси

ІнсайтиГалузеві ПосібникиШаблони ВикористанняАрхітектурні ШаблониКейси

Компанія

Про НасКонтактНаша Робота

Послуги

Цифровий КонсалтингХмарна ІнфраструктураРозробка SaaSРозробка AIВідео Технології
Розробка ERPНалаштування ZohoРозробка OdooІнтеграція SalesforceРозробка Користувацьких CRM
Інтеграція QuickBooksРішення IoTРозробка Блокчейну
Консалтинг з КібербезпекиІТ Підтримка - L3

© 2026 MicrocosmWorks. Усі права захищено.

Політика КонфіденційностіУмови Обслуговування
Назад до Кейсів
Document IntelligenceОпубліковано June 22, 2026 · Оновлено June 22, 2026

Система RAG для документів з локальним зберіганням, гібридним пошуком та підтримкою різних форматів

Команда, що займається розробкою інструментів для розробників, потребувала повністю локальної, конфіденційної системи інтелектуального аналізу документів, яка могла б обробляти кілька форматів файлів, створювати бази знань, що підлягають пошуку, та відповідати на запити природною мовою за допомогою Retrieval-Augmented Generation — без відправлення будь-яких даних до зовнішніх API.

Обговоріть Ваш Проєкт
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

Виклик

Існуючі рішення RAG мали значні обмеження для випадків використання, орієнтованих на конфіденційність та розробників:

  • Залежність від зовнішніх API — Більшість інструментів RAG вимагали відправлення вмісту документів до хмарних API для вбудовування, що порушувало вимоги конфіденційності
  • Обмежена підтримка форматів — Рішення зазвичай обробляли лише простий текст або PDF, ігноруючи електронні таблиці, документи Word, HTML та Markdown
  • Погане розбиття — Наївне розбиття тексту ігнорувало структуру документа (сторінки, аркуші, заголовки), створюючи фрагменти без контексту
  • Прогалини в ключових словах — Пошук, заснований лише на вбудовуванні, пропускав точні збіги ключових слів, які б виявив лексичний пошук
  • Сліпота до електронних таблиць — Системи RAG не могли обробляти структуровані табличні дані або відповідати на запити про фільтрацію/агрегацію
  • Відсутність повторного ранжування — Перший етап пошуку часто виявляв лише частково релевантні результати без фільтра якості другого етапу

Наше Рішення

Ми створили повну локальну систему RAG з багатоформатним завантаженням документів, розбиттям з урахуванням структури, локальним створенням вбудовувань, гібридним пошуковим конвеєром (семантичний + повнотекстовий + актуальність), повторним ранжуванням за допомогою крос-енкодера та веб-інтерфейсом — все працює повністю на машині користувача.

Архітектура

  • Завантажувачі документів: Парсери, специфічні для форматів PDF, DOCX, XLSX, CSV, HTML, Markdown та простого тексту
  • Розбивач: Розбиття з урахуванням структури, яке зберігає межі сторінок, аркушів та заголовків
  • Вбудовування: Локальна модель вбудовування через Transformers.js (без зовнішніх викликів API)
  • Векторна база даних: LanceDB (безсерверна, файлова) для зберігання вбудовувань та пошуку за схожістю
  • Повнотекстовий пошук: Індексація на основі триграм для лексичного співставлення
  • Повторне ранжування: Модель крос-енкодера для оцінки результатів з урахуванням контексту
  • Аналізатор запитів: Маршрутизація виявлення наміру між семантичними та структурованими запитами
  • Веб-сервер: API на базі Express.js з точками доступу для управління проектами та пошуку
  • Фронтенд: Веб-інтерфейс для завантаження документів, управління та інтерактивного пошуку

Конвеєр обробки документів

Багатоформатні завантажувачі

Шаблон реєстру автоматично визначає тип файлу та направляє до відповідного парсера:

  • PDF — Витяг тексту з сегментацією на рівні сторінок
  • Word (.docx/.doc) — Парсинг з урахуванням заголовків, що зберігає ієрархію документа
  • Excel/CSV — Парсинг по аркушах з виявленням заголовків та вмістом на рівні рядків
  • HTML — Витяг з урахуванням тегів зі збереженням структури
  • Markdown — Парсинг секцій на основі заголовків
  • Простий текст — Сегментація на основі рядків

Кожен завантажувач витягує метадані (назва, автор, дата створення, кількість сторінок/аркушів, кількість слів) разом з вмістом, створюючи структуровані секції з посиланнями на джерела.

Розбиття з урахуванням структури

На відміну від наївного розбиття тексту, розбивач враховує межі документів:

  • Зберігає розриви сторінок (PDF), межі аркушів (електронні таблиці) та ієрархію заголовків (Word/Markdown)
  • Розмір на основі токенів з конфігурованим розміром фрагмента та перекриттям
  • Ієрархічне резервне копіювання: спочатку розбиває по секціях, потім по абзацах, потім по реченнях
  • Кожен фрагмент зберігає метадані джерела (номер сторінки, назва аркуша, заголовок) для атрибуції

Вбудовування та індексація

Локальна модель вбудовування

  • Працює повністю локально через Transformers.js — жодні дані не залишають машину
  • Квантизована модель для оптимізації продуктивності
  • Пакетне вбудовування для ефективної обробки великих обсягів
  • Автоматичне обрізання на межах слів з нормалізацією L2

Зберігання векторів

LanceDB забезпечує безсерверне зберігання векторів:

  • Файлове (не потрібен окремий сервер бази даних)
  • Ізоляція за проектами з незалежними індексами
  • Ключі кешу на основі SHA256 для уникнення дублікатів
  • Метадані зберігаються разом з векторами для фільтрованого пошуку

Гібридний пошуковий конвеєр

Конвеєр пошуку комбінує три сигнали ранжування для кращих результатів, ніж будь-який окремий підхід:

Сигнал 1: Пошук за вбудовуваннями (семантичний)

Пошук за схожістю векторів знаходить фрагменти з пов'язаним значенням, навіть якщо використовуються різні слова. Обробляє перефразування, синоніми та концептуальні запити.

Сигнал 2: Повнотекстовий пошук (лексичний)

Індексація на основі триграм з подібністю Жаккара виявляє точні збіги ключових слів, які може пропустити пошук за вбудовуваннями — важливо для технічних термінів, імен та ідентифікаторів.

Сигнал 3: Підвищення актуальності

Вагове значення з експоненційним спаданням надає перевагу нещодавно доступним або зміненим документам, забезпечуючи першочергове відображення актуальної інформації.

Комбінація оцінок

Сигнали комбінуються з конфігурованими вагами (за замовчуванням: 50% семантичний, 25% лексичний, 25% актуальність), нормалізуються та фільтруються за мінімальним порогом оцінки.

Повторне ранжування за допомогою крос-енкодера

Після початкового пошуку модель крос-енкодера переоцінює найкращих кандидатів:

  • Оцінка з урахуванням контексту розглядає пари запит-документ разом (не незалежно)
  • Розрахунок підвищення ключових слів для перекриття термінів
  • Змішана оцінка (крос-енкодер + сигнали ключових слів)
  • Створює остаточний ранжований список з більш високою точністю, ніж лише перший етап пошуку

Підтримка структурованих даних

Для вмісту електронних таблиць система надає додаткові можливості:

  • Автоматичне визначення типів стовпців (числовий, дата, булевий, рядковий)
  • Фільтрація природною мовою (наприклад, "співробітники в інженерії з зарплатою вище порогу")
  • Підтримка агрегації (кількість, сума, середнє, мінімум, максимум)
  • Аналізатор запитів направляє структуровані запити до спеціального двигуна, а не до пошуку за вбудовуваннями

Веб-інтерфейс

  • Управління проектами — Створення, оновлення та видалення проектів бази знань
  • Завантаження документів — Перетягування файлів з автоматичним визначенням формату
  • Створення документів — Створення документів з тексту безпосередньо в інтерфейсі
  • Інтерактивний пошук — Інтерфейс запитів природною мовою з ранжованими результатами
  • Статистика — Розмір індексу, кількість документів та розподіл форматів за проектом

Ключові особливості

  1. Повністю локальний — Вся обробка на пристрої; жодних зовнішніх викликів API для вбудовувань або пошуку
  2. 9 вхідних форматів — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, простий текст
  3. Розбиття з урахуванням структури — Зберігає сторінки, аркуші та заголовки як межі фрагментів
  4. Гібридний пошук — Комбінує семантичні, лексичні та сигнали актуальності для кращого пошуку
  5. Повторне ранжування за допомогою крос-енкодера — Оцінка другого етапу для більш точних результатів
  6. Структуровані запити — Фільтрація природною мовою та агрегація на даних електронних таблиць
  7. Безсерверна векторна БД — Зберігання на основі файлів LanceDB без накладних витрат на інфраструктуру
  8. Створення документів — Можливості експорту для створення PDF, DOCX та XLSX
  9. Ізоляція проектів — Незалежні бази знань з окремими індексами
  10. Веб-інтерфейс — Повний інтерфейс для управління документами та інтерактивного пошуку

Результати

Затримка пошуку: ~60мс для повного гібридного пошукового конвеєра (семантичний + FTS + повторне ранжування)
Швидкість вбудовування: ~50мс на фрагмент (пакет: ~2с для 100 фрагментів)
Покриття форматів: 9 вхідних форматів обробляються нативно без зовнішніх конвертерів

Технологічний Стек

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more Кейси

Ознайомтесь з іншими нашими технічними впровадженнями

Document Intelligence

Аналіз електронних таблиць та документів за допомогою AI з багатоагентною оркестрацією та перехресним посиланням між документами

Команді корпоративних даних потрібно було аналізувати, запитувати та редагувати великі колекції електронних таблиць та документів (Excel, CSV, Google Sheets, PDFs, Word docs) за допомогою природної мови — з можливістю перехресного посилання на дані між кількома файлами та виконання багатоетапних аналітичних робочих процесів без ручної підготовки даних.

Читати Кейс
AI Accounting

Обробка рахунків-фактур за допомогою AI, OCR та інтеграції з QuickBooks

Середній бізнес, який щомісяця обробляє сотні рахунків-фактур від постачальників, потребував усунення ручного введення даних шляхом автоматичного вилучення даних рахунків-фактур за допомогою AI/OCR та їх прямої синхронізації з QuickBooks для ведення бухгалтерського обліку та відстеження платежів.

Готові Трансформувати Свій Бізнес?

Давайте обговоримо, як ми можемо застосувати подібні рішення для ваших завдань.

Зв'язатися з НамиcaseStudyDetail.viewAllCaseStudies
Конфіденційність: Нульова передача даних зовні — повністю локальна обробка
Використання пам'яті: ~100MB для моделі вбудовування, ~1MB на 1,000 індексованих фрагментів
Читати Кейс
Video Encoding

Вставка реклами на стороні клієнта (CSAI) з парсингом маркерів SCTE-35 та інтеграцією багатоплатформного плеєра

Платформа потокового відео потребувала впровадження вставки реклами на стороні клієнта (CSAI) для веб-, мобільних програм та програм для підключених телевізорів — що забезпечує персоналізований рекламний досвід на рівні пристрою з повною підтримкою взаємодії з рекламою (натискні оверлеї, супутні банери, кнопки пропуску), який не може забезпечити вставка на стороні сервера.

Читати Кейс

Часті запитання

MicrocosmWorks розробила RAG-систему, що працює локально (local-first), де весь процес завантаження документів, генерації вбудованих векторів (embeddings), векторного зберігання та висновків LLM повністю виконується на вашій інфраструктурі без надсилання будь-яких даних до зовнішніх хмарних API. Ця архітектура є критично важливою для організацій, що працюють із засекреченими документами, матеріалами, що підпадають під адвокатську таємницю, або конфіденційною інтелектуальною власністю, де вимоги щодо суверенітету даних забороняють будь-яку хмарну обробку, навіть із шифруванням.

MicrocosmWorks реалізувала гібридний конвеєр пошуку, який запускає пошук за ключовими словами BM25 та семантичний пошук щільних векторів паралельно, потім використовує reciprocal rank fusion для об'єднання та переранжування отриманих результатів, перш ніж передати їх до LLM як контекст. Цей підхід виявляє запити на точне співпадіння, такі як коди продуктів та юридичні посилання, які пропускає семантичний пошук, водночас також знаходячи концептуально пов'язаний контент, який пошук за ключовими словами ніколи б не знайшов.

MicrocosmWorks розробила спеціалізовані парсери для форматів PDF, DOCX, XLSX, PPTX, HTML, Markdown та звичайного тексту, з конвеєром OCR, що використовує Tesseract, для відсканованих PDF та документів на основі зображень. Система автоматично визначає, чи містить PDF текст, який можна виділити, або потребує OCR, застосовує аналіз макета для збереження структури таблиць та порядку читання, і розбиває документи на фрагменти за допомогою семантичних меж, а не довільних обмежень символів, щоб покращити якість пошуку.

MicrocosmWorks реалізувала інкрементне індексування, яке відстежує контрольні суми документів і обробляє повторно лише файли, що змінилися з моменту останнього запуску завантаження. Оновлені документи мають свої старі chunks видалені, а нові chunks вставлені атомарно, тому пошуковий індекс ніколи не перебуває в несуперечливому стані. Система також підтримує версійне отримання документів, дозволяючи користувачам запитувати історичні версії документів, коли це необхідно для цілей аудиту або відповідності.

MicrocosmWorks оптимізувала локальний RAG конвеєр для роботи на скромному обладнанні, з мінімальною рекомендованою конфігурацією, яка включає машину з 32 ГБ RAM, 8 процесорними ядрами та опціонально GPU середнього класу для прискореної генерації вбудовувань. Для організацій без GPU обладнання система перемикається на моделі вбудовування на базі CPU з дещо вищою затримкою, а векторна база даних оптимізована для SSD сховища, щоб підтримувати час відгуку на запити менше 200 мс для корпусів обсягом до 1 мільйона фрагментів документів.