MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak Tasarlamak
Hakkındaİletişim
MicrocosmWorksDijital Kozmosu Yenilikçi ve Mimari Olarak İnşa Etmek

Önemli BT çözümleri sunuyoruz. Teknoloji, güvenlik ve işletmelerin güvenilir, yenilikçi BT altyapısı ile büyümesine yardımcı olmaktan tutkuluyuz.

[email protected]
+91 7011868196
New Delhi, India

AI Büyüme Merkezi

AI MerkeziStartup İnovasyonuKurumsal Hızlandırıcı

Çözümler

Tüm ÇözümlerSağlık ve Fitness UygulamalarıAI Video PlatformuAI Ajan Geliştirme

Kaynaklar

ÖngörülerSektör RehberleriKullanım Durumu ŞablonlarıMimari KalıplarVaka Çalışmaları

Şirket

HakkımızdaİletişimÇalışmalarımız

Hizmetler

Dijital DanışmanlıkBulut AltyapısıSaaS GeliştirmeYapay Zeka GeliştirmeVideo Teknolojisi
ERP GeliştirmeZoho ÖzelleştirmeOdoo GeliştirmeSalesforce EntegrasyonuÖzel CRM Geliştirme
QuickBooks EntegrasyonuIoT ÇözümleriBlokzincir Geliştirme
Siber Güvenlik DanışmanlığıIT Desteği - L3

© 2026 MicrocosmWorks. Tüm hakları saklıdır.

Gizlilik PolitikasıHizmet Şartları
Vaka Çalışmalarına Dön
Document IntelligenceYayınlandı June 22, 2026 · Güncellendi June 22, 2026

Hibrit Arama ve Çok Biçimli Destekli Yerel-Önce Belge RAG Sistemi

Geliştirici araçları geliştiren bir ekip, birden çok dosya formatını işleyebilen, aranabilir bilgi tabanları oluşturabilen ve Retrieval-Augmented Generation kullanarak doğal dil sorgularını yanıtlayabilen, tamamen yerel, gizliliği koruyan bir belge zekası sistemine ihtiyaç duyuyordu — harici API'lere hiçbir veri göndermeden.

Projenizi Tartışın
local-rag-hybrid-search-pipeline.webp
Document Intelligence
Domain
8
Technologies
5
Key Results
Delivered
Status

Zorluk

Mevcut RAG çözümlerinin gizliliğe önem veren ve geliştirici odaklı kullanım durumları için önemli sınırlamaları vardı:

  • Harici API Bağımlılığı — Çoğu RAG aracı, belge içeriğini bulut tabanlı embedding API'lerine göndermeyi gerektiriyordu, bu da gizlilik gereksinimlerini ihlal ediyordu.
  • Sınırlı Format Desteği — Çözümler genellikle yalnızca düz metin veya PDF'i ele alıyor, e-tabloları, Word belgelerini, HTML'yi ve Markdown'ı göz ardı ediyordu.
  • Kötü Chunking — Yetersiz metin bölme, belge yapısını (sayfalar, tablolar, başlıklar) göz ardı ederek bağlamı zayıf chunk'lar oluşturuyordu.
  • Anahtar Kelime Boşlukları — Saf embedding tabanlı arama, lexical search'ün yakalayacağı kesin anahtar kelime eşleşmelerini kaçırıyordu.
  • E-tablo Körlüğü — RAG sistemleri, yapılandırılmış tablo verilerini işleyemiyor veya filtreleme/toplama sorgularını yanıtlayamıyordu.
  • Reranking Yokluğu — İlk geçişte yapılan retrieval, ikinci bir kalite filtresi olmadan genellikle yalnızca kısmen ilgili sonuçlar gösteriyordu.

Çözümümüz

Çok formatlı belge alımı, yapıya duyarlı chunking, yerel embedding üretimi, hibrit bir arama hattı (semantic + full-text + recency), cross-encoder reranking ve web tabanlı bir UI ile tamamen yerel-önce bir RAG sistemi oluşturduk — hepsi tamamen kullanıcının makinesinde çalışıyor.

Mimari

  • Document Loaders: PDF, DOCX, XLSX, CSV, HTML, Markdown ve düz metin için formata özel ayrıştırıcılar
  • Chunker: Sayfa, sayfa ve başlık sınırlarını koruyan yapıya duyarlı bölme
  • Embeddings: Transformers.js aracılığıyla yerel embedding modeli (harici API çağrısı yok)
  • Vector Database: Embedding depolama ve benzerlik araması için LanceDB (sunucusuz, dosya tabanlı)
  • Full-Text Search: Lexical eşleştirme için Trigram tabanlı dizinleme
  • Reranker: Bağlama duyarlı sonuç puanlaması için Cross-encoder modeli
  • Query Analyzer: Semantic ve yapılandırılmış sorgular arasında niyet algılama yönlendirmesi
  • Web Server: Proje yönetimi ve arama uç noktalarına sahip Express.js API'si
  • Frontend: Belge yükleme, yönetimi ve etkileşimli arama için web tabanlı UI

Belge İşleme Hattı

Çok Formatlı Yükleyiciler

Bir kayıt deseni, dosya türünü otomatik olarak algılar ve uygun ayrıştırıcıya yönlendirir:

  • PDF — Sayfa düzeyinde bölümlendirme ile metin çıkarma
  • Word (.docx/.doc) — Belge hiyerarşisini koruyan başlığa duyarlı ayrıştırma
  • Excel/CSV — Başlık algılama ve satır düzeyinde içerikle sayfa sayfa ayrıştırma
  • HTML — Yapı korumalı etikete duyarlı çıkarma
  • Markdown — Başlık tabanlı bölüm ayrıştırma
  • Düz Metin — Satır tabanlı bölümlendirme

Her yükleyici, içerikle birlikte meta verileri (başlık, yazar, oluşturma tarihi, sayfa/sayfa sayısı, kelime sayısı) çıkararak kaynak referanslarına sahip yapılandırılmış bölümler üretir.

Yapı Odaklı Chunking

Basit metin bölmeden farklı olarak, chunker belge sınırlarına saygı duyar:

  • Sayfa sonlarını (PDF'ler), sayfa sınırlarını (e-tablolar) ve başlık hiyerarşisini (Word/Markdown) korur
  • Yapılandırılabilir chunk boyutu ve çakışması ile token tabanlı boyutlandırma
  • Hiyerarşik geri dönüş: önce bölümlere, sonra paragraflara, sonra cümlelere böler
  • Her chunk, atıf için kaynak meta verilerini (sayfa numarası, sayfa adı, başlık) saklar

Embedding ve Dizinleme

Yerel Embedding Modeli

  • Transformers.js aracılığıyla tamamen yerel olarak çalışır — makineden veri çıkışı olmaz
  • Performans optimizasyonu için Quantized model
  • Verimli toplu işlem için Batch embedding
  • L2 normalization ile kelime sınırlarında otomatik kesme

Vektör Depolama

LanceDB sunucusuz vektör depolaması sağlar:

  • Dosya tabanlı (ayrı bir veritabanı sunucusuna gerek yok)
  • Bağımsız dizinlerle proje bazında izolasyon
  • Tekrarı önlemek için SHA256 tabanlı önbellek anahtarları
  • Filtrelenmiş retrieval için vektörlerle birlikte depolanan meta veriler

Hibrit Arama Hattı

Retrieval hattı, tek bir yaklaşımdan daha iyi sonuçlar için üç sıralama sinyalini birleştirir:

Sinyal 1: Embedding Arama (Semantic)

Vektör benzerlik araması, farklı kelimeler kullanılsa bile ilgili anlama sahip chunk'ları bulur. Eşanlamlı kelimeleri, eşanlamlıları ve kavramsal sorguları ele alır.

Sinyal 2: Full-Text Search (Lexical)

Jaccard benzerliği ile Trigram tabanlı dizinleme, embedding aramanın kaçırabileceği kesin anahtar kelime eşleşmelerini yakalar — teknik terimler, isimler ve tanımlayıcılar için önemlidir.

Sinyal 3: Yenilik Güçlendirmesi (Recency Boost)

Üstel bozunum ağırlıklandırması, yakın zamanda erişilen veya değiştirilen belgeleri tercih ederek güncel bilgilerin önce yüzeye çıkmasını sağlar.

Skor Kombinasyonu

Sinyaller yapılandırılabilir ağırlıklarla (varsayılan: %50 semantic, %25 lexical, %25 recency) birleştirilir, normalize edilir ve minimum skor eşiği ile filtrelenir.

Cross-Encoder Reranking

İlk retrieval'dan sonra, bir cross-encoder modeli en iyi adayları yeniden puanlar:

  • Bağlama duyarlı puanlama, sorgu-belge çiftlerini birlikte (bağımsız olarak değil) değerlendirir
  • Terim çakışması için Keyword boost hesaplaması
  • Karışık puanlama (cross-encoder + keyword sinyalleri)
  • Yalnızca ilk geçiş retrieval'ından daha yüksek hassasiyetle nihai bir sıralı liste üretir

Yapılandırılmış Veri Desteği

E-tablo içeriği için sistem ek özellikler sunar:

  • Sütun türlerinin otomatik algılanması (numeric, date, boolean, string)
  • Doğal dil filtrelemesi (örn. "mühendislikteki çalışanlar eşik üzerinde maaşla")
  • Toplama desteği (count, sum, average, min, max)
  • Query analyzer, yapılandırılmış sorguları embedding araması yerine özel bir motora yönlendirir

Web Arayüzü

  • Proje Yönetimi — Bilgi tabanı projeleri oluşturma, güncelleme ve silme
  • Belge Yükleme — Format otomatik algılama ile sürükle ve bırak dosya yükleme
  • Belge Oluşturma — Doğrudan UI'da metinden belge oluşturma
  • Etkileşimli Arama — Sıralı sonuçlarla doğal dil sorgu arayüzü
  • İstatistikler — Proje başına dizin boyutu, belge sayısı ve format dağılımı

Temel Özellikler

  1. Tamamen Yerel — Cihaz üzerinde tüm işlem; embedding'ler veya arama için harici API çağrısı yok
  2. 9 Giriş Formatı — PDF, DOCX, DOC, XLSX, XLS, CSV, HTML, Markdown, düz metin
  3. Yapı Odaklı Chunking — Sayfaları, tabloları ve başlıkları chunk sınırları olarak korur
  4. Hibrit Arama — Daha iyi retrieval için semantic, lexical ve recency sinyallerini birleştirir
  5. Cross-Encoder Reranking — Daha yüksek hassasiyetli sonuçlar için ikinci geçiş puanlaması
  6. Yapılandırılmış Sorgular — E-tablo verileri üzerinde doğal dil filtrelemesi ve toplama
  7. Serverless Vector DB — Altyapı yükü olmayan LanceDB dosya tabanlı depolama
  8. Belge Yazma — PDF, DOCX ve XLSX oluşturma için dışa aktarma yetenekleri
  9. Proje İzolasyonu — Ayrı dizinlere sahip bağımsız bilgi tabanları
  10. Web UI — Belge yönetimi ve etkileşimli arama için eksiksiz arayüz

Sonuçlar

Arama Gecikmesi: Tam hibrit arama hattı için (semantic + FTS + reranking) ~60ms
Embedding Hızı: Chunk başına ~50ms (toplu işlem: 100 chunk için ~2s)
Format Kapsamı: Harici dönüştürücüler olmadan yerel olarak işlenen 9 giriş formatı

Teknoloji Yığını

TypeScriptNode.jsExpress.jsTransformers.jsLanceDBVitestpnpmHTML/CSS/JS Frontend

caseStudyDetail.more Vaka Çalışmaları

Daha fazla teknik uygulamamızı keşfedin

Document Intelligence

Yapay Zeka Destekli Elektronik Tablo ve Belge Analizi, Çoklu Ajan Orkestrasyonu ve Belgeler Arası Referans ile

Bir kurumsal veri ekibi, geniş elektronik tablo ve belge koleksiyonlarını (Excel, CSV, Google Sheets, PDFs, Word docs) doğal dil kullanarak analiz etme, sorgulama ve düzenleme ihtiyacı duydu; bu işlemde birden çok dosya arasında veri çapraz referansı yapma ve manuel veri düzenleme olmaksızın çok adımlı analitik iş akışlarını yürütme yeteneği gerekiyordu.

Vaka Çalışmasını Oku
AI Accounting

AI Destekli Fatura İşleme (OCR ve QuickBooks Entegrasyonu ile)

Ayda yüzlerce satıcı faturasını işleyen orta ölçekli bir işletme, fatura verilerini AI/OCR kullanarak otomatik olarak çıkarıp muhasebe ve ödeme takibi için doğrudan QuickBooks'a senkronize ederek manuel veri girişini ortadan kaldırmak istedi.

İşletmenizi Dönüştürmeye Hazır mısınız?

Zorluklarınıza benzer çözümler uygulamamızın yollarını konuşalım.

İletişime GeçincaseStudyDetail.viewAllCaseStudies
Gizlilik: Harici olarak iletilen sıfır veri — tamamen yerel işlem
Bellek Ayak İzi: Embedding modeli için ~100MB, dizinlenmiş her 1.000 chunk için ~1MB
Vaka Çalışmasını Oku
Video Encoding

İstemci Tarafında Reklam Ekleme (CSAI), SCTE-35 İşaretleyici Ayrıştırma ve Çok Platformlu Oynatıcı Entegrasyonu ile

Bir video akış platformu, sunucu tarafı reklam eklemenin sağlayamadığı tam reklam etkileşimi desteğiyle (tıklanabilir katmanlar, yardımcı banner'lar, atlama düğmeleri) kişiselleştirilmiş, cihaz düzeyinde reklam deneyimleri sunarak web, mobil ve akıllı TV uygulamaları genelinde Client-Side Ad Insertion (CSAI) uygulamasına ihtiyaç duyuyordu.

Vaka Çalışmasını Oku

Sıkça Sorulan Sorular

MicrocosmWorks, tüm belge alımının, embedding üretiminin, vektör depolamanın ve LLM çıkarımının harici bulut API'lerine herhangi bir veri göndermeden tamamen kendi altyapınızda çalıştığı yerel-öncelikli bir RAG sistemi geliştirdi. Bu mimari, veri egemenliği gereksinimlerinin, şifreleme ile bile olsa, herhangi bir bulut işlemini yasakladığı durumlarda, gizli belgeleri, avukat-müvekkil ayrıcalıklı materyalleri veya hassas fikri mülkiyeti işleyen kuruluşlar için elzemdir.

MicrocosmWorks, BM25 keyword search ve dense vector semantic search'ü paralel olarak çalıştıran, ardından birleştirilmiş sonuçları LLM'e bağlam olarak iletmeden önce bunları birleştirmek ve yeniden sıralamak için reciprocal rank fusion kullanan hibrit bir geri çağırma hattı uyguladı. Bu yaklaşım, semantic search'ün gözden kaçırdığı ürün kodları ve hukuki atıflar gibi exact-match queries'i yakalarken, aynı zamanda keyword search'ün asla bulamayacağı kavramsal olarak ilişkili içeriği de geri çağırır.

MicrocosmWorks, PDF, DOCX, XLSX, PPTX, HTML, Markdown ve düz metin için formata özel ayrıştırıcılar geliştirdi ve taranmış PDF'ler ile görsel tabanlı belgeler için Tesseract kullanan bir OCR işlem hattına sahiptir. Sistem, bir PDF'in seçilebilir metin içerip içermediğini veya OCR gerektirip gerektirmediğini otomatik olarak algılar, tablo yapılarını ve okuma sırasını korumak için düzen analizi uygular ve geri çağırma kalitesini artırmak için rastgele karakter sınırları yerine anlamsal sınırlar kullanarak belgeleri parçalara ayırır.

MicrocosmWorks, belge sağlama toplamlarını izleyen ve yalnızca son alım işleminden bu yana değişen dosyaları yeniden işleyen artımlı indeksleme uyguladı. Güncellenen belgelerde eski öbekleri kaldırılır ve yeni öbekler atomik olarak eklenir, böylece arama dizini asla tutarsız bir durumda olmaz. Sistem ayrıca, denetim veya uyumluluk amaçları için gerektiğinde kullanıcıların belgelerin geçmiş sürümlerini sorgulamasına olanak tanıyan sürümlü belge alımını da destekler.

MicrocosmWorks, yerel RAG hattını mütevazı donanımlarda çalışacak şekilde optimize etti; minimum önerilen yapılandırma 32GB RAM, 8 CPU çekirdeği ve isteğe bağlı olarak hızlandırılmış embedding üretimi için orta sınıf bir GPU'ya sahip bir makinedir. GPU donanımı olmayan kuruluşlar için sistem, biraz daha yüksek gecikme süresine sahip CPU tabanlı embedding modellerine geri döner ve vektör veritabanı, 1 milyon belge öbeğine kadar olan koleksiyonlar için sorgu yanıt sürelerini 200ms'nin altında tutmak üzere SSD depolama için optimize edilmiştir.