Berikan LLM anda akses kepada data anda tanpa fine-tuning. RAG merapatkan jurang antara model bahasa tujuan umum dan pengetahuan khusus domain.

Anda ingin membina pembantu AI yang menjawab soalan tentang dokumen organisasi anda — kontrak, polisi, pangkalan pengetahuan, dokumentasi produk, rekod perubatan. Fine-tuning LLM pada data anda adalah mahal, perlahan, dan menghasilkan model yang statik pada titik latihan. Anda memerlukan seni bina di mana LLM boleh mengakses maklumat terkini, khusus domain pada masa pertanyaan, memetik sumbernya, dan mengelakkan halusinasi fakta yang tiada dalam dokumen anda. RAG (Retrieval-Augmented Generation) adalah cara untuk mencapainya.
Explore more design patterns and system architectures
Arkitek kami dapat membantu merancang dan membina sistem menggunakan pola ini untuk keperluan khusus anda.
Hubungi KamiRAG memperkukuh penjanaan LLM dengan konteks yang diambil dari pangkalan pengetahuan. Pada masa pertanyaan, sistem menukar soalan pengguna kepada embedding, mencari vector database untuk chunk dokumen yang serupa secara semantik, dan menyertakan chunk yang paling relevan sebagai konteks dalam prompt LLM. Ini mengasaskan respons model dalam dokumen sebenar, membolehkan petikan sumber, dan memastikan pangkalan pengetahuan boleh dikemas kini tanpa retraining. Saluran paip RAG pengeluaran mengendalikan ingestion (parsing, chunking, embedding), retrieval (vector search, reranking, hybrid search), dan generation (prompt construction, streaming, guardrails).
Seni bina ini mempunyai dua saluran paip. Saluran paip ingestion memproses dokumen melalui parsing (pengekstrakan PDF, DOCX, HTML), chunking (semantik atau saiz tetap dengan pertindihan), embedding (melalui embedding model), dan penyimpanan (vector database + document store). Saluran paip pertanyaan mengambil soalan pengguna, menjana query embedding, mengambil chunk calon dari vector database, menyusun semula mengikut relevansi, membina prompt dengan chunk teratas sebagai konteks, dan mengalirkan respons LLM dengan petikan sumber.
text-embedding-3-large, Cohere embed-v4, atau alternatif sumber terbuka (BGE, E5). Pemprosesan kelompok untuk ingestion, pemprosesan pertanyaan tunggal untuk carian| Lapisan | Teknologi |
|---|---|
| Parsing Dokumen | Unstructured, Apache Tika, LlamaParse, Docling, OCR tersuai (Tesseract, AWS Textract) |
| Embedding | OpenAI text-embedding-3-large, Cohere embed-v4, BGE-M3, E5-large-v2 |
| Vector Database | Milvus, Pinecone, Qdrant, Weaviate, pgvector (untuk skala kecil) |
| Carian Kata Kunci | Elasticsearch, OpenSearch, PostgreSQL full-text search |
| Reranking | Cohere Rerank, BGE Reranker, ColBERT v2, FlashRank |
| LLM | Claude (melalui AI Gateway), GPT-4, Gemini — tidak terikat penyedia melalui AI SDK |
| Orkestrasi | LangChain, LlamaIndex, atau saluran paip tersuai (keutamaan MW untuk pengeluaran) |
| Gunakan Apabila | Elakkan Apabila |
|---|---|
| Pengguna memerlukan jawapan yang berasaskan dokumen khusus organisasi anda | Pangkalan pengetahuan kurang daripada 50 halaman — masukkan sahaja dalam system prompt |
| Dokumen dikemas kini dengan kerap dan AI memerlukan maklumat terkini | Anda memerlukan model untuk mempelajari kemahiran/tingkah laku baharu, bukan mengakses fakta baharu (fine-tune sebaliknya) |
| Petikan sumber dan kebolehauditan adalah keperluan (undang-undang, pematuhan, penjagaan kesihatan) | Soalan-soalan adalah semata-mata perbualan dan tidak memerlukan asas fakta |
| Pelbagai kumpulan pengguna memerlukan akses kepada subset dokumen yang berbeza (RAG yang ditapis kebenaran) | Anda sedang membina alat penulisan kreatif di mana ketepatan fakta bukan matlamat |
MW membina saluran paip RAG bermula dari kualiti retrieval ke luar — kami menanda aras ketepatan retrieval sebelum menyentuh prompt LLM. Sistem RAG dengan retrieval yang biasa-biasa dan LLM yang hebat menghasilkan jawapan yang kedengaran yakin tetapi salah. Saluran paip standard kami termasuk alat penilaian retrieval: satu set pertanyaan ujian dengan dokumen yang diketahui relevan, diukur oleh MRR@5 dan NDCG@10. Kami mengulang semula chunking, embedding model, dan reranking sehingga metrik retrieval mencapai ambang sasaran sebelum mengoptimumkan generation. Kami telah membina sistem RAG merentasi semakan dokumen undang-undang, pangkalan pengetahuan penjagaan kesihatan, dan sokongan pelanggan berbilang bahasa — dan pelajaran yang biasa ialah kualiti retrieval menyumbang 80% daripada kualiti jawapan.
Carian `embedding` mudah dilakukan pada 10K vektor. Pada 100M vektor dengan P99 bawah 100ms, ia adalah masalah infrastruktur — dan inilah yang diselesaikan oleh corak ini.
MicrocosmWorks melaksanakan penyelesaian konflik dalam RAG pipeline melalui pemeringkatan autoriti sumber, pemberatan kebaharuan berdasarkan cap masa, dan pemarkahan keyakinan yang menilai seberapa kuat setiap petikan yang diambil menyokong dakwaannya. Apabila petikan yang bercanggah diambil, pipeline kami membentangkan jawapan dengan autoriti tertinggi sambil mendedahkan secara telus percanggahan dan petikan sumber supaya pengguna dapat membuat keputusan yang termaklum. Kami juga membina gelung maklum balas di mana pakar domain boleh menandakan penyelesaian yang salah, yang meningkatkan pemeringkatan pengambilan dari masa ke masa.
MicrocosmWorks menggunakan chunking peka kandungan yang mengaplikasikan strategi berbeza berdasarkan struktur dokumen—pemisahan perenggan semantik untuk prosa, chunking peringkat baris atau peringkat seksyen untuk jadual dengan konteks pengepala dikekalkan, dan chunking peringkat fungsi untuk kod dengan pernyataan import dilampirkan. Kami memperkayakan setiap chunk dengan metadata termasuk tajuk dokumen, hierarki seksyen, dan jenis kandungan supaya peringkat pengambilan boleh mengaplikasikan pemarkahan khusus jenis. Pendekatan ini secara konsisten mengatasi chunking saiz tetap yang naif sebanyak 25-40% pada penanda aras kerelevanan pengambilan dalam projek pelanggan kami.
MicrocosmWorks membina alat penilaian yang menguji RAG pipelines merentasi tiga dimensi: kaitan perolehan (adakah 'chunks' yang betul ditemui), kesetiaan jawapan (adakah jawapan yang dihasilkan benar-benar mencerminkan kandungan yang diperolehi), dan kelengkapan jawapan (adakah ia menjawab soalan penuh). Kami mencipta set ujian emas dengan pakar domain yang merangkumi pertanyaan jawapan diketahui, kes-kes pinggir adversari, dan soalan yang memerlukan sintesis pelbagai dokumen. Penilaian ini berjalan secara automatik dalam CI/CD supaya setiap perubahan 'pipeline' ditanda aras berdasarkan metrik kualiti asas sebelum penghantaran.
MicrocosmWorks memilih pangkalan data vektor berdasarkan skala anda, corak pertanyaan, dan keperluan operasi—Pinecone untuk kesederhanaan terurus, Weaviate untuk carian hibrid kata kunci-vektor, pgvector untuk pasukan yang sudah melabur dalam PostgreSQL, dan Qdrant untuk penempatan kendalian sendiri dengan daya pemprosesan tinggi. Pada skala di bawah 10 juta vektor, kebanyakan pilihan memberikan latensi di bawah 100ms, tetapi perbezaan menjadi ketara pada ratusan juta vektor di mana jenis indeks, pengkuantuman, dan strategi sharding amat penting. Kami menanda aras dimensi pembenaman sebenar anda dan corak pertanyaan terhadap pilihan yang disenarai pendek semasa fasa reka bentuk seni bina kami.
MicrocosmWorks membina saluran paip pengambilan inkremental yang memantau repositori dokumen sumber untuk perubahan, meng-re-chunk dan meng-re-embed hanya bahagian yang diubah suai, serta mengemas kini vector store tanpa memerlukan pengindeksan semula sepenuhnya. Kami melaksanakan pengecaman cap jari dokumen yang mengesan perubahan kandungan pada peringkat bahagian, jadi satu suntingan perenggan tidak mencetuskan pemprosesan semula keseluruhan dokumen 200 muka surat. Bagi pelanggan dengan keperluan kesegaran masa nyata, kami menambah lapisan capaian langsung yang menanyakan sistem sumber secara langsung untuk dokumen yang baru diubah suai dan menggabungkan hasil tersebut dengan hasil carian vektor.