Document Intelligenceפורסם June 22, 2026 · עודכן June 22, 2026

ניתוח גיליונות אלקטרוניים ומסמכים מבוסס AI עם תזמור מרובה-סוכנים והפניה בין מסמכים

צוות נתונים ארגוני נזקק לנתח, לשלוף ולערוך אוספים גדולים של גיליונות אלקטרוניים ומסמכים (Excel, CSV, Google Sheets, PDFs, Word docs) באמצעות שפה טבעית — עם היכולת להצליב נתונים בין קבצים מרובים ולבצע זרימות עבודה אנליטיות מרובות שלבים ללא טיוב נתונים ידני.

דון בפרויקט שלך

Document Intelligence

Domain

Technologies

Key Results

Delivered

Status

האתגר

עבודה עם מסמכים עסקיים בקנה מידה גדול הייתה כרוכה בקשיים רבים:

נתונים מבודדים — מידע קריטי היה מפוזר בעשרות גיליונות אלקטרוניים, קובצי PDF ומסמכי Word ללא דרך לבצע שאילתות ביניהם
הצלבה ידנית — השוואת מחירון ספק (Excel) מול תנאי חוזה (PDF) מול היסטוריית חשבוניות (CSV) דרשה שעות של חיפוש ידני
מגבלות נוסחאות — שאלות אנליטיות מורכבות לא יכלו להיענות באמצעות נוסחאות גיליונות אלקטרוניים בלבד
מגבלות חלון ההקשר — גיליונות אלקטרוניים גדולים (50,000+ שורות) חרגו מחלונות ההקשר של LLM, מה שגרם לגישות נאיביות להיכשל
אין יכולות עריכה — כלי AI קיימים יכלו לנתח מסמכים אך לא יכלו לכתוב שינויים בחזרה לקבצי המקור
היגיון רב-שלבי — שאלות הדורשות ניתוח רציף בין מסמכים הצריכו זרימות עבודה מתוזמרות מרובות שלבים

הפתרון שלנו

בנינו פלטפורמת בינת מסמכים מבוססת AI מרובת-סוכנים עם אחזור נתמך על ידי מסד נתונים וקטורי עבור מסמכים גדולים, סוכנים מיוחדים עבור סוגי מסמכים שונים, מתזמר להיגיון בין מסמכים, ויכולות כתיבה חוזרת לעריכת גיליונות אלקטרוניים.

ארכיטקטורה

מתזמר: סוכן מתזמר AI המתאם זרימות עבודה מרובות שלבים בין סוכנים מיוחדים
סוכן גיליונות אלקטרוניים: מטפל בניתוח Excel/CSV/Google Sheets, יצירת נוסחאות ועריכת תאים
סוכן מסמכים: מטפל בקריאת מסמכי PDF/Word, חילוץ וסיכום
סוכן הפניה בין מסמכים: מבצע צירופים, השוואות והתאמות בין סוגי מסמכים
מסד נתונים וקטורי: Milvus לאינדוקס סמנטי של מקטעי מסמכים ושורות גיליונות אלקטרוניים
שכבת LLM: גישת ריבוי-מודלים עם function calling
Backend: Python/FastAPI לעיבוד מסמכים ותזמור סוכנים
Frontend: דאשבורד React עם העלאת קבצים, ממשק צ'אט ותצוגה מקדימה חיה של גיליונות אלקטרוניים
אחסון: S3 עבור קבצי מקור, PostgreSQL עבור מטא נתונים ומעקב אחר משימות

ארכיטקטורה מרובת-סוכנים

תפקידי סוכנים

1. סוכן המתזמר (Orchestrator Agent)

המתאם המרכזי שמקבל שאילתות משתמשים, מפרק אותן לתת-משימות, ומאציל אותן לסוכנים מיוחדים. הוא מנתח את כוונת המשתמש, יוצר תוכניות ביצוע, מנהל את זרימת הנתונים בין הסוכנים, אוסף תוצאות ומטפל בשחזור שגיאות.

2. סוכן גיליונות אלקטרוניים (Spreadsheet Agent)

מיוחד לפעולות נתונים טבלאיים הכוללות הבנת סכימה, תרגום שפה טבעית לשאילתות, צבירות וסינון, יצירת נוסחאות, עריכת תאים ומילוי עמודות, הצעות תרשימים, ואימות נתונים/זיהוי חריגות.

3. סוכן מסמכים (Document Agent)

מיוחד למסמכים לא מובנים וחצי מובנים הכולל OCR וחילוץ טקסט מודע-פריסה, זיהוי מקטעים, חילוץ מפתח-ערך מחוזים, סיכום, חיפוש סמנטי של סעיפים, וחילוץ טבלאות מקובצי PDFs/Word.

4. סוכן הפניה בין מסמכים (Cross-Reference Agent)

מיוחד להיגיון רב-מסמכי הכולל התאמת ישויות בין מסמכים, התאמת נתונים וזיהוי פערים, ניתוח ציר זמן, פתרון תלויות עבור נתונים סותרים, ופעולות צירוף דמויות SQL בין סוגי מסמכים.

שכבת מסד נתונים וקטורי

למה Vector DB למסמכים

מסמכים וגיליונות אלקטרוניים גדולים אינם יכולים להיכנס לחלון הקשר יחיד של LLM. מסד הנתונים הווקטורי מאפשר חיפוש סמנטי על פני מיליוני שורות וקטעי מסמכים, אחזור רק של החלקים הרלוונטיים לכל שאילתה, קישור ישויות בין מסמכים באמצעות דמיון הטמעות, ואינדוקס מתמשך שאינו דורש עיבוד מחדש בכל שאילתה.

אסטרטגיית אינדוקס

אינדוקס גיליונות אלקטרוניים:

כל שורה מומרת לייצוג בשפה טבעית על ידי שרשור ערכי עמודות מפתח, ואז מוטמעת ונשמרת עם הפניות חזרה לקובץ המקורי, לגיליון ולמזהה השורה עבור פעולות כתיבה חוזרת.

אינדוקס מסמכים:

מסמכים נחלצים עם מודעות לפריסה, מחולקים למקטעים סמנטיים עם חפיפה, מוטמעים, ונשמרים עם הפניות לקובץ המקור, למקטע ולמספר העמוד.

אינדקס ישויות בין מסמכים:

אינדקס נפרד מקשר ישויות (ספקים, מוצרים, אנשים, מספרי חשבוניות) בין מסמכים, מה שמאפשר לשאילתות הפניה בין מסמכים למצוא במהירות את כל האזכורים של ישות, ללא קשר לקובץ המקור.

צינור אחזור

כאשר משתמש שואל שאלה בין-מסמכית, המתזמר מזהה אילו מסמכים וסוכנים נדרשים, מבצע חיפושי וקטורים כדי למצוא נתונים רלוונטיים בכל המקורות, מאציל לסוכנים מיוחדים לצורך עיבוד, ומאגד תוצאות לתשובה קוהרנטית.

מנוע תזמור

פירוק שאילתות

המתזמר מפרק שאילתות מורכבות לתוכניות ביצוע מרובות שלבים. לדוגמה, שאלה כמו "מצא ספקים עם איחורים באספקה, בדוק סעיפי קנס בחוזים, וחשב קנסות ברי תביעה" תפורק לשלבים עוקבים: שאילתה על נתוני אספקה באמצעות ה-Spreadsheet Agent, חיפוש חוזים באמצעות ה-Document Agent, וצירוף תוצאות באמצעות ה-Cross-Reference Agent.

תקשורת סוכנים

סוכנים מתקשרים באמצעות הודעות מובנות עם מטען נתונים מוגדר סוג
המתזמר שומר על הקשר ביצוע עם תוצאות ביניים
שלבים שנכשלו מפעילים אסטרטגיות ניסיון חוזר או חלופה
תוצאות חלקיות מוחזרות אם חלק מהשלבים הושלמו אך אחרים נכשלו

עריכת גיליונות אלקטרוניים וכתיבה חוזרת

יכולות עריכה

הפלטפורמה תומכת בעדכוני תאים, מילוי עמודות, הוספת שורות, עיצוב מותנה, יצירת גיליונות חדשים, והזרקת נוסחאות — כולם מוצעים על ידי סוכני AI ומיושמים באישור המשתמש.

צינור כתיבה חוזרת

הסוכן קובע את פעולת העריכה (אילו תאים, אילו ערכים)
תצוגה מקדימה של העריכה מוצגת למשתמש עם הדגשת הבדלים (ערכים ישנים מול חדשים)
המשתמש מאשר או משנה את השינויים המוצעים
ה-Backend מיישם שינויים בקובץ באמצעות ספריות מתאימות לכל פורמט
קובץ שעבר שינוי נשמר כגרסה חדשה עם תיעוד ביקורת עריכה
אינדקס וקטורי מתעדכן עבור שורות ששונו

בקרת גרסאות

כל עריכה יוצרת גרסת קובץ חדשה (המקור נשמר)
יומן שינויים מציג בדיוק מה השתנה, מתי ולמה
חזרה לכל גרסה קודמת בלחיצה אחת
ייחוס עריכה: איזה סוכן או משתמש ביצע כל שינוי

צינור עיבוד למסמכים חדשים

זרימת העלאת קבצים

המשתמש מעלה קבצים (בגרירה ושחרור או באמצעות API)
סוג הקובץ מזוהה ומנותב למעבד המתאים
גיליונות אלקטרוניים: מנותחים, סכימה מוסקת, שורות מוטמעות ומאונדקסות
קובצי PDF: OCR (אם סרוק) ← חילוץ פריסה ← חלוקה למקטעים ← הטמעה ← אינדוקס
מסמכי Word: חילוץ טקסט ← ניתוח מקטעים ← חלוקה למקטעים ← הטמעה ← אינדוקס
חילוץ ישויות: NER מזהה אנשים, ארגונים, תאריכים, סכומים בכל המסמכים
קישור בין מסמכים: אינדקס ישויות מתעדכן עם אזכורים חדשים
מטא נתונים של קבצים מאוחסנים ב-PostgreSQL, הטמעות ב-vector DB, מקורות ב-S3

פורמטים נתמכים

הפלטפורמה תומכת ב-Excel, CSV, ו-Google Sheets (עם כתיבה חוזרת מלאה), קובצי PDF מקוריים וסרוקים (לקריאה בלבד), ומסמכי Word ו-Google Docs (עם כתיבה חוזרת מוגבלת).

תכונות עיקריות

ארכיטקטורה מרובת-סוכנים — סוכנים מיוחדים עבור גיליונות אלקטרוניים, מסמכים והצלבה
מתזמר AI — מפרק שאילתות מורכבות לתוכניות ביצוע מרובות שלבים
הפניה בין מסמכים — קישור ישויות והתאמת נתונים בין סוגי קבצים
אחזור מבוסס וקטורים — חיפוש סמנטי מטפל במערכי נתונים החורגים ממגבלות הקשר של LLM
כתיבה חוזרת לגיליונות אלקטרוניים — AI עורך תאים, ממלא עמודות ומזריק נוסחאות באישור המשתמש
תמיכה במערכי נתונים גדולים — גיליונות אלקטרוניים עם 50,000+ שורות מאונדקסים וניתנים לשאילתה באמצעות חיפוש וקטורי
בקרת גרסאות — כל עריכה מגורסת עם יומן שינויים ויכולת שחזור
שאילתות בשפה טבעית — שאל שאלות אנליטיות מורכבות באנגלית פשוטה
תמיכה בפורמטים מרובים — Excel, CSV, Google Sheets, PDF, Word, Google Docs
תצוגה מקדימה של עריכה — תצוגה מקדימה עם הדגשת שינויים לפני יישום כל שינוי

תוצאות

מהירות שאילתה: שאלות בין-מסמכיות נענות תוך 10-30 שניות לעומת שעות של חיפוש ידני

קנה מידה של נתונים: טופלו 500+ מסמכים וגיליונות אלקטרוניים עם למעלה מ-2 מיליון שורות בסך הכל מאונדקסות

דיוק עריכה: עריכות גיליונות אלקטרוניים שהוצעו על ידי AI התקבלו ללא שינוי ב-85% מהמקרים

מחסנית טכנולוגית

PythonFastAPILLM (GPT-4oClaude)MilvusOpenAI EmbeddingsLangChainLangGraphReactPostgreSQLS3Job QueueRedisOCR

caseStudyDetail.more מקרי בוחן

גלה עוד מהיישומים הטכניים שלנו

Document Intelligence

מערכת RAG למסמכים מקומית תחילה עם חיפוש היברידי ותמיכה בפורמטים מרובים

צוות המפתח כלים למפתחים היה זקוק למערכת בינה מסמכית מקומית לחלוטין, השומרת על פרטיות, שיכולה לקלוט פורמטים מרובים של קבצים, לבנות מאגרי ידע ניתנים לחיפוש, ולענות על שאילתות בשפה טבעית באמצעות Retrieval-Augmented Generation — מבלי לשלוח נתונים כלשהם ל-APIs חיצוניים.

קרא מקרה בוחן

AI Accounting

עיבוד חשבוניות מבוסס AI עם OCR ושילוב QuickBooks

עסק בגודל בינוני שעיבד מאות חשבוניות ספק בחודש נזקק לביטול הזנת נתונים ידנית על ידי חילוץ אוטומטי של נתוני חשבוניות באמצעות AI/OCR וסנכרונם ישירות ל-QuickBooks לצורך הנהלת חשבונות ומעקב תשלומים.

קרא מקרה בוחן

שאלות נפוצות

MicrocosmWorks תכננה ארכיטקטורה מרובת סוכנים שבה סוכנים ייעודיים מטפלים בהיבטים שונים של ניתוח מסמכים, כגון סוכן חילוץ טבלאות עבור גיליונות אלקטרוניים, סוכן סיכום טקסט עבור מסמכים נרטיביים, וסוכן הפניות צולבות שמזהה קשרים בין נקודות נתונים על פני קבצים מרובים. חלוקת עבודה זו מניבה תוצאות מדויקות יותר מאשר קריאת LLM מונוליטית יחידה, מכיוון שכל סוכן פועל בתוך חלון הקשר ממוקד ומיישם אסטרטגיות פרומפטינג ספציפיות לתחום.

כן, MicrocosmWorks בנתה מנוע ניתוח גיליונות אלקטרוניים שמפענח תלויות נוסחאות, מרחיב סיכומי טבלאות ציר, ומאתר הפניות בין גיליונות לפני העברת נתונים מובנים לסוכני הניתוח. המערכת ממירה מבני Excel מורכבים לייצוגי נתונים שטוחים שעליהם LLMs יכולים להסיק מסקנות ביעילות, ושומרת על ההקשר היחסי בין הגיליונות כך ש-AI יכול לענות על שאלות כמו 'איזו מחלקה חרגה מתקציב Q3 שלה' הדורשות צירוף נתונים על פני מספר כרטיסיות.

MicrocosmWorks יישמה צינור עיבוד לקישור ישויות שמחלץ ישויות בעלות שם, מזהים מספריים והפניות לתאריכים מכל המסמכים שהועלו, ולאחר מכן בונה גרף ידע שמחבר אזכורים קשורים בין קבצים. כאשר משתמש שואל שאלה, סוכן ההפניות בין-מסמכים חוצה גרף זה כדי למשוך נתונים רלוונטיים ממסמכי מקור מרובים, ומספק תשובות שמסנתזות מידע בדרכים שהיו לוקחות לאנליסט אנושי שעות של בדיקה צולבת ידנית.

MicrocosmWorks תכננה את המערכת לטפל באצוות מסמכים של עד 500 קבצים לכל סשן ניתוח, עם גדלי קבצים בודדים של עד 100MB עבור גיליונות אלקטרוניים ו-50MB עבור קובצי PDF. מסמכים גדולים נפרסים אוטומטית למקטעים ומעובדים במקביל על פני מספר מופעי סוכנים, והמתזמר שומר על תצוגה קוהרנטית של כל סט המסמכים על ידי צבירת פלטי הסוכנים לייצוג ידע מאוחד.

MicrocosmWorks מפתחת פלטפורמות ניתוח מסמכים מרובות סוכנים בשיעורים של 30-50 דולר לשעה, כאשר מערכת מוכנה לפעולה דורשת בדרך כלל 3-5 חודשי פיתוח, הכוללים ניתוח מסמכים, תזמור סוכנים, זיהוי הפניות צולבות וממשק שאילתות הפונה למשתמש. עלות לשאילתה בייצור תלויה בנפח המסמכים ובשימוש באסימוני LLM. עם זאת, ארכיטקטורות מרובות סוכנים למעשה מפחיתות את עלויות ה-LLM על ידי ניתוב הקשר רלוונטי בלבד לכל סוכן, במקום לדחוס סטים שלמים של מסמכים לפרומפט יחיד.

מוכן לשנות את העסק שלך?

בואו נדון כיצד נוכל ליישם פתרונות דומים לאתגרים שלך.

צור קשר caseStudyDetail.viewAllCaseStudies

ניתוח גיליונות אלקטרוניים ומסמכים מבוסס AI עם תזמור מרובה-סוכנים והפניה בין מסמכים

האתגר

הפתרון שלנו

ארכיטקטורה

ארכיטקטורה מרובת-סוכנים

תפקידי סוכנים

שכבת מסד נתונים וקטורי

למה Vector DB למסמכים

אסטרטגיית אינדוקס

צינור אחזור

מנוע תזמור

פירוק שאילתות

תקשורת סוכנים

עריכת גיליונות אלקטרוניים וכתיבה חוזרת

יכולות עריכה

צינור כתיבה חוזרת

בקרת גרסאות

צינור עיבוד למסמכים חדשים

זרימת העלאת קבצים

פורמטים נתמכים

תכונות עיקריות

תוצאות

מחסנית טכנולוגית

caseStudyDetail.more מקרי בוחן

מערכת RAG למסמכים מקומית תחילה עם חיפוש היברידי ותמיכה בפורמטים מרובים

עיבוד חשבוניות מבוסס AI עם OCR ושילוב QuickBooks

שאלות נפוצות

מוכן לשנות את העסק שלך?

הזרקת פרסומות בצד הלקוח (CSAI) עם ניתוח סמני SCTE-35 ושילוב נגן מרובה פלטפורמות