מה צריך לעשות עם הדאטה לפני שמטמיעים AI?

טכנולוגיה 31 במאי 2026 3 דק' קריאה מאת Michael Gendelman

איך להכין דאטה עסקית לעבודה עם AI?

לפני שמטמיעים סוכן AI — צריך לארגן את הדאטה. 3 שלבים: ניקוי, מבנה, וקטוריזציה. לוקח 1-3 שבועות. בלי זה — ה־AI יחזיר תוצאות גרועות.

תשובה ישירה: רוב הזמן באוטומציות AI הולך לא על בניית ה־AI, אלא על הכנת הדאטה. הסטטיסטיקה: 70-80% מזמן הפרויקט.

אם הדאטה גרועה — ה־AI יחזיר תוצאות גרועות. בלי קשר ל־prompt.

3 שלבי הכנה

שלב 1: ניקוי (Cleanup)

לפני שמשהו, הדאטה צריכה להיות:

בפורמט אחד — אם יש לך 30% מסמכי Word, 50% PDF, ו־20% הודעות וואטסאפ → תהפוך הכל למרקדאון או טקסט
ללא מידע סודי שלא צריך — מספרי ID, תעודות, מספרי כרטיסי אשראי
ללא כפילויות — מסמכים זהים שכופלים את עצמם בגרסאות שונות
ללא טקסט מיותר — כותרות חוזרות, footers, סימני מים

זמן: יום-יומיים לכל 1000 מסמכים (תלוי במצב הדאטה)

שלב 2: מבנה (Structure)

ה־AI עובד הכי טוב על דאטה מובנית. מהשטח:

דוגמא לא טובה

מסמך 1.docx — 80 עמודים על "מדיניות החברה" שכוללים: שעות עבודה, חופשות, הטרדה, ביטחון מידע, אחרי 8 שנים מעדכנים, נספח 3 אם יש שאלות...

ה־AI יקח את כל זה כ־vector אחד וכבד לחפש בו.

דוגמא טובה

חופשות.md
טוב למה — בקשת חופשה רגילה
מה — מינימום 14 יום מראש
מי מאשר — מנהל ישיר
חריגים — חופשת מחלה, חופשת אבל

קבצים קטנים, ממוקדים, בשם ברור. ה־AI מוצא בדיוק את הקובץ הנכון.

שלב 3: ווקטוריזציה (Vectorization)

זה החלק הטכני. בקצרה:

כל קטע טקסט מומר לוקטור (מספרים)
הוקטור מאוחסן ב־vector database (Pinecone, Weaviate, pgvector)
כשהמשתמש שואל שאלה — היא גם הופכת לוקטור
ה־DB מוצא את הוקטורים הכי קרובים = הקטעים הרלוונטיים ביותר
הקטעים האלה נכנסים ל־prompt של ה־AI

זמן: יום-יומיים לעבודה אחת על 1000-10000 מסמכים.

כמה דאטה צריך

מספרים אמיתיים מהפרויקטים שלי:

גודל בסיס ידע	מתאים ל
10-50 מסמכים	FAQ פשוט, בוט שירות נישתי
100-500 מסמכים	סוכן תמיכה לעסק קטן
1,000-10,000 מסמכים	מערכת ידע ארגונית
10,000+ מסמכים	חברה גדולה, דורש אופטימיזציה רצינית

טעויות שאני רואה כל הזמן

1. "נזרוק את הכל ל־AI ויסתדר"

ניסיתי. לא מסתדר. AI על דאטה לא ערוכה = תשובות שגויות, hallucinations, ביטחון מזויף בתשובה לא נכונה.

2. "עברנו לסריקת PDF — אנחנו מוכנים"

PDF סרוקים = OCR בעייתי = שגיאות. לפני שזורקים ל־AI, צריך לתקן את ה־OCR ידנית במקומות קריטיים.

3. "נעדכן את הדאטה כל חודשיים"

דאטה ישנה = AI נותן תשובות שגויות. צריך תהליך אוטומטי לעדכון (יצרתי כאלה ב־n8n).

4. "כל מה שיש לנו = כל מה שצריך ל־AI"

לפעמים הדאטה הקיימת שלך לא מספיקה. צריך לכתוב גם הנחיות חדשות, FAQ, סדנאות הדרכה.

תהליך מעשי ב־3 שבועות

שבוע 1: סקירה ובחירה

מיפוי כל מקורות הדאטה
בחירה של 80% הכי קריטיים
זיהוי מסמכים חוזרים/מיושנים

שבוע 2: ניקוי + מבנה

המרה לפורמט אחיד
חיתוך לקבצים קטנים וממוקדים
הוספת metadata (תגיות, קטגוריות)

שבוע 3: ווקטוריזציה ובדיקות

העלאה ל־vector DB
50 שאלות בדיקה
אופטימיזציה לפי תוצאות

עלויות

הכנת דאטה לפרויקט בינוני (500-2000 מסמכים):

ניקוי ידני / חצי־אוטומטי: ₪8K-15K
ווקטוריזציה: ₪3K-6K
vector DB (חודשי): ₪50-200
API costs (חודשי): ₪100-500
סה"כ הקמה: ₪15K-25K

אחזקה שוטפת:

₪500-2000/חודש (תוספות, עדכונים, ניטור)

טעות שאני רואה הכי הרבה

עסקים אומרים: "אנחנו רוצים סוכן AI. יש לנו כל המסמכים ב־Google Drive."

תשובה: זה לא דאטה. זה אוסף קבצים. ההפרש הוא 3-6 שבועות עבודה.

לפני שאתה מתחיל לבנות AI — שב שבועיים על הדאטה. זה החוק הראשון.

צריכים עזרה ליישם את זה בעסק?

Alpha MF מתמחה באוטומציה, AI, ואינטגרציות. שיחת ייעוץ ראשונה — 30 דקות חינם.

דברו איתנו ←