איך להכין דאטה עסקית לעבודה עם AI?
לפני שמטמיעים סוכן AI — צריך לארגן את הדאטה. 3 שלבים: ניקוי, מבנה, וקטוריזציה. לוקח 1-3 שבועות. בלי זה — ה־AI יחזיר תוצאות גרועות.
תשובה ישירה: רוב הזמן באוטומציות AI הולך לא על בניית ה־AI, אלא על הכנת הדאטה. הסטטיסטיקה: 70-80% מזמן הפרויקט.
אם הדאטה גרועה — ה־AI יחזיר תוצאות גרועות. בלי קשר ל־prompt.
3 שלבי הכנה
שלב 1: ניקוי (Cleanup)
לפני שמשהו, הדאטה צריכה להיות:
- בפורמט אחד — אם יש לך 30% מסמכי Word, 50% PDF, ו־20% הודעות וואטסאפ → תהפוך הכל למרקדאון או טקסט
- ללא מידע סודי שלא צריך — מספרי ID, תעודות, מספרי כרטיסי אשראי
- ללא כפילויות — מסמכים זהים שכופלים את עצמם בגרסאות שונות
- ללא טקסט מיותר — כותרות חוזרות, footers, סימני מים
זמן: יום-יומיים לכל 1000 מסמכים (תלוי במצב הדאטה)
שלב 2: מבנה (Structure)
ה־AI עובד הכי טוב על דאטה מובנית. מהשטח:
דוגמא לא טובה
מסמך 1.docx — 80 עמודים על "מדיניות החברה" שכוללים: שעות עבודה, חופשות, הטרדה, ביטחון מידע, אחרי 8 שנים מעדכנים, נספח 3 אם יש שאלות...
ה־AI יקח את כל זה כ־vector אחד וכבד לחפש בו.
דוגמא טובה
חופשות.md
טוב למה — בקשת חופשה רגילה
מה — מינימום 14 יום מראש
מי מאשר — מנהל ישיר
חריגים — חופשת מחלה, חופשת אבל
קבצים קטנים, ממוקדים, בשם ברור. ה־AI מוצא בדיוק את הקובץ הנכון.
שלב 3: ווקטוריזציה (Vectorization)
זה החלק הטכני. בקצרה:
- כל קטע טקסט מומר לוקטור (מספרים)
- הוקטור מאוחסן ב־vector database (Pinecone, Weaviate, pgvector)
- כשהמשתמש שואל שאלה — היא גם הופכת לוקטור
- ה־DB מוצא את הוקטורים הכי קרובים = הקטעים הרלוונטיים ביותר
- הקטעים האלה נכנסים ל־prompt של ה־AI
זמן: יום-יומיים לעבודה אחת על 1000-10000 מסמכים.
כמה דאטה צריך
מספרים אמיתיים מהפרויקטים שלי:
| גודל בסיס ידע | מתאים ל |
|---|---|
| 10-50 מסמכים | FAQ פשוט, בוט שירות נישתי |
| 100-500 מסמכים | סוכן תמיכה לעסק קטן |
| 1,000-10,000 מסמכים | מערכת ידע ארגונית |
| 10,000+ מסמכים | חברה גדולה, דורש אופטימיזציה רצינית |
טעויות שאני רואה כל הזמן
1. "נזרוק את הכל ל־AI ויסתדר"
ניסיתי. לא מסתדר. AI על דאטה לא ערוכה = תשובות שגויות, hallucinations, ביטחון מזויף בתשובה לא נכונה.
2. "עברנו לסריקת PDF — אנחנו מוכנים"
PDF סרוקים = OCR בעייתי = שגיאות. לפני שזורקים ל־AI, צריך לתקן את ה־OCR ידנית במקומות קריטיים.
3. "נעדכן את הדאטה כל חודשיים"
דאטה ישנה = AI נותן תשובות שגויות. צריך תהליך אוטומטי לעדכון (יצרתי כאלה ב־n8n).
4. "כל מה שיש לנו = כל מה שצריך ל־AI"
לפעמים הדאטה הקיימת שלך לא מספיקה. צריך לכתוב גם הנחיות חדשות, FAQ, סדנאות הדרכה.
תהליך מעשי ב־3 שבועות
שבוע 1: סקירה ובחירה
- מיפוי כל מקורות הדאטה
- בחירה של 80% הכי קריטיים
- זיהוי מסמכים חוזרים/מיושנים
שבוע 2: ניקוי + מבנה
- המרה לפורמט אחיד
- חיתוך לקבצים קטנים וממוקדים
- הוספת metadata (תגיות, קטגוריות)
שבוע 3: ווקטוריזציה ובדיקות
- העלאה ל־vector DB
- 50 שאלות בדיקה
- אופטימיזציה לפי תוצאות
עלויות
הכנת דאטה לפרויקט בינוני (500-2000 מסמכים):
- ניקוי ידני / חצי־אוטומטי: ₪8K-15K
- ווקטוריזציה: ₪3K-6K
- vector DB (חודשי): ₪50-200
- API costs (חודשי): ₪100-500
- סה"כ הקמה: ₪15K-25K
אחזקה שוטפת:
- ₪500-2000/חודש (תוספות, עדכונים, ניטור)
טעות שאני רואה הכי הרבה
עסקים אומרים: "אנחנו רוצים סוכן AI. יש לנו כל המסמכים ב־Google Drive."
תשובה: זה לא דאטה. זה אוסף קבצים. ההפרש הוא 3-6 שבועות עבודה.
לפני שאתה מתחיל לבנות AI — שב שבועיים על הדאטה. זה החוק הראשון.
צריכים עזרה ליישם את זה בעסק?
Alpha MF מתמחה באוטומציה, AI, ואינטגרציות. שיחת ייעוץ ראשונה — 30 דקות חינם.
דברו איתנו ←