מחקר חדש מגלה שמודלי תמונות של
בינה מלאכותית לא מציירים “מהדמיון”, אלא מרכיבים תמונה מחלקים קטנים שכבר למדו. שני כללים בסיסיים – מקומיות (טיפול בקטע קטן בכל פעם) ושקילות בהזזה (שמירה על סדר כאשר מזיזים את הקלט) – דוחפים את המודלים לאלתר וליצור דימוי שנראה חדש. לפעמים זה עובד מצוין; לפעמים מתקבלות טעויות מוכרות כמו אצבע נוספת.
מה קורה מאחורי הקלעים
- המודל מתחיל מרעש ומתקדם צעד־צעד אל תמונה ברורה.
- בכל צעד הוא מטפל בטלאי קטן של פיקסלים, בלי לראות את כל התמונה, ואז מחבר את הטלאים לפי כלל מתמטי – “ציון מקומי שקול בהזזה” (ELS). .
- אם מזיזים קלות את הקלט, גם הפלט יזוז באותה מידה - כלל מובנה שמסייע לשמור על סדר.
- הערבוב החכם של טלאים יוצרים יחד דימוי “חדש”, גם אם הוא מבוסס על מה שהמודל כבר הכיר.
כשבדקו את הפלט של המכונה הזו מול מודלים אמיתיים, נמצאה חפיפה מרשימה של כ־90% – תוצאה יוצאת דופן בתחום. המשמעות: אפשר לנבא מראש חלק גדול ממה שהמודל ייצור, גם בלי לאמן רשת עצומה.
למה זה נראה יצירתי
כאשר מרכיבים הרבה חלקים קטנים ממקורות שונים, מתקבלת תמונה שלא הופיעה באימון. זה מרגיש כמו יצירתיות, אבל בעצם זו תוצאה של שיטת העבודה: חיבור טלאים רבים, צעד־צעד, עד שמצטיירת תמונה שלמה. אם חסר ההקשר הגדול – מתקבלות שגיאות כמו אובייקטים “מולחמים” או פרטים לא סבירים.
החידוש של החוקרים
החוקרים מייסון קאםב וסוריה גנגולי פיתחו מודל מתמטי פשוט יחסית שמדמה את התהליך. “מפתיע מאוד”, הגדיר גנגולי, “לא שגרתי בלמידת מכונה”. בכך הם פתחו דרך להבין את היצירתיות של המודלים כתהליך דטרמיניסטי ולא כקסם. הממצאים הוצגו בכנס ICML 2025 ומעוררים עניין רב בקהילת הבינה המלאכותית.