חברת דיפ-סיק (DeepSeek) הסינית, שהפכה באחרונה לשם דבר בעולם הבינה המלאכותית, מפרסמת מודל פתוח חדש ההופך את דרך החשיבה המקובלת על ראיית טקסטים. המודל, שנקרא DeepSeek-OCR, מציע מנגנון שבו הטקסט אינו מוזן כרצף של מלים אלא כתמונה דו־ממדית הנקלטת על-ידי מקודד חזותי. בדרך זו מצליח המודל לייצג את המידע בצורה חסכונית עד פי עשרה מן המקובל במודלים מבוססי טקסט.
במקום להשתמש במאות מיליוני "אסימוני טקסט" (tokens), המערכת מתרגמת אותם לאסימוני ראייה - Vision Tokens - ומדווחת על שימור של 97% דיוק גם לאחר דחיסה משמעותית. משמעות הדבר היא כי ניתן לעבד מסמכים ארוכים בהרבה, או מאגרי מידע רחבי־היקף, מבלי להכביד על המחשב.
תובנות מעוררות עניין בעולם המדעי
אחד ממייסדי OpenAI, אנדריי קרפתי, התייחס למחקר וציין כי ייתכן שהעתיד טמון דווקא בהמרת כל קלט חזותי - גם טקסטואלי - לתמונה. לדבריו: "אולי ראוי שכל הקלטים למודלים גדולים יהיו תמונות. ייתכן שטקסטים הם קלט בזבזני".
ההערכה הזו שובה את דמיונם של חוקרים רבים, הרואים במודל החדש של דיפ־סיק גשר אפשרי בין מודלים שפתיים למודלי ראייה.
השלכות עסקיות נרחבות
עבור עסקים, המשמעות עלולה להיות מהפכנית. במקום להעלות למודל מסמך אחר מסמך, ניתן יהיה להזין את כלל החומרים הפנימיים של חברה - נהלים, דוחות, מאגרי קוד - בפעולה אחת. בכך נחסך הצורך במנועי חיפוש נפרדים ובזמן עיבוד ממושך.
ג'פרי עמנואל, משקיע טכנולוגי ולשעבר אנליסט כמותי, הסביר כי המודל יוכל לאפשר לחברות "לדחוס עשרות מיליוני אסימונים בהכנה אחת ולבצע עיבוד שוטף של כלל הידע הארגוני".
חזון של "ארמונות זיכרון"
החוקרים מציעים לראות במודל החדש מעין מקבילה דיגיטלית ל"ארמונות הזיכרון" - שיטה עתיקה שבה משתמשים ברמזים חזותיים כדי לארגן ידע. עיבוד מידע דרך תמונות עשוי להעניק למחשבים יכולת לזכור, לסדר ולשלוף ידע בצורה אנושית יותר.
עם זאת, מומחים מזהירים כי עדיין לא ברור אם מודלים כאלה ישמרו על אותה רמת "הבנה" כמו במודלי טקסט רגילים. האתגר הבא, כך נראה, יהיה לבדוק אם מודלים חזותיים יכולים להסיק מסקנות או לבצע פעולות מורכבות באותה רמת עומק.
גם שאלות טכניות נותרו פתוחות: כיצד להתמודד עם רזולוציות שונות, צבעים משתנים או עיוותים חזותיים בטקסט דחוס.
אך דבר אחד ברור: דיפ־סיק שוב מצליחה להקדים את מתחרותיה ולשבור את כללי המשחק של הבינה המלאכותית. אם עד כה אמרנו ש"תמונה שווה אלף מילים", ייתכן שבקרוב נצטרך לעדכן את האמרה ל"עשרת אלפים מילים".