משרד הדיגיטל הלאומי בשיתוף רשות החדשנות, אישרו (יום ג', 22.9.20) את הקמתו של איגוד חברות לטכנולוגיות שפת אנוש (NLP - Natural Language Processing), שיסייע בקידום הבנת השפה העברית והשפה הערבית במערכות ממוחשבות. החברות באיגוד: רפאל, Ginger Software, Melingo, AudioCodes ואחרות.
איגוד החברות לטכנולוגיות שפת אנוש (NLP), שבו תשקיע רשות החדשנות כ-7.5 מיליון שקל בשלוש השנים הקרובות, קם לאור איכות נמוכה ובלתי מספקת של זיהוי השפות עברית וערבית במערכות ממוחשבות מסוגים שונים בהשוואה לזיהוי הדיבור בשפות אחרות. הסיבה לאיכות הירודה והקושי בפיתוח טמונה בעובדה שעברית וערבית הן שפות שמיות המאתגרות וקשות יותר לניתוח, וכך איכות ההבנה והזיהוי של שפת אנוש בעברית וערבית היא נמוכה יותר ומהווה חסם ליישום ומימוש שירותים מתקדמים ואיכותיים.
מטרת האיגוד תהיה לייצר תשתית מו"פ שתאפשר בסיס אמפירי לא רק לזיהוי האלמנטים והדגמים המבניים המרכיבים את המערכת הלשונית, אלא גם למיפוי האופן שבו משתמשים במערכות האלו. אלו מאפיינים תחביריים, סמנטיים ומורפולוגים לצורכי מו"פ בתחום עיבוד שפה טבעית. על-מנת לאפשר שיפורים מגוונים ורחבים ככל הניתן, הקורפוסים המתויגים בעברית ובערבית יהיו מתחומים מגוונים, בהם: חדשות, ארכיונים, סרטים, ספרים, מאמרים, שירות לקוחות, שידורי רדיו וטלוויזיה מתומללים ועוד ממגזרי תעשיה שונים.
נוסף על כך, יבחן האיגוד את האפשרות להתאמת כלי צד ג' (Open Source) או יפותחו כלים בקוד פתוח לבדיקות ושיפור איכות הבנת השפות עברית וערבית ע"י מערכות מחשוב שונות. באמצעות תשתית זו, ניתן יהיה לשפר ולהגביר את איכות הפתרונות השונים לזיהוי שפת אנוש בשפות עברית וערבית. התשתית שיקים האיגוד תוקם על גבי ענן ותאפשר שיתוף מאובטח של הקורפוסים והרצת מערכת ניהול ואלגוריתמים לכל השותפים באיגוד.
קבוצת המשתמשים שתבצע שימוש בתוצרי הארגון תורכב הן מחברי האיגוד, המגיעים מתחומים שונים בתעשיה הישראלית, ואלו יבצעו שימוש בתשתית לצורך פיתוח שירותים, יישומים ותוכנות לשיפור שירות לקוחות, ניהול, ידע, קבלת החלטות ומימוש יישומים מתקדמים הדורשים הבנת שפה טבעית בעברית ובערבית.
בין החברות והמשתתפים בארגון נמצא חברות המפתחות פתרונות תשתית (מחקר ופיתוח בתחומי הבנת שפה וחברות המפתחות אלגוריתמים המשמשים אבני בניין ליישומים שונים בתחום); וכמובן חברות העוסקות בפיתוח שירותים ומוצרים בתחומי הבנת שפה. הצרכנים הפוטנציאליים למוצרים ושירותים מבוססי טכנולוגיות זיהוי שפה טבעית מגיעים ממגוון נרחב של מגזרים ושירותים: הייטק, בנקאות, ביטוח, תקשורת, בריאות, חינוך, תיירות, השמה, משרדים ממשלתיים, מערכות ביטחון ומודיעין.
אשר ביטון, מנכ"ל משרד הדיגיטל הלאומי, אמר כי "המגזר הציבורי עוסק ביום יום במידע בעברית ובערבית שחלקו הגדול אינו מובנה. אחד האתגרים הגדולים בדיגיטציה של השירותים הציבוריים הוא לאפשר יעילות תפעולית, זמינה לציבור ללא עלות, לצד פריון גבוה".
אביב זאבי, סמנכ"ל תשתית טכנולוגית ברשות החדשנות: "האיגוד שהקמנו השבוע אמור לתת לתעשיה להוביל את הגדרות הצרכים ולסייע בסגירת פערים טכנולוגים שיאפשרו לעשות שימוש במאגרי מידע לא מובנים בעברית ולהוציא על בסיסם תובנות שישמשו מנוף למוצרים ושירותים לחברות ישראליות".