איך העוזר/ת הקולי/ת שלי מבינ/ה אותי? למה אנחנו מתכוונים כשאנו אומרים 'הדליקי את האורות בכל הבית', 'שלח הודעה לפלוני', 'אני מגיע לחיפה בעוד 5 דקות', או 'נקי לי רק את המטבח'. כדי שהמכונה תוכל לעשות זאת, יש ללמד אותה להבין את שפת בני האנוש.
רשות התקשוב הממשלתי מפרסמת בימים אלו לראשונה קורפוס מתויג ידני (תיוג "זהב") של עברית בת-זמננו. זה מאגר טקסטים שבו לכל מילה הצמידה האקדמיה ללשון העברית ניתוח בלשני, והוא בנוי לשמש ללמידת מכונה. זו סנונית ראשונה במיזם הדיגיטציה של השפה העברית. מטרתו לייצר מסד נתונים איכותי שיאפשר למכונות מחשוב "להבין" שפה אנושית בשיחה כתובה ומדוברת.
מיזם הדיגיטציה צפוי להוביל למהפכה ב"הבנת" המכונה את השפה העברית ויפתח שער לשירות בעברית ביישומונים ובכלים רבים. כיום קיים פער ניכר ביכולת הכלים המבוססים על עיבוד שפה טבעית בין העברית לבין האנגלית, הנמצאת במוקד המחקר. למשל אם תנסו להשתמש בעברית ב-Echo של
אמזון, ב-Google Home של גוגל או ב-HomePod של אפל, לא תקבלו מענה ברמה שהורגלתם אליה בשימוש באנגלית. מכשירים המבינים דיבור חופשי נמכרים בעולם במאות מיליונים, והשימוש בהם הולך וגובר בין השאר לצורך קיום פעולות תוך כדי נהיגה או בזמן שהידיים או העיניים עסוקות בדבר אחר. במיוחד יש בהם פוטנציאל לשיפור איכות החיים לאנשים עם מוגבלויות. מלבד "שיחות" עם מכשירים, לעיבוד שפה טבעית יש יישומים מרחיקי לכת כגון תרגום מכונה, כריית מידע רלוונטי מתוך טקסט, ניתוח כוונות ורגשות מתוך טקסט, סיווג טקסטים ותקצירים אוטומטיים.
הערך לדוברי העברית הוא עצום, כי ייפתחו בפניהם אפשרויות רבות שכיום זמינות רק בשפות זרות, ויוכלו בעתיד להתבסס על העברית המדוברת בת-זמננו.
במיזם ניסויי חלוץ, שהוגדר ברשות התקשוב הממשלתי ונעשה באקדמיה ללשון העברית, נבחן התקן למבנה התיוג, ולאחר מכן תויגו מאות משפטים, הן בשיח מובנה הן בשפה חופשית, שנלקחו מעולם השירות הממשלתי לציבור.
אנשי מקצוע באקדמיה ללשון העברית תייגו את המשפטים תיוג מורפולוגי ידני בתקן UD (תקן בינלאומי המאפשר שימוש על-ידי אלגוריתמים לעיבוד שפה טבעית).
כדי להבטיח התאמה בין עולם התיוג המורפולוגי לבין עולם הניתוח התחבירי הממוחשב, שולבה בפרויקט מעבדת ה-NLP של הפרופסור רעות צרפתי באוניברסיטת בר-אילן, ונעשה שם תיוג תחבירי אוטומטי על בסיס התיוג המורפולוגי הידני.
התוצר פורסם ברישיון קוד פתוח לשימוש הציבור באתר Data.gov.il וזו הפעם הראשונה שתוצר תיוג בעברית בת-זמננו וביוזמה ממשלתית, מפורסם לשימוש חופשי לציבור, למחקר אקדמי ולחברות מסחריות. תוצר החלוץ ייבדק כעת על-ידי הכנסתו ללמידה במכונות של עיבוד שפה טבעית ובינה מלאכותית (AI/(NLP. התקן יטויב בהתאם למשוב שיתקבל. אפשר לשלוח התייחסויות לכתובת
corpus@cio.gov.il