אם אתם משתמשים שנוהגים לערוך חיפוש קולי באמצעות גוגל (Google) במכשירי ה-iPhone או באנדרואידים שלכם, ייתכן ששמתם-לב שתוצאות החיפושים העכשוויים מדויקות יותר ואף מגיעות במהירות רבה בהרבה. הסיבה לתמורות נעוצה בכך שחוקרי גוגל פיתחו דרך חדשה לאחד מודלים אקוסטיים עם יכולות הלמידה של המחשב (בינה מלאכותית) לצורך שיפור הטיפול בחיפוש קולי, אפילו כשההקלטה מכילה רעשי רקע נלווים.
החיפוש הקולי המשופר הוא רק אחד מסדרת עידכונים שערכה גוגל לאופציית הזיהוי הקולי שלה בחודשים האחרונים. מוקדם יותר החודש שחררה החברה כלי שעתוק חדש ל-Docs בדפדפן Chrome, אשר מציע תמיכה ביותר מ-40 שפות, ואילו ביולי הודיעו מהנדסי התוכנה בגוגל על ירידה של 49% בטעויות שעתוק בחיפוש הקולי וב-Project Fi הטלפוני של החברה.
בפוסט שפרסם בבלוג (יום ג', 29.9.15) כתב חבר צוות Google Speech שהחברה השיגה שיפור משמעותי ביכולת ההבנה של המכונה את השפה הדבורה, במיוחד בסביבה רועשת, ושהביצועים החדשים הם גם מהירים במיוחד. בלוג נוסף נתן קישור לווידאו מיוטיוב (YouTube) המדגים את הביצועים החדישים אשר מאפשרים למחשב לזהות נכון יותר את המילים והמשפטים שנאמרים לו, ולהפיק תוצאות חיפוש מרשימות בהרבה.
גוגל איננה, כמובן, החברה היחידה שמפתחת בקצב מואץ את אפשרויות הזיהוי הקולי והבינה המלאכותית. חברות כמו
מיקרוסופט (Microsoft) ופייסבוק (Facebook), למשל, מעסיקות צוותי פיתוח והנדסה המתרכזים בשכלול היכולות הללו בדיוק. לפי דיווח עכשווי של חברת המחקר iRunway, דווקא מיקרוסופט היא המחזיקה כיום במספר הרב ביותר של פטנטים רשומים המקושרים לזיהוי דיבור וקול. אולם החברה מבשרת על שינוי מהותי בפיתוח התחום שעשוי לחול בשנת 2016 עת יפוגו הזכויות על לפחות 172 פטנטים ואלו יהפכו לרכוש הציבור. "הדבר הזה יקדם כנראה גל פיתוחים חדש בתחום הזיהוי הקולי שיספק שינוי דרמטי בטכנולוגיה ובאפליקציות שעושות בה שימוש", כך מתנבאים בחברה.