$
מכשירים ומדריכים

האינטליגנציה המלאכותית של גוגל תעשיר את ההפעלה הקולית באנדרואיד

סירי, מאחוריך: גוגל החלה לשדרג את כלי זיהוי הדיבור שלה ברשת עצבית מלאכותית. לפי חוקרים בחברה, השילוב מאפשר דיוק גבוה בכ-25% בזיהוי משפטים שלמים. מה צופן העתיד להפעלה הקולית בסלולרי?

ניצן סדן 09:5008.10.12
לפי דיווח של VentureBeat, גוגל החלה לבחון רכיבי בינת מכונה ככלי תומך לשירותי זיהוי הדיבור וההפעלה הקולית שמובנים באנדרואיד. ענקית האינטרנט חשפה בשנתיים האחרונות עוד ועוד תכונות תכונות אינטליגנציה מלאכותית שתומכות בשירותיה המקוונים. האחרון ברשימה היה יכולת זיהוי אלמנטים בסרטוני יוטיוב - למשל, היכולת של המערכת "לצפות" בסרט ולדעת אם מופיע בו אדם, כלב או חתול.

איך עובדת רשת עצבית מלאכותית?

 

בינת המכונה שפיתחה גוגל מתבססת על רשת עצבית שדומה במידת מה למבנה הפעולה של מוח ביולוגי: הרשת מדמה הצלבת נתונים בין יחידות עיבוד שמרכיבות יחד מידע ממקור חזותי או קולי - בדומה לתקשורת שבין המוח והעין/אוזן. כל מידע נוסף שנקלט משפר את יכולת יחידות העיבוד ומוסיף פרמטרים נוספים בהם ניתן להתחשב. בכך, מדמה גוגל תהליך למידה אנושי.

הרשת העצבית המלאכותית יכולה לבחור בעצמה לאיזה אלמנט להתייחס ומאיזה להתעלם, בהתאם למשימה שניתנה לה. בשלב זה, מסוגלת הרשת להבין רק מילים באנגלית.

 

למה לדבר בסמארטפון, כשאפשר לדבר עם הסמארטפון? (אילוסטרציה) למה לדבר בסמארטפון, כשאפשר לדבר עם הסמארטפון? (אילוסטרציה)

 

לא מדובר בטכנולוגיה חדשה; רשתות שכאלה קיימות מזה עשורים במספר יישומים, חלקם יום-יומיים כמו זיהוי פנים. עתה בחרה גוגל להפנות משאב זה לשיפור יכולות שירותי הזיהוי הקולי שלה בסיוע מסד נתונים עצום: נתוני החיפוש והשימוש שלכם. וינסנט ואנהוק, הממונה על מחקר ההפעלה הקולית בגוגל, אמר ל-Technology Review (מבית MIT) שהשימוש באינטליגנציה המלאכותית שיפר את דיוק ההפעלה הקולית בכ-25%.

 

כלי שכזה יוכל להעשיר בהרבה את ההפעלה הקולית באנדרואיד - עד לרמה של המלצה על אפליקציות והורדתן, כתיבה והפצת הודעות למספר מקורות בו זמנית (למשל, שיתוף סטטוס בפייסבוק ובטוויטר בו זמנית) ואף סנכרון עם מכשירים תומכים כמו טלוויזיות, סטרימרים ועוד. אם הרשת העצבית המלאכותית תלמד את המשתמש די זמן, אולי תוכל אף להבין הקשרים מסוימים ולהוסיף סמיילי ל-SMS שמכיל בדיחה.

 

חבר'ה, שקט. אני שולח הודעה

 

המטרה של גוגל היא להציג מתחרה מדויק, נוח ונגיש לסירי, כלי ההפעלה הקולית של iOS. סירי מתבססת על גישה לכלים קבועים: מנוע חיפוש, דפדפן, חייגן, לוח שנה, נגן מדיה ועוד. הכלי של אפל נשען ככל הנראה על שלוש שכבות - רכיב ניתוח והמרת דיבור לטקסט, רובד איתור שגיאות ושכבת ממשק עם שירותים חיצוניים.

 

כל הזנת מידע מוצלבת עם מסד נתונים שבוחן סטטיסטית את מה שביקשתם מסירי לעשות כדי לאתר במהירות את דפוס התגובה המבוקש - שיתן לכם את מה שככל הנראה רציתם.

 

עם זאת, להפעלה הקולית - מדויקת ככל שתהיה - יש חסרונות שנובעים מאופי השימוש שלנו במכשיר. הסמארטפון שלכם בא אתכם לכל מקום; בין היתר, לסביבות פומביות. המשתמש הממוצע לא ירצה להכתיב SMS או מסר אישי בפייסבוק לטלפון שלו כשסביבו עשרות אנשים ברחוב, באוטובוס או במשרד.

בטל שלח
    לכל התגובות
    x