מספר האפליקציות והחשיבות של ממשקי קול גדלים במהירות

תוכן

ארבע גדול
האמריקאים רוצים לקנות
לשטוף, לאפות, לנקות!
קונספט ישן. סוף סוף הגיע זמנה?
שאלה קשה מבחינה טכנית
קוֹל? אמנות גרפית? או אולי שניהם?
שימו לב לבטיחות!

למשפחה אמריקאית בפורטלנד, אורגון, נודע לאחרונה שהעוזרת הקולית של אלכס הקליטה את הצ'אטים הפרטיים שלהם ושלחה אותם לחבר. בעלת הבית, שכונתה בתקשורת דניאלה, אמרה לכתבים שהיא "לעולם לא תחבר את המכשיר הזה שוב כי אי אפשר לסמוך עליה".

Alexa, המסופק על ידי רמקולי Echo (1) וגאדג'טים אחרים בעשרות מיליוני בתים בארה"ב, מתחיל להקליט כאשר הוא שומע את שמו או "מילה שיחה" הנאמרת על ידי המשתמש. המשמעות היא שגם אם המילה "אלכסה" מוזכרת במודעת טלוויזיה, המכשיר עשוי להתחיל להקליט. זה בדיוק מה שקרה במקרה הזה, אומרת אמזון, מפיצת החומרה.

"שאר השיחה התפרשה על ידי העוזרת הקולית כפקודה לשלוח הודעה", נמסר בהודעת החברה. "בשלב מסוים, אלכסה שאלה בקול: "למי?" המשך השיחה המשפחתית על פרקט היה צריך להיתפס על ידי המכונה כפריט ברשימת אנשי הקשר של הלקוח". לפחות זה מה שאמזון חושבת. כך, התרגום מצטמצם לסדרה של תאונות.

החרדה, לעומת זאת, נותרה בעינה. כי משום מה, בבית שבו עדיין הרגשנו בנוח, אנחנו צריכים להיכנס לאיזשהו "מצב קול", לראות מה אנחנו אומרים, מה הטלוויזיה משדרת וכמובן מה הרמקול החדש הזה על החזה של מגירות אומר. לָנוּ.

למרות זאת, למרות פגמים טכנולוגיים ודאגות לפרטיות, עם העלייה בפופולריות של מכשירים כמו Amazon Echo, אנשים מתחילים להתרגל לרעיון של אינטראקציה עם מחשבים באמצעות הקול שלהם..

כפי שציין ורנר ווגלס, CTO של אמזון, במהלך סשן ה-AWS re:Invent שלו בסוף 2017, הטכנולוגיה הגבילה עד כה את היכולת שלנו ליצור אינטראקציה עם מחשבים. אנו מקלידים מילות מפתח בגוגל באמצעות המקלדת, מכיוון שזו עדיין הדרך הנפוצה והקלה ביותר להזין מידע במכונה.

אמר ווגלס. -

ארבע גדול

בעת שימוש במנוע החיפוש של גוגל בטלפון, כנראה שמנו לב לשלט מיקרופון עם קריאה לדבר כבר מזמן. זֶה גוגל עכשיו (2), שניתן להשתמש בו כדי להכתיב שאילתת חיפוש, להזין הודעה בקול וכו'. בשנים האחרונות, גוגל, אפל ואמזון השתפרו מאוד טכנולוגיית זיהוי קול. עוזרי קול כמו Alexa, Siri ו-Google Assistant לא רק מקליטים את הקול שלך, אלא גם מבינים מה אתה אומר להם ועונה על שאלות.

Google Now זמין בחינם לכל משתמשי אנדרואיד. האפליקציה יכולה, למשל, להגדיר אזעקה, לבדוק את תחזית מזג האוויר ולבדוק את המסלול בגוגל מפות. הרחבה לשיחה של מדינות Google Now Google Assistant () – סיוע וירטואלי למשתמש בציוד. הוא זמין בעיקר במכשירי נייד ובית חכם. בניגוד ל-Google Now, הוא יכול להשתתף בהחלפה דו-כיוונית. העוזר הופיע לראשונה במאי 2016 כחלק מאפליקציית ההודעות של גוגל Allo, כמו גם ברמקול הקולי של Google Home (3).

3. Google Home

למערכת IOS יש גם עוזר וירטואלי משלה, Siri, שהיא תוכנית הכלולה עם מערכות ההפעלה של אפל iOS, watchOS, tvOS homepod ו-macOS. סירי הופיעה לראשונה עם iOS 5 ו-iPhone 4s באוקטובר 2011 בכנס Let's Talk iPhone.

התוכנה מבוססת על ממשק שיחה: מזהה את הדיבור הטבעי של המשתמש (ב-iOS 11 אפשר גם להזין פקודות באופן ידני), עונה על שאלות ומשלימה משימות. הודות להכנסת למידת מכונה, עוזר לאורך זמן מנתח העדפות אישיות למשתמש לספק תוצאות והמלצות רלוונטיות יותר. Siri דורשת חיבור אינטרנט קבוע - מקורות המידע העיקריים כאן הם Bing ו-Wolfram Alpha. iOS 10 הציגה תמיכה בהרחבות של צד שלישי.

עוד אחד מארבעת הגדולים קורטנה. זהו עוזר אישי אינטליגנטי שנוצר על ידי מיקרוסופט. זה נתמך בפלטפורמות Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android ו- iOS. Cortana הוצגה לראשונה בוועידת המפתחים של Microsoft Build באפריל 2014 בסן פרנסיסקו. שם התוכנית מגיע משמה של דמות מסדרת המשחקים Halo. Cortana זמין באנגלית, איטלקית, ספרדית, צרפתית, גרמנית, סינית ויפנית.

משתמשים בתוכנית שכבר הוזכרה Alexa עליהם לשקול גם מגבלות שפה - העוזרת הדיגיטלית מדברת רק אנגלית, גרמנית, צרפתית ויפנית.

ה-Amazon Virtual Assistant שימש לראשונה ברמקולים החכמים של Amazon Echo ו- Amazon Echo Dot שפותחו על ידי Amazon Lab126. הוא מאפשר אינטראקציה קולית, השמעת מוזיקה, יצירת רשימת מטלות, הגדרת אזעקה, הזרמת פודקאסטים, השמעת ספרי אודיו, ומזג אוויר בזמן אמת, תנועה, ספורט ומידע חדשותי אחר כגון חדשות (4). Alexa יכולה לשלוט במספר מכשירים חכמים כדי ליצור מערכת אוטומציה ביתית. זה יכול לשמש גם כדי לבצע קניות נוחות בחנות אמזון.

4. לשם מה משתמשים משתמשים בהד (על פי מחקר)

משתמשים יכולים לשפר את חוויית Alexa על ידי התקנת "מיומנויות" של Alexa (), תכונות נוספות שפותחו על ידי צדדים שלישיים, המכונה בדרך כלל אפליקציות כגון מזג אוויר ותוכניות שמע בהגדרות אחרות. רוב מכשירי Alexa מאפשרים לך להפעיל את העוזר הווירטואלי שלך באמצעות סיסמת השכמה, הנקראת .

אמזון בהחלט שולטת בשוק הרמקולים החכמים כיום (5). IBM, שהציגה שירות חדש במרץ 2018, מנסה להיכנס לארבעה הראשונים העוזר של ווטסון, מיועד לחברות שרוצות ליצור מערכות משלהן של עוזרים וירטואליים עם שליטה קולית. מה היתרון של פתרון IBM? לדברי נציגי החברה, קודם כל, על הזדמנויות הרבה יותר גדולות להתאמה אישית והגנה על הפרטיות.

ראשית, Watson Assistant אינו ממותג. חברות יכולות ליצור פתרונות משלהן בפלטפורמה זו ולתייג אותן עם המותג שלהן.

שנית, הם יכולים לאמן את מערכות העזר שלהם באמצעות מערכי נתונים משלהם, שלדברי IBM מקל על הוספת פונקציות ופקודות למערכת זו מאשר טכנולוגיות VUI אחרות (ממשק משתמש קולי).

שלישית, Watson Assistant לא מספקת ל-IBM מידע על פעילות המשתמש - מפתחי פתרונות בפלטפורמה יכולים לשמור רק נתונים יקרי ערך לעצמם. בינתיים, כל מי שבונה מכשירים, למשל עם אלקסה, צריך להיות מודע לכך שהנתונים היקרים שלו יגיעו לאמזון.

ל-Watson Assistant כבר יש כמה יישומים. המערכת שימשה, למשל, את הרמן, שיצר עוזר קולי למכונית הקונספט מזראטי (6). בנמל התעופה של מינכן, עוזר יבמ מפעיל רובוט פפר כדי לעזור לנוסעים לנוע. הדוגמה השלישית היא Chameleon Technologies, שבה נעשה שימוש בטכנולוגיית קול במד בית חכם.

6. עוזר ווטסון במכונית קונספט של מזראטי

ראוי להוסיף שגם הטכנולוגיה הבסיסית כאן אינה חדשה. Watson Assistant כולל יכולות הצפנה עבור מוצרי IBM קיימים, Watson Conversation ו-Watson Virtual Agent, כמו גם ממשקי API לניתוח שפה וצ'אט.

אמזון היא לא רק מובילה בטכנולוגיית קול חכם, אלא הופכת אותה לעסק ישיר. עם זאת, חברות מסוימות התנסו בשילוב Echo הרבה קודם לכן. Sisense, חברה בתעשיית ה-BI והאנליטיקה, הציגה את שילוב ה-Echo ביולי 2016. בתורו, הסטארט-אפ רוקסי החליט ליצור תוכנה וחומרה מבוקרת קולית עבור תעשיית האירוח. מוקדם יותר השנה, Synqq הציגה אפליקציה לרישום הערות המשתמשת בעיבוד קולי ושפה טבעית כדי להוסיף הערות ורשומות לוח שנה מבלי להקליד אותן במקלדת.

לכל העסקים הקטנים הללו יש שאיפות גבוהות. אולם יותר מכל, הם למדו שלא כל משתמש רוצה להעביר את הנתונים שלו לאמזון, גוגל, אפל או מיקרוסופט, שהן השחקניות החשובות ביותר בבניית פלטפורמות תקשורת קולית.

האמריקאים רוצים לקנות

בשנת 2016, החיפוש הקולי היווה 20% מכלל החיפושים בגוגל לנייד. אנשים המשתמשים בטכנולוגיה זו על בסיס יומי מציינים את הנוחות והריבוי המשימות שלה בין היתרונות הגדולים ביותר שלה. (למשל, היכולת להשתמש במנוע חיפוש בזמן נהיגה במכונית).

אנליסטים של Visiongain מעריכים את שווי השוק הנוכחי של העוזרות הדיגיטליות החכמות ב-1,138 מיליארד דולר, יש יותר ויותר מנגנונים כאלה. לפי גרטנר, עד סוף 2018 כבר 30% מהאינטראקציות שלנו עם הטכנולוגיה תהיה דרך שיחות עם מערכות קול.

חברת המחקר הבריטית IHS Markit מעריכה כי שוק העוזרים הדיגיטליים המופעלים על ידי בינה מלאכותית יגיע ל-4 מיליארד מכשירים עד סוף השנה הנוכחית, ומספר זה עשוי לעלות ל-2020 מיליארד עד 7.

על פי דיווחים מ-eMarketer ו-VoiceLabs, 2017 מיליון אמריקאים השתמשו בשליטה קולית לפחות פעם בחודש ב-35,6. המשמעות היא עלייה של כמעט 130% לעומת השנה הקודמת. שוק העוזרות הדיגיטליות לבדו צפוי לגדול ב-2018% ב-23. זה אומר שאתה כבר תשתמש בהם. 60,5 מיליון אמריקאים, מה שיגרום לכסף קונקרטי עבור המפיקים שלהם. RBC Capital Markets מעריך כי ממשק Alexa יפיק עד 2020 הכנסות של עד 10 מיליארד דולר לאמזון.

לשטוף, לאפות, לנקות!

ממשקי קול נכנסים יותר ויותר באומץ לשוק מכשירי החשמל הביתיים והאלקטרוניקה הצרכנית. אפשר היה לראות זאת כבר בתערוכת IFA 2017 בשנה שעברה. חברת Neato Robotics האמריקאית הציגה, למשל, שואב אבק רובוטי שמתחבר לאחת מכמה פלטפורמות של בית חכם, כולל מערכת Amazon Echo. על ידי דיבור עם הרמקול החכם Echo, אתה יכול להורות למכונה לנקות את כל הבית שלך בשעות מסוימות של היום או הלילה.

בתערוכה הוצגו לראווה מוצרים נוספים עם הפעלת קול, החל מטלוויזיות חכמות הנמכרות תחת המותג Toshiba על ידי חברת Vestel הטורקית ועד שמיכות מחוממות של חברת Beurer הגרמנית. רבים מהמכשירים האלקטרוניים הללו ניתנים להפעלה מרחוק גם באמצעות סמארטפונים.

עם זאת, לדברי נציגי בוש, מוקדם מדי לומר איזו מהאפשרויות של עוזר הבית יהפוך לדומיננטית. ב-IFA 2017, קבוצה טכנית גרמנית הציגה מכונות כביסה (7), תנורים ומכונות קפה שמתחברות לאקו. בוש גם רוצה שהמכשירים שלה יהיו תואמים לפלטפורמות הקול של גוגל ואפל בעתיד.

7. מכונת כביסה של בוש שמתחברת לאמזון אקו

חברות כמו Fujitsu, Sony ו- Panasonic מפתחות פתרונות עוזר קולי מבוססי AI משלהן. שארפ מוסיפה את הטכנולוגיה הזו לתנורים ולרובוטים קטנים שנכנסים לשוק. Nippon Telegraph & Telephone מגייסת יצרניות חומרה וצעצועים כדי להתאים מערכת בינה מלאכותית מבוקרת קול.

קונספט ישן. סוף סוף הגיע זמנה?

למעשה, הרעיון של ממשק משתמש קולי (VUI) קיים כבר עשרות שנים. כל מי שראה מסע בין כוכבים או 2001: אודיסיאה בחלל לפני שנים כנראה ציפה שבסביבות שנת 2000 כולנו נשלוט במחשבים עם הקולות שלנו. כמו כן, לא רק כותבי מדע בדיוני ראו את הפוטנציאל של ממשק מסוג זה. בשנת 1986, חוקרים נילסן שאלו את אנשי ה-IT מה לדעתם יהיה השינוי הגדול ביותר בממשקי המשתמש עד שנת 2000. לרוב הם הצביעו על פיתוח ממשקים קוליים.

יש סיבות לקוות לפתרון כזה. תקשורת מילולית היא, אחרי הכל, הדרך הטבעית ביותר עבור אנשים להחליף מחשבות במודע, ולכן השימוש בה לאינטראקציה בין אדם למכונה נראה כמו הפתרון הטוב ביותר עד כה.

אחד ה-VUIs הראשונים, שנקרא קופסת נעליים, נוצרה בתחילת שנות ה-60 על ידי IBM. זה היה המבשר של מערכות הזיהוי הקולי של ימינו. עם זאת, הפיתוח של מכשירי VUI הוגבל על ידי מגבלות כוח המחשוב. ניתוח ופירוש דיבור אנושי בזמן אמת דורש מאמץ רב, ולקח יותר מחמישים שנה להגיע לנקודה שבה זה באמת התאפשר.

מכשירים עם ממשק קולי החלו להופיע בייצור המוני באמצע שנות ה-90, אך לא זכו לפופולריות. הטלפון הראשון עם שליטה קולית (חיוג) היה פיליפס ספארקשוחרר בשנת 1996. עם זאת, מכשיר חדשני וקל לשימוש זה לא היה חף ממגבלות טכנולוגיות.

טלפונים אחרים המצוידים בצורות של ממשק קולי (שיוצרו על ידי חברות כמו RIM, סמסונג או מוטורולה) יוצאים לשוק באופן קבוע, ומאפשרים למשתמשים לחייג בקול או לשלוח הודעות טקסט. אולם כולן חייבו לשנן פקודות ספציפיות ולהגייתן בצורה מאולצת ומלאכותית, המותאמת ליכולות המכשירים של אז. זה יצר מספר רב של שגיאות, אשר, בתורו, הוביל לאי שביעות רצון המשתמשים.

עם זאת, אנו נכנסים כעת לעידן חדש של מחשוב, שבו התקדמות בלמידת מכונה ופיתוח בינה מלאכותית פותחות את הפוטנציאל של שיחה כדרך חדשה לאינטראקציה עם טכנולוגיה (8). מספר המכשירים התומכים באינטראקציה קולית הפך לגורם חשוב שהשפיע רבות על פיתוח ה-VUI. כיום, כמעט 1/3 מאוכלוסיית העולם כבר מחזיקים בסמארטפונים שניתן להשתמש בהם להתנהגות מסוג זה. נראה שרוב המשתמשים מוכנים סוף סוף להתאים את הממשקים הקוליים שלהם.

8. היסטוריה מודרנית של פיתוח הממשק הקולי

עם זאת, לפני שנוכל לדבר בחופשיות עם מחשב, כפי שעשו הדמויות של אודיסיאה בחלל, עלינו להתגבר על מספר בעיות. מכונות עדיין לא ממש טובות בטיפול בניואנסים לשוניים. חוץ מזה אנשים רבים עדיין מרגישים לא בנוח לתת פקודות קוליות למנוע חיפוש.

נתונים סטטיסטיים מראים כי משתמשים בעוזרות קוליות בעיקר בבית או בקרב חברים קרובים. אף אחד מהמרואיינים לא הודה כי השתמש בחיפוש קולי במקומות ציבוריים. עם זאת, המצור הזה עשוי להיעלם עם התפשטות הטכנולוגיה הזו.

שאלה קשה מבחינה טכנית

הבעיה שמערכות (ASR) מתמודדות איתה היא חילוץ נתונים שימושיים מאותות דיבור ושיוך אותו למילה מסוימת שיש לה משמעות מסוימת עבור אדם. הצלילים המופקים שונים בכל פעם.

שונות של אותות דיבור הוא תכונתו הטבעית, שבזכותה אנו, למשל, מזהים מבטא או אינטונציה. לכל רכיב במערכת זיהוי הדיבור יש משימה ספציפית. בהתבסס על האות המעובד והפרמטרים שלו, נוצר מודל אקוסטי, המשויך למודל השפה. מערכת הזיהוי יכולה לעבוד על בסיס מספר קטן או גדול של תבניות, מה שקובע את גודל אוצר המילים איתו היא עובדת. ייתכן שהם מילונים קטנים במקרה של מערכות המזהות מילים או פקודות בודדות, וכן מאגרי מידע גדולים המכיל את המקבילה למערך השפה ובהתחשב במודל השפה (דקדוק).

בעיות איתם מתמודדים ממשקים קוליים מלכתחילה להבין את הדיבור בצורה נכונה, שבהם, למשל, לרוב מושמטים רצפים דקדוקיים שלמים, מתרחשות שגיאות לשוניות ופונטיות, שגיאות, השמטות, פגמים בדיבור, מילים הומוניות, חזרות לא מוצדקות וכו'. כל מערכות ה-ACP הללו חייבות לפעול במהירות ובאמינות. לפחות אלו הציפיות.

מקור הקשיים הוא גם אותות אקוסטיים מלבד הדיבור המוכר הנכנסים לכניסת מערכת הזיהוי, כלומר. כל הסוגים הפרעות ורעש. במקרה הפשוט ביותר, אתה צריך אותם לסנן. משימה זו נראית שגרתית וקלה - הרי אותות שונים מסוננים וכל מהנדס אלקטרוניקה יודע מה לעשות במצב כזה. עם זאת, יש לעשות זאת בזהירות רבה ובזהירות אם התוצאה של זיהוי דיבור היא לעמוד בציפיות שלנו.

הסינון הנהוג כיום מאפשר להסיר, יחד עם אות הדיבור, את הרעש החיצוני הנקלט במיקרופון ואת המאפיינים הפנימיים של אות הדיבור עצמו, המקשים על זיהויו. עם זאת, בעיה טכנית מורכבת הרבה יותר מתעוררת כאשר ההפרעה לאות הדיבור המנותח היא ... אות דיבור אחר, כלומר, למשל, דיונים רועשים מסביב. שאלה זו ידועה בספרות בשם מה שנקרא. זה כבר דורש שימוש בשיטות מורכבות, מה שנקרא. דקונבולציה (פרום) את האות.

הבעיות בזיהוי דיבור לא נגמרות שם. כדאי להבין שהדיבור נושא סוגים רבים ושונים של מידע. הקול האנושי מרמז על מין, גיל, אופי שונה של הבעלים או מצב בריאותו. קיימת מחלקה נרחבת להנדסה ביו-רפואית העוסקת באבחון מחלות שונות על סמך התופעות האקוסטיות האופייניות המצויות באות הדיבור.

יש גם יישומים שבהם המטרה העיקרית של ניתוח אקוסטי של אות דיבור היא לזהות את הדובר או לוודא שהוא מי שהוא מתיימר להיות (קול במקום מפתח, סיסמה או קוד PUK). זה יכול להיות חשוב, במיוחד עבור טכנולוגיות בנייה חכמה.

המרכיב הראשון של מערכת זיהוי דיבור הוא микрофон. עם זאת, האות שנקלט על ידי המיקרופון בדרך כלל נשאר מועט לשימוש. מחקרים מראים שצורתו ומהלך גל הקול משתנים מאוד בהתאם לאדם, למהירות הדיבור ובחלקו למצב הרוח של בן השיח – בעוד שבמידה מועטה הם משקפים את עצם תוכן הפקודות המדוברות.

לכן, האות חייב להיות מעובד נכון. אקוסטיקה מודרנית, פונטיקה ומדעי המחשב יחד מספקים סט עשיר של כלים שניתן להשתמש בהם כדי לעבד, לנתח, לזהות ולהבין אות דיבור. הספקטרום הדינמי של האות, מה שנקרא ספקטרוגרמות דינמיות. די קל להשיג אותם, ודיבור, המוצג בצורה של ספקטרוגרמה דינמית, קל יחסית לזיהוי תוך שימוש בטכניקות דומות לאלו המשמשות בזיהוי תמונה.

ניתן לזהות אלמנטים פשוטים של דיבור (לדוגמה, פקודות) על ידי הדמיון הפשוט של ספקטרוגרמות שלמות. לדוגמה, מילון טלפון נייד המופעל באמצעות קול מכיל רק כמה עשרות עד כמה מאות מילים וביטויים, בדרך כלל מוערמים מראש כך שניתן לזהות אותם בקלות וביעילות. זה מספיק למשימות בקרה פשוטות, אבל זה מגביל מאוד את היישום הכולל. מערכות שנבנו על פי התוכנית, ככלל, תומכות רק ברמקולים ספציפיים שעבורם קולות מאומנים במיוחד. אז אם יש מישהו חדש שרוצה להשתמש בקולו כדי לשלוט במערכת, סביר להניח שהוא לא יתקבל.

התוצאה של פעולה זו נקראת ספקטרוגרם 2-W, כלומר ספקטרום דו מימדי. יש עוד פעילות בבלוק זה שכדאי לשים לב אליה - הִתפַּלְגוּת. באופן כללי, אנחנו מדברים על פירוק אות דיבור רציף לחלקים שניתן לזהות בנפרד. רק מהאבחנות הפרטניות הללו מתבצעת ההכרה במכלול. הליך זה הכרחי מכיוון שלא ניתן לזהות נאום ארוך ומורכב במכה אחת. כבר נכתבו כרכים שלמים באילו קטעים יש להבחין באות דיבור, ולכן לא נחליט כעת אם הקטעים המובחנים צריכים להיות פונמות (מקבילות לצלילים), הברות, או אולי אלופונים.

תהליך הזיהוי האוטומטי מתייחס תמיד לתכונות מסוימות של אובייקטים. מאות סטים של פרמטרים שונים נבדקו עבור אות הדיבור. לאות הדיבור יש מחולקים למסגרות מוכרות ויש תכונות נבחרותלפיה מסגרות אלו מוצגות בתהליך הזיהוי, אנו יכולים לבצע (עבור כל פריים בנפרד) מִיוּן, כלומר הקצאת מזהה למסגרת, שייצג אותה בעתיד.

השלב הבא הרכבה של מסגרות למילים נפרדות - לרוב מבוסס על מה שנקרא. מודל של מודלים מרומזים של מרקוב (HMM-). ואז מגיע מונטאז' המילים משפטים שלמים.

כעת נוכל לחזור לרגע למערכת Alexa. הדוגמה שלו מראה תהליך רב שלבי של "הבנה" מכונה של אדם - ליתר דיוק: פקודה שניתנה על ידו או שאלה שנשאלה.

הבנת מילים, הבנת המשמעות והבנת כוונת המשתמש הם דברים שונים לחלוטין.

לכן, השלב הבא הוא העבודה של מודול ה-NLP (), שהמשימה שלו היא זיהוי כוונת משתמש, כלומר משמעות הפקודה/שאלה בהקשר שבו היא נאמרת. אם הכוונה מזוהה, אז הקצאת מה שנקרא כישורים ויכולות, כלומר התכונה הספציפית הנתמכת על ידי העוזר החכם. במקרה של שאלה על מזג האוויר, נקראים מקורות נתוני מזג אוויר, שנותר לעבד אותם לדיבור (TTS - מנגנון). כתוצאה מכך, המשתמש שומע את התשובה לשאלה שנשאלה.

קוֹל? אמנות גרפית? או אולי שניהם?

רוב מערכות האינטראקציה המודרניות הידועות מבוססות על מתווך הנקרא ממשק משתמש גרפי (ממשק גרפי). לרוע המזל, ה-GUI אינו הדרך הברורה ביותר ליצירת אינטראקציה עם מוצר דיגיטלי. זה מחייב שמשתמשים ילמדו תחילה כיצד להשתמש בממשק ולזכור מידע זה בכל אינטראקציה שלאחר מכן. במצבים רבים, הקול הרבה יותר נוח, מכיוון שאתה יכול ליצור אינטראקציה עם ה-VUI פשוט על ידי דיבור אל המכשיר. ממשק שלא מאלץ משתמשים לשנן ולשנן פקודות מסוימות או שיטות אינטראקציה מסוימות גורם לפחות בעיות.

כמובן שהרחבת ה-VUI לא פירושה נטישת ממשקים מסורתיים יותר - אלא יהיו זמינים ממשקים היברידיים המשלבים מספר דרכים לאינטראקציה.

הממשק הקולי אינו מתאים לכל המשימות בהקשר נייד. בעזרתו, נתקשר לחבר שנוהג ברכב, ואפילו נשלח לו הודעת SMS, אך בדיקת ההעברות האחרונות עשויה להיות קשה מדי - בשל כמות המידע המועברת למערכת () ונוצרת על ידי המערכת (המערכת). כפי שמציעה רייצ'ל הינמן בספרה Mobile Frontier, השימוש ב-VUI הופך ליעיל ביותר בעת ביצוע משימות שבהן כמות מידע הקלט והפלט קטנה.

סמארטפון המחובר לאינטרנט נוח אך גם לא נוח (9). בכל פעם שמשתמש רוצה לקנות משהו או להשתמש בשירות חדש, הוא צריך להוריד אפליקציה אחרת וליצור חשבון חדש. נוצר כאן שדה לשימוש ופיתוח של ממשקי קול. במקום לאלץ משתמשים להתקין אפליקציות רבות ושונות או ליצור חשבונות נפרדים עבור כל שירות, מומחים טוענים כי VUI יעביר את הנטל של המשימות המסורבלות הללו לעוזרת קולית המופעלת בינה מלאכותית. יהיה לו נוח לבצע פעולות מאומצות. אנחנו רק ניתן לו פקודות.

9. ממשק קולי באמצעות טלפון חכם

כיום, יותר מסתם טלפון ומחשב מחוברים לאינטרנט. לרשת מחוברים גם תרמוסטטים חכמים, אורות, קומקומים ומכשירים רבים אחרים המשולבים ב-IoT (10). כך, ישנם מכשירים אלחוטיים מסביבנו שממלאים את חיינו, אך לא כולם מתאימים באופן טבעי לממשק המשתמש הגרפי. שימוש ב-VUI יעזור לך לשלב אותם בקלות בסביבה שלנו.

10. ממשק קולי עם האינטרנט של הדברים

יצירת ממשק משתמש קולי תהפוך בקרוב למיומנות מפתח של מעצב. זו בעיה אמיתית – הצורך בהטמעת מערכות קול יעודד אתכם להתמקד יותר בעיצוב פרואקטיבי, כלומר לנסות להבין את הכוונות הראשוניות של המשתמש, לצפות את צרכיו וציפיותיו בכל שלב של השיחה.

קול הוא דרך יעילה להזין נתונים - הוא מאפשר למשתמשים להנפיק במהירות פקודות למערכת בתנאים שלהם. מצד שני, המסך מספק דרך יעילה להצגת מידע: הוא מאפשר למערכות להציג כמות גדולה של מידע בו זמנית, ומפחית את העומס על זיכרון המשתמשים. זה הגיוני ששילובם למערכת אחת נשמע מעודד.

רמקולים חכמים כמו Amazon Echo ו-Google Home אינם מציעים תצוגה ויזואלית כלל. משפרים משמעותית את הדיוק של זיהוי קולי במרחקים מתונים, מאפשרים הפעלה ללא ידיים, מה שבתורו מגביר את הגמישות והיעילות שלהם - הם רצויים גם למשתמשים שכבר יש להם סמארטפונים עם שליטה קולית. עם זאת, היעדר מסך הוא מגבלה עצומה.

ניתן להשתמש רק בצפצופים כדי ליידע את המשתמשים על פקודות אפשריות, וקריאת הפלט בקול הופכת מייגעת למעט המשימות הבסיסיות ביותר. הגדרת טיימר עם פקודה קולית בזמן הבישול היא נהדרת, אבל זה לא הכרחי לשאול כמה זמן נשאר. קבלת תחזית מזג אוויר קבועה הופכת למבחן זיכרון עבור המשתמש, אשר צריך להקשיב ולספוג שורה של עובדות במשך כל השבוע, במקום להרים אותן מהמסך במבט חטוף.

המעצבים כבר פתרון היברידי, Echo Show (11), שהוסיף מסך תצוגה לרמקול החכם Echo הבסיסי. זה מרחיב מאוד את הפונקציונליות של הציוד. עם זאת, ה-Echo Show עדיין מסוגל הרבה פחות לבצע את הפונקציות הבסיסיות שהיו זמינות מזמן בסמארטפונים ובטאבלטים. זה לא יכול (עדיין) לגלוש באינטרנט, להציג ביקורות או להציג את התוכן של עגלת קניות של אמזון, למשל.

תצוגה ויזואלית היא מטבעה דרך יעילה יותר לספק לאנשים שפע של מידע מאשר רק קול. עיצוב עם עדיפות קולית יכול לשפר מאוד את האינטראקציה הקולית, אבל בטווח הארוך, אי שימוש שרירותי בתפריט הוויזואלי לשם אינטראקציה יהיה כמו להילחם עם יד אחת קשורה מאחורי הגב. בשל המורכבות הממשמשת ובאה של ממשקי קול ותצוגה חכמים מקצה לקצה, על מפתחים לשקול ברצינות גישה היברידית לממשקים.

הגברת היעילות והמהירות של מערכות ייצור וזיהוי דיבור אפשרה להשתמש בהן ביישומים ובתחומים כמו, למשל:

• צבאי (פקודות קוליות במטוסים או במסוקים, למשל, F16 VISTA),

• תמלול טקסט אוטומטי (דיבור לטקסט),

• מערכות מידע אינטראקטיביות (פריים דיבור, פורטלים קוליים),

• מכשירים ניידים (טלפונים, סמארטפונים, טאבלטים),

• רובוטיקה (Cleverbot - מערכות ASR בשילוב בינה מלאכותית),

• רכב (שליטה ללא ידיים על רכיבי רכב, כגון Blue & Me),

• אפליקציות ביתיות (מערכות בית חכם).

שימו לב לבטיחות!

רכב, מכשירי חשמל ביתיים, חימום/קירור ומערכות אבטחה לבית, ושלל מכשירי חשמל ביתיים מתחילים להשתמש בממשקי קול, לרוב מבוססי בינה מלאכותית. בשלב זה נשלחים הנתונים המתקבלים ממיליוני שיחות עם מכונות ענני מחשוב. ברור שמשווקים מתעניינים בהם. ולא רק הם.

דוח שנערך לאחרונה ממומחי אבטחה של סימנטק ממליץ למשתמשי פקודות קוליות לא לשלוט בתכונות אבטחה כגון מנעולי דלתות, שלא לדבר על מערכות אבטחה ביתיות. כך גם לגבי אחסון סיסמאות או מידע סודי. האבטחה של בינה מלאכותית ומוצרים חכמים עדיין לא נחקרה מספיק.

כאשר מכשירים ברחבי הבית מקשיבים לכל מילה, הסיכון לפריצה ושימוש לרעה במערכת הופך לנושא חשוב ביותר. אם תוקף מקבל גישה לרשת המקומית או לכתובות האימייל המשויכות לה, ניתן לשנות או לאפס את הגדרות המכשיר החכם להגדרות היצרן, מה שיוביל לאובדן מידע יקר ערך ולמחיקת היסטוריית המשתמש.

במילים אחרות, אנשי מקצוע בתחום האבטחה חוששים שבינה מלאכותית מונעת על ידי קול ובינה מלאכותית עדיין לא מספיק חכמה כדי להגן עלינו מפני איומים פוטנציאליים ולסתום את הפה שלנו כשאדם זר מבקש משהו.