מערכת זיהוי דיבור

מערכת זיהוי דיבור (באנגלית: Speech To Text (STT) או Automatic Speech Recognition (ASR)) היא מערכת ממוחשבת המסוגלת לפענח דיבור אנושי ולתרגמו לטקסט. הקלט למערכת מגיע ממיקרופון שאליו מדבר המשתמש, משיחת טלפון הנקלטת במערכת וכיוצא בזה. זהו תחום משולב של מדעי המחשב ובלשנות חישובית, הכולל בתוכו מספר מתודולוגיות, מודלים וטכנולוגיות שונות.

בחלק מהמערכות דרוש תהליך "אימון" לפני שהמערכת מסוגלת לפעול, בו אדם קורא טקסט או אוצר מילים קבוע, ולאחר מכן נעשית אנליזה על הקול הספציפי של האדם כדי לזהות אותו בצורה מדויקת יותר. מערכות שלא דורשות אימון הן בדרך כלל לא תלויות בזהות הדובר.

נהוג להבחין בין זיהוי דיבור שמטרתו לזהות את תוכן הדיבור (לצורך ביצוע פקודה או רישום טקסט) לבין זיהוי קול שמטרתו לזהות דובר לא ידוע, לאמת זהות דובר ידוע או לאפיין את הדיבור שלו (למשל, בעבר ניסיון להעריך האם אדם מסוים דובר שקר או אמת לפי הקול שלו).

מבחינת הטכנולוגיה, למערכות זיהוי דיבור יש היסטוריה ארוכה שכללה מספר גלים בהם נעשה שימוש במספר שיטות שונות. לאחרונה, התחום התפתח במיוחד מהתקדמות בענפי הלמידה עמוקה וה-Big data. ההתפתחות באה לידי ביטוי לא רק במספר המאמרים המדעיים המתפרסמים בתחום, אלא גם באימוץ הנרחב יותר ברחבי העולם של שיטות למידה עמוקה שונות בתכנון ומימוש של מערכות זיהוי דובר.

תוכנות מובילות בתחום ההכתבה מאז שנות השמונים היו: ViaVoice של חברת IBM‏, Dragon NaturallySpeaking של חברת "דרגון דיקטייט" ו-MacSpeech Dictate. בחלק מגרסאות Windows Vista ו-Windows 7 יש מערכת זיהוי דיבור מובנת.

שימושים

שימושים נפוצים במערכות זיהוי דיבור:

תפעול מחשב תוך הפחתת או ביטול הצורך לגעת בו בעזרת הידיים, כאשר למשתמש המחשב יש לקות תנועה בגפיים העליונות^[1], או כאשר הוא במצב בו ידיו עסוקות (כגון נהיגה^[2] או מתן טיפול רפואי^[3]). תפעול זה כולל, בחלק מהמקרים, הכתבת מסמכים (Speech To Text).
ברוב מכשירי הטלפון הסלולרי יש מערכת זיהוי דיבור, שמאפשרת לחייג למספר טלפון לפי חתימת קול שיצר המשתמש.
מרכזת טלפונים הפועלת באמצעות זיהוי דיבור מאפשרת למתקשר לומר את שם האדם שאיתו הוא מבקש לדבר, ולקשר אותו לאדם המבוקש.
זיהוי ביומטרי במערכות אבטחה, למשל זיהוי הפונים למוקד טלפוני של בנק. בשימוש זה לא נדרש זיהוי דיבור, אלא זיהוי של תבנית הקול של הדובר.

שימושים פחות מקובלים של מערכות אלה:

סיוע בהפעלת מחשב לאנשים עם מגוון לקויות שאינן לקויות תנועה^[4].
נתינת אשליה למשתמש מציאות מדומה שהוא מדבר אל דמויות בדיוניות ולא אל מחשב.
תזמון אוטומטי של כתוביות נגישות לחירשים בסרטים. דהיינו, את הכתוביות אומנם כותב אדם, אך מערכת זיהוי קולי יכולה לפתור את האדם מאיתור הקטע הנכון בסרט להדבקה של כל הכתובית^[5].

שימושים שעשויים להיות למערכות אלה בעתיד:

הפעלת מחשב והכתבת מסמכים (Speech To Text).
סיוע בקלינאות תקשורת.
ייצור אוטומטי של כתוביות נגישות לחירשים בסרטי וידאו.

יעילות של זיהוי דיבור

מערכות זיהוי דיבור כקלט להפעלת המחשב נמצאות בשימוש הציבור מאז סוף שנות השמונים. נכון לסוף העשור הראשון של המאה ה-21, אדם בעל תפקוד ידיים תקין הנמצא במצב שבו ידיו פנויות להקלדה, יחבר תמליל מהר יותר בהקלדה מאשר בדיבור אל המחשב. זאת משום שתיקון שגיאות הקלט הרבות של מערכות אלה גוזל זמן רב. מקליד זריז עשוי להגיע לקצב הקלדה של 100 מילים בדקה, בעוד שאדם מיומן בחיבור תמליל בעזרת מערכת לזיהוי דיבור יגיע לפחות מחמישים מילים לדקה וגם זאת אחרי שהמחשב כוונן לקולו ואחרי שהשגיאות הטיפוסיות לקלט מהדיבור שלו הוזנו בפונקציית תיקון השגיאות האוטומטית^[6].

מעבר לזאת, במשימות הקלדה קצרות (שני משפטים ומטה), נכה שכיוון את מערכת זיהוי הקול שלו על ידי מומחה יכול להשיג תוצאות דומות לאלה של אדם חסר לקות^[7].

יש אנשים שההקלדה על מקלדת גרמה להם פציעות מאמץ חוזרני, כגון תסמונת תעלת שורש היד. חלק מהאנשים האלה עוברים לשימוש במערכת זיהוי דיבור במקום במקלדת כלשהי. אצל חלק מהאנשים העוברים למערכות זיהוי קולי בשל פציעת מאמץ חוזרני שהתפחתה מהקלדה מתפתחות פגיעות תנועות חוזרניות בגרון^[8]. ההנחה היא שפציעות אלה מתפתחות בשל העובדה שמערכת זיהוי דיבור של מחשב מאלצת את המשתמש לדבר באופן לא טבעי ומשום שפגיעות תנועות חוזרניות מופיעות אצל מי שיש לו נטייה לחזרתיות תנועתית מדויקת^[9]. לכן מומלץ, למי שחש שמקלדת מונעת פציעה לא מועילה לו מספיק, לחלק את עבודת חיבור התמליל בין מקלדת מונעת פציעה לבין מערכת זיהוי דיבור.

ראו גם

קישורים חיצוניים

מדיה וקבצים בנושא מערכת זיהוי דיבור בוויקישיתוף

רוני שני, חדש: זיהוי דיבור לעסקים קטנים, באתר ynet, 23 באוגוסט 2004
מילון טכנולוגיית המידע: זיהוי קול (תשס"ז), באתר האקדמיה ללשון העברית
אמיתי זיו, תיפרדו מהכפתורים והמקלדת - ודברו: הטכנולוגיה החדשה שמשתלטת על העולם, באתר TheMarker‏, 5 באוגוסט 2019
מערכת זיהוי דיבור, באתר אנציקלופדיה בריטניקה (באנגלית)
זיהוי דיבור אוטומטי, דף שער בספרייה הלאומית

הערות שוליים

^ Koester, H.H.: Usage, performance, and satisfaction outcomes for experienced users of automatic speech recognition. Journal of Rehabilitation Research and Development 41 (5) 739-754, 2004
^ Tsimhoni, O. Smith, D. and Green, P.: Address entry while driving: speech recognition versus a touch-screen keyboard. Human factors 46 (4) 600-10, 2004
^ Nagy, M., Hanzlicek, P., Zvarova, J., Dostalova, T., Seydlova, M., Hippman, R., Smidl, L., Trmal, J., Psutka, J.: Voice-controlled data entry in dental electronic health record. Studies in Health Technology and Informatics, 136 529-34, 2008[1]
^ Wade, J., Petheram, B., and Cain, R.: Voice recognition and aphasia: can computers understand aphasic speech? Disability and Rehabilitation 23(14) 604-13, 2001
^ Archived Webinars | Google, Adobe Share Their Video Accessibility Strategies סמינר של אנשי הנגישות של חברת אדולבי וחברת גוגל בנושא נגישות סרטים באינטרנט
^ Mitchard, H. and Winkles, J.: Experimental comparisons of data entry by automated speech recognition, keyboard, and mouse. Human factors 44 (2) 198-209, 2002
^ דומן ומזר, מדריך לבדיקת יעילות הקלדה ACPT, עמוד 9 [2]
^ Muscle tension dysphonia in patients who use computerized speech recognition systems. Olson DE, Cruz RM, Izdebski K, Baldwin T. Ear Nose Throat J. 2004 Mar;83(3):195-8
^ הופעת פציעות התנועה החוזרנית בגרון אצל מי שהתנזר מהקלדה עקב פציעות תנועה חוזרניות בידיים דורשת מחקר נוסף.

[1] Koester, H.H.: Usage, performance, and satisfaction outcomes for experienced users of automatic speech recognition. Journal of Rehabilitation Research and Development 41 (5) 739-754, 2004

[2] Tsimhoni, O. Smith, D. and Green, P.: Address entry while driving: speech recognition versus a touch-screen keyboard. Human factors 46 (4) 600-10, 2004

[3] Nagy, M., Hanzlicek, P., Zvarova, J., Dostalova, T., Seydlova, M., Hippman, R., Smidl, L., Trmal, J., Psutka, J.: Voice-controlled data entry in dental electronic health record. Studies in Health Technology and Informatics, 136 529-34, 2008[1]

[4] Wade, J., Petheram, B., and Cain, R.: Voice recognition and aphasia: can computers understand aphasic speech? Disability and Rehabilitation 23(14) 604-13, 2001

[5] Archived Webinars | Google, Adobe Share Their Video Accessibility Strategies סמינר של אנשי הנגישות של חברת אדולבי וחברת גוגל בנושא נגישות סרטים באינטרנט

[6] Mitchard, H. and Winkles, J.: Experimental comparisons of data entry by automated speech recognition, keyboard, and mouse. Human factors 44 (2) 198-209, 2002

[7] דומן ומזר, מדריך לבדיקת יעילות הקלדה ACPT, עמוד 9 [2]

[8] Muscle tension dysphonia in patients who use computerized speech recognition systems. Olson DE, Cruz RM, Izdebski K, Baldwin T. Ear Nose Throat J. 2004 Mar;83(3):195-8

[9] הופעת פציעות התנועה החוזרנית בגרון אצל מי שהתנזר מהקלדה עקב פציעות תנועה חוזרניות בידיים דורשת מחקר נוסף.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

בינה מלאכותית
כללי	מבחן טיורינג • היסטוריה של הבינה המלאכותית • ציר הזמן של בינה מלאכותית • התקדמות הבינה המלאכותית • אוריינות AI • סוכן תבוני • AI-שלמות מערכת מומחה • אסדרת בינה מלאכותית (בישראל) • בינה מלאכותית צרה • בינה חישובית • הסברתיות בינה מלאכותית • הפרדוקס של מורבק • סוכן תבוני • אתיקה של בינה מלאכותית
תחומים	עיבוד שפה טבעית • ראייה ממוחשבת • בינה מלאכותית יוצרת • אומנות בינה מלאכותית • בינה מלאכותית כללית (AGI)
סוגי למידת מכונה	מערכת לומדת • למידה מונחית • למידה בלתי מונחית • למידה עמוקה • למידת חיזוק • סיווג בייסיאני נאיבי • רשת בייסיאנית
אלגוריתמי למידת מכונה קלאסית	פרספטרון • עץ החלטה • מכונת וקטורים תומכים • Bag of words • אלגוריתם k-מרכזים • אלגוריתם מיקסום התוחלת • הורדת ממד • אלגוריתם שכן קרוב • יער אקראי • Q-learning •‏ T-SNE •‏ Tf–idf • חיזוק גרדיאנט
למידה עמוקה	רשת עצבית מלאכותית • רשת זרימה קדימה • רשת עצבית רקורסיבית • פונקציית אקטיבציה • טרנספורמר • Attention •‏ GAN
עיבוד שפה טבעית	מודל שפה • שיכון מילים (אנ') • בלשנות חישובית • תרגום מכונה • חילוץ מידע (אנ') • ניתוח סנטימנט • זיהוי חלקי דיבר (אנ') • מערכת זיהוי דיבור • זיהוי ישויות • כריית טקסט • תיוג תפקידים סמנטי • Word2vec • מודל שפה גדול • GPT •‏ BERT (אנ') • מודל Bag-of-words (אנ') • יצירת טקסט בשפה טבעית (אנ') • מילת עצירה • ניתוח מחרוזות • Stemming (אנ') • למטיזציה (אנ')
יישומים לבינה מלאכותית (אנ')	צ'אטבוט • זיהוי דובר • זיהוי עצמים • זיהוי תבניות • עוזר וירטואלי • זיהוי תווים אופטי • מחולל תמונות • הזיות
מערכות בינה מלאכותית	אלייזה • ChatGPT •‏ DALL-E •‏ Midjourney •‏ Gemini • קלוד •‏ Perplexity •‏ SearchGPT •‏ GitHub Copilot • דיפ־פייק • סירי • Google Assistant • אמזון אלכסה • מיקרוסופט קופיילוט
סוגיות בטיחות בינה מלאכותית (אנ')	סכנה קיומית מבינה מלאכותית כללית • בינה מלאכותית חזקה • יישור בינה מלאכותית (אנ') • בקרת יכולות בינה מלאכותית (אנ') • בינה מלאכותית ידידותית (אנ') • התכנסות אינסטרומנטלית (אנ') • סינגולריות טכנולוגית • השתלטות הבינה המלאכותית • המכתב הפתוח על בינה מלאכותית (2015)
ספריות בשימוש נרחב	TensorFlow •‏ PyTorch •‏ Torch •‏ Hugging Face •‏ Keras •‏ spaCy (אנ') •‏ Caffe
לקטגוריית הבינה המלאכותית