סקירת נאום לטקסט של ווטסון: שירות התמלול הטוב ביותר בנפח גבוה? סקירה

ווטסון היא מערכת המחשבים לעיבוד שפות טבעיות של יבמ. זה מעניק כוח למחשב העל המפורסם שעונה על תשובות, כמו גם סדרה של מוצרים ארגוניים מבוססי AI, כולל Watson Speech to Text. בסקירת הדיבור לטקסט שלנו בוואטסון, נסקור את אחד היישומים הטובים ביותר לדיבור לטקסט סביבנו, אידיאלי לכל מי שרוצה להמיר שמע לטקסט בקנה מידה.

פלטפורמת עיבוד הדיבור של ווטסון זמינה ב- IBM Cloud. זהו כלי רב תכליתי וניתן להשתמש בו בהקשרים רבים כולל תכתיב ותמלול שיחות ועידה. מה שכן, בניגוד לרוב אפליקציות דיבור-טקסט אחרות, הוא זמין כ- API, ומאפשר למפתחים להטמיע אותו במערכות בקרת קולות, בין השאר.

ווטסון נאום לטקסט: תוכניות ותמחור

אתה יכול להשתמש ב Watson Speech to Text כדי לעבד עד 500 דקות שמע בחינם בחודש. אם ברצונך להמיר יותר מזה, תצטרך לשלם עבור כל דקה שמע, והשיעור משתנה בהתאם למשך הזמן שמעובד שמע. העלויות נעות בין 0.01 $ ל- 0.02 $ לדקה, ויש צורך בתוספת תשלום של 0.03 $ לדקה אם אתה זקוק למודל השפה המותאם אישית של IBM. תוכניות ווטסון בלבד מציעות הצעות מחיר פרמיות בלבד זמינות, ואלו מעניקות גישה לתכונות פרטיות משופרות של נתונים וערבות לזמן פעולה.

שירות הדיבור לטקסט של ווטסון מתומחר על פי נפח התוכן שאתה צריך לתמלל. (זיכוי תמונה: יבמ)

באפשרותך לגשת למערכת ווטסון דיבור לטקסט באמצעות מנוי יבנה לענן כללי. עיבוד שפות טבעיות הוא רק אפליקציה אחת במגוון רחב של שירותי AI שתוכלו לקבל דרך IBM Cloud, כך שזו אפשרות טובה לכל ארגון הזקוק לגישה להעברת נתונים במהירות גבוהה, צ'אט בוטים או כלי טקסט לדיבור..

נאום ווטסון לטקסט: תכונות

הודות לשילוב API גמיש וכלים אחרים של יבנה מראש של IBM, שירות זיהוי הדיבור של ווטסון חורג הרבה מעבר לתמלול בסיסי. אם ברצונך להשתמש בה בהקשר של שירות לקוחות, למשל, ניתן להגדיר את עוזר ווטסון לעבד שאלות ישירות בשפה טבעית או לענות על שאלות בטלפון..

בווטסון, IBM הציבה פלטפורמת עיבוד שפות טבעיות עשירה בתכונות. (זיכוי תמונה: יבמ)

ווטסון עובד עם שמע חי ב -11 שפות ויכול לייבא צלילים במגוון פורמטים שהוקלטו מראש. בעת סטרימינג, תמיכה באבחון בזמן אמת פירושה שווטסון יכול להניע משתמשים להתקרב למיקרופון שלהם או לשנות את סביבתם. מרשים גם הוא העובדה שווטסון יכול להבחין בין רמקולים שונים בשיחה משותפת בזכות דיוויזיות רמקולים, תכונה שעוברת עדיין בדיקות בטא.

ווטסון נאום לטקסט: התקנה

כדי להשתמש בווטסון, הדבר הראשון שעליך לעשות הוא ליצור חשבון IBM Bluemix. ההרשמה הינה בחינם וללא כאבים, ומחייבת רק כתובת דוא"ל וסיסמא. לאחר הכניסה אתה צריך להוסיף הפרשה בחשבונך לשירות דיבור לטקסט. תקבלו כמה אישורים בשלב זה שעליכם לשמור ברשומות שלכם.

ההרשמה לחשבון IBM Bluemix נחוצה על מנת לקבל גישה למערך התכונות המלא של ווטסון. (זיכוי תמונה: יבמ)

אחרי שעשיתם את זה, הדברים הופכים מורכבים משמעותית. כדי לגשת לווטסון, תצטרך להוסיף את האישורים הללו לצוות קוד איתור משאבים אחיד לקוח (cURL) ואז להריץ אותו במחשב שלך. כדי לגלות בדיוק לאיזו פקודה להתקשר, עיינו במדריך שימושי זה. לחלופין, אם אתה רק רוצה לראות עד כמה מערכת ווטסון עובדת מבלי שתצטרך לדלג בין כל החישוקים האלה, תוכל לנסות זאת באתר ההדגמה של יבמ במקום.

ווטסון נאום לטקסט: ממשק

שלא כמו אפליקציות קוליות לטקסט העומדות בפני הצרכן, שירותי Watson מתוכננים לגישה דרך ממשקי API וקוד המוטמעים במערכות אחרות. מסיבה זו, אין ווטסון אמיתי “ממשק”. במקום זאת ניתן לגשת לווטסון באמצעות שלושה פרוטוקולים שונים באינטרנט. אלה הם WebSockets, REST API ו- Watson Developer Cloud.

ניתן לנהל דיבור לטקסט של ווטסון באמצעות מערכת הענן למפתחים של ווטסון. (זיכוי תמונה: יבמ)

כדי לשלוט בווטסון, עליכם להשתמש בכלי שורת פקודה המתחבר לענן של יבמ באמצעות אחד משלושת המסלולים הללו. הממשק שמשתמש הקצה אינטראקציה עם ווטסון רואה יצטרך להיבנות על ידי מישהו בצוות הפיתוח שלך בנפרד.

ווטסון נאום לטקסט: ביצועים

בסך הכל התרשמנו מהאופן בו פלטפורמת העיבוד הטבעי בשפה טבעית טיפלה בדיבור אמיתי. השתמשנו בווטסון כדי לתמלל קליפים שהקלטנו במגוון סביבות מאתגרות כמו גם עקיצות קול של נאומים מפורסמים שניתנו בכמה מתוך 11 השפות הנתמכות של ווטסון..

גילינו שווטסון ביצעה ביצועים טובים עם דיבור שהוקלט מראש. (זיכוי תמונה: יבמ)

למרות ששגיאות התגברו לעיתים קרובות יותר עבור קליפים עם הרבה רעשי רקע, באופן כללי, ווטסון הניבה תוצאות מדויקות להפליא. הערכנו מהבדיקות שלנו כי טעויות ללא פשרות התרחשו רק אחת ל -150 מילים בממוצע. עם זאת, התברר מדוע התכונה של דיאטת הרמקול של ווטסון נשארת בבדיקת BETA שכן, מספר פעמים במהלך ההערכה שלנו, קול אחד לא הוסבר כשפה רמקולים נפרדים.

ווטסון נאום לטקסט: תמיכה

מרכז המשאבים של יבמ מציע שפע של תיעוד כדי להבין טוב יותר כיצד ליישם את ווטסון על מקרה השימוש הספציפי שלך. כדאי גם להשתמש בשילובי API וב- SDK שנוצרו על ידי קהילת המפתחים ווטסון והועלו לאתר GitHub.

דף ה- GitHub API של Watson הוא מקור טוב לתמיכה בשירות הטקסט לטקסט של ווטסון. (זיכוי תמונה: יבמ)

אם לא תמצא שם את הפיתרון לבעיה שלך, תוכל לפנות ישירות אל יבמ על ידי פתיחת כרטיס תמיכה או פנייה אליהם בטלפון. כל עוד בחרת באחת מחבילות הוואטסון המובחרות, השימוש שלך בוואטסון יוגן על ידי הסכם Uptime Level Service.

נאום לטקסט של ווטסון: פסק דין סופי

אם לארגון שלך יש את הידע והמשאבים לשילוב נכון של פלטפורמת ה- IBM Watson Speech לטקסט במערכת שלך, תרוויח מפונקציות מתקדמות כמו אבחון סביבת קול בזמן אמת ותוצאות שעתוק ביניים. עם זאת, עסקים וארגונים קטנים יתאבקו באתגר הטכני של הקמת ווטסון כראוי.

התחרות

שירות ה- Speech to Text של יבמ ווטסון הוא מתחרה ישיר לשירותי תמלול בתפזורת של Google Cloud Speech-to-Text ו- Amazon Transcribe. שני אלה זולים משמעותית מוואטסון, עם תעתיק גוגל ענן, למשל, החל מ 0.006 $ לדקה. כל שלושת השירותים חולקים פונקציות דומות, כגון אוצר מילים בהתאמה אישית, אך תכונה אחת חסרה עד מאוד ביבמ ווטסון אך זמינה אצל שני המתחרים היא זיהוי פיסוק אוטומטי..

מחפש אחר פיתרון לדבר-לטקסט? עיין במדריך התוכנה הטוב ביותר לדיבור לטקסט שלנו.