Microsoft उन्नत भाषण तकनीक को छेड़ता है, लेकिन यह सभी के लिए नहीं है

Anonim
वॉयस चैटबॉट

(Mr_Mrs_Marcha / Shutterstock)

सीट - क्या आप अपने व्यवसाय के लिए वाक्-संचालित ऐप बनाने के बारे में सोच रहे हैं? बॉट निर्माण के आसपास के कुछ दिशानिर्देश - जैसा कि विख्यात स्वीडिश उद्यमी, पॉडकास्टर, और विंडोज प्लेटफॉर्म डेवलपमेंट एमवीपी जेसिका एंजस्ट्रॉम द्वारा माइक्रोसॉफ्ट बिल्ड में उल्लिखित हैं - सामान्य ज्ञान हैं। उदाहरण के लिए, वॉयस बॉट का निर्माण न करें क्योंकि यह नई तकनीक है, और यह सुनिश्चित करें कि यह आपके व्यवसाय मॉडल के अनुकूल हो।

लेकिन वहाँ बहुत सारे परिदृश्य हैं जहाँ आवाज़ फिट होती है। एक तर्क यह है कि औसत व्यक्ति प्रति मिनट 40 शब्द टाइप करता है लेकिन 150 बोलता है। अकेले Microsoft प्लेटफॉर्म पर प्रति सप्ताह लगभग 3, 000 नए बॉट जारी किए जाते हैं, और 95 प्रतिशत स्मार्टफोन मालिकों ने एक व्यक्तिगत सहायक की कोशिश की है।

हालांकि, यह सभी सहज नौकायन नहीं है। एंगस्ट्रॉम ने माइक्रोसॉफ्ट के अपने विनाशकारी आवाज-प्लस-एआई प्रयोग, ताई का उल्लेख किया, जिसे कंपनी ने एक दिन से भी कम समय में खींच लिया था जब इंटरनेट ने उसे नस्लवादी होना सिखाया था। और उसने बर्गर किंग को इंगित किया, जिसने Google होम को ट्रिगर करने के लिए डिज़ाइन किए गए एक वाणिज्यिक भाग लिया, लेकिन इसके बजाय एक विकिपीडिया पृष्ठ पढ़ा जिसमें व्हॉपर निहित साइनाइड था।

एज़्योर स्पीच टेक में अंतर

आवाज सहायक को डिजाइन करते समय, आपको संभावित उत्तरों के दायरे को सीमित करना चाहिए, एंगस्ट्रॉम ने कहा। क्या इसके पास खुले-आम सवाल नहीं हैं। वॉइस असिस्टेंट को एक प्रश्न या कमांड को फिर से बनाने के कई तरीकों को संभालने के लिए प्रशिक्षित करें। यहां तक ​​कि एक वार्तालाप की पूरी स्क्रिप्ट लिखें जो आपके बॉट के लिए समझ में आता है। अंत में, ऑडियो सहायता प्रदान करें, उदाहरण दे कि उपयोगकर्ता किस तरह की चीजें कह सकता है।

Azure Speech Technology के लिए नया

बिल्ड कीनोट में बड़ी घोषणाओं में से एक था, जिसमें स्पीकर ने जो कहा, उस पर नज़र रखते हुए बैठकों में बहुपक्षीय भाषण को प्रसारित करने की क्षमता थी। एक अलग सत्र में, Microsoft पर भाषण और भाषा के प्रमुख कार्यक्रम प्रबंधक, आर्थी लोंगिनो ने कस्टम डेवलपमेंट इंटरफ़ेस में यह कार्य दिखाया।

एज़्योर स्पीच टेक भाषण अवलोकन

पिछले साल के बिल्ड में, सबसे बड़ी हिट एक बैठक "शंकु" थी जो प्रतिभागियों को पहचानती थी और प्रत्येक ने जो कहा था, उसे प्रसारित किया। अब वह शंकु, जो 360-डिग्री कैमरा भी स्पोर्ट करता है, Microsoft ग्राहकों द्वारा निजी पूर्वावलोकन में परीक्षण किया जा रहा है। लेकिन अन्य डिवाइस हैं जो किसी को भी प्रतिलेखन का परीक्षण करने के लिए मिल सकते हैं, जिसमें रूबो स्मार्ट ऑडियो देव किट भी शामिल है, जिसे सत्र में प्रभावशाली ढंग से प्रदर्शित किया गया था।

आप इन संज्ञानात्मक सेवा भाषण उपकरणों को aka.ms/sdsdk-get पर पा सकते हैं।

सम्बंधित

  • विंडोज 10 पर स्पीच रिकॉग्निशन और डिक्टेट टेक्स्ट का उपयोग कैसे करें। विंडोज 10 पर स्पीच रिकॉग्निशन और डिक्टेट टेक्स्ट का उपयोग कैसे करें
  • क्रोमियम पर माइक्रोसॉफ्ट एज: इसका क्या मतलब है? क्रोमियम पर माइक्रोसॉफ्ट एज: इसका क्या मतलब है?
  • Google सुपर-फास्ट 'नेक्स्ट जेनरेशन' वॉयस असिस्टेंट दिखाता है। गूगल ने सुपर-फास्ट 'नेक्स्ट जेनरेशन' वॉयस असिस्टेंट को दिखाता है

भाषण के दूसरे छोर पर, और कम से कम प्रभावशाली के रूप में, भाषण के लिए पाठ (टीटीएस) है। भाषण सेवाओं पर एक प्रमुख कार्यक्रम प्रबंधक, माइक्रोसॉफ्ट के क्विनिंग लियाओ ने उल्लेखनीय रूप से प्राकृतिक-ध्वनि वाले नए न्यूरल आवाज़ जैसी चीजों में प्रगति दिखाई, जो इतनी चिकनी थी कि कमरे में उपस्थित लोगों ने एक वास्तविक मानव पाठक के लिए इसे वोट दिया।

वर्तमान में, न्यूरल वॉयस केवल नौ क्षेत्रीय अंग्रेजी बोलियों के लिए उपलब्ध हैं, लेकिन जापानी, स्पेनिश और पुर्तगाली काम करते हैं।

एक और नई क्षमता टीटीएस में भावनाओं को जोड़ने के लिए है: कोड में एक सरल कीवर्ड उत्पन्न आवाज को हंसमुख या आनुभविक बना सकता है। वह दूसरे तरीके से भी काम करता है। वास्तव में, कॉल सेंटरों के लिए Microsoft की प्रतिलेखन तकनीकें यह पता लगा सकती हैं कि जब कोई बातचीत नकारात्मक शुरू होती है। स्पीच सर्विसेज व्यवसायों को एक नई कस्टम स्पीच पोर्टल में अपनी शब्दावली का उपयोग करके मान्यता और टीटीएस को अनुकूलित करने देगी। आप इस सहायता पृष्ठ पर सभी Azure Speech Services के बारे में पढ़ सकते हैं।