Sztuczna inteligencja w zarządzaniu głosem zyskuje coraz bardziej na popularności. Innowacyjna technologia dynamicznie się rozwija, a na rynku pojawia się coraz więcej asystentów głosowych wykorzystujących AI.
Jak AI zarządza głosem?
Wraz z rozwojem sztucznej inteligencji w świecie IT możemy zaobserwować wzrost inteligentnych rozwiązań, których celem jest wspomaganie człowieka w codziennych czynnościach w życiu codziennym, jak i w biznesie. Zaimplementowanie elementów AI w nowoczesnych aplikacjach do zarządzania głosem znacząco podnosi wartość oferowanych usług, a także jakość interakcji użytkownika z technologią. Zaawansowane algorytmy z łatwością analizują ludzką mowę i dopasowują ją do odpowiedniego polecenia.
Porównanie asystentów głosowych
Wirtualny asystent za pomocą inteligentnych algorytmów może prowadzić rozmowę, wyszukiwać istotne informacje, czy też odpowiadać na pytania. Do liderów w tej dziedzinie należą najwięksi giganci Amazon (Alexa), Apple (Siri), Google (Google Assistant) oraz Microsoft (Cortana). Czym się różnią i które z urządzeń jest najskuteczniejsze? To pytania, na które znajdziesz odpowiedź w poniższym porównaniu.
Źródło https://pl.wikipedia.org/wiki/Cortana; https://pl.wikipedia.org/wiki/Siri; https://en.wikipedia.org/wiki/Amazon_Alexa; https://en.wikipedia.org/wiki/Google_Assistant
Dostępność
System głosowy Alexa jest dostępny na 7 platformach sprzętowych w 41 regionach, a od 2018 roku obsługuje także system Cortany. Alexa jako inteligentny asystent głosowy wykorzystana jest w głośnikach Amazon Echo.
Siri dostępna jest w praktycznie każdym urządzeniu od Apple, łącznie na 7 platformach sprzętowych w 42 krajach. System głosowy dostępny jest w linii głośników HomePod.
Google Assistant jest dostępny na 13 platformach sprzętowych w ponad 90 regionach. Jego dostępność jest bardzo wysoka. Google stworzyło swoją linię inteligentnych głośników Google Home.
Cortana jest dostępna na 11 platformach sprzętowych, w 13 regionach. Asystent głosowy od Microsoft niestety nie jest dostępny w Polsce. Cortana jest zaimplementowana w inteligentnych głośnikach Harman Kardon Invoke.
Rozpoznawanie głosu
Alexa rozpoznaje głos umiarkowanie dobrze. System jest w stanie zrozumieć użytkownika, gdy ton głosu jest dostatecznie głośny i wyraźny. Działa poprawnie w cichych i spokojnych warunkach, gorzej radzi sobie w momencie, gdy odtwarzana jest muzyka.
Asystent głosowy Siri działa prawidłowo jedynie wtedy, gdy nie występują żadne zakłócenia. Użytkownik musi znajdować się blisko urządzenia i mówić dostatecznie głośno, by system był w stanie go zrozumieć. W przypadku odtwarzania muzyki, system nie rozumie użytkownika.
Google Assistant działa poprawnie w cichych i spokojnych warunkach. System rozumie głos użytkownika, jeżeli odległość jest dostatecznie bliska, a tonacja głosu wysoka. Tak jak w przypadku poprzedników Google nie radzi sobie dobrze, gdy na urządzeniu odtwarzana jest muzyka. Mimo wszystko na tle konkurencji wypada najlepiej.
Cortana wypada najsłabiej w zestawieniu asystentów głosowych pod względem rozpoznawania głosu. System od Microsoft ma problem ze zrozumieniem użytkownika nawet w cichych i spokojnych warunkach.
Poziom zaawansowania AI
Asystent głosowy Alexa korzysta z elementów AI na wiele sposobów. Amazon wykorzystuje w swoim systemie sieci neuronowe w celu stworzenia sztucznej mowy podobnej w brzmieniu do mowy ludzkiej.
Siri wykorzystuje sztuczną inteligencję w celu stworzenia bezproblemowej interakcji urządzenia z użytkownikiem.
Google Assistant wykorzystuje sztuczną inteligencję w celu zdobycia przydatnych informacji na temat użytkowników. Google korzysta z elementów AI, w celu stworzenia osobistego agenta, który będzie w stanie pomóc w każdej sytuacji. Kierunkiem działania Google jest stworzenie bazy wykorzystującej ponad 70 miliardów faktów na temat ludzi, miejsc, czy rzeczy.
Cortana początkowo wykorzystywała AI do tworzenia prostych interakcji użytkownika z urządzeniem. Obecnie asystent głosowy od Microsoft rozwinął swoje usługi w zakresie AI poprzez setki zautomatyzowanych botów, zaprojektowanych przez klientów firmy Microsoft.
Dostępność API
Alexa wykorzystuje w swoim asystencie głosowym usługę Voice Service (AVS) opartą na chmurze. Umożliwia ona producentom wykorzystanie coraz większej liczby funkcji od Alexy w połączonym produkcie.
Siri wykorzystuje usługę SiriKit od Apple, która obejmuje frameworki Intents i Intents UI. Używa się ich do implementacji rozszerzeń aplikacji integrujących usługi Siri.
Google Assistant udostępnia niskopoziomowy interfejs API. Powiązania dla tego interfejsu API można wygenerować dla języków takich jak Node.js, Go, C ++, Java dla wszystkich platform obsługujących gRPC. Pakiet SDK Asystenta Google umożliwia dodawanie sterowania głosowego, rozumienia języka naturalnego i innych inteligentnych rozwiązań Google w celu eksperymentalnym do rozwiązań niekomercyjnych.
Cortana wykorzystuje Skills Kit for Enterprise, który oparty jest na usłudze Azure Bot Service i wykorzystuje usługę Azure Active Directory do zarządzania tworzeniem, testowaniem i wdrażaniem niestandardowych umiejętności.
Źródło:
- www.developer.amazon.com/en-US/docs/alexa/alexa-voice-service/api-overview.html
- www.developer.apple.com/documentation/sirikit
- www.developers.google.com/assistant/sdk/overview
- www.docs.microsoft.com/pl-pl/cortana/enterprise/overview
- www.businessnewsdaily.com/10315-siri-cortana-google-assistant-amazon-alexa-face-off.html