Seminarium

Rozpoznawanie mowy: refleksje na temat jej mocnych i słabych stron

Muszę przyznać, że od dawna nie używałem żadnego rozpoznawania mowy, kiedy poproszono mnie o wykonanie tutoriali. Ostatnim razem, gdy próbowałem rozpoznawania mowy, było to z Dragon Dictate, który był nowy, gdy system Windows 98 był nowy. Bardzo dawno temu w komputerowych latach!

Byłem szczęśliwy, mogąc poradzić sobie z tym tematem, ponieważ bardzo chciałem zobaczyć, jak poprawiło się rozpoznawanie mowy. I chłopiec, poprawił się! Nawet podstawowa, wbudowana aplikacja, taka jak ta, wykonała niesamowicie dobrą robotę "od razu po wyjęciu z pudełka". W tym ostatnim artykule na temat Rozpoznawania mowy chciałbym porozmawiać o tym, czego się nauczyłem, ponownie nawiązując do cudów rozpoznawania mowy i dokąd zmierzam.

Jeszcze nie gotowy na Star Trek

Jestem pewien, że wielu z nas obserwowało ekipę statku kosmicznego Enterprise mówiąc "Komputer!" i otrzymanie natychmiastowej odpowiedzi. Nie mamy jeszcze komputerów Gwiezdnej Floty, ale począwszy od Windows Vista i kontynuacji w Windows 7, mamy komputery, które nas wysłuchają i odpowiedzą na to, co im mówimy - i odpowiedzą nam, jeśli "Co to było?" jest uważana za odpowiedź.

Podczas próby użycia rozpoznawania mowy miałem problemy, a rozwiązywanie problemów nie było szczególnie proste. Pliki pomocy nie zawsze są wystarczająco pomocne. Byłem w stanie znaleźć odpowiedzi na stronie internetowej Microsoftu oraz w asortymencie forów internetowych bez zbytniej pracy. W ten sposób dowiedziałem się, że zapomniałem, że moja kamera internetowa (siedząca tuż przede mną na moim monitorze i bezpośrednio w sposób, w jaki mówiłem) również miała aktywny mikrofon i dodawała do zamieszania. Kiedy to naprawiłem, od tej pory było dość gładko.

Próbowałem nawet mówić różnymi zestawami akcentów (na przykład brytyjskim i amerykańskim redlinem BBC) i udało się uzyskać dość dobre uznanie, pozwalając na różnice w standardowej amerykańskiej wymowie. Oczywiście, mówiąc: "Przyjaciele, Rzymianie, rodacy, pożyczy mi uszy!" Robiąc moje najlepsze wrażenia z Helen Mirren i Jeffa Foxworthy'ego, rozśmieszyłem mnie zbyt mocno, by uzyskać dokładne wyniki.

Rozpoznawanie języka

Rozpoznawanie mowy może być używane w różnych językach i pomyślałem, że mogę go wypróbować z moim ograniczonym, amerykańskim akcentem, hiszpańskim, niemieckim i francuskim, ale niestety nie możesz używać innych języków, chyba że twój system operacyjny jest również w tym języku. Możesz zmienić język systemu operacyjnego, instalując inny pakiet językowy od Microsoft, ale możesz to zrobić tylko, jeśli używasz Windows 7 Ultimate lub Windows 7 Enterprise.

Rozpoznawanie mowy jest dostępne w języku angielskim, angielskim, brytyjskim, francuskim, hiszpańskim, niemieckim, japońskim, chińskim i chińskim uproszczonym i będzie dostępne w wersjach tych systemów Windows 7 (wszystkie wersje). Było mi przykro, że nie mogę tego wypróbować. Nie mam pojęcia, co stanie się z Windows 8, ale myślę, że możliwość zainstalowania innych pakietów językowych byłaby dobrym dodatkiem do odpowiedników systemu Windows 7 Professional w wersji Windows 8 i nowszych.

Co działa dobrze

Jak już wspomniałem, Rozpoznawanie mowy jest zaprojektowane tak, aby działało najlepiej z innym oprogramowaniem Microsoft. Dopóki eksperymentowałem z produktami Microsoftu, odniosłem duży sukces (choć, jak można się spodziewać, korzystanie z Microsoft Office Excel było zarówno ograniczone, jak i skomplikowane). W przypadku innego oprogramowania było to chybione. Mógłbym dość dobrze używać przeglądarki Google Chrome (zdecydowanie nie tak dobrze, jak Internet Explorer ) i mojego programu pocztowego Eudora, który jest już prawie starym oprogramowaniem. Warto eksperymentować z własnym ulubionym oprogramowaniem, aby zobaczyć, co możesz zrobić. Polecenie "pokaż numery" było szczególnie pomocne przy wybieraniu elementów i poleceń.

Odkryłem również, że dokładność oceny znacznie się poprawiła. Ćwiczyłem dwa razy ćwiczenia, a potem uznanie było prawie w 100% poprawne. Byłem w stanie mówić trochę szybciej i wprowadzać mniej przerw, aby oprogramowanie mogło nadążyć. Bardzo podobało mi się oglądanie mojego głosu tłumaczonego na słowa na ekranie. Moje wczesne doświadczenia z oprogramowaniem do rozpoznawania mowy nie były tak przyjemne.

Co nie działa dobrze

Jak już wspomniałem, niektóre programy są po prostu niezgodne z rozpoznawaniem mowy . Nie mogłem nawet otworzyć programu Adobe Reader ani wersji TweetDeck Adobe AIR . Zauważyłem, że nie mogę zalogować się na swoje konto Google za pomocą Internet Explorera, aby wypróbować Dokumenty Google. Wydaje się, że nie ma sposobu, aby wymówić moje hasło. Podejrzewam, że jest to problem związany z bezpieczeństwem, nie pozwalający na głośne wypowiadanie haseł, które ktoś mógłby usłyszeć, ale to było denerwujące.

Mogłem otworzyć iTunes i wybrać utwór do zagrania, ale nie mogłem go uruchomić. Mógłbym otworzyć Scrivenera (mój procesor tekstu z wyboru), ale "Pokaż liczby" nie nakładały liczb na wszystko, co chciałem użyć. Nie robiłem żadnych naprawdę obszernych eksperymentów z moim ulubionym oprogramowaniem - to tylko kilka, których próbowałem. Byłoby warto dla każdego, kto chce korzystać z Rozpoznawania mowy, aby przetestować programy, z którymi chce je wykorzystać, aby mieć pewność, że będą kompatybilne.

Więcej linków i zasobów

Jeśli jeszcze nie widziałeś poprzednich artykułów, możesz je znaleźć tutaj:

  • Praca z rozpoznawaniem mowy: konfiguracja i konfiguracja
  • Praca z rozpoznawaniem mowy: Polecenia, dyktowanie tekstu i przeglądanie internetu
  • Rozwiązywanie problemów typowych problemów z rozpoznawaniem mowy

Co dziwne, prawie niemożliwe jest znalezienie informacji o rozpoznawaniu mowy w witrynie Microsoft Answers bez klikania linku z wyszukiwarki Google lub Bing. Nie mogłem uzyskać żadnych odpowiedzi, umieszczając w polu wyszukiwania "Rozpoznawanie mowy", mimo że na forach jest kilka pytań. Użyj tego łącza, aby uzyskać pomoc w rozpoznawaniu mowy z witryny internetowej systemu Windows: wyniki wyszukiwania rozpoznawania mowy.

Oto krótki artykuł w Wikipedii, który mówi o historii rozpoznawania mowy w firmie Microsoft: Rozpoznawanie mowy systemu Windows.

Oto wpis w blogu, w którym autor zastanawia się nad porównaniem rozpoznawania mowy z Dragon Naturally Speaking: Dragon NaturallySpeaking Versus Windows Voice Recognition.

Zawijam to

Bardzo podobała mi się praca z Speech Recognition i dziwowanie się z ulepszeń, które zostały wprowadzone z biegiem czasu. Z pewnością wystarczyłoby to do zwykłego codziennego użytku, szczególnie w przypadku produktów Microsoft.

Czy będę nadal korzystać z Rozpoznawania mowy ? Tak, kiedy mogę. W tym momencie nie potrzebuję niczego bardziej wyrafinowanego. Warto było poświęcić czas, aby go wyszkolić i nauczyć się dobrze go wykorzystywać.