福岡の社会人データサイエンティストの部屋

データサイエンスを極めるため、日々の学習を綴っています。

日本語音声認識試してみた!【図解速習DeepLearning】#017



こんにちは!こーたろーです。


今日から【図解速習DEEP LEARNING】のSection11の「音を取り扱う深層学習」を行っていきます。


昔から音楽好きのため、音に関する知識は結構勉強しました。


下準備はばっちりだと思います。


本日はまず、ブラウザから日本語音声認識ができるサイトでの音声認識の体験をしてみます。


それでは早速参ります。






ブラウザから日本語音声認識を試す


Microsoft Azure Speech to Text

こちらは、Microsoftが公開している、Webページで試すことができる音声認識サービスです。


Speech to Text | Microsoft Azure




f:id:dsf-kotaro:20210222161704p:plain




こちらのような画面がでますので、「発話する」から音声をインプットしてみます。


お題を定義します。


今回は、エキスパートシステムを、Wikipediaの説明文から持ってきています。


※参照:人工知能 - Wikipedia

「推論機能を適用することで結論を得る。エキスパートシステムは大量の既知情報を処理し、それらに基づいた結論を提供することができる。例えば、過去のMicrosoft Officeには、ユーザが文字列を打ち込むとシステムはそこに一定の特徴を認識し、それに沿った提案をするシステムがついていた。」



f:id:dsf-kotaro:20210222162139p:plain



炊飯機能を適用することで結果を得る。 Expert systemは、大量の基地情報を処理し、それらに基づいた結論を提供することができる。例えば、過去のmicrosoft officeにはユーザーが文字列を打ち込むと、システムはそこに1定の特徴を認識し、それに沿った提案をするシステムがついていた。」


なかなかの精度ですね!
さすがMicrosoft!!




Google Cloud Speech to text

続いて、Googleが公開している、Webページで試すことができる音声認識サービスを試してみます。


Speech-to-Text: 自動音声認識  |  Google Cloud




f:id:dsf-kotaro:20210222163145p:plain




リンク先の中段に、上記のようなところがありますので、「Microphone」と「日本語(日本)」を選択し、「START NOW」で翻訳しましょう。


次のお題を定義します。


今回は、「スタックトオートエンコーダ」を、Wikipediaの説明文から持ってきています。


※参照:ディープラーニング - Wikipedia

「まず3層のオートエンコーダで学習を行い、学習が完了したら次の層をオートエンコーダとして学習する。これを必要な分だけ繰り返していき、最後に全層の学習を行う。」



f:id:dsf-kotaro:20210222163842p:plain



圓山荘のオートエンコーダで学習を行い、学習が完了したら、次のをオートエンコーダとして学習するこれを必要なぶんだけ繰り返していき、最後に前走の学習を行う。 」

固有名詞や同音異義語は少し難しいようですね。


また、Microsoftに比べると、ゆっくり話さないと文章を飛ばしてしまうようです。


Google はこちらのSpeech to text をAPI化しているので、API連系して何かアプリを作れるかもしれません。


もうすでにサービスがあったりして。。。


ということで、本日は日本語の音声認識を試してみました。


次回からはまたGoogle ColaboratoryでPythonをつかって音声に関するDeep Learinigを行っていきたいと思います。

ではでは。