音声技術の未来|翻訳、文字起こし…音声技術の活用と今後

音声技術の未来 サムネ音声・配信コラム

音声技術(ボイステック)とは

今やスマホに話しかけるだけで操作を行うことができたり、声を聞いただけで翻訳がされたりと便利な時代になりました。これらの機能を支えているのが音声技術(ボイステック)です。

音声技術の歴史

音声技術の歴史は60年ほどさかのぼります。

現在、主流になっている音声認識は2010年以降の技術です。2011年にアップルがiPhone4Sに世界初のバーチャルアシスタントSiri(シリ)を搭載しました。Siriのおかげで「音声認識」自体が広まったと言っても過言ではありません。

2014年にはSiriに対抗してマイクロソフトがCortana(コルタナ)の開発を発表しました。

さらにはAmazon、Google、LINEまでもが本体や画面に触れることなく声だけで操作が可能なスマートスピーカーの開発を手掛けています。

活用事例

実際に、音声技術を活用したサービスについてここでは紹介していきます。みなさんが使ったことのあるサービスはいくつあるでしょうか?

音声翻訳

まずは音声翻訳ができるサービスについて紹介します。

Google翻訳

いわずとしれた音声翻訳の代表例になります。
対応言語は62言語にも及びます。

音声入力

音声入力

マイクに話しかけることでその言語を翻訳してくれます。

会話モード

会話モード

2つ言語の会話を翻訳してくれます。
「翻訳機があれば外国語を覚える必要はない」と誰もが1回は考えたことがありますよね。会話モードはそのような願いを叶えた機能になります。

音声文字変換

音声文字変換(フランス語でbonjourと発音した際の画像になります)

音声文字変換機能は、会話や会議の音声の文字起こし機能です。もちろん文字起こしされた言葉の翻訳もしてくれます。
現在(2021年11月12日)、対象となる言語は以下の通りです。
・英語
・中国語
・フランス語
・ドイツ語
・ヒンディー語
・イタリア語
・ポルトガル語
・ロシア語
・スペイン語
・タイ語

文字起こし

Texter

Texter ロゴ

Texter(テキスター)は音声だけでなく動画の音声や画像からでも文字起こしが可能なアプリです。さらに、その文字起こししたデータを他媒体へ共有できることからビジネス・学業・リモートワークといった幅広いジャンルで活躍中です。

Speechy Lite

Speechy lite ロゴ

Speechy Lifeは音声をテキストに変換するアプリです。
特徴的な機能としては、録音データをエクスポートすること(テキストのみ、音声のみ、両方と選択可能)や録音データをインポートすることも可能です。

Edivoice

edivoice ロゴ

EdivoiceはAndroidの音声入力アプリです。
特徴的な機能としては、「、」「。」を音声で入力できる点です。「、」「。」を入れたいときにはアプリ内で手打ちする方法・「てん」「まる」「かいぎょう」と実際に話す方法・付加文字設定を行なって喋り終わった後に自動で「。」や改行をしてもらう方法があります。

Speechnotes

speechnotes ロゴ

Speechnotesは音声対応のオンラインメモアプリになります。
記録したノートはGoogle Driveで保存ができたり、LINE・Gmailで共有したりできます。

デジタルアシスタント

今や照明をつけたり、音楽をかけたりするのに手は必要ありません。そんな技術がデジタルアシスタントです。

Siri

SiriはiPhoneやipadに搭載されている「Hey Siri」と話しかけるだけで検索、音楽をかけるなどしてくれます。

よく使う機能として
・流れている曲名を教えてもらう
・iPhone・ipadの位置を知らせてもらう
・暇なときに質問してみる
といった使い方をしている人が多かったです。

Alexa

AlexaはAmazonが販売するスマートスピーカーに搭載されている音声アシスタントのことです。

Alexaは
・ニュース、天気、交通情報といった情報を聞く
・辞書を引く、買い物をする、タクシーを呼ぶ
・音楽、ラジオ、Youtubeを再生する
・家電の操作
・通話する、メッセージを送る
・レシピ
・カラオケをする、ゲームをする、写真を撮る
など生活で生活で必要なひと手間から、娯楽のサポートまでしてくれます。

また、Alexaは「プライムビデオ見せて」「おすすめの曲かけて」「買い物リストに牛乳追加して」といったようにAmazonの他サービスとも連携していて、一度使うとAmazonヘビーユーザーは間違いなしです。

Google Assistant

Google Assistantは2017年から始まったサービスで「OK Google」と呼びかけた後にしてもらいたい操作を指示します。またGoogle Assistantは携帯機器とスマートスピーカーに掲載されています。
Google Assistant最大の特徴は、なんと言ってもGoogleサービスとの連動です。
誰もが一度は使った経験があるであろうGoogle検索から、学生の強い味方であるGoogle翻訳などGoogleサービスとの連携はかなりの強みといえます。

しかし、GoogleにはAmazonのように通販サイトやプライムビデオなどのサービスはないため、その点はAlexaと比べると見劣りしてしまいます。

音声技術が現代社会に与える影響

最後に音声技術が我々のいる現代社会にどのような影響を与えるのかを考察してみます。
現代の技術の進歩を鑑みれば、10年後20年後30年後…の生活は今では考えられないようなものになっているのは間違いないと思っています。30年前のに「しゃべるだけで家電を操作できる」未来になると本気で思っていた人がいるのでしょうか?

しかし、技術の進歩は人類にとって必ずしも良いことばかりではありません。技術が発達することによってなくなるモノがあります。「声でお願いするだけで家事すべてをやってくれる」ようになることで家政婦の仕事はなくなるかもしれません。

筆者なりに音声技術の発達により、機械にとって代わられる可能性がある職業について調べました。

カスタマーサービス

カスタマーサービスは、主に顧客からの問い合わせ対応を行う業務です。コールセンターやお客様相談室などと呼ばれることもあります。

音声技術が発達することで、人間の話したことが理解できるようになり顧客の質問にリアルタイムで返答できるようになったとします。人間であれば、緊張して言葉が詰まる、問い合わせ内容に対して一度調べるなどが起こるかもしれません。
しかし、機械であれば上記の心配はなく、顧客の問い合わせに対して毎回適切な対応が可能になります。

歌手(ボーカロイド)

初音ミクは海外でも大人気のボーカロイドです。筆者はボーカロイドを初めて聞いた時、「音程が完璧だけど、感情が乗ってなくてなんだが不気味」という印象があり、あんまり好んで聴きませんでした(最近は慣れたのでたまに聴いてます)。
そもそもボーカロイドとは、ヤマハが開発した音声合成技術のことです。メロディーと歌詞を入力することでサンプリングされた人の声を元にした歌声が合成される技術です。

筆者のように、ボーカロイドと聞くと人間の歌声とは程遠い機械音を思い浮かべる人も多いと思います。
しかし、「NEUTRINO」ではより人間らしい声質を再現しています。機械と知らされないで聴いたらボーカロイドと判別できるのか自信がありません。。。

声優

声優を目指す人のための専門学校ができるほど、声優という職業は人気になっています。「感情を込める」「ちょっとしたアクセントを加える」などが技術として求められるため、少し前までは機械にとって代わられる可能性があるとは誰も思わなかったのではないでしょうか?

しかし、歌手のところで紹介したように「人間なのか?機械なのか?」の判別が難しいところまで技術は進歩しています。「体調不良で見ていたアニメの声優が途中で交代してしまった」「好きな声優さんが亡くなってしまった」など人間では体調や老いという現実がありますが、機械にはありません。
人気声優の声をサンプルとして、機械がその人気声優かのように声優を務める日が来るかもしれません。

そんな未来を危惧してか、日本俳優連合、日本音楽制作者連盟、日本芸能マネージメント事業者協会、日本声優事業社協議会で定められた規約があります。それは、外国映画とアニメにおいては合成音声でのアフレコはしてはいけないという規約です。
声優という職業を守るための素晴らしい規約だと思います。

ただこれはあくまでも、日本国内のみの規約になるので海外ではこの限りではありません。また、声優の仕事は映画、アニメのアフレコだけでなくゲームのアフレコ・ナレーションなどもあるので、規約にない領域や海外では機会が声優を務める日が来るかもしれません。

進化する音声合成技術は声優の敵か味方か、大手事務所トップが本音で語る | 日経クロステック(xTECH) (nikkei.com)

締め

音声技術は使った技術改革はいまだに発展途上であり、これからも音声技術を使ったサービス・機能はさらに増えていくことが予想されます。

皆さんも是非、今ある音声技術に触れてみてはいかがでしょうか?

タイトルとURLをコピーしました