最近、「ねえGoogleさん」って声で話しかけてスマホを操作してる人、見かけたことない?まさに、その「声で検索する」のが音声検索だよ。今や、検索といえばテキストでタイプするだけじゃなく、しゃべって探す時代。この記事を読めば、音声検索がなぜ便利なのか、そしてぼくたちの生活がどう変わっていくのか、全部わかるよ。
- 音声検索は、声で言葉を話すだけで、スマホやAIが聞き取って情報を探してくれる技術のこと
- AI技術を使って、人間の音声を正確に理解し、テキストに変換してから検索する
- 両手がふさがってるときでも検索できるから、テキスト検索より便利で速いんだ
もうちょっと詳しく
音声検索の裏側では、実は複雑な技術が動いてるんだ。まず、スマホが音声を録音する。次に、その音声をテキストに変える(これを音声認識という)。最後に、テキストを検索エンジンに送って、結果を返してくれる。この全部が、ほんの0.5秒くらいで終わっちゃうんだよ。すげえでしょ。昔は、こんなの映画の世界の話だったのに。今は、誰でもスマホ1つで使える時代になっちゃった。
音声検索は「聞く→テキストに変える→検索」の3ステップ。AI技術がいちばん大事な役割をしてるんだ。
⚠️ よくある勘違い
→ ちがう。スマホが聞いてるのは、あくまで「テキストに変える」ためだけ。自分で考えて喋ってるわけじゃなくて、Google の検索結果を返してくれてるだけなんだ。
→ 正解。スマホが声を聞きとる→テキストに直す→Google検索に送る、の3ステップ。つまり、「音声認識」と「検索」の組み合わせなんだ。
[toc]
音声検索とは──ちょっと詳しく説明するね
昔のスマホと今のスマホ、何が違う?
2010年代の前半、スマホはまだ「テキストを入力するためのデバイス」だったんだ。Googleで何か調べたいときは、必ず画面をタップして、キーボードを出して、指でタイプする。雨の日で傘を持ってたら、そのテキスト入力ができなくなっちゃった。野球の試合観てるときに、「この選手、何歳だったっけ」って思っても、キーボード出すのめんどくさいから、あきらめちゃう。そういう時代だった。
ところがね、2010年代の後半から、スマホに「マイク機能」が当たり前になった。それと同時に、AI技術が急速に進化した。特に音声認識という技術(つまり「声を正確に聞きとって、テキストに変える技術」)が、ものすごく精度よくなったんだ。Google、Apple、Amazon、こういった大きな企業が、何年も何年も研究して、やっと「実用レベル」に達した。
今は、「ねえGoogleさん」って言うだけで、スマホが聞きとってくれる。以前は「何言ってるの?」ってエラーが出まくったけど、今はほぼ100%に近い精度で理解してくれるんだよ。すごいでしょ。これが、音声検索が広がった一番の理由なんだ。
「スマートスピーカー」も実は音声検索
君たちの家に、Amazon Echoとか Google Homeみたいな、筒型のスピーカーが置いてある家、あるよね。あれがスマートスピーカーだ。つまり「声で命令を聞いて、自動で何かしてくれるスピーカー」のことなんだ。
「アレクサ、明日の天気は?」って言うと、スピーカーが「明日は晴れで最高気温は25度です」って答えてくれる。これも、実は音声検索の一種なんだよ。違う点は、スマホと違うのは「スピーカーから音で答えが返ってくる」ってこと。つまり、スマホの画面で「天気予報」のページが出てくるのか、スピーカーが「天気ですよ」って声で教えてくれるのか、その違いだけ。裏側の技術は同じなんだ。
スマートスピーカーは、スマホより便利な場面も多いんだ。たとえば、朝起きて、まだ眠いときに「朝のニュース」って言うと、自動的にニュースが流れてくる。料理してるときに「クッキーのレシピ」って言うと、声で説明してくれる。両手がふさがってる場面では、スマホよりスマートスピーカーの方が便利だね。だから、アメリカの家庭では、ほぼ全部の家にスマートスピーカーが置いてあるんだ。
なぜ音声検索は広がってるのか──その理由
「手がふさがってる」問題を解決した
昔、学校の教室で、先生に質問したいときは、手を上げて「先生!」って言ったよね。スマホも一緒。両手でスマホを持たなくても、「ねえGoogle」って声で話しかけるだけで、検索できるようになった。これは、すごく大きな変化なんだ。
実際の場面を想像してみて。料理をしてるとき、「トマトのマリネの作り方」を知りたいけど、手に小麦粉がついてる。昔だったら、手を洗ってからスマホを取り出して、キーボードをタップする必要があった。でも今は、「トマトのマリネ」って言うだけでいい。レシピが出てくる。かかる時間は1秒。手を洗う時間が省ける。
車の運転中だってそう。赤信号で止まったとき、「近くのコンビニ」って言うと、地図が出てくる。運転中にスマホを触るのは危ないけど、声なら安全。こういう「手がふさがってる場面」は、毎日たくさんあるんだ。だから、音声検索の需要は、どんどん増えてるんだよ。
AI技術の進化が鍵だった
音声検索が本当に使えるようになったのは、深層学習というAI技術のおかげなんだ。つまり、コンピュータが「大量のデータから自分でパターンを学ぶ」技術のこと。
昔の音声認識は、「あらかじめプログラマーが『あ』『い』『う』『え』『お』の音声パターンを登録して、マッチさせる」という単純な方法だった。だから、自分の声じゃないと認識されなかったり、周りが騒しいと聞きとれなかったりした。
ところが、深層学習を使うと、「数千万人分の音声データをスマホのAIが学習する」ことができるようになった。つまり、老人の声も、子どもの声も、外国人の声も、背景に音楽が流れてる環境でも、ほぼ完璧に理解できるようになったんだ。これが、音声検索を実用的にした最大の理由なんだよ。
スマホが「手で持つデバイス」から「聞きかけるデバイス」に進化した
スマホの歴史を考えると、おもしろいんだ。最初のスマホ(iPhone)は、「触って操作する」のが全部。キーボードをタップして、アプリをタップして、スクロールして……全部、指で操作する必要があった。
その次のステップが、「音声で操作できる」になったんだ。Siriというアプリが出た。最初は、「オイ、Siriよ、うどん屋さんを探して」くらいしかできなかった。でも、今は、「明日の午後3時にお母さんに電話がほしい」「このLINEメッセージに『了解』って返して」「Spotify で この歌をもう一回かけて」って、ほぼ何でも言葉で命令できるようになった。
つまり、スマホが「目で見て、手で操作する」デバイスから、「耳で聞いて、口で話す」デバイスに進化した。この変化は、スマホの使い方を180度変えちゃったんだよ。
音声検索とテキスト検索──何が違うの?
問い方が全然違う
テキスト検索と音声検索では、まず「問い方」が違うんだ。
テキスト検索なら、「天気 明日」とか「ラーメン屋 渋谷」みたいに、キーワードだけを短くタイプする。でも音声検索は、「明日の渋谷の天気教えて」「渋谷でおいしいラーメン屋さんどこ?」みたいに、より自然な日本語で問いかける。つまり、テキスト検索は「単語」中心で、音声検索は「文章」中心ってわけだ。
だから、Googleの検索結果も変わる。「ラーメン屋」とタイプすると、ラーメン屋の一覧が出てくる。でも「渋谷でおいしいラーメン屋さんどこ?」って聞くと、「渋谷の、特におすすめのラーメン屋さんはこの3軒」みたいに、より詳しく、ユーザーの意図に合わせた結果が出てくるんだ。これが、音声検索の大きな工夫の一つだ。
スピード感が全然違う
「ねえGoogle、明日の天気」。たったこの一言で、3秒以内に答えが返ってくる。これって、テキスト検索だと、キーボード出して、「あした の てんき」ってタイプして……最低でも5〜10秒かかっちゃう。スマホが得意な世代だったら3〜5秒かもしれないけど、大人とかおばあちゃんなら20秒以上かかっちゃうかも。
だから、急いでるときや、すぐに答えが必要なときは、音声検索の方が圧倒的に速いんだ。「今、何時?」「明日の天気」「電車は今、動いてる?」こういう「すぐに答えが欲しい」質問には、音声検索が最適なんだよ。
プライバシーが違う場合もある
テキスト検索なら、スマホの画面に「ニキビの治し方」とか「デート服」とか、ちょっと見られたくない検索履歴が残るよね。でも音声検索なら、誰かがスマホを覗いても、「アレクサ、何か聞こえるのか」って思うだけ。見た目には何も残らない。だから、ちょっと恥ずかしい質問を検索するときは、音声検索を使う人も多いんだ。
ただし、スマホやスマートスピーカーには、音声データが記録されてる場合もある。Googleもアップルも、改善のために、ユーザーの音声を記録・分析することがある。だから、「プライバシーが完全に守られる」わけじゃないんだ。その点は注意が必要だね。
音声検索、実際どんなふうに使われてる?
スマートスピーカーが活躍する場面
アメリカでは、朝起きたら「Good morning(おはよう)」って言うと、スピーカーが天気とニュースを自動で流す、って人が多いんだ。シャワーを浴びてる間、スマートスピーカーがラジオを流してくれる。朝ごはんを食べながら、「今日の予定教えて」って言うと、カレンダーから今日のスケジュールを読み上げてくれる。全部、声で操作。すげえ便利だよ。
料理をするときも活躍する。「クッキーのレシピ」って言うと、ステップバイステップで、声で説明してくれる。「次は卵を割ります」「今度はバターを混ぜます」みたいにね。両手で生地をこねてるから、スマホを触れない。だからスマートスピーカーが活躍するんだ。
寝る前だって使える。「Spotify でリラックス音楽かけて」って言うと、寝付きのいい音楽が流れ続ける。朝まで勝手に流れ続ける。これ、スマホだと、スマホを持ったまま寝るから、バッテリーが減るし、スマホ依存にもなっちゃう。でもスマートスピーカーなら、スマホは関係ないから、その心配がない。
スマホでも活躍してる
スマホの音声検索も、もちろん活躍してる。一番多いのが、「検索キーワード入力」。Googleアプリを開いて、マイクアイコンをタップして、「〇〇について教えて」って言うだけ。テキスト入力より10倍速い。
あとは、スマートウォッチ(腕に付ける小さいコンピュータ)でも音声検索が使われてる。スマートウォッチは画面が小さいから、テキスト入力は難しい。でも、「ポケットモンスター、ピカチュウの進化系は?」って聞くと、答えが画面に出てくる。勉強してるときも、辞書代わりに「リンゴの英語での言い方」って聞くと、「Apple(アップル)」って答えてくれる。これ、手書き辞書をひくより100倍速いんだ。
ショッピングでも音声検索が活躍してる
Amazon が力を入れてるのが、スマートスピーカーでのショッピングなんだ。「Alexa、トイレットペーパーを注文して」って言うと、前に買った商品が自動で注文される。つまり、タイプもスクロールもしなくていい。ただ声で言うだけで買い物ができちゃう。
高齢者にとっては、これはすごく便利なんだ。字が小さいから見えない、タッチペネルが難しい、そういった人でも、声で注文できる。だから、これからの社会では、特に年配の人が増えるから、音声ショッピングがもっともっと広がっていくと思うんだ。
音声検索の未来──これからはどうなるの?
もっともっと正確になる
AI技術は、毎年、毎月、進化してる。今でも音声認識の精度は95%以上だけど、これからは99.9%とか、ほぼ100%に近づいていくと思う。つまり、「何言ってるの?」っていう誤解がほぼゼロになる。背景がうるさくても、外国人の訛った日本語でも、高齢者のかすれた声でも、完璧に理解できるようになるんだ。
翻訳もリアルタイムで
もっと進むと、「日本語で『こんにちは』って言ったら、リアルタイムで英語に翻訳して、アメリカ人に伝える」みたいなことが普通になるんだ。つまり、言語の壁がなくなるかもしれない。
実は、Googleは既に「リアルタイム翻訳」の機能を開発してる。スマートウォッチで、日本語で何か言うと、英語に翻訳されて、スピーカーから流れてくる。これが完璧になったら、外国人と日本人が、お互いの言語で話しかけるだけで、コミュニケーションが取れるようになっちゃう。映画『スター・トレック』みたいに、翻訳機が自動で働くんだ。
「会話」が中心になる
今は、「ねえGoogleさん、〇〇を教えて」という一方向の質問と答え。でも、これからは「会話」になると思う。例えば、
君:「来週、野球の試合、何日?」
スピーカー:「来週の野球は、土曜日と日曜日です」
君:「何時から?」
スピーカー:「土曜日は午後2時、日曜日は午後3時です」
君:「天気はどう?」
スピーカー:「土曜日は晴れ。日曜日は雨の予報です」
みたいな、自然な会話が、スムーズに続くようになるんだ。今のように、毎回「ねえGoogleさん」と呼ばなくても、話しかけるだけで、コンピュータが前の会話を覚えてて、答えてくれる。これが、本当の「音声検索」の完成系だと思う。
プライバシーと便利さのバランスをどうするか
ただし、課題もある。スマートスピーカーが常に聞きっぱなしになると、プライバシーが心配だ。例えば、君たちが友だちと、ちょっと秘密の話をしてるときも、スピーカーが聞いてるかもしれない。その音声が、Googleに送られてるかもしれない。
だから、これからは「便利さ」と「プライバシー」のバランスをどうするか、という課題が大事になってくるんだ。スマホやスマートスピーカーの会社も、政府も、一緒に考えながら、より安全で、より便利な音声検索の未来を作っていく必要があるんだよ。
