ロボットやコンピュータに、人間と同じような自然な発声をさせたい!
コンピュータサイエンス学部 大野澄雄 教授
学生の頃から人工知能に興味を持ち、ロボットやコンピュータと人間のコミュニケーションに関する研究を続けている大野先生。今回は、先生の研究室で取り組んでいる研究についてご紹介いただきました。
■先生は、どのような研究に取り組んでいるのですか?
私の研究室では、コンピュータを人間の知的なパートナーとして活用するための基礎技術や応用技術について研究をしています。具体的には音声にフォーカスしていて、入力である音声認識、つまりコンピュータに人の音声を理解させる技術と、出力である音声合成の技術を研究し、できるだけ人間に近い形で人とコンピュータがコミュニケーションをとれるようにすることを目指しています。
もともと人間の歴史は、音声によるコミュニケーションから始まっていて、文字はそのずっと後から発明されました。また、音声による会話は元来、人間に備わっている能力ですし、それを活用できるということは、とても便利ですよね。ですからコンピュータにも、人間と同じように音声を処理する力を与えたいと考えているのです。
最近の身近な技術では、文字起こしのために音声認識を使ったり、スマートフォンなどで音声認識ができるようになったりしてきています。例えば、iPhoneのSiriなどがイメージに近い応用例です。また、音声合成分野の技術で一番成功していると言えるものでは、“初音ミク”がありますね。ただ、それらが本当に人間と話しているように話せるか、あるいは私たちが意図していることをきちんと汲み取ってくれるかというと、まだそこまでは到達できていません。文字通りには認識できても、そこに含まれている本当の気持ち、伝えたい内容をどう扱うかというところは、まだ実現できていない。そこが私の研究の中心部分になります。
■では、具体的な研究例を教えてください。
ここ10年ほど取り組んでいるものに、「音声に込められた感情のメカニズムの探究」があります。人が話した音声の中に含まれている感情を自動で認識したり、人が感情を表現するように機械にしゃべらせる方法を研究しているのです。例えば、私が悲しそうに言った音声をコンピュータが聞いて「悲しんでいる」とわかる、あるいはコンピュータの方からうれしそうに「ありがとう」と言ってくれるというような感じです。そういうやりとりができる仕組みについて研究を進めています。
例えば、「ここには雨が降っていない」というセリフがあったとします。これは文字にするとひとつのセリフですが、音にするとうれしくて言う場合や悲しくて言う場合など、色々な表現で感情を表すことができます。そこで私の研究室では、イントネーションや強さといった音声合成をするうえでの“韻律”に注目して研究しています。韻律には主に高さ・速さ(長さ)・強さが関係していて、それをどうコントロールするか、そこから何を読み取るかという切り口になります。
人が話すと、その音の高さは周波数で表すことができます。コンピュータにしゃべらせるときも、人の周波数を捉えたグラフと似たような周波数を表現できないと、人間らしくは聞こえません。そこで大学時代の恩師が開発した、音の高さを人間がどうコントロールしているのかという仕組みを捉えるモデルを使って分析や合成を繰り返しながら、人間らしい韻律をどうコンピュータで作りだすかということに取り組んでいます。
また、研究のアプローチは、音声認識と音声合成とでは違っています。認識では、色々な人が話したことを類別しなければならないので、できるだけ自然な会話の音声をたくさん集めることが大事になってきます。そのため、研究室の学生にオンラインゲームをしてもらい、スカイプを通してお互いに会話したものを録音しました。ゲームをしていると、一緒に喜んだり悲しんだりしますよね。そういうときの自然な会話の音声を集めて、何が起きているかを調べるというアプローチになります。
一方、合成では、悲しんでいる、怒っているといった感情をわかりやすく伝える表現が必要になります。機械に感情豊かに表現させるには、より上手な人の感情表現を集めなければなりません。そこで声優や俳優など、声の演技や表現が上手な人に、用意したシナリオのセリフを特定の感情ごとに言ってもらい、その音声を録音しました。声優の表現は、自然な会話より少し大げさですし、声優の中にはアニメを専門とする方もいれば舞台俳優さんもいます。それぞれに独特の表現方法があるので、それぞれがやや大げさな言い方をしたときに、どう声の高さのコントロールをしているのかといったことを調べています。
私以外にも音声研究者で感情に関する研究をしている人は大勢いますが、この研究の独自な点は、感情の種類だけでなく、その程度までコントロールしたいというところです。50%悲しんだ表現、80%喜んだ表現というように、感情だけでなくその程度までも合成して作り出したいと思っています。認識も同様で、相手がどの程度、悲しんでいるかといった程度まで含めたところを調べながら進めています。こういう部分は、他の研究者はあまり手がけていないのですが、人との自然な会話を目指すとなると、微妙な感情の具合や程度を認識できることが大事になってくると私は考えています。
■現状、この研究はどのくらい進んでいるのでしょうか?
話しかけると、その声に“喜び・悲しみ・怒り・恐れ”の要素がどのくらい含まれているかをグラフ表示するスマートフォンアプリの開発はできました。もちろん常にうまくいくわけではありませんが、現時点では、特定の感情がどのくらい表現されているかということを、韻律の情報から分析して導き出せるというところですね。
また、合成の方でも小さな範囲ですが実現できていて、コンピュータにしゃべらせたことが、どのくらい人間に伝わったかといったことを検証しています。
今のところ、感情の種類によってうまくいくものと、そうでないものがあります。喜びや悲しみといった表現は比較的うまく捉えられていますが、恐れという軸は難しいようです。恐れには声をふるわせるなど、韻律で高さなどをコントロールすることとは別の要素が関わってくるようなので、具体的にどういう要素が関わっているのかを見つけることも併せて取り組んでいるところです。
■この分野の研究の面白さや魅力は、どんなところにあると思いますか?
何十年経っても、人間が自然に使っているものにコンピュータの処理が全く追いつけないというところに面白さを感じています。人間は生まれて、育つ過程の中で、自然と言語やコミュニケーションを習得し、6、7歳くらいには、だいたいしっかりしゃべれるようになりますよね。それがコンピュータでは、なぜ実現できないのだろうと思うわけです。コンピュータも進歩して、少しずつ近づいている実感はありますが、人と同じように話すには、まだまだ先が長い。なかなか達成できない分、挑戦しがいがありますし、色々なアプローチで研究できるというところも魅力だと思っています。
■他にも取り組んでいる研究があるそうですが。
研究室の4年生が取り組んでいる研究に、「リアルタイムコミュニケーションシステム」という学修支援ツールの開発があります。例えば、教員1名に対して学生200人といった大教室での授業を、コンピュータを使ってうまく進めるための研究を学生に取り組んでもらっています。200人も学生がいると、質問や意見があってもなかなか手を挙げることができませんよね。そこで学生一人ひとりにコンピュータ必携を義務づけている本学の特徴を活かして、コンピュータで質問させようと考えました。ただ、教員は1名ですから、授業中にどんどん学生から質問が来てしまうと、先生は授業をしながら画面で質問を確認しなければならないという状況になってしまいます。ですから当研究室では、ある学生がつぶやいた意見や質問を、Facebookの「いいね!」ボタンのように、その人の意見に賛同したら投票するというアイデアを形にしました。投票数の多い意見だけが画面上に上がってくるので、先生はそれを見るだけで、学生のリアルタイムな意見を把握できます。例えば、「黒板が見えにくい」とかいう意見が出ていると、先生はすぐにそれに対応できますよね。解決したら、学生が「解決した」というボタンを押すことで、その意見は消えていきます。ここ数年は学生が卒業研究として、こういうものの開発に取り組んでいます。
■最後に今後の展望をお聞かせください。
今後は、やはり感情も含めたニュアンス、声に出して伝えるものだけでなく、伝えようとしなくても伝わってしまニュアンスも含めた音声が重要になってくると思います。人間の場合、相手に自分が怒っている、悲しんでいると伝える感情もありますが、悲しいときに平静を装っていても、不思議とそれが伝わるということもありますよね。それを“出す感情”と“出る感情”と呼んでいますが、そういう細かいニュアンスまで理解できたり、表現できたりするというところを突き詰めていきたいと思っています。それができるようになれば、アトムやドラえもんのように、人とコミュニケーションをとるロボットが実現できるかも知れません。ですから私の研究者としての夢は、人が話しているのか機械が話しているのか、わからなくなるような機械をつくりたいということになります。
また、学生には、コンピュータで何ができるのかを考えられる人になってほしいと思っています。コンピュータに使われるのではなくて、コンピュータをこう使おうというアイデアが次々と出てくるような、可能性を引き出せる人になってほしいのです。コンピュータサイエンス学部では、そういう部分を伸ばせるようにしっかり教えますから、それを踏まえたうえで、色々な提案ができる人になって、社会に巣立ってほしいです。
■コンピュータサイエンス学部WEB:
https://www.teu.ac.jp/gakubu/cs/index.html
・次回は12月11日に配信予定です。