音楽ネタ

美空ひばりAIの仕組みはロボット?再現までの制作過程まとめ!

2018年から、没後30年にあたる2019年に向けて美空ひばりのAIが開発されていました。

そして2019年の9月に発表され、さらに2019年年末の紅白でも美空ひばりのAIの歌声が披露されることに。

美空ひばりのAIを聞いて

「これって機械の声なの?」

「どうやって美空ひばりの声を出してるの?」

など疑問も出てきました。

今回は美空ひばりAIの声の秘密やその制作秘話・制作過程についてまとめてみました。

美空ひばりAIの声は機械?ボーカロイド(ボカロ)?

上の曲は、ボーカロイドで作られた曲の一つです。

ボーカロイドとは?

美空ひばりAIの声を開発したのは、ヤマハの歌合成チーム。

ヤマハといえば、2003年に発表された「VOCALOID(ボーカロイド)」という歌合成のソフトウェアを開発した音楽会社です。

美空ひばりAIもこのボーカロイドを応用して作られています。

「ボーカロイド」は、メロディー(音階)歌詞を専用の編集ソフトに入力することで、サンプリングされた人の声を元にして歌声を合成する技術やその関連製品のことを言います。

上の動画のような専用ソフト(ヤマハが開発)を使って、歌を作ることができます。

つまり、

  1. メロディーを作る作曲家
  2. 歌詞を書く作詞家
  3. サンプリングされた音声

があれば、誰でも歌を歌わせることができるということです。

サンプリングされた音声はヤマハ以外の様々な会社から製品化されており、KAITO、初音ミク、鏡音リン・レン、巡音ルカ、結月ゆかり、IA、MAYU、Fukase、Sachikoなど数十種類以上の製品があります。

ボーカロイド(通称:ボカロ)の中でも有名なのが、初音ミク(はつねみく)です。

 

出典元:VOCALOID

この初音ミクも藤田咲(ふじたさき)さんという声優の声がサンプリングされて作られています。

米津玄師もボカロで曲を作っていた

初音ミクを使った楽曲はたくさんあり例えば、米津玄師さんが「ハチ」という名義で活動していたときに作った曲「マトリョシカ」も人気です。

 

私自身、この曲が発表されたときにリアルタイムでこの曲を聞いていました。

当時の私は、ボカロの声が機械の声みたいでどうも好きにはなれませんでした。

しかし、聞いているうちに慣れるというか、知らない間に普通に聞けるようになっていました。

初音ミクなどのボーカロイドが歌っているボカロの曲は、聞いていると気持ちいい曲や人間が歌うには難しい曲があり魅力的です。

一方で、初めてボーカロイドが歌う曲を聞く人には違和感があるのも事実です。

美空ひばりAIはボカロの応用

美空ひばりAIも聞く人や歌の箇所によっては機械っぽく聞こえます。

なので、ボカロを少しでも知っている人なら、「美空ひばりAIの歌はボカロで作られた曲だな」と分かったかもしれません。

しかし、実は美空ひばりAIのボカロは最新の技術が使われたものだったのです。

普通のボカロ音声の作り方は?

サンプル音声を集める

美空ひばりAIのサンプル音声を集める方法と、通常のボカロのサンプル音声を集める方法は少し違います。

通常のサンプル音声の集め方は、ボカロの声の元になる歌手の方がレコーディングするという方法です。

このレコーディングも大変で、6時間以上の長時間のレコーディングは当たり前なのだとか。

以下のレコーディングの様子を読んでいると、かなりハードで細かい作業であると分かります。

レコーディングする内容は、台本にある歌詞を、同じ音程・同じテンポで歌う声である。音域は通常低中高の3音域を収録する。台本には「あいまい」、「いくつか」など断片的な4文字の単語の指定があり、演者はメトロノームと音程のガイド音を聞きながら歌う。台本には、たとえば「あいまい」なら、「無音→a」、「i→m」…という音素として採収するとの説明があり、収録者はその部分を注意深くモニターしている。

出典元:Wikipedia

様々な音声を得るためにいろんな音程で、いろんな音素を集めるために台本を読んでもらいます。

音素というのは母音とか子音とかの音の最小単位のことです。

母音→5個(/a/, /i/, /u/, /e/, /o/)

子音→13個(/k/, /s/, /t/, /c/, /n/, /h/, /m/, /r/, /g/, /z/, /d/, /b/, /p/)

その他→5個(/j/, /w/,/n/, /q/, /h/)

単純に考えると音素としては合計23種類なのですが、23個の音で歌を歌うことはできません。

なぜなら、例えば「a」から始まる音素でも、その次に来る音素は「a」「s」「j」「n」などなど「a」に続く音素が23種類あります。

「かさおき」という言葉であれば、「k→a→sa→o→k→i」と続きます。

「a」の部分に注目しても、「a→s」と「a→o」があります。

つまり、単純に考えても23✖️23=529と500種類以上の音が必要になります。

ちなみに、英語は日本語と音素の数が違うので、2500種類以上必要になります。

必要な音素を切り抜く

あと大変な作業が、必要な音素を切り抜くこと。

「かさおき」という言葉であれば、「kasaoki」の音声を一つずつ切り抜いていかなければなりません。

この切り抜きにも時間がかかるようで、1〜2年かけて必要な音を選んで切り抜くこともあるとか。

切りはりして曲をつくる

音素だけ集めても曲を作ることはできません。

音素に音階(ドレミファソラシド)とかビブラートとかいろんな要素が加わえないと歌わすことができないので、本来は無数の音のデータが必要になります。

「a→s」のドレミファソラシド全部(4オクターブ)と「a→o」ドレミファソラシド全部(4オクターブ)とか。

数えきれないほどのデータを集めるにはさすがに無理があるので、「合成エンジン」という技術が取り入れられました。

上の動画のように「合成エンジン」を使うことで例えば、「ド」の音階の音を「ミ」の音階に変換することができるようになります。

なので、できるだけ少ない数の音階でレコーディングを済ませることができるということです。

ただ、理論上は無数の音が必要なわけですから、ボカロに歌わせると「機械っぽく」どうしてもなってしまうわけです。

AI美空ひばりの声の作り方はディープラーニング

美空ひばりは通常の方法で音声収録ができない

美空ひばりAIは通常のボカロ音声の作り方とは違うやり方で音声を作り出すことに成功しました。

通常のボーカロイドを作成するときのように、美空ひばりさんの歌声をレコーディングする…なんてことはできないですよね。

美空ひばりさんはすでにこの世を去られているので、新しい歌声を収録する以外の方法で音を集めないといけません。

昔の楽曲の音声から切り取りするというのも一つの方法かもしれませんが、膨大な楽曲から必要な音素を探して切りはりするのは大変です。

ということで、通常のボカロとは違った最新の技術を使って、美空ひばりAIの音声は作られることになりました。

その技術とはDeep Learning(深層学習)です。

ディープラーニングで歌い方のルールを見つける

ちなみにですが、機械学習は人工知能(AI)の中の一つで、Deep Learning(ディープラーニング)は機械学習(ML)の中の一つです。

下の図が分かりやすいですね。

画像引元:LeapMind BLOG

そして、Deep Learningとは何かと言うと

Deep Learningとは、十分なデータ量があれば、人間の力なしに機械が自動的にデータから特徴を抽出してくれるディープニューラルネットワーク(DNN)を用いた学習のことです。

出典元:LeapMind BLOG

ということなんですが、よく分かりませんよね。

具体的に今回の美空ひばりAIで説明します。

過去の美空ひばりさんの楽曲1500曲以上の音声データをAIに渡します。

こういったAIが学習に使うデータを「教師データ」と呼びます。

先生が生徒に教えるというイメージなんですかね。

AIはこの音声データを1秒あたり100に分割して、

  • ビブラードのかかり具合(長、中、短)
  • ファルセットによる裏声(強、中、弱)
  • 4オクターブのドレミファソラシド

などの情報を含んだ、濁音を含めた50音を取り出します。

だいたい5000を超える音になるらしいです。

さらにこのデータに加え、音符と歌詞をAIに読み込ませます。

以上の材料から、AIは音符と歌詞を見ながら、美空ひばりさんがどのようにして声を出しているかという「美空ひばりの歌い方のルール」というものを探し出します。

さすがにこれは人間にはできないことですよね….。

美空ひばりの音声データはバラバラだった

美空ひばりのレコード会社は大変貴重な「ボーカルのみ」の音声を残しておられました。

しかし、

  • 経年劣化
  • 録音の方法が時代によって違う

などの理由で音質にバラつきがありました。

アナログ機材での録音が一般的であった時代は、音声を加工しながら録音していたようです。

録音後に加工する現在とはまた違ったやり方で行われていたということです。

しかも、

  • 年代によって美空ひばりさんの歌い方が違う
  • 演歌、ジャズ、バラードなど曲によって歌い方の癖が違う

など美空ひばりさんの歌はAIからすると、規則性を見つけるのが困難でした。

さすが、七色の声をもつと称された美空ひばりさんです。

AIからすると、七色の声というものは最大の壁ともいえそうですね。

以上の音質と歌い方のばらつきがあったため、プログラマーは「前処理」というのを行わなければならず、これがめちゃくちゃ大変な作業なんです。

簡単にいうと、何でもかんでもポイっとAIにデータを投げたら自動で学習してくれるというわけではなく、きちんとAIが学習しやすいように手直ししたデータを与えないといけないということです。

  • 録音環境(アナログ録音なのか、デジタル録音なのか)
  • 曲のジャンル
  • 収録したときの年代

などをAIで分類と識別を行い、より学びやすい教師データを作りました。

結果的に、改善された教師データでAIはしっかり学習することができました。

歌い方のルールから新曲を作る

AIを使用した音声合成する技術のことを「VOCALOID:AI」とヤマハは呼んでいます。

ちなみにですが、名前は「VOCALOID:AI」と付いていますが、製品化するかどうかは決まっていないそうです。

美空ひばりの音声データを学習した「VOCALOID:AI」は、見つけ出した「美空ひばりの歌い方のルール」を元に、与えられた新曲「あれから」の楽譜を読み取り歌う事になります。

楽譜があればどんな曲でも歌うことができます。

例えば上の動画の、「アナと雪の女王」の曲「レット・イット・ゴー」も、美空ひばりさんの声で歌うことができます。

AI美空ひばり新曲「あれから」はAIでも難しい曲だった

語りの部分が難しい

楽譜さえ与えれば、AI美空ひばりはどんな曲でも美空ひばりさんの声で歌うことができる状態でした。

しかし、新曲「あれから」にはAIにとって大きな壁が立ちふさがっていました。

これはAIの弱点でもあるのですが、ルールを見つけ出すための「教師データ」がないとAIは学習することができません。

実は新曲「あれから」の歌詞には曲の間奏部分で、

お久しぶりです

あなたのことをずっと見ていましたよ

頑張りましたね。

さぁ 私の分までまだまだ頑張って

というセリフ(語り)が登場します。

「あれから」の作詞をした秋山康さんは、「語りがハマるか」どうかというところが曲のポイントであるかのようにおっしゃっていました。

ただ、残念なことに美空ひばりの曲で語りがあったのは、「悲しい酒」という曲の一曲だけ。

 

教師データが少ない上に、「悲しい酒」の語りの部分は美空ひばりさんが涙を流しながらの、悲しみを込めたセリフです。

この「悲しい酒」で学んだAIは、新曲の「あれから」も悲しいセリフになってしまいました。

つまり、AIが学習したルールでは、これから前向きに頑張れ!という気持ちが込められている「あれから」のセリフを言うことができなかったということです。

セリフの音声を息子から提供してもらう

美空ひばりさんの息子である加藤和也さんから、読み聞かせの音声が提供されました。

関連記事

加藤和也さんが小学生低学年のころ。

公演で各地を回っている美空ひばりさんは、仕事で家をあけることがありました。

そんなとき、和也さんが夜寝るときに一人で寂しがらないようにと、「みにくいあひるの子」や「三匹の小ぶた」といった童話を、美空ひばりさんはカセットテープに吹き込んでいました。

その読み聞かせの声は、愛する息子を想う優しさで溢れたもので、まさに「あれから」の語りに使えそうなデータでした。

音声はカセットテープということもあり、楽曲を作成するときのスタジオのような整った環境での音声ではありませんでした。

ですが、学ぶべきセリフの音質にバラつきがなかったため、AIはうまく学習に成功しました。

「悲しい酒」で学習したときよりも、読み聞かせデータで学習した方が明らかに声の調子が明るく、セリフにマッチしていました。

美空ひばりAIは倍音を再現した!

美空ひばりの声で歌えるようになったAI

美空ひばりの特徴ある歌い方で歌えるようになったAI美空ひばり。

美空ひばりさんを支えていた「美空ひばり後援会」のメンバーの女性たちに美空ひばりAIにより新曲「あれから」を聞いてもらうことになりました。

だが、美空ひばりさんのありとあらゆることを知っている専門家からすると、美空ひばりさんの歌とは程遠いといいます。

率直に歌詞が分からない(聞き取れない)
ひばりさんの歌というのは言葉がはっきりしていたから
ひばりさんの声がもつ独特の力が感じられない。
ひばりさんの歌を聴くと
ものすごい濃い空気の中にいるような気持ちになるんですけど
空気が足りないというか
これだとひばりさんの本当の良さは出てこない気がする

と厳しい声が。

秋山康さんも同じように感じたらしく

これだと人間味がない。
きっちりスコア通りに歌うのがうまいのか
的確にデータで作っているので、
もうちょっと雑味というか人間臭さとか温かみとか
ひばりさんのすごさってそこにあるような気がして、包み込む大きさがあるでしょう

とおっしゃっていました。

美空ひばりAIは美空ひばりさんの声で正確に歌えるようにはなっているが、何か奥深いところまで再現できていないという状況でした。

美空ひばりの声には秘密があった!

人々の心を揺さぶる美空ひばりさんの声。

声の研究をしている「金沢工業大学 山田真司研究所」で分析してもらったところ、美空ひばりさんの声には驚くべき特徴がありました。

人間の歌声であれば、周波数(音の高さを表す)は主に1000Hz~5000Hzの間で構成されています。

なのですが、美空ひばりさんの歌声には7000Hzを超える「高次倍音」と呼ばれる特殊な音が含まれていました。

高次倍音は元の音の周波数よりも数オクターブ高い音のことを言います。

つまり、美空ひばりさんは複数の音を同時に出して歌っていたということです。

感覚的には、高次倍音が含まれている声は聞いていると気持ちがいいそうです。

歌声を聞いて思わず涙が込み上げてくるという歌手の声には、高次倍音を出す歌手が多いとか。

 

また、モンゴルに伝わる「ホーミー」という伝統的な歌い方があります。

上の動画を見ていただくとわかるのですが、低いうなり音と甲高い音を同時に出して、ハーモニーを奏でていることがわかります。

美空ひばりさんは「高次倍音」を歌詞の必要なところにだけ出されています。

例えば、こちらの曲「川の流れのように」のサビ部分「あ わのながれのように」に注目してみます。


1文字目の「」の周波数は4500Hz以下で、高次倍音は表れていません。

しかし、3文字目の「」の周波数は7000Hzを超える「高次倍音」が含まれていました。

このような事実が分かったヤマハのプログラマー大道竜之介さんはAIの改良を行い、高次倍音も再現できるようにするのでした。

美空ひばりの歌い方の特徴とは?

高次倍音の他にも美空ひばりさんにはAIが再現できていなかった歌い方の特徴がありました。

「川の流れのように」の「そた人生」という歌詞に注目してください。


ヤマハのプログラマー大道竜之介さんが言うには、

これは「川の流れのように」の ここは人間の耳で聞いていると、すごく自然にいい歌に聞こえますよね。
でも、周波数で見ると必ずしもピタッピタッと音符に合っているかというとそうでもない

「れ」のところは音符の真ん中に届いてないし、
「も」のところも届いてないけど、
「ま」のところは上に飛び出している

なんでこれがいい歌に聞こえるかということをはっきりと申し上げることはできないんだけど、こういうことが起こっている

だそうです。

美空ひばりさんの歌い方には、楽譜から微妙にズレて歌っているという特徴があるようです。

このあたりの楽譜通り正確ではないところが、人間らしさを出せるか出せないかにつながっていたということです。

本来は美空ひばりさんの曲を1500曲以上学習しているAIは、高次倍音や楽譜からのズレを再現できるはずでした。

しかし、再現はされなかった。

どうやら、新曲を歌うというところで、AIは楽譜通りの歌い方しかできなかったと分析されていました。

美空ひばりAIには

  • 音程
  • タイミング
  • ビブラート
  • 音色

に特化したAIが組み込まれています。

プログラマーの大道竜之介さんは、音程のAIとタイミングのAIに大きく関与するようAIに指示するという改良を行いました。

そして、現段階で最高の仕上がりの美空ひばりAIが完成したのでした。

美空ひばりAIはCGで3D?映像や振付や衣装はどうやって作った?美空ひばりさんがAIで復活し、新曲「あれから」を披露し話題になっていますね。 歌声の再現はもちろんのこと、天国から美空ひばりさんが...

↑美空ひばりAIの映像の方にも注目されていますよ!