【美空ひばり】 AI・ディープラーニングで復活。発声や音程、リズムの癖まで再現、新曲「あれから」(NHKスペシャル 2019年9月29日放送)

美空ひばりの歌声がAIでよみがえる!? NHKスペシャル、ついに公開です!
ヤマハ VOCALOID:AIのディープラーニングを使って、美空ひばりさんの歌声をモデリング。バーチャル「美空ひばり」さんが新曲を披露しました!

すんごいことになってます。

こんにちは、元オタク少年のshigeです!




■ 美空ひばりの歌声を、膨大に入力して、AIがディープラーニングで学習

NHKやレコード会社に残されている膨大な音源、映像データを活用

AIにぶち込んで、ディープラーニングで学習、モデリング

美空ひばりさんの体と声、歌い方など、特徴をそっくり再現!

アンドロイド版 美空ひばり をコンピューター上につくって、CG+ボーカロイドでよみがえらせる

という企画です。

美空ひばりさん、独特のこぶし、ビブラート、繊細なニュアンスを再現できるのか?

NHKスペシャル「AIでよみがえる美空ひばり」
2019年9月29日(日)放送
https://www6.nhk.or.jp/special/detail/index.html?aid=20190929

■ 声は、ヤマハが全面協力 VOCALOID:AI が大活躍!

ヤマハのVOCALOIDは実績が豊富

もう怖いものなしです!

美空ひばりの新曲ライブの実現を支援
あの歌声を当社最新の歌声合成技術『VOCALOID:AI™』で再現

「NHKスペシャル AIでよみがえる美空ひばり(仮)」に技術協力
https://www.yamaha.com/ja/news_release/2019/19090302/

過去には小林幸子さんも移植されています

小林幸子さんの歌唱力が移植された「VOCALOID Sachiko」の秘密とは?
https://www.itmedia.co.jp/news/articles/1507/28/news143.html




■ 新曲「あれから」は、秋元康プロデュース

新曲のタイトルは「あれから」

没後30年も経つんですね。30年間、色々あったね。みんな頑張ったね。と空の上から、みんなを励ます歌です。

コンセプト、選曲、作詞、すべて、秋元康さんのプロデュースです。気合入っています。

作詞の制作で、なんとニューヨークへ。「川の流れのように」もニューヨークのカフェで書いたそうで、今回も同じカフェで、マッタリ、真剣に書いてます。

あれから、何があったんでしょうかねぇ? 私も、おじさんになりました。 そんな話はどうでもいいか。

みんな、頑張ってるね。というメッセージは、みんなが求めていることなんですね。しみじみ。

語りの教師データを探して

曲中に、語りの部分があります。「あれから」のメインメッセージにつながる、大切な部分。

この語り、セリフの発声に必要な教師データが圧倒的に不足していました。

曲の声から学習したAIモデルでは不自然な語りになってしまいます。

今までの美空ひばりさんの曲の中で、セリフが入っている曲は「悲しい酒」の一部のみ。

「悲しい酒」のセリフは悲しげなニュアンスで、これを使って機械学習させると、悲しい雰囲気の語りになってしまいました。これも、ダメ。もう、データなんか無いよ! と壁にぶち当たっていたところ、見つかりました!

自宅でテープが見つかったのです。公演で、家を空ける間、息子さんに読み聞かせするための朗読のテープが残っていたのです。2時間のテープには、温かい語りが吹き込まれていました。

このテープ音声を使って機械学習させたところ、明るいニュアンスの語りを再現できそう、という目途が立ち、さらに自己学習を進めることになりました。

歌と語りでは、教師データが違うんですね。へぇ~~ という感じです。




教師データの分類、ラベリングにもAIで前処理していた! NHKでは放送されなかった、AIチームの苦労と工夫

NHKの放送後の反響が大きかったみたいで、ITmediaさんが、ヤマハのチームに直接取材しています。

出典:「AI美空ひばり」を支えた技術 「七色の声」どう再現? ヤマハ技術者に詳しく聞いた (ITmedia、2019年10月02日)
https://www.itmedia.co.jp/news/articles/1910/02/news087.html

・数十年前の音声が学習データに 音質のばらつきがネック
・時代とともに変わる収録環境 「七色の声」も影響
・「アナログかデジタルか」ラベル付けでうまく学習 「歌い分け」も可能に

七色の声が、ディープラーニングの学習の足かせになる。というのは、面白いですね。教師データ自体がゆれ動くわけだから、AIにとっては難しい問題。どうして、そういう歌い方をしているか、普通だったらAIには理解できない。

そこで、現在のAIで対応可能なレベルで、録音の状態(アナログ録音かデジタル録音か)、曲のジャンル、収録の年代、などをAIで判別・分類して、それぞれ分けて教師データとした。

新曲「あれから」では、晩年のデータをより重視するように制御したらしいです。

晩年の美空ひばりさんから、さらに30年経ってますからね。そこから若返ったら気持ち悪いですよ。




振付の教師データも難航

美空ひばりさんは、専属の振付師をつけていなかった。その場の雰囲気、お客様の反応に応じて、臨機応変に演じるスタイルだった。型がないので、美空ひばりさんらしい動きを予想しずらい、という問題が出てきました。単純な機械学習では自然な動きが再現できないのです。

パターンがなく、予測不能なことは、機械学習が最も苦手な領域です。

そこで、天童よしみさんが登場。美空ひばりさんを師と仰ぐ、天童よしみさんが、美空ひばりさんの動きを再現。天童よしみさんにモーションキャプチャーの器具を装着して、動きデータを収集。振付についても、強力な教師データが揃いました。

初期プロトタイプは、雰囲気までは再現できず、機械的すぎた…

美空ひばりさんを良く知る人達に初期プロトタイプを見せたところ、ホンモノの美空ひばりとは何かもの足りない、独特の力が感じられない、という低評価。音程やタイミングを正確に発声しすぎていてるようです。

微妙な音程やタイミングのズレが、美空ひばりの味わいのある歌声をつくっているようです。

秋元康さんも聞いてみて、雑味や人間臭さ、温かみが美空ひばりさんの特徴。聞き手を包み込むような歌声を期待します、とのコメント。

美空ひばりさんの歌声には、高次倍音が多く含まれていた!

美空ひばりさんの声を分析してみると、高次倍音という、高い周波数成分が、ここぞというときに出ていました。モンゴルの独特の発声法、ホーミーにも高次倍音が含まれます。

美空ひばりさんの凄いところは、常に高次倍音が出ているわけではなく、ここぞというときに出る。1音ごとに、高次倍音の出方を変えている。それを自然にやってのける歌手は、美空ひばりさんしかいない。

こういった細部の特長まで考慮して、さらにモデリングは進みます。

■ 以前NHKは、画家モネの「睡蓮」をよみがえらせていた!

NHKスペシャル「モネ 睡蓮(すいれん)~よみがえる“奇跡の一枚”~」

2019年6月16日(日)
https://www.nhk.or.jp/docudocu/program/46/2586166/index.html
https://www6.nhk.or.jp/special/detail/index.html?aid=20190616

このときも、かなりお金がかかっていて、誰がお金を出しているんだろう?って、不思議でした。

モネの展覧会に出展していたので、そちらと、NHKの共同企画だったようです。




■ 「バーチャル美空ひばり」さん、4K 3D CGホログラムでステージ上に登場

等身大の4K 3Dホログラムで、ステージ上に現れるというから、こちらもお金かかってますね。テレビなんだから、そこまでしなくてもいいのにね。

お披露目会はNHK最大の101スタジオ。観客を招待して、開催です!

色々謎な企画ですが、お金をかければ、こんな面白いことができる時代になってきました。

技術より、企画勝負な感じです。

みなさんも、面白い企画思いついたら、つぶやいてみるといいですね。実現するかもよ~!

ではでは