音声合成を解説した技術書・Pythonで学ぶ音声合成

Pythonで学ぶ音声合成

Pythonで学ぶ音声合成

インプレスグループでIT関連メディア事業を展開するインプレスは、山本龍一氏、高道慎之介氏著書による、音声合成の基礎から実装までを解説した中級者以上向けの実践的な技術書的な書籍「Pythonで学ぶ音声合成」を2021年8月12日（木）に発売した。

山本龍一Profile●LINE株式会社Voiceチーム、音声処理開発者・研究者。2013年に名古屋工業大学大学院博士前期課程修了。チームラボ株式会社を経て、2018年2月にLINE株式会社に入社（現職）。2018年9月から2019年7月までNAVER Corp. Clova Voiceチームにて音声研究を行う。音声合成の研究開発に従事。WaveNetやTacotronに代表される音声合成に関するオープンソースソフトウェアを多数公開。

高道慎之介Profile●東京大学大学院情報理工学系研究科助教。2011年に長岡技術科学大学を卒業。2013年・2016年それぞれに奈良先端科学技術大学院大学博士前期・後期課程を修了。2018年より東京大学助教（現職）。博士（工学）。音声合成変換、音声信号処理の研究に従事。

機械学習実践シリーズ

「Pythonで学ぶ音声合成」を通して「実際に動くものが作れる」ことを目指して、特定の技術のアルゴリズムと、それを実装するためのコードを豊富に紹介するシリーズ。機械学習の基本から実装までを学ぶことができる。

音声合成の基礎から最新手法までカバー「Pythonで学ぶ音声合成」

「音声合成」とは、人間の音声を人工的に作り出す音声情報処理の一分野となる。
近年、深層学習（deep learning）の発展に伴い、機械学習による音声合成の技術は飛躍的に進歩している。
また、PyTorch、TensorFlowをはじめとした、深層学習のためのオープンソースソフトウェアとオープンソースコミュニティの発展により、研究者や技術者が公開しているソフトウェアやソースコードを無償で誰もが手に入れることができるようになったことで、専門家でなくても取り組みやすくなってきているといえる。

しかしその一方で、音声合成の最新手法について書かれた日本語の書籍は限られており（執筆当時）、初学者にはハードルが高い、という声もあった。
「Pythonで学ぶ音声合成」はその問題を解決したいとの思いで誕生しました。全章を通して、従来の統計的音声合成システムの基礎から深層学習による近年の音声合成の発展まで詳説している。

日本語の音声合成システムの作り方を丁寧に解説「Pythonで学ぶ音声合成」

また、Pythonを使って深層学習に基づく日本語の音声合成システムを作る方法も丁寧に解説している。
ソースコードはすべてGitHub（https://github.com/r9y9/ttslearn）で公開しているので、初学者も実際に手を動かしながら学ぶことができる。

「Pythonで学ぶ音声合成」は、2020年8月24日刊行『Pythonで学ぶ音源分離』（戸上真人著）、2021年5月20日刊行『Pythonで学ぶ音声認識』（高島遼一著）に続く「機械学習実践シリーズ」の3冊目となる。

「Pythonで学ぶ音声合成」の章立て

序章
第1章音声合成とは？
第2章音声の情報と物理
第3章統計的音声合成
第4章 Pythonによる音声信号処理
第5章深層学習に基づく統計的パラメトリック音声合成
第6章日本語DNN音声合成システムの実装
第7章 WaveNet:深層学習に基づく音声波形の生成モデル
第8章日本語WaveNet音声合成システムの実装
第9章 Tacotron 2:一貫学習を狙った音声合成
第10章日本語Tacotronに基づく音声合成システムの実装
第11章音声合成システムを新たに作るときに