音声生成AIと音声合成AIの違い｜AI搭載の音声生成ツールも紹介

「音声生成AIって、今までの音声合成とは違うの？」
「AIが搭載されている音声生成ツールが知りたい」

近年話題になっている生成AIには音声に対応するタイプもあり、「音声生成AI」が一つのカテゴリーとして認知されつつあります。

しかし、AI技術を使用して音声を生成するという点で「音声合成との違いが分からない」「AI搭載の音声生成ツールとの区別がつかない」という人も多いのではないでしょうか？

この記事では、音声生成AIと音声合成AIの違いについて解説します。また、日本語に対応した「AI搭載の音声生成ツール」や、海外の「AI音声ジェネレーター」なども紹介。

動画編集などで合成音声を入れたいと考えている人は、ぜひ参考にしてみてください。

音声生成AIとは？

「音声生成AI」は、生成AI（ジェネレーティブ AI）の一種です。

生成AIとは、いろんなデータを学習することによって、新しいデータ（テキスト・画像・動画など）を生成できるAIのこと。また、その機械学習の手法を指します。

音声生成AIは、生成AIのなかでも「音声」を作り出すことに特化したAIです。

音声を作り出すための入力データは、テキストをはじめ、画像・音声・音楽・動画など、種類はさまざま。

具体的な手順や生成データについては、AIモデルによって異なるため一概には言えませんが、入力データによって「新たな音声」というコンテンツを生成してくれるAIという認識で良いでしょう。

▼テキスト生成AI（文章生成AI）について知りたい方は、こちらをチェック！
テキスト生成AIとは？無料で使えるサービスも紹介【最新版】

音声生成AIは非公開のモデルが多い？

2023年6月に米Meta Platforms（メタ・プラットフォームズ社）のAI研究部門が、音声生成AIモデル「Voicebox」を発表しましたが、モデルやコードの一般公開は行なわないとしています。

その理由は、この技術が誤用や意図しない害をもたらす可能性があることを認識しているため。

他人の声を作り出すことができる音声合成が、既に悪用されて問題になっていることを考えると、誰もが音声生成AIを使える環境になるのは難しいと思われます。

そもそも生成AI自体が、画像や動画などの学習データの著作権について懸念されているため、企業側としても慎重にならざるを得ないのが現状。

音声生成AIの場合、歌手や声優の「声の著作権・肖像権」問題や、有名アーティストの声を悪用される恐れなどもあります。

そのため、音声生成AIを利用したサービスが一般的に普及するのは、まだまだ先になると言えそうです。

▼文章生成AIを使用した「ChatGPT」について知りたい方は、こちらをチェック！
ChatGPTとAutoGPTの違いとは？特徴や利用者の声も紹介

音声合成とは？

「音声合成」とは、音声を人工的に生成する技術のことです。

具体的には、テキスト（文章）を入力することで、それに対応する音声を出力できるのが特徴。このことから、「テキスト音声合成（Text-To-Speech）」や「TTS」とも呼ばれます。

音声合成の技術自体は昔からあり、最初のテキスト音声合成器は1968年に開発されました。

音声合成で作り出した音声は「合成音声」と呼ばれ、この合成音声を「いかに自然な声で流暢に話せるようになるか」が開発の目標だったと言えるでしょう。

AIによる音声合成技術

音声合成は、ディープラーニング（深層学習）を行なったAIを搭載することで、性能が格段に上がりました。

例としては、以前は不自然で違和感のあった機械音声が、人間の声とほぼ区別がつかないリアルな音声になり、活用の範囲が拡大。

また、特定の人の音声データを学習させることで、まるでその人が話しているように変換できる「声質変換」という技術も誕生しました。

その他にも、人物の画像や動画などを入力することで、表情や動画の口元の動きから、その人物が話しているであろう音声を再現することも可能になり、音声合成分野が更に広がったと言えるでしょう。

「音声合成AI」や「AI音声生成」と呼ばれるものは、このようなAI技術を利用した高度な音声合成を指すと言えます。

音声合成の用途や活用事例

「音声合成」の技術や、生成された「合成音声」は、さまざまなシーンで利用されています。

音声・読み方・イントネーション・アクセントなどのデータを大量に学習したAIは、文脈を加味した上で感情を込めた話し方を再現できるため、今後も更に用途が増えていくと考えられるでしょう。

動画のナレーション

動画コンテンツを制作している人の場合、声優や本物のナレーターを頼む手間が省けます。そのため、動画の制作コストを下げることが可能です。

複数人の音声が必要な場合、何人も依頼するとそのぶん依頼料や出演料などが必要になり、スケジュール管理も行なわなくてはなりません。しかし、音声合成ソフトやツールなら、それを使用するだけで解決することができます。

動画サイト「Youtube」などに、個人で制作・投稿する人が増えている現在において、音声合成は心強い味方と言えるのではないでしょうか。

▼動画制作に興味のある方は、炎上系YouTuber・炎上系動画についてもあわせてチェック！
炎上系YouTuberとは？炎上方法や有名人を紹介【2023年最新版】

アナウンス

駅・バスターミナル・空港などの案内や、店舗や会社の接客用に、多言語のアナウンスを作成することができます。

音声合成なら外国語を正しい発音で話してくれるので、外国の人にも伝わりやすくなるのがポイント。複数の外国語を話せる人を探すのは大変なので、ちょっとしたアナウンスなら、音声合成ソフトやツールを利用するのが一番です。

インバウンドで外国のお客さんが増えている宿泊施設や販売店なら、活躍の場は更に広がっていくのではないでしょうか。

「失われた声」を再現

AIを利用した音声合成では、自分の音声データで合成音声を生成することができます。

例えば、病気やその治療などのために発声が困難になってしまった人が、自分の声を再現してもらうことも可能。また、わずかに残された故人の音声データを利用して、当時の思い出を再現するような話声をつくり出すこともできます。

特定の人の声を再現する技術は注目度が高い反面、悪用の懸念もあるため、合成音声の扱いは充分に注意する必要がありそうです。

音声生成AIと音声合成AIの違い

「音声生成AI」と「合成音声AI」の違いは、入力・出力データの種類です。

音声生成AIは、テキスト・画像・音声・音楽・動画などを入力データとして扱い、「新しい独自の音声」を出力することができます。

これに対して合成音声AIは、テキストや画像・動画を入力することで「その情報に対応する音声」を出力する仕組み。この音声は、人間の音声を分析して、それに基づいたデジタル音声であることもポイントです。

また、音声生成AIと合成音声AIの違いは、「生成AI」と「AI」の違いとも言えます。

生成AIは、0から1を生み出す「オリジナルコンテンツの創造」が目的となっています。分かりやすく言えば、生成AIがアイデアを出してくれる上に、コンテンツ制作が自動化されるというわけです。

音声生成AIの場合、例えば「可愛い声でお話を聞かせてほしい」と指示すれば、誰でもない女性の声でAIが考えた物語を話してくれるかもしれません。

それに比べて、AIは「学習済みのデータの中から適切なものを探して提示」するのが基本。簡単に言えば、合成音声AIでは「こんにちは」とテキスト入力すれば、「こんにちは」の音声を適切な発音で出力します。

そう考えると、音声生成AIと合成音声AIは、まったく違うものであることが分かるのではないでしょうか？

▼文章生成AIを利用した、チャットサービスが知りたい方はこちら！
AIと会話できるサービスを解説｜オススメ無料サイト・アプリ5選も紹介

▼画像生成AIを利用した、イラスト生成サービスが知りたい方はこちら！
AIのイラスト自動生成は日本語も使える？無料で利用可能なサービス6選も紹介

AI搭載の音声生成ソフト＆ツール・オススメ5選【日本語対応】

ここでは、AIを搭載した音声生成ソフトやツールを6つ紹介します。

これらは全て日本語の入力・出力に対応しているので、気軽に利用することができそうです。動画編集をしている人は、ぜひ参考にしてみてください。

iMyFone VoxBox（ウォクスボックス）

「iMyFone VoxBox（ウォクスボックス）」は、46種類以上の言語に対応した、AIテキスト読み上げソフトです。

3200個以上のボイスを使用することが可能で、ニュースキャスター・フォーマル・カジュアルなど、表現力豊かなボイススタイルを選べるのが特徴。

画像やPDFに書かれた文字の識別＆読み上げも対応していて、シンプルな操作性でとても使いやすいツールとなっています。

サービス名	iMyFone VoxBox
URL	https://jp.imyfone.com/voice-generator/
開発・提供	MyFone
主な機能	・文字読み上げ・ボイスレコード・ビデオコンバーター・音声編集・文字起こし・MP3、WAVなどに出力・ボーカル除去（近日公開予定）
利用料金	無料体験版：0円（読み上げる文字数 3,000）完全版：2,280円（読み上げる文字数 25万以上）

こんな方にオススメ

多言語対応のAIボイスを利用したい人
画像やPDFからのテキスト読み上げをしてほしい人

CeVIO AI（チェビオエーアイ）トークボイスシリーズ

「CeVIO AI（チェビオエーアイ）」のトークボイスシリーズは、AI技術を使用した音声合成ソフトウェア。トーク機能「話し声合成（TTS）」を備えた『CeVIO AI すずきつづみトークボイス』『CeVIO AI さとうささらトークボイス』が販売されています。

この音声合成ソフトは、それぞれ個性のあるキャラクターが人間の声質・癖・話し方を高精度に再現した音声で、テキストを日本語で読み上げてくれるのが特徴。

豊かな感情表現で自然な話し声を作成できるため、アニメキャラクターのような音声を作成したい人にピッタリな音声創作ソフトウェアです。

サービス名	CeVIO AI
URL	https://cevio.jp/products_cevio_ai/
開発・提供	株式会社フロンティアワークス
主な機能	・テキストファイル（.txt .csv）の読み込み・字幕ファイル（.srt .sbv）の読み込み・全トラックのセリフの書き出し・字幕ファイルの書き出し
利用料金	CeVIO AI すずきつづみトークスターター：16,918円 CeVIO AI さとうささらトークスターター：16,918円 ※トークスターターは、ボイス＋エディタのセット。

こんな方にオススメ

個性のあるキャラクターボイスでテキストを読み上げてほしい人
感情のある話し声を作成したい人

VOICEVOX（ボイスボックス）

「VOICEVOX（ボイスボックス）」は、OSS（オープンソース・ソフトウェア）版 VOICEVOX をもとに構築された、テキスト読み上げソフトウェアです。

26人のキャラクターボイスを、商用・非商用問わず誰でも無料で使うことができるのが特徴。

「ずんだもん」「春日部つむぎ」「四国めたん」などの各キャラの人気も高く、ニコニコ動画やYouTubeといった動画でよく利用されています。

サービス名	VOICEVOX
URL	https://voicevox.hiroshiba.jp/
開発・提供	ヒホ（ヒロシバ）【Twitter：@hiho_karuta】
主な機能	・テキストファイルの読み込み・単語の接続変更・アクセントの変更・イントネーションの詳細な調整・読みの修正・喋り方の変更・音の長さの変更・音声ファイル（WAV）の書き出し
利用料金	無料

こんな方にオススメ

収益化を目指してYouTubeに投稿する動画を作成したい人
複数のキャラクター音声を利用したい人

VOICEPEAK（ボイスピーク）商用可能製品シリーズ

「VOICEPEAK（ボイスピーク）」は、高品質なAI音声合成エンジン「Syllaflow」を搭載した、入力文字読み上げソフト。商用可能製品シリーズとして、
『VOICEPEAK 商用可能 6ナレーターセット』・『VOICEPEAK 商用可能ナレーター』が販売されています。

「幸せ」「楽しみ」「怒り」「悲しみ」の4つの感情パラメーターが用意されていて、喜怒哀楽などの感情を込めた日本語の読み上げを自然に行なえるのが特徴。

各セリフごとに複数の感情表現の出力を調整することも可能な点も、大きな魅力となっています。気になる方は、ぜひ体験版を利用してみてはいかがでしょうか？

≪「VOICEPEAK 商用可能 6ナレーターセット」体験版はこちら≫

サービス名	VOICEPEAK（ボイスピーク）
URL	https://www.ah-soft.com/voice/
開発・提供	株式会社AHS
主な機能	・読み上げの速さの調整・ピッチ（声の高さ）の調整・ポーズ（行末や句読点における間の長さ）の調整・音量の出力調整・アクセントの調整・イントネーションの調整・各文字の読み上げの長さの調整・音声ファイル（WAVE、FLAC）のエクスポート
利用料金	VOICEPEAK 商用可能 6ナレーターセット：23,800円 VOICEPEAK 商用可能ナレーター各種：11,980円 ※ダウンロード版の税込み価格。

こんな方にオススメ

商用利用の動画にナレーションを入れたい人
微妙な感情表現を込めた音声を作成したい人

VOICEROID（ボイスロイド）シリーズ

「VOICEROID（ボイスロイド）」は、人間的で自然な音声合成を実現することができる、高性能音声合成ソフトウェア。『VOICEROID2 結月ゆかり』や『VOICEROID2 琴葉茜・葵』などが販売されています。

大人の女性の情感あふれる声が特徴の「結月ゆかり」や、関西弁で喋る「琴葉茜」と標準語で喋る「琴葉葵」など、キャラの個性を生かした音声を生成できるのが特徴。

ニコニコ動画やYouTubeではキャラの掛け合いを入れた解説動画に利用されることが多く、動画の再生回数が伸ばしやすい点もポイントとなっています。

サービス名	VOICEROID
URL	https://www.ah-soft.com/voiceroid/
開発・提供	株式会社AHS
主な機能	・テキスト入力＆音声合成・音量調整/話速調整/高さ調整/抑揚調整・マルチボイス対応・ボイスプリセット機能・イントネーションの調整・辞書登録・音声データ（WAVE）の保存・MMDモデルデータ収録
利用料金	VOICEROID2 結月ゆかり：10,800円 VOICEROID2 琴葉茜・葵：12,800円 VOICEROID2 東北イタコ：11,800円 VOICEROID2 伊織弓鶴：11,800円 VOICEROID2 ついなちゃん：9,980円 VOICEROID2 紲星あかり：8,980円 VOICEROID2 桜乃そら：8,980円 ※ダウンロード版の税込み価格。

こんな方にオススメ

キャラクターメインの動画を作成したい人
ニコニコ動画やYoutubeに動画を投稿したい人

海外のAI音声生成ツール（AI音声ジェネレーター）

海外でも、AIを利用した英語の音声生成サービスが色々提供されています。「AI Voice Generators（AI音声ジェネレーター）」と表記されていることが多く、広い意味では音声生成AIを利用したツールも含むようです。

海外サービスの場合、出力したデータを商用利用する際は、著作権の扱いについてよく調べてからにしましょう。海外は著作権が曖昧なこともあるので、トラブルに巻き込まれないためにもしっかりと自衛することが大切です。

※海外サービスのため、規約をしっかり読んだうえで自己責任において利用してください。
※海外サイトでは、安易にリンク先にジャンプすると手数料などの料金が発生する場合もあります。英語が分からない場合は、翻訳ツールなどを利用するようにしましょう。

Play.ht

「Play.ht」は、テキストを音声に変換するAI音声ジェネレーターです。

テキストをオンラインのエディタに入力すると音声に変換して、MP3またはWAV形式でダウンロードが可能。音声はスピーチスタイルや発音をカスタマイズすることができます。

サービス名	Play.ht
URL	https://play.ht/
利用料金	個人：月額＄19 商用：月額＄99

Murf.AI

「Murf.AI」は、数分でスタジオ品質のボイスオーバーを作成できるAI音声ジェネレーターです。

音声は様々な言語・アクセント・感情・トーンを選択可能で、人間らしい音声を生成してくれます。自分の声を録音してアップロードすると、その声を模倣した音声を生成できる点も魅力です。

サービス名	Murf.AI
URL	https://murf.ai/
利用料金	無料：100文字までの音声生成 1クレジット：＄0.01～0.03

Listnr

「Listnr」は、テキストからポッドキャストやオーディオブックなどの音声コンテンツを作成できるAI音声ジェネレーターです。

142以上の異なる言語と方言を使用することができ、音声ライブラリーは900以上が用意されています。WebサイトのURLを入力すると、その内容を音声に変換してくれるのが特徴です。

サービス名	Listnr
URL	https://listnr.tech/
利用料金	無料：10分までの音声生成ベーシック：月額＄19 プロ：月額＄26 エンタープライズ：月額＄59

Speechify

「Speechify」は、Webサイト・文書・記事・メール・電子書籍などのテキストを読み上げるツールです。

50以上の言語が用意されていて、アクセント・スピード・ピッチを選択することができます。PDFなどの画像ファイルも読み込めるため、利用シーンが多いのも魅力です。

サービス名	Speechify
URL	https://www.getspeechify.com/
利用料金	基本無料（機能制限あり）有料プラン：月額＄15

LOVO

「LOVO」は、テキストから自分だけのオリジナルの音声を作成できるAI音声ジェネレーターです。

40以上の言語が用意されていて、アクセント・性別・年齢などの特徴を選択可能。自分の声を録音してアップロードすると、その声に似た音声を生成することもできます。

サービス名	LOVO
URL	https://lovo.ai/
利用料金	無料：30分までの音声生成プロ：月額＄7 エリート：月額＄25

Synthesys

「Synthesys」は、テキストからリアルな人間の声を生成できるツールです。

音声は18種類用意されていて、アクセントをコントロールすることが可能。テキストに感情や強調したい単語などの指示を入れることもできます。

サービス名	Synthesys
URL	https://www.synthesys.io/
利用料金	無料：150文字までの音声生成 1クレジット：＄0.04～0.06

Resemble.AI

「Resemble.AI」は、10分以内の録音データから自分の声に似た音声を生成することができる、AI音声作成ツールです。

音声は様々な言語・アクセント・感情・トーンに合わせて調整可能。自分の声をもとにオリジナルの音声を作成できるのが魅力です。

サービス名	Resemble.AI
URL	https://www.resemble.ai/
利用料金	無料：30分までの音声生成 1クレジット：＄0.05～0.15

Clipchamp

「Clipchamp」は、テキストからビデオに合わせたナレーションを生成できるツールです。

ビデオエディターを使って、音声のタイミングやボリュームなどを調整可能。ビデオに画像・動画・音楽などを追加することもできます。

サービス名	Clipchamp
URL	https://clipchamp.com/en/
利用料金	基本無料（機能制限あり）有料プラン：月額＄9～39

「BLITZ Marketing」のAIブランドモニターでネット炎上を防止

インターネット上に動画を投稿する場合は、常にネット炎上リスクに備えなければなりません。

しかし、「実際にどのようなことをしたら良いのか分からない」という人も多いのではないでしょうか？

そんな時は、誹謗中傷・風評被害対策のプロフェッショナル「株式会社BLITZ Marketing（ブリッツマーケティング）」にお任せください！

BLITZ Marketingが提供している「AIブランドモニター」は、ネットの風評を24時間監視しながら、AIがネガティブな情報を自動判定することが可能。ネット炎上や悪質な風評の火種を、いち早く見つけることができます。

また、今話題の高性能AI「ChatGPT」を活用した、口コミ管理サポート機能を搭載しているのも大きなポイント。「SNSの投稿文のリスクスコア分析機能」や「Google Mapsの口コミへの返信文作成機能」を利用することができます。

SNSに掲載する動画の宣伝文を作成する際は、この機能を使ってネット炎上を防止できるというわけです。

AIブランドモニターは、1ヶ月分の無料トライアルを実施しているので、気になる方は気軽に試すことができます。

誹謗中傷・風評被害対策に関しても相談無料となっているため、インターネット炎上に不安を感じている人は、ぜひ検討してみてはいかがでしょうか？

＼無料トライアル実施中！／

無料相談をする

【まとめ】音声生成AIと音声合成AIを理解して利用しよう

「音声生成AI」は生成AIの一種で、新しい音声データを生成できるのが特徴です。ただし、音声生成AIのサービスが普及するのはまだ先だと思われます。

したがって、音声を生成するのであればAI技術を利用した「音声合成」のツールを利用するのが一般的です。

日本ではキャラクターをメインとした音声合成ソフトが多いですが、海外では自分や他人の声を利用した音声合成サービスもあります。

ただし、実在の人物の声を利用する際は、著作権やデータの扱いに充分注意するようにしましょう。

投稿者プロフィール

デジタルリスク施策部: 誹謗中傷対策とWebマーケティングに精通した専門家です。デジタルリスク対策の実績を持ち、これまでに1,000社を超えるクライアントのWebブランディング課題を解決してきました。豊富な経験と専門知識を活かし、クライアントのビジネス成功に貢献しています。

音声生成AIと音声合成AIの違い｜AI搭載の音声生成ツールも紹介