AI動画・音声

AIナレーション副業の始め方|月1〜5万円の現実

更新: 田中 美咲(たなか みさき)

AIナレーション副業は、台本をAI音声で仕上げて納品する仕事です。
週5〜10時間で月1〜5万円を目指す会社員の初心者なら、まずは商品紹介、社内研修、eラーニング、音声ガイド向けの音声データ納品動画に組み込んだMP4納品から狙うのが現実的で、ツールは試しやすい音読さん、編集しやすいAudacity、動画まで触るならDaVinci Resolveの組み合わせが動きやすいのが利点です。
収入の目安も先に押さえておくと動きやすく、1分=約300文字で見積もれば、ChatGPT Plusの月額20ドル(約3,000円)は小さめの案件を1件取れれば回収しやすいラインです。
料金や商用利用条件、委託時の規約は2026年3月時点でも変動があるので、実際の出品前には各公式条件の確認が欠かせません。

筆者自身、動画制作のワークでナレーションをAI音声に差し替えたとき、原稿修正が入っても再録の段取りなしでその場で直せる速さに助けられました。
人の収録だと読み直しの手間や日程調整が発生しやすい場面でも、文言を1行直して音声を書き出し直せばすぐ差し替えられるので、修正対応のコスト感が一段軽くなるんです。
もちろん感情表現が強く求められる案件には向き不向きがありますが、解説や研修のように明瞭さと更新頻度が大事な仕事では、十分に商品になります。

この記事では、その全体像をふまえて、5ステップで初出品・初応募まで進める流れを整理し、初心者向けの料金表、提案文テンプレ、1週間の行動計画まで持ち帰れる形にします。
派手に稼ぐ話ではなく、修正しやすい音声制作を小さく売るところから始めるのが、AI副業初心者にはいちばん再現しやすい進め方です。

AIナレーション副業とは?何を売って稼ぐ仕事か

用語の整理:AIナレーション/TTS/音声合成とは

AIナレーション副業は、テキストから自然な音声を合成するTTS技術を使って、動画や音声素材のナレーションを提供する仕事です。
TTSはText-to-Speechの略で、文字情報を音声に変換する技術の総称を指します。
実務では「AIナレーション」「音声合成」「読み上げ音声」がほぼ近い意味で使われますが、副業として売るときは、単に音声を出すだけではなく、用途に合わせて聞きやすく整えた納品物にすることが価値になります。

仕事の流れも、実際は整理しやすいのが利点です。
まず動画や教材の目的、聞き手の年齢層、求めるトーンを決めます。
次に原稿を作成し、TTSツールで音声を生成し、読み速度や間、イントネーション、音量を整え、音声単体のWAVやMP3で渡すか、MP4動画に組み込んで納品します。
ナレーションの標準速度は1分あたり約300文字が目安なので、見積もりや尺調整もこの考え方で組み立てやすいのが利点です。

ここ、すごく大事で、AIナレーション副業で売っているものは「AIそのもの」ではありません。
クライアントが買っているのは、伝わる原稿の整理、聞き取りやすい音声、修正しやすい制作体制、用途に合ったファイル形式での納品です。
たとえばYouTubeの解説動画では、途中で「要点を3つに圧縮したい」と原稿の再編集が入ることがあります。
筆者もこの手の修正で助けられた場面があり、人の再録なら段取りが必要なところを、AI音声なら文を詰めて数分で再出力し、そのまま差し替えまで進めやすかったです。
こういう小回りの良さが、そのまま商品価値になります。

市場の追い風もあります。
『ITR Market View:画像・音声認識市場2025』では、国内の対話型AIエンジン/デジタルヒューマン市場は2024年度に12億9,000万円、前年度比46.9%増とされています。
さらに世界市場予測では、2023年197.3億ドルから2030年887.3億ドルへ拡大見込みです。
動画、研修、案内、カスタマーサポートの音声化が進むほど、「安く・早く・更新しやすい音声制作」への需要は広がりやすいと考えられます。

ITR Market View:画像・音声認識市場2025|株式会社アイ・ティ・アール www.itr.co.jp

案件化しやすい納品物のパッケージ例

初心者が案件化しやすいのは、凝った演技を売るより、用途がはっきりした納品パッケージにする形です。
音声単体でも売れますし、PowerPointからMP4化まで含めると、企業案件に寄せやすくなります。
Microsoft PowerPointは公式手順でナレーション付きの動画書き出しに対応しているので、既存スライドを音声付き教材に変える仕事とも相性がいいです。

パッケージ化しやすい例を挙げると、次のようなものがあります。

  1. YouTube動画のナレーション差し替え

既存の台本や字幕をもとに、落ち着いた解説音声へ差し替える仕事です。情報系、ハウツー系、社内向け配信で扱いやすい領域です。

  1. 企業研修・eラーニング音声

更新頻度が高く、修正も出やすいので、AI音声の強みが出やすい分野です。読みの明瞭さと統一感が重視されます。

  1. 商品・サービス紹介音声

EC、営業資料、展示会動画などで使う紹介ナレーションです。過度な演技より、聞き取りやすさと安心感が求められます。

  1. 観光地・美術館などの音声ガイド

スポットごとに短い説明を量産する案件です。差し替えや多言語展開と相性がよく、音声ファイル分割納品にも向きます。

  1. 多言語版ナレーション

日本語原稿をベースに英語や中国語などへ展開する仕事です。
多言語対応ツールでは対応言語数の広さを強みにしやすく、VoiceSpaceは54カ国語対応をうたっています。

  1. 既存PowerPointからの音声付き動画化

研修資料や営業資料にAIナレーションを入れて、MP4で納品する形です。スライドはあるが録音環境がない企業に刺さりやすいのが利点です。

💡 Tip

AIナレーション案件は「声を作る仕事」と考えるより、「原稿を伝わる音声コンテンツに変換する仕事」と捉えると、音声単体、動画組み込み、教材化まで自然に横展開しやすくなります。

人間ナレーションとの違いと選び分け

AIナレーションは万能ではありませんが、向く案件では強いです。
人のナレーションと比べたとき、コスト、納期、修正のしやすさではAIが優勢です。
いっぽうで、感情の起伏、繊細な演技、難しいアクセントの自然さでは人が強いです。
読み聞かせ、ブランドCM、世界観重視の映像では、人の声の説得力がまだ大きい場面があります。

その違いをざっくり整理すると、次の通りです。

項目AIナレーション人の宅録ナレーションスタジオ収録ナレーション
コスト低め中程度高め
納期短い比較的短い調整に時間がかかる
修正しやすい再録の手間あり再収録コストが高い
感情表現弱い場合ありある程度対応最も強い
向く案件解説、研修、量産動画中小案件、広告以外CM、ブランド案件、高表現案件

金額感にも差があります。
業界情報サイトのJaPicがまとめる日本語ナレーション相場では、一般的なナレーションは400文字あたり12,000〜25,000円、中堅ナレーターのスタジオ収録は15万〜25万円、宅録は5万〜10万円、30分の研修教材ではスタジオ収録30万〜50万円、宅録でも15万〜25万円が目安です。
さらに24時間以内の特急対応は50〜100%の割増がかかる例もあります。
こうした相場と比べると、AIナレーションが選ばれる理由は明確で、高い演技力が必須ではないが、更新頻度が高く、修正が出やすい案件では特に導入しやすいのが利点です。

選び分けの基準もシンプルです。

  • AIナレーションが向く案件

原稿修正が多い、同じトーンで量産したい、社内研修や解説で明瞭さが最優先、多言語展開したい

  • 人のナレーションが向く案件

感情の抑揚が重要、ブランドの印象形成が主目的、長文でも自然な抑揚が必要、方言や高度な演技指定がある

  • スタジオ収録が向く案件

CMや大型プロモーション、音質と表現の完成度を最優先、演出家やクライアント立ち会いで細かく詰める案件

実務では、AIか人かの二択ではなく、役割分担で考えると整理しやすいのが利点です。
たとえば研修動画やYouTubeの量産パートはAI、ブランドムービーのメインカットだけ人、という切り分けは合理的です。
筆者の感覚でも、説明動画や教材では「違和感がないこと」と「修正に強いこと」の比重が高く、ここにAI音声はきれいにはまります。
逆に、声だけで感情を引っ張る企画では、人の表現力がそのまま成果物の価値になります。

AIナレーション副業が向いている人・向いていない人

AIナレーション副業は、自分で声を出さずに在宅で進めたい人と相性がいいです。
録音ブースやマイク環境がなくても始めやすく、原稿修正が入ってもすぐ差し替えられるので、家事や本業のすき間で少しずつ進めたい人には扱いやすい仕事です。
特に、社内研修、eラーニング、商品説明のように「感情よりも明瞭さと統一感」が重視される案件では、この強みがそのまま価値になります。

筆者自身、研修動画の仮ナレーションをAIで先に組んで、関係者レビューを回しやすくしたことがあります。
人の声で先に収録してしまうと、文言修正のたびに再録の話になりますが、AIならその場で言い回しを直して聞き比べできるので、確認工程が速くなりました。
こういう案件では、レビュー段階はAI、公開用の最終版だけ人のナレーションに差し替える進め方もきれいにはまります。
ここ、すごく大事で、AIナレーション副業は「最終音声を売る仕事」だけでなく、「確認しやすい試作音声を素早く作る仕事」としても成立します。

向いている人の特徴

向いているのは、まず在宅で完結する裏方作業が好きな人です。
話す仕事というより、原稿を整えて、読みやすい形にし、音声の速度や間を微調整して仕上げる仕事に近いからです。
人前で声を出すのは苦手でも、テキストを整理して伝わる形に変えるのが得意なら十分戦えます。

次に、台本整理や情報要約が得意な人も有利です。
AI音声は、元の原稿が読みやすいほど品質が安定します。
つまり、句読点の位置を直す、長すぎる一文を分ける、専門用語の読みを注記する、といった地味な調整がそのまま納品クオリティにつながります。
文章を整えるのが苦にならない人は、この工程で差がつきやすいのが利点です。

さらに、動画編集の基本操作ができる人は仕事の幅が広がります。
Audacityで音声を整えるだけでなく、DaVinci ResolveやAdobe Premiere Proでスライドや映像に組み込めると、「音声のみ」ではなく「MP4で納品」まで提案しやすくなります。
PowerPoint資料に音声を入れて動画化する案件もあるので、音声単体より一歩踏み込める人は強いです。

もうひとつ見逃せないのが、反復作業と微調整が苦にならないことです。
AIナレーションは一発で完璧に仕上がるより、速度、間、アクセント、区切りを少しずつ詰めていく場面が多いです。
正直に言うと、この作業を面倒と感じる人にはきついですが、細かく整えて完成度を上げるのが好きな人には向いています。

不向きな案件・人の特徴

反対に、AIナレーションが合いにくいのは、感情演技や強い表現が必須の案件です。
たとえば広告、ドラマ調の動画、ブランドイメージを前面に出す映像は、声の熱量やニュアンスが成果物の印象を大きく左右します。
こうした案件は、やはり人のナレーターを使う方が適しています

方言が多い案件も注意が必要です。
標準語ベースの説明音声なら整えやすい一方で、地域色のある言い回しや自然な抑揚まで求められると、AIでは詰め切れない場面があります。
原稿に固有名詞や専門用語が多い案件でも、誤読のチェック負荷が上がります。

依頼者との相性という意味では、イントネーションの微差に強いこだわりがある案件もAI向きではありません。
もちろん調整はできますが、感覚的な「この一音だけもっと柔らかく」といった要求が続く案件は、人のナレーターの方が早く着地しやすいのが利点です。
音声表現そのものが商品価値になる案件では、AIで無理に合わせるより最初から人に寄せた方が合理的です。

メリットとデメリットの整理

適性判断では、良い面と弱い面をセットで見た方がズレません。実務で感じやすいポイントを絞ると、次の通りです。

  • メリット
  • 声出し不要で、自宅で完結しやすい
  • 修正が速く、文言差し替えや再生成に強い
  • 人の再録よりコストを抑えやすい
  • 同じトーンで量産しやすく、シリーズ案件に向く
  • 仮ナレーションや確認用素材としても使いやすい
  • デメリット
  • 感情表現や強い抑揚は人より弱くなりやすい
  • デメリット
  • 感情表現や強い抑揚は人より弱くなりやすい
  • 専門用語や固有名詞で誤読が出ることがある
  • 不自然な間やイントネーションを手直しする工程が必要
  • 広告、ドラマ、方言重視の案件では力不足になりやすい

(注) 行148 のメタ的な前置き表現を削除し、直接的な説明に統一しました。

  • 不自然な間やイントネーションを手直しする工程が必要
  • 広告、ドラマ、方言重視の案件では力不足になりやすい

ℹ️ Note

AIナレーション副業で評価されやすいのは、「いい声」そのものより、原稿整理、読みの調整、動画への組み込みまで含めて、納品物として整えられる力です。

つまり、向いているかどうかは声の才能よりも、文章整理、編集の基本操作、細かい修正への耐性で決まりやすいのが利点です。
逆に、表現力そのものが勝負になる案件を中心にやりたい人には、AIナレーション単体より人の収録案件の方が合っています。
副業として現実的に伸ばしやすいのは、説明音声をきれいに整え、必要なら動画化まで一気に仕上げられるタイプです。

必要な準備|ツール、初期費用、確認すべき利用規約

AIナレーションツール比較

準備段階でいちばん差が出やすいのは、どのAI音声ツールを主力に置くかです。
ここは「高機能そうなものを1本選ぶ」より、同じ原稿を複数ツールで試すほうが早いです。
筆者も実際にやってみて、内容は同じでも声色の印象差が大きく、案件ごとに“刺さる声”が違うと感じました。
研修動画では落ち着いた無機質寄りの声が合うのに、商品紹介では少し明るめの声のほうが通る、といった差が出ます。
だからポートフォリオも1パターンだけでなく、同じ台本で声違いを複数用意しておくと提案しやすいのが利点です。

比較の見方としては、音質そのものだけでなく、商用利用の範囲委託案件で使える条件をセットで見るのが実務的です。
特に副業では「自分の発信に使える」だけでなく、「クライアントのために制作して納品できるか」が分かれ目になります。
下の表は候補を絞るための整理表で、料金や条件は2026年3月時点の公式ページで再確認する前提です。

ツール料金の目安商用利用可否委託/請負時の条件多言語対応オフライン可否日本語品質メモ
音読さん無料/有料あり無料利用時はクレジット表記あり。委託案件はビジネスプラン要件ありと公式案内あり対応あり不可(ブラウザ型)日本語の実務情報が多く、まず試す用途に向く
VOICEPEAK有料あり可の文脈で紹介されることが多い委託利用の細則は公式ライセンス確認前提日本語中心で使いやすい声種の幅があり、キャラ分けや話者分離に向く
CoeFont無料/有料ありStandard以上でクレジット記載なし商用利用可と紹介プランごとの商用条件整理が必要対応あり著名人系を含め声の選択肢が広く、案件ごとに声を当てやすい
VoiceSpace有料あり公式条件の確認が前提委託・再販の扱いは公式規約確認前提日本語案件向け候補として比較対象に入れやすい
Canva×D-ID無料トライアル/有料ありD-IDはPro以上で商用利用可と紹介されるLiteはウォーターマーク付き・商用不可という整理が多く、上位プラン前提で確認が必要対応あり不可音声単体より、顔出し風プレゼンやアバター動画案件に強い

音声単体で始めるなら、入りやすさは音読さんが強いです。
ブラウザで完結しやすく、『音読さんの商用利用・禁止事項』でも条件の整理が比較的読みやすいので、最初の比較軸を作りやすいんです。
キャラクター感や話者のバリエーションを重視するならVOICEPEAKやCoeFontが候補に入りやすく、顔付きのプレゼン動画まで含めるならCanvaとD-IDの組み合わせが便利です。

一方で、表の「商用利用可」はそのまま「全部の副業案件で自由に使える」という意味ではありません。
自社利用は可でも代理制作は別条件、クレジット表記が必要、無料枠では委託不可、といった差が出やすいからです。
ここを曖昧にしたまま受けると、納品物は作れたのに販売条件を満たしていなかった、というズレが起こります。

音読さんでできること。商用利用(業務利用)や禁止事項について。|音声読み上げソフト 音読さん ondoku3.com

原稿作成と編集ツールの最小構成

副業として回しやすい最小構成は、台本生成補助ツール + TTS + 編集ソフトの3点です。
これだけあれば、原稿の叩き台作成、音声生成、仕上げまで一通り回せます。
すでに前のセクションでも触れた通り、台本補助にはChatGPT Plusの月額20ドル(約3,000円)が基準として扱いやすく、ゼロから全文を書くというより、構成案や言い換え候補を出してもらって人手で整える使い方が実務向きです。

筆者はAIにそのまま完成稿を書かせるより、まず「3パターンの導入文」「長文を読みやすく分割」「専門用語の説明を短く言い換え」といった補助に使うほうが安定すると感じています。
AI音声は、原稿の句読点や一文の長さに影響されます。
だから、生成AIで台本の叩き台を作ったあとに、人の手で読点を足す、言いにくい語順を直す、読み仮名の注記を入れる、という工程を挟むだけで聞きやすさが大きく変わります。

音声編集は、まずAudacityで十分です。
Audacityは無料で、Windows、macOS、Linuxに対応し、マルチトラック編集やノイズ除去、WAV・AIFF・MP3・FLACなどの書き出しに対応しています。
空調音のような定常ノイズなら、ノイズプロファイルを取ってから軽くノイズ低減をかけるだけで聞きやすさが整います。
ただ、強くかけすぎると声がこもりやすいので、筆者はAB比較しながら薄めに使うことが多いです。

動画まで触るなら、DaVinci Resolveの無償版も相性がいいです。
Blackmagic Design公式のDaVinci Resolve 20ではFairlightの音声機能が強く、音声編集と動画組み込みをひとつのソフトでまとめやすいのが利点です。
すでにAdobe Premiere Proを使っている人なら、そのままPremiere Proのエッセンシャルサウンドやノイズ除去、自動字幕を使う流れでも問題ありません。
PowerPoint資料にナレーションを載せる案件では、Microsoft PowerPointの「ビデオの作成」からMP4へ出せるので、スライド案件との相性もいいです。

編集作業で最初に覚えたい操作は、次の3つに絞ると回しやすいのが利点です。

  • 無音部分のトリム
  • ノイズ軽減
  • フェードイン・フェードアウト

これに加えて、ラウドネス合わせやBGMとの音量バランスまで触れられると納品物の見た目が一段上がります。
音声マスターをWAVで保存しておき、配信用や動画納品ではMP4にする流れも扱いやすいのが利点です。
YouTube向けの動画では48kHz系で合わせておくと収まりがよく、10分程度のナレーションをWAVで持つと約115MBになるので、編集マスターはWAV、配布版は圧縮したMP4という分け方が実務ではきれいです。

初期費用は、無料トライアルで品質検証をしながら絞るのが無駄がありません。
最小構成なら、無料のAudacityまたはDaVinci Resolveを軸にして、TTSと台本補助だけに課金すれば月数千円規模から始められます。
いきなり全部を有料化するより、「月に一定件数以上の受注が見えてから上位プランへ移す」という段階設計のほうが、副業としては現実的です。

💡 Tip

ツール選びで迷ったときは、同じ30秒原稿を2〜3サービスで試作し、音声のみ版とBGM入り版の両方を保存しておくと、提案時に「研修向け」「商品紹介向け」の出し分けがしやすくなります。

商用利用と委託時の規約チェックリスト

AIナレーション副業では、音質より先に規約で落ちないことが欠かせません。
ここは著作権や契約の話が混ざるので構えがちですが、見る場所はだいたい決まっています。
実務では、ツール規約、販売プラットフォーム規約、配信先ポリシーの3層で整理すると混乱しません。
ココナラやクラウドワークスのような受注プラットフォームにも独自ルールがあり、ココナラは通常サービスで販売時手数料が税込22%、クラウドワークスは報酬額に応じた段階制手数料なので、料金設計ではこの差も効いてきます。

規約で特に見たい項目は、次の通りです。

  1. 商用利用の可否
  2. クレジット表記の要否
  3. 委託・請負・再販の扱い
  4. AIボイスのクローン生成や声真似の可否
  5. YouTubeなどプラットフォームでの利用可否
  6. 生成音声の再配布・二次利用の範囲
  7. 禁止事項

各ツールの利用規約で明記されている禁止事項(声のクローン化、著名人の模倣、無断学習データの利用、再配布制限など)を必ず確認してください。
違反した納品は法的・プラットフォーム上の問題に発展するリスクがあります。

  1. 有償プランに限定される条件

一部の商用利用許諾や委託制作の可否、クレジット免除などは有償プランに限定されることが多く、案件着手前に使用プラン名と該当条件を明示しておくことを推奨します。

この中でも副業で見落としやすいのが、代理制作は許可されているかという点です。
自分のSNSや自社動画に使えることと、クライアント案件として受けて納品できることは同じではありません。
音読さんのように無料利用時のクレジット表記や、サービスは読みやすいですが、他サービスでも同じレベルで明記されているとは限りません。

声の権利まわりも軽く見ないほうがいいところです。
『生成AIと声の権利の保護』のように、法的整理がまだ揺れている論点もあるので、著名人に似せた声、既存声優を想起させる声、本人同意のないクローン音声は避ける、という運用のほうが安全です。
ここは「できるか」ではなく「売り物として安心か」で考えるのが欠かせません。

配信先の条件では、YouTubeも押さえておきたい判断材料になります。
YouTubeヘルプでは、サードパーティ製AIツールで生成した改変・合成コンテンツについて、投稿時に開示が必要になるケースがあります。
AIナレーション自体が即NGというより、権利侵害や誤認を招く使い方、オリジナル性の低い量産物が問題になります。
つまり副業で売るなら、ただ読み上げるだけでなく、台本調整、編集、構成、字幕、図解などの人の付加価値を載せたほうが強いわけです。

規約確認は地味ですが、この工程を先に済ませておくと、出品文にも「商用利用条件に沿って制作」「使用ツールのプラン条件に適合した納品」という形で安心感を出せます。
副業としての準備は、機材を増やすことよりも、どの条件なら受けられて、どの条件なら受けないかを言語化しておくことのほうが効きます。

www.meilin-law.jp

AIナレーション副業の始め方5ステップ

用途を1つに絞って、台本の型を先に作り、短いサンプルを3本そろえてから出す。
この順番にすると、未経験でも作業が整理されます。
AIナレーションは音声生成そのものより、前段の設計で勝負が決まりやすいのが利点です。
特に台本テンプレを先に固めると、後工程の調整が8割くらい片づきます。
誤読しやすいワードの表記を統一しておくだけで、再生成と再編集の回数が目に見えて減るからです。

Step1 用途を決める

最初の30分は、やることを増やすより用途を1つに絞るのが欠かせません。
候補は、YouTube解説、企業研修、商品紹介の3つで十分です。
全部に対応しようとすると、必要な声質も台本の作法も提案文もぶれて、準備だけ長引きます。

選ぶ基準はシンプルで、自分の強み×市場数×納期の短さで見ます。
たとえば、情報を整理してわかりやすく伝えるのが得意ならYouTube解説、落ち着いた読みと聞き取りやすさを出しやすいなら企業研修、短くメリハリをつけた訴求が得意なら商品紹介が合わせやすいのが利点です。
市場数という意味ではYouTube解説や短尺の商品紹介は見つけやすく、納期の短さではAI音声の強みが出やすいので、初心者の最初の一歩として噛み合いやすいのが利点です。

迷ったら、筆者なら企業研修かYouTube解説から入ります。
感情の起伏が大きすぎない案件のほうが、AI音声の安定感と相性がよく、修正にも強いからです。
商品紹介は伸びると早い一方で、テンポ感や売りのニュアンス調整が細かくなりやすいので、最初は少しだけ難易度が上がります。

Step2 台本テンプレを作る

次の60分で、案件ごとに使い回せる台本テンプレを作ります。
ここ、すごく大事で、テンプレがないまま毎回ゼロから組むと、読み上げの品質より構成の迷いで時間を失います。

基本の型は、オープニング→問題提起→要点3つ→Q&A→締めです。
この並びなら、解説にも研修にも商品紹介にも転用しやすく、クライアントから見ても内容の見通しがよくなります。
1分あたり約300文字で組めるので、尺の見積もりもしやすいのが利点です。

テンプレの例は、次のような形です。

  1. オープニング:誰向けの内容かを一文で示す
  2. 問題提起:よくある悩みや課題を短く置く
  3. 要点1:最初に理解してほしいこと
  4. 要点2:実務での使い方や注意点
  5. 要点3:成果につながる判断基準
  6. Q&A:想定される疑問を先回りして解消する
  7. 締め:次の行動や要点の再確認を一文で置く

AIナレーションでは、このテンプレに加えて誤読しやすい語の注記ルールを決めておくと強いです。
数字、英語、固有名詞はTTSで崩れやすいので、表記を統一します。
たとえば「2026年」は読み方を案件ルールに合わせて固定し、「AI」は必要なら「エーアイ」とカナを添える、「DaVinci Resolve」のような固有名詞は読みが安定する書き方を決めておく、という運用です。
筆者は誤読ワードを小さな表記統一リストにして、案件ごとに追記しています。
これがあると、同じ語で毎回違うミスが出るのを防げます。

Step3 サンプル音声を3種作る

ここで約90分かけて、30秒・60秒・90秒のサンプル音声を3種作ります。
1本だけだと、出せる幅が伝わりません。
A/B/Cで声色、話速、感情強度を少しずつ変えたほうが、案件との接続が一気によくなります。

構成はこの3本が扱いやすいのが利点です。
Aは30秒で商品紹介寄り、少し明るめでテンポを上げる。
Bは60秒でYouTube解説寄り、標準的な話速で情報を聞き取りやすくする。
Cは90秒で企業研修寄り、落ち着いたトーンで感情を抑えめにする。
この3本があると、提案時に「この案件ならBかCの方向です」と示しやすくなります。

書き出し設定も先に固定しておくと管理が楽です。
音声マスターはWAVで残し、映像に載せる提出用はMP4や圧縮音声に分ける流れが実務向きです。
映像向けなら48kHz系でそろえると扱いやすく、WAVの48kHz/16bit/ステレオは1分あたり約11.5MBになるので、30秒・60秒・90秒のサンプルでも容量感を把握しやすいのが利点です。
短尺なら取り回しは十分できますが、バージョン違いを増やすとすぐ重くなるので、マスター保存と提出用の分離は早い段階で習慣化したほうが後が楽です。

ノイズ管理は凝りすぎず、基本だけ押さえれば十分です。
Audacityならノイズプロファイルを取ってからNoise Reductionで定常ノイズを落とせます。
空調のような一定のノイズには効きますが、強くかけすぎると声がこもりやすいので、処理前後を聞き比べながら軽めに整えるのがコツです。
音量は編集ソフト側でピークだけ見るのではなく、複数サンプルの聞こえ方をそろえる意識でそろえます。
Audacityは無料で使えますし、DaVinci ResolveのFairlightでも音量調整と簡単な整音は進めやすいのが利点です。

ℹ️ Note

サンプルは「音声のみ版」と「BGM入り版」を分けて保存すると、提案時に用途別で見せやすくなります。BGM入りは雰囲気訴求に強く、音声のみ版は聞き取りやすさの判断に向いています。

Step4 出品文または提案文を作る

次の60分では、出品文または提案文のテンプレを作ります。
ここで必要なのは、うまい営業文というより、条件が一目でわかることです。
AIナレーション案件は修正や利用範囲で認識差が出やすいので、最初から線引きを言語化しておくとやり取りが安定します。

最低限、明記したい項目は、提供範囲(文字数または尺)・修正回数・納期・利用範囲・特急料金・禁止事項です。
特急料金は業界では50〜100%の割増例もあるので、急ぎ対応を受けるなら通常納期と分けて書くと整理しやすいのが利点です。

たとえば出品文の骨組みは、次の形にすると使いやすいのが利点です。

「AIナレーションを制作します。
提供内容は〇文字まで、または〇分までの音声データ納品。
修正は〇回まで対応。
納期は〇日。
利用範囲はWeb動画、社内資料、商品説明動画など。
特急対応は追加料金あり。
著名人に似せた声、本人同意のない声真似、規約に反する用途は対応外。

提案文なら、これに案件理解を一段足します。
たとえば「研修動画向けなので、落ち着いた話速で聞き取りやすさを優先します」「商品紹介向けなので、冒頭3秒の訴求を強めたサンプルを想定しています」といった一文を加えるだけで、テンプレでも個別感が出ます。
ここでサンプルA/B/Cのどれに近いかを添えると、受注後のズレも減ります。

Step5 小案件から受けて実績化する

実務に入る段階では、1〜2日で動ける範囲の小案件から受けて実績化していくのが効率的です。
最初から長尺や高単価を狙うより、短尺案件で納品の流れを固めたほうが、プロフィールと提案文の説得力が早く育ちます。

動き方は2本立てにすると進めやすいのが利点です。
ひとつはココナラ型の低価格パッケージを置く方法で、短い商品紹介や解説音声の入口商品を用意します。
ココナラは通常サービスの販売時手数料が税込22%なので、見せる価格と手取りの差を前提に設計すると崩れにくい設計です。
もうひとつはクラウドワークスのようなクラウドソーシングで、新着の短尺案件に3件応募する方法です。
短い案件のほうが、サンプルとの一致を示しやすく、初回受注の障壁も下がります。

納品が終わったら、その案件を実績サムネイルと音声抜粋にしてポートフォリオへ回します。
全部を公開できない案件でも、用途名、尺感、トーン、対応した編集範囲を整理して見せるだけで、次の提案に効きます。
実績が1件でもあると、出品文の抽象度が下がって「できること」が具体化します。
AIナレーション副業は、準備を完璧にしてから出るより、短い制作と出品を往復しながら整えるほうが伸びやすいのが利点です。

案件の探し方|クラウドソーシング・スキル販売・直接営業

収益化ルートは大きく3つです。
出品ページを置いて待つ方法、募集案件に提案して取りにいく方法、すでに動画を運用している相手へ改善提案を送る方法で、同じAIナレーションでも動き方が変わります。
最初は1本に絞るより、実績作りはスキル販売とクラウドソーシング、単価アップは直接営業という形で役割を分けると整理しやすいのが利点です。

ルート始めやすさ単価の伸び実績化の容易さ営業負荷
スキル販売高い高い低〜中
クラウドソーシング応募高い高い
直接営業中〜低高い低い高い

この3つは優劣というより、案件の取り方が違います。
ココナラ型は「入口商品を作る場所」、クラウドソーシングは「相手の仕様に合わせて実績を増やす場所」、直接営業は「差し替え提案で高単価に寄せる場所」と考えると迷いにくい設計です。

スキル販売(ココナラ型)での出品

ココナラ型の強みは、サービス内容をパッケージ化して見せられることです。
AIナレーションは条件が曖昧だと比較されにくいので、尺・文字数・修正回数・納品形式を先に固定したほうが売りやすくなります。
ココナラは通常サービスで販売時手数料が税込22%なので、見せる価格だけでなく手取りベースで設計する感覚が欠かせません。

出品構成は、シンプルな3段階にすると伝わりやすいのが利点です。
たとえば基本プランは「短尺の音声のみ」を中心にして、尺または文字数の上限、修正1回、WAVまたはMP3納品を含めます。
標準プランでは、ここにBGM追加やAudacityでのノイズ除去を足して、YouTubeや社内説明動画向けに寄せます。
プレミアムでは、多言語対応や映像への組み込みまで含めて、MP4納品に広げる形です。
PowerPointからMP4に出す運用や、DaVinci Resolveで映像に音声をマージする流れまで含めると、単なる読み上げではなく「動画素材としてそのまま使える状態」に近づきます。

プラン例を文章にすると、見えやすくなります。
基本プランは「短尺ナレーション、文字数または尺の上限あり、修正1回、音声データ納品」。
標準は「基本内容にBGM挿入と軽いノイズ除去を追加」。
プレミアムは「標準内容に加えて多言語版、テキストとタイムコード付き、動画へ組み込みしたMP4納品まで対応」という形です。
ここ、すごく大事で、上位プランに行くほど“音声そのもの”ではなく“運用の手間を減らす価値”を足していくと差別化しやすいのが利点です。

納品形式も出品文に具体的に書いておくと、やり取りが減ります。
実務で使いやすいのは、WAVまたはMP3の音声単体、テキスト+タイムコード付き、動画にマージしたMP4の3系統です。
音声単体ならWAVは44.1kHzまたは48kHz、16bitまたは24bitまで書いておくと、編集側の担当者に伝わりやすいのが利点です。
映像向け案件では48kHzで統一しておくと扱いやすく、マスター保存と提出用を分ける運用にもつながります。

💡 Tip

出品ページでは「何を作るか」より「どこまで含むか」を明記すると比較されにくくなります。AI音声生成だけなのか、整音までなのか、BGM込みなのか、MP4化まで含むのかで、買う側の判断が一気にしやすくなります。

確認項目も出品文の中に自然に入れておくと、購入後のズレを防ぎやすいのが利点です。
テンプレとしては、修正回数、文字数単価の考え方、利用範囲の3つが核になります。
利用範囲は「媒体」「期間」「地域」まで見ると整理しやすいのが利点です。
たとえばWeb動画のみなのか、広告配信も含むのか、日本国内だけなのか、長期アーカイブ前提なのかで扱いが変わります。
AIナレーションは再利用しやすいぶん、この線引きを最初に置いておくと後で強いです。

クラウドソーシングへの応募

クラウドソーシングでは、応募数を増やすより当たりやすい案件を選ぶほうが効率が出ます。
狙いやすいのは、新着で、短納期で、仕様が明確な案件です。
募集文に「文字数」「用途」「希望音声の雰囲気」「納品形式」がきちんと書かれている案件は、提案時にズレが起きにくく、受注後も進めやすいのが利点です。
逆に、条件が曖昧なまま「とりあえず相談したい」とだけ書かれている案件は、初心者には負荷が重くなりやすいのが利点です。

クラウドワークスのような場では、提案文の完成度がそのまま受注率に出ます。
ただ、長い営業文より、実行手順と条件が見える提案のほうが通りやすいのが利点です。
筆者が使いやすいと感じている骨組みは、案件理解、制作手順、納期、修正回数、禁止事項、価格内訳の順です。
これだけで、相手は「依頼後に何が起きるか」を具体的に想像できます。

提案テンプレは、たとえば次の形が使いやすいのが利点です。

  1. 依頼内容の理解を1〜2文で書く
  2. 収録・整音・確認・納品までの手順を書く
  3. 納期の目安を書く
  4. 修正回数を書く
  5. 対応外の内容を書く
  6. 価格の内訳を書く

実際の文面にすると、「商品紹介動画向けのAIナレーションとして理解しました。
原稿確認後、音声生成、ノイズ整理、音量調整を行い、WAVまたはMP3で納品します。
納期は原稿確定後の所定日数、修正は所定回数まで対応します。
著名人に似せる用途や規約に反する用途は対応外です。
価格は音声制作費、整音費、BGM追加の有無で内訳を分けます」という流れです。
正直に言うと、この形式にしてから、単なる「できます」より返信が返ってきやすくなりました。

価格の見せ方も欠かせません。
AIナレーションでは「一式」の一言で済ませるより、文字数単価または尺ベースの制作費、整音費、BGM追加、特急対応のように分けたほうが納得されやすいのが利点です。
1分の標準文字数は約300文字なので、原稿量から作業感を見積もりやすいですし、相手にとっても比較がしやすくなります。
相場感としても、JaPicがまとめる日本語ナレーションでは400文字あたり12,000〜25,000円という幅があるので、AI案件ではこの価格帯そのものをなぞるというより、短納期や修正しやすさを軸に価値を見せる設計が合います。

納品形式は提案時に具体名まで書いておくと強いです。
たとえば「WAV(44.1kHz/48kHz、16bit/24bit)」「MP3」「テキスト+タイムコード付き」「MP4にマージして納品」のどれに対応するかを明記します。
YouTube向け動画ならMP4まで渡せる人のほうが採用されやすい場面がありますし、社内研修やeラーニングではテキストとタイムコード付きがそのまま修正指示に使えて便利です。

既存運営者・企業への直接提案

直接営業は一番手間がかかる反面、単価を伸ばしやすいルートです。
特に相性がいいのは、既存のYouTube運営者企業の社内研修動画です。
どちらも「すでに動画はあるが、音の品質や更新のしやすさに改善余地がある」ケースが多く、ゼロから企画を売るより差し替え提案のほうが通しやすいのが利点です。

送り方のコツは、新規制作の提案ではなく、今ある動画の一部を良くする提案にすることです。
たとえばYouTubeなら、既存動画の冒頭15秒から30秒を見て、「音量差がある」「BGMに埋もれて聞き取りにくい」「説明系なのにテンポが不安定」といった改善点を短く整理し、差し替えサンプルを添えます。
企業動画なら、社内研修やオンボーディング動画の一部を想定して、聞き取りやすいトーンで再構成した短尺見本を送ると意図が伝わりやすいのが利点です。

YouTubeチャンネル運営者への連絡は「AIナレーション制作できます」だけだと埋もれやすく、「音質改善+短納期差し替え」を前面に出したほうが返信率が上がりました。
件名も抽象的な営業文より、「既存動画の音声差し替え提案(短納期対応可)」のように、相手の得になる内容が先に見える形のほうが開かれやすいのが利点です。
本文では、対象動画のどの部分を見たか、どこを改善できるか、どの形式で返せるかを先に書き、自己紹介は短めに置くとまとまりやすいのが利点です。
要点は「現状の課題」「差し替え後に改善する点」「添付サンプルの内容」「納品形式」の4つです。

このとき添える素材は、サンプル音声単体ビフォー/アフター比較の短尺動画の2つが効果的です。
音声だけだと改善イメージが伝わりにくいことがあるので、同じ冒頭部分を差し替えた短いMP4を見せると判断が早くなります。
DaVinci Resolveで既存動画の一部に仮音声を当てれば、比較素材は作りやすいですし、PowerPointベースの資料動画ならMP4化の流れまで提案に含めやすいのが利点です。

直接提案でも、確認項目はあらかじめ整理しておくほうが商談が速いです。
特に確認したいのは、修正回数、文字数単価または尺基準、利用範囲です。
利用範囲は媒体、期間、地域の3点で見ておくと、YouTube限定利用なのか、広告転用ありなのか、社内限定なのかがはっきりします。
加えて、納品形式をWAV、MP3、テキスト+タイムコード付き、MP4マージ済みのどれにするかまで初回で揃えておくと、制作より前の調整で止まりにくい設計です。

直接営業は打率だけ見ると派手ではありませんが、刺さる相手には刺さります。
既存動画を持っている相手は、企画書よりも「この差し替えならすぐ使える」と思える材料を求めています。
AIナレーション副業では、その場で使える改善案を見せられる人ほど、単なる音声作成者ではなく、更新しやすい動画運用のパートナーとして見られやすいのが利点です。

収入目安と料金設計|文字数・動画尺・修正回数で決める

見積もりの基準

料金設計で最初に決めておきたいのは、尺で見積もるか、文字数で見積もるかです。
AIナレーションはどちらでも組めますが、実務では両方を行き来できる形にしておくと楽です。
日本語ナレーションの読み上げ速度は、1分あたり約300文字がひとつの目安なので、まずはここを基準にするとブレにくくなります。

基礎式はシンプルで、動画尺(分)×300文字 = 想定文字数です。
たとえば3分動画なら約900文字、5分なら約1,500文字、10分なら約3,000文字です。
見積書や出品文にもこの換算を入れておくと、「5分動画だから安そう」といった感覚的な値下げ交渉を受けにくくなります。
尺で受けても、内部では必ず文字数に直して工数を見ています。

ここ、すごく大事で、AIナレーションの料金は「音声を出すだけ」の金額ではありません。
実際の作業には、台本の整え、句読点や改行の調整、読みの確認、音声生成、不要な間のカット、音量調整、書き出しが含まれます。
修正が入るなら、その往復も工数です。
だから見積もりは、文字数または尺 + 修正回数 + 納期条件の3軸で組むのが基本になります。

人のプロナレーター相場と比べると、JaPicがまとめる一般的な日本語ナレーションは400文字あたり12,000〜25,000円です。
中堅ナレーターのスタジオ収録や宅録はさらに上の価格帯になります。
これは演技力、収録環境、ディレクション対応まで含んだ市場で、AI副業のスタート地点とは別物です。
プロ相場はそのまま真似する対象ではなく、別市場の基準として見ておくのが現実的です。

初心者が取りやすいのは、そのプロ相場より低い価格帯で、短納期・修正しやすさ・量産対応を価値にする戦い方です。
とくに解説動画、社内研修、eラーニング、既存YouTubeの差し替えは、感情表現より更新性が重視されるので、最初の実績づくりに向いています。
最初から高単価を狙うより、低価格帯で数件回し、原稿のクセや修正パターンが見えてから単価を上げたほうが、時給はむしろ改善しやすいのが利点です。

筆者も5分動画を週2本差し替えるYouTube案件に近い流れを回していたとき、初回は原稿の句読点調整や読みの揺れ確認に時間を使いました。
ただ、何本か続くとクライアントの原稿のクセが見えてきて、「ここは文を切る」「この表現は言い換える」「この声色が通りやすい」が読めるようになります。
そこからはリードタイムが半分以下まで縮み、同じ金額でも時給の感覚が良くなりました。
AIナレーションはツールの性能だけでなく、案件ごとの学習曲線で収益性が変わる仕事です。

用途別・修正回数別の料金表サンプル

料金表は、最初から細かく作り込みすぎるより、まずは読まれやすい粒度にしたほうが使いやすいのが利点です。
公開用には、文字数基準と尺基準のどちらか一方でも成立しますが、問い合わせ対応では両方あると便利です。
下の表は、初心者が低価格帯から始める前提のサンプルです。

基準想定用途修正1回含む修正2回含む
〜400文字短い商品紹介、SNS広告風音声、短尺案内2,000円3,000円
〜800文字2〜3分の説明、短いサービス紹介3,500円4,500円
〜1,500文字5分前後の解説、簡易研修動画6,000円7,500円

尺で見せたい場合は、こう整理すると伝わりやすいのが利点です。

基準想定文字数の目安修正1回含む修正2回含む
〜2分〜600文字2,500円3,500円
〜5分〜1,500文字6,000円7,500円
〜10分〜3,000文字12,000円15,000円

この価格帯は、プロの人力ナレーション相場と競うためのものではなく、AI音声の更新しやすさと発注しやすさを前面に出した入口設計です。
価格を下げすぎると継続できないので、修正回数を必ず区切るのが判断材料になります。
修正1回込みを標準にして、2回込みは上位プランにすると、見積もりが整理しやすくなります。

特急対応を受けるなら、JaPicでも見られるように24時間以内は50〜100%割増を目安に置くと筋が通ります。
たとえば5分前後の標準案件が6,000円なら、同日または翌日納品は9,000〜12,000円の考え方です。
AIだからすぐできると思われがちですが、原稿確認と修正往復が詰まるので、急ぎ案件ほど単価を上げたほうがバランスが取れます。

見積もりの試算も、数字で見える形にしておくと価格説明がしやすいのが利点です。
たとえば3分のYouTube解説なら約900文字です。
作業としては、台本調整、音声生成、編集、書き出しの流れになります。
5分の解説動画なら約1,500文字、10分の研修動画なら約3,000文字です。
長尺になるほど、単純に生成時間が増えるだけでなく、聞き取りにくい箇所の再調整や、間の詰め直しも増えます。

ℹ️ Note

料金表は「安さ」よりも「どこまで含むか」が見えるほうが選ばれやすいのが利点です。文字数、修正回数、納品形式の3つが見えているだけで、クライアント側の比較負荷が下がります。

時給換算とツール費の損益分岐

単価だけでなく、時給換算で見て黒字かどうかを把握しておくと、消耗しにくくなります。
計算は、受注額 ÷ 実作業時間 = 時給です。
ここでいう作業時間には、音声生成の待ち時間ではなく、自分が手を動かしている時間を入れます。
台本調整、読み確認、生成、編集、再書き出し、メッセージ対応まで含めて見るのが実務に近いです。

試算するとイメージしやすいのが利点です。
3分YouTube動画は約900文字なので、低価格帯で4,000円前後の受注だとします。
台本調整に30分、音声生成と確認に30分、編集と書き出しに30分で、合計90分なら時給は約2,666円です。
5分解説動画は約1,500文字で、6,000円の受注、作業が2時間なら時給3,000円です。
10分研修動画は約3,000文字で、12,000円の受注、作業が4時間なら時給3,000円になります。
価格を上げるだけでなく、作業時間を削ることでも時給は上がります。

このとき効くのが、さきほど触れた学習曲線です。
同じクライアント、同じトーン、同じ用途の案件は、回数を重ねるほど速くなります。
5分×週2本ペースの差し替え案件は、原稿のクセを掴む前と後で差が出ました。
初期は1本ごとに読みの違和感を拾って直す時間が長かったのですが、トーンと文体が読めるようになると調整点が先回りできて、実働がぐっと縮みました。
単価が変わらなくても時給が改善する典型です。

ツール費の損益分岐も、シンプルに件数で考えると整理しやすいのが利点です。
台本補助に使うChatGPT Plusは月額20ドル、約3,000円がひとつの基準でした。
たとえば1件あたりの利益を1,500円確保できるなら2件で回収、3,000円確保できるなら1件で回収です。
受注額ではなく利益で見るのがポイントで、プラットフォーム手数料や追加作業を引いたあとの数字で考えると実態に近づきます。

ココナラで売るなら、通常サービスの販売時手数料は税込22%です。
たとえば5,000円で売っても、そのまま5,000円が残るわけではありません。
クラウドワークスも受注額に応じたシステム利用料がかかるので、表示価格ではなく手取りベースで損益を見る必要があります。
低単価帯から始める戦略自体は有効ですが、手数料込みで時給が落ちすぎる価格は長続きしません。

TTSの有料プランを追加する場合も考え方は同じです。
たとえばブラウザ型の音読さん、声種の幅があるVOICEPEAK、選べる声が多いCoeFontのように、案件によって向くツールは変わります。
無料または低コストで回せる間は固定費を抑え、声のバリエーションが必要になった段階で有料プラン分を上乗せ計算するほうが収益管理しやすいのが利点です。
月額費用が増えたら、1件あたりの利益 × 必要件数で回収ラインを出せます。
たとえば月の固定費が6,000円で、1件の利益が2,000円なら3件、3,000円なら2件です。
こうして月間受注目標を先に置くと、「何件取れれば黒字か」が見えます。

副業としては、まず低価格帯で受注し、作業速度を上げ、継続案件で時給を改善する流れが現実的です。
プロ外注相場をそのまま追うより、文字数換算と修正回数で見積もりを固めて、ツール費を件数で回収する設計のほうが、初期の再現性は高いです。

失敗しやすいポイントと回避策

誤読・イントネーション対策

AIナレーション副業で初心者が最初につまずきやすいのが、誤読、イントネーションの不自然さ、漢字読みミスです。
ここ、すごく大事で、音声そのものの品質より先に「読めていない」「違和感がある」と判断されると、いくら編集で整えても信頼を落としやすいのが利点です。
特に商品名、地名、人名、社内用語のような固有名詞は、クライアントごとに正解が違います。

筆者はこの手戻りを減らすために、案件開始時点で固有名詞表を先に共有してもらう流れに変えました。
読み、アクセント、英字表記、略称の扱いを1枚にまとめるだけですが、これだけで修正1回分が消えることがありました。
実務では効きます。
テンプレ化しやすい部分でもあります。

台本側でできる対策もシンプルです。
ふりがなを入れる、読点を足して区切りを明確にする、英単語や長音のニュアンスがズレやすい言葉はカタカナ表記に寄せる。
この3つだけでも、読み上げの安定感は変わります。
たとえば略語の連続、難読漢字、外来語混じりの文は、そのまま流し込むより、AIが迷わない表記に整えたほうが結果が早いです。
生成後は全文を最初から聴き直すより、誤りが出やすい箇所(見出し、固有名詞、数字、カタカナ語、漢字の連続部分)を先に確認するほうが効率的です。
イントネーションの違和感や間の不自然さはこのあたりに集中しやすく、軽微な修正は再生成で済むこともあります。
間や細かい区切りの微調整はAudacityで波形を見ながら詰めると早く、映像との合わせ込みがある案件ではDaVinci ResolveのFairlightで最終調整する流れが実務向きです。
生成後は、全部を最初から聴き直すより、ミスが出やすい場所を先に当てると速いです。
見出し、固有名詞、数字、カタカナ語、漢字の連続部分です。
イントネーションの違和感も、このあたりに集中しやすいのが利点です。
軽い修正なら再生成で済みますが、間や区切りの違和感はAudacityで波形を見ながら詰めたほうが早い場面もあります。
動画まで触るならDaVinci ResolveのFairlightで音量と間をまとめて整える流れも実務向きです。

ℹ️ Note

誤読対策は「生成後に直す」より「台本で読ませる」ほうが効率的です。ふりがな、読点、カタカナ表記、固有名詞表の4点を先に揃えるだけで、初心者でも再録の往復を減らせます。

規約・著作権・声真似の注意点

もうひとつ離脱しやすいのが、規約未確認のまま出品や納品を進めてしまうことです。
AIナレーションは作れてしまうぶん、使ってよい範囲を飛ばしがちですが、実務ではここを曖昧にすると後で困ります。
商用利用の可否、クレジット表記の要否、委託案件で使えるかどうかは、同じツールでもプランで差が出ます。

たとえば音読さんは、記事群でも商用利用条件の説明が比較的わかりやすい一方で、無料利用時のクレジットや委託時の条件整理が前提になります。
CoeFontもプランごとに扱いが分かれます。
D-ID系のアバター動画は、紹介記事ベースではPro以上で商用利用可という整理が多いですが、案件に乗せるときは特に条件の読み違いが痛いです。
こうした部分は感覚で覚えるより、案件ごとに使用ツール名とプラン名を記録しておくほうが安全です。
筆者も、納品後に「この案件はどのプランで作ったか」を見返せるようにしてから、判断が楽になりました。

著作権まわりも同じで、BGM、SE、台本原稿、ロゴ読み上げ、既存キャラクター名の扱いが混ざると、音声だけの仕事でも確認点は増えます。
AI音声そのものだけ見ていると抜けやすいのですが、納品物は単体で完結しないことが多いです。
MP4納品なら映像や音源素材との関係まで含めて整理しておく必要があります。

さらに見落とされやすいのが、声真似リスクです。
著名人や特定の声優を強く想起させる声を売りにすると、話題にはなっても案件としては危うくなります。
法的にはパブリシティ権や不正競争防止法の論点が出る余地があり、少なくとも「誰それっぽい声で」「有名人そっくりで」といった表現は避けたほうが実務では無難です。
特定個人を想起させる説明文、サンプル音声、出品タイトルは、集客より先にリスクを抱えます。

YouTubeに載る案件では、合成・改変コンテンツの開示も無関係ではありません。
YouTubeヘルプでは、AI音声案件そのものが即アウトという話ではありませんが、何をどのツールで作ったかを説明できる状態は、受注側にも発注側にも欠かせません。

修正範囲・納期・追加費用の明文化

副業で消耗しやすい原因として、修正範囲の曖昧さは大きいです。
AIナレーションは修正しやすいぶん、「何回でも直せそう」に見えますが、実際は台本差し替え、読み指定の追加、動画差し替え、書き出し直しが積み重なると工数が膨らみます。
前のセクションで触れた料金設計は、この曖昧さを潰してはじめて機能します。

提案文や見積書では、少なくとも修正回数、無償対応の範囲、再録ライン、追加費用、納期延長条件をテンプレで明記しておくと揉めにくい設計です。
たとえば「誤読修正は無償」「原稿変更は追加費用」「トーン変更は初回のみ無償」「尺変更を伴う差し替えは再見積もり」のように、境界を言葉で切っておくイメージです。
これがないと、漢字の読み修正なのか、原稿差し替えなのか、演出変更なのかが全部同じ“修正”として流れてしまいます。

納期も同様で、通常納期と急ぎ対応を分けないと、連絡の往復だけで予定が崩れます。
クライアント確認待ちの時間、原稿確定前の仮制作、動画書き出しの再対応など、AIだからゼロになるわけではありません。
特にMP4まで含む案件は、音声だけの差し替えより確認項目が増えます。
PowerPointからMP4に書き出す案件でも、ナレーション差し替えが入ると再エクスポートまで発生します。

納品直前は、感覚で終わらせずにチェック項目を固定したほうが安定します。初心者ほど「たぶん大丈夫」で出しがちですが、ここでの見落としが評価に直結します。

  • 無音区間が不自然に長くないか
  • ノイズが残っていないか
  • ピークして割れていないか
  • ファイル名が指定どおりか
  • 秒数や尺が依頼内容と合っているか
  • 納品フォーマットが指定どおりか(WAV、MP3、MP4 など)
  • 台本差異がないか
  • 差し替え前の旧データを誤納品していないか

このチェックを固定すると、修正対応も切り分けやすくなります。
誤読なのか、原稿変更なのか、納品ミスなのかが整理されるからです。
副業の初期は制作スキルそのものより、こうした境界線の引き方で消耗度が変わります。
正直に言うと、AIナレーションは作業自体よりも、どこまでを料金内に含めるかを先に言語化できる人のほうが続きやすいのが利点です。

法的注意点|商用利用、著作権、声の権利、会社員副業の税務

商用利用と契約で定めるべきこと

AIナレーション案件でいちばん揉めやすいのは、「作れたかどうか」より何を、どこまで、誰が使えるのかが曖昧なまま進むことです。
ここ、すごく大事で、AI音声そのものに著作物性があるのか、日本法上どこまで保護されるのかは現時点でも整理しきれていません。
機械的に生成した音声だけを切り出すと権利の説明が難しい一方で、台本の書き方、読みの設計、間の取り方、編集、BGMやSEとの合わせ込みまで人が強く関与している制作物は、人の創作寄与がどこにあるかで権利の見え方が変わります。

実務では、この不明確さを法律論だけで片づけるより、契約と見積書で先回りして整理するほうが安全です。
たとえば「原稿は誰が用意するか」「生成音声の利用媒体はYouTubeか社内研修か」「二次利用は広告配信まで含むか」「編集済み音源と未編集のマスターのどちらを納品するか」「再配布や再販売は許すか」といった点です。
AIツールの利用規約は、商用利用の可否だけでなく、委託制作や代理制作、クレジット表記、プラン別の許諾範囲に差が出やすいので、納品物の権利より前にツール側が許している使い方かを切り分けておく必要があります。

筆者は案件受注時に、見積書へ「使用ツール名」「利用プラン」「想定する許諾範囲」まで書いておく運用にしてから、後工程の認識違いが減りました。
たとえば、ブラウザ型TTSを使うのか、買い切り系ソフトを使うのかでクライアントの安心感も違いますし、「SNS広告転用は別途」「音声の再編集は納品先社内のみ可」のように言葉で区切っておくと、納品後の拡張利用で話がこじれにくい設計です。

契約で押さえたいのは、抽象的な「著作権譲渡します」だけでは足りないという点です。
AI音声そのものの権利が曖昧な以上、何を渡すのかを具体化するほうが実務向きです。
原稿データ、編集済み音声、動画化したMP4、サムネイル用静止画、BGM込みの完成版など、成果物を分けて記載すると整理しやすくなります。
加えて、クライアント支給原稿なのか、こちらで作成した台本なのかでも権利の扱いは変わります。

著作権・著作隣接権の基礎整理

AIナレーション案件では、権利が一つではありません。
最低でも原稿の著作権実演に関する権利を分けて考える必要があります。
まず、読み上げる台本や原稿は、文章として創作性があれば著作権の対象になり得ます。
つまり、クライアントから受け取った原稿を読む案件では、音声を作る前にその文章を使う許諾関係が整っていることが前提です。
自分で台本を書いたなら、その原稿部分は自分の創作として扱う論点が出てきます。

一方で、声優や歌手など人が演じた音源には、著作権とは別に実演家の著作隣接権が関わります。
人がしゃべったり歌ったりした実演には保護が及ぶため、その音源を無断で切り出して学習素材にしたり、別作品へ転用したりするのは危険です。
既存のナレーション音源や歌唱データを「ちょっと加工しただけ」で使う発想は避けるべきですし、収録済み素材には契約上の使用範囲、いわゆる収録権の整理が必要になる場面もあります。
広告、教材、配信、店頭放送では許諾条件が分かれることもあります。

このあたりで誤解されやすいのが、「AIで作り直したから元音源とは別物」という考え方です。
元にした音源が他人の実演である以上、無断学習や無断転用の問題は消えません。
元データの入手経路が不透明なモデルや、著名な歌手・声優の音源に依拠していると受け取られかねない使い方は、案件の継続性を損ねます。

YouTubeでも、AI生成コンテンツだから特別ルールになるわけではなく、著作権侵害や権利侵害は通常どおり扱われます。
しかも、サードパーティ製ツールで作った改変・合成コンテンツには開示運用があるので、制作履歴を説明できる状態は権利処理の面でも意味があります。
AI音声案件で大切なのは、音声ファイル単体だけでなく、台本、元音源、BGM、映像との組み合わせ全体で権利を見ることです。

声の権利のグレーゾーンと実務対応

声そのものの権利は、日本法ではまだ輪郭がはっきりしない部分があります。
顔写真や名前ほど整理されていない一方で、著名人の声や特定人を強く想起させる特徴を商売に使えば、パブリシティ権の議論や、表示・商品形態のただ乗りに近い場面では不正競争防止法の論点が出てくる余地があります。
法的にどこからアウトかを一言で切るのは難しいのですが、実務ではグレーゾーンに近づかない設計がいちばん効きます。

具体的には、「有名声優風」「某俳優そっくり」「あの歌手みたいな声」といった売り方をしないことです。
出品タイトル、提案文、サンプル音声、ポートフォリオ説明で特定個人を連想させる表現を使うと、集客フックにはなってもリスクが先に立ちます。
日本法上の保護が不明確だから大丈夫、ではなく、紛争化しやすい使い方を避けるという発想です。

実務対応としては、声の指定を「落ち着いた女性ナレーション」「若めの男性でテンポ速め」「研修向けで抑揚は控えめ」のように、人物参照ではなく機能・印象・用途で言い換えるのが安定します。
クライアントから「この有名人っぽく」と言われたときも、声色ではなくトーン、スピード、抑揚、温度感に分解して要件化するほうが安全です。
筆者も、似せる相談が来たときほど、人物名を消して「信頼感」「親しみ」「明るさ」「情報番組っぽいテンポ」のように翻訳して詰めるようにしています。
この変換ができると、クリエイティブの打ち合わせとしても前向きです。

ℹ️ Note

声の指定は「誰に似せるか」ではなく、「どんな印象で、どの用途に向けるか」で定義すると、制作も法務も安定しやすいのが利点です。

AI音声の魅力は量産と再編集のしやすさですが、だからこそ模倣のコストも下がります。
特定個人を想起させる音声を避け、独自の台本設計や編集で差を出すほうが、案件として長く使えます。
法的評価が揺れる領域では、攻めるより似せない設計を標準化するのが副業では堅実です。

会社員副業の税務・就業規則

会社員がAIナレーションを副業で受けるなら、権利処理だけでなく税務と勤務先ルールも制作フローの一部です。
副業の所得が年間20万円を超えると、一般に確定申告が必要になる目安として扱われます。
ここで見るのは売上そのものではなく、必要経費を差し引いた所得です。
たとえばTTSツール代、編集ソフト代、業務に使った素材費などが経費に入る余地はありますが、どこまで認められるかは支出の性質と証憑の整理が前提になります。

会社員副業で意外と見落とされやすいのが住民税です。
給与から天引きされる特別徴収のままだと、副業分を含む住民税額の変化から勤務先に副業を推測される場面があります。
副業分を自分で納める普通徴収の扱いが論点になることもありますが、実際の取扱いは申告書の記載内容や自治体運用とも関わるので、少なくとも「所得税の確定申告だけ見ればよい」という話ではありません。

もう一つ現実的なのが、就業規則です。
副業を全面禁止していなくても、許可制、申請制、競業避止、情報持ち出し禁止、深夜労働制限のように条件が付いている会社は珍しくありません。
AIナレーションは一見すると本業と無関係に見えても、会社PCの使用、勤務時間中の対応、社内資料の流用、会社名義の信用利用といった点で問題化しやすいのが利点です。
特に研修動画やプレゼン資料の制作経験がある人は、本業で触れた情報と副業案件の境界を曖昧にしない整理が必要です。

この分野は、制作現場の感覚だけで走ると後から修正しづらいところです。
本節で触れた内容はあくまで一般的な整理で、契約書の文言、税務判断、各サービスの利用規約は個別に読み分ける必要があります。
法的な最終判断が必要な場面では、弁護士、税理士、運営プラットフォームの規約本文といった一次情報に当たる前提で考えるのが実務的です。

最初の1週間アクションプラン

このテーマは、情報を増やすより1週間で形にするほうが前に進みます。
筆者も、最初にサンプル3本と料金表、そして初回提案3件まで持っていけた週は、翌週に何を直せば受注に近づくかが見えやすくなりました。
準備だけを長く続けると不安が増えますが、出品文と見積の土台まで作ってしまうと、改善は「悩み」ではなく「修正作業」に変わります。

次の7日間は、完璧さよりも公開できる最低限を揃える意識で進めてみてください。無料ツールや体験版でまず回し、反応が出てから有料化を考える順番で十分です。

チェックリスト形式の1週間ToDo

Day1は、用途を1つに絞るところから始めます。
YouTube解説、企業研修、商品紹介のどれかに決めるだけで、声の作り方も出品文も書きやすくなります。
ここ、すごく大事で、最初に用途を広げすぎると「誰向けのサンプルか」がぼやけます。
競合調査は30分ずつ2本で十分です。
ココナラなら同カテゴリの出品文、クラウドワークスなら募集文を見て、どんな言い回し、納品形式、修正条件が多いかをメモします。

Day2は、台本テンプレと規約確認です。
台本テンプレは、導入、要点、締めの汎用構成を1本作り、ふりがな、読点の打ち方、強調記号のルールを決めます。
たとえば、数字は漢数字か算用数字か、英語はカタカナ補足を入れるか、強調は句読点で間を作るかといった基準を先に固定すると、生成音声の崩れが減ります。
同じ日に、利用規約確認チェックリストも埋めます。
対象は使うTTSツール、出品先、動画投稿先です。
2026年3月時点で確認したい項目は、商用利用の可否、委託制作の可否、クレジット表記の要否、生成物の再配布や再販売、禁止される声の使い方、YouTube投稿時の開示が必要になるケースです。
音読さん、CoeFont、D-IDのようにプランで条件が変わるものは、無料と有料を分けて記録しておくと後で迷いません。

Day3は、サンプル制作に集中します。
30秒、60秒、90秒を各1本ずつ、まずは1声種で作ります。
ジャンルをDay1で絞っていれば、30秒は短い導入、60秒は標準サンプル、90秒は少し情報量のある実案件想定で組めます。
編集はAudacityで十分進められます。
ノイズ除去はノイズプロファイル取得から入れると空調っぽい定常ノイズを抑えやすいですが、かけすぎると声がこもるので、筆者は必ず処理前後を聴き比べます。
音量と話速もこの日に整えます。
もう1声種まで作れれば理想ですが、まずは1声種をきれいに仕上げるほうが優先です。
YouTube向けの動画組み込みまで見据えるなら、音声は48kHzで揃えておくと後工程が楽です。

Day4は価格表作成です。
文字数基準と尺基準の2種類を用意すると、クライアントの依頼形式に合わせやすくなります。
たとえば「原稿支給の読み上げ」は文字数基準、「動画尺が先に決まっている案件」は尺基準のほうが会話が早いです。
あわせて、修正回数、特急料金、利用範囲も必ず明記します。
特急対応は通常料金と切り分け、用途はYouTube、自社研修、広告、店頭利用のように整理しておくと見積がぶれません。
価格表は細かすぎると読まれないので、基本料金、追加料金、オプションの3ブロックで見せると実務向きです。

Day5は公開と応募の日です。
スキル販売で出品文テンプレを使って1本公開し、クラウドソーシングで応募3件を入れます。
応募3件は少なく見えるかもしれませんが、最初の週は量より精度が欠かせません。
実績ゼロ前提なら、低リスク案件を優先します。
具体的には、短尺、修正が少ない、用途が明確、声の演技力より情報伝達が重視される案件です。
出品文テンプレには、対応できる用途、納品形式、修正条件、使用ツール、不得意領域を書いておくと、問い合わせの質が上がります。

Day6は提案改善に使います。
冒頭100文字を見直し、サンプルを差し替え、想定Q&Aを追記します。
実際、応募文は本文全体より最初の数行で印象が決まりやすいのが利点です。
「何ができるか」より、「どんな用途に、どう納品できるか」を先に出したほうが通りやすくなります。
見積テンプレもこの日に整えます。
用途、掲載先、希望納期、原稿有無、BGM有無、修正回数、実績公開可否をチェックボックス化しておくと、やり取りの抜け漏れが減ります。

Day7は振り返りです。
応募数、返信率、受注数、制作時間を見て、どこが詰まりやすかったかを言語化します。
もしサンプルは見られるのに返信が来ないなら提案文の問題、返信は来るのに決まらないなら価格か見せ方の問題、と切り分けやすくなります。
受注が増えて手作業の負荷が見えてきたら、その時点でツールの有料化を検討します。
無料ツールや体験版で始めるのは正解ですが、案件数が増えるほど、商用条件や作業効率の面で上位プランのほうが回しやすくなる場面が出てきます。

💡 Tip

1週間のゴールは「上手くなること」ではなく、「見せるものを揃えて外に出すこと」です。サンプル3本、出品文、価格表、応募3件まで進めば、次に直すべき場所が具体的になります。

チェック用に、1週間のToDoをそのまま使える形で置いておきます。

  • Day1: 用途を1つに絞る(YouTube解説/企業研修/商品紹介)
  • Day1: 競合調査を30分×2本行う
  • Day2: 台本テンプレを作る(汎用構成+ふりがな/強調記号のルール化)

次週に入ったら、感覚ではなく数字で改善します。
見る指標は、応募数、返信率、受注数、制作時間の4つで十分です。
ここで重要なのは、全部を一気に改善しようとしないことです。
返信率が低いのに料金だけ下げても、根本は変わりません。
まずはどの段階で止まっているかを見ます。

応募数が少ないなら、案件選定に時間をかけすぎています。
用途を絞ったまま、応募テンプレを用途別に1本ずつ持つと回転が上がります。
返信率が低いなら、提案の冒頭かサンプルとの一致度を見直します。
受注数が伸びないなら、価格表の見え方と、修正条件の安心感が足りないことが多いです。
制作時間が長いなら、台本テンプレ、見積テンプレ、書き出し設定の固定化が効きます。

1週間でサンプル3本と料金表、初回提案3件まで進めると、翌週の改善ポイントが具体化します。
たとえば「60秒サンプルは反応がいいのに90秒は離脱される」「研修向けの落ち着いた声は刺さるが、商品紹介のテンポ感は弱い」といった差が見え始めます。
こうなると、やることは抽象論ではなく、サンプル差し替えや冒頭文修正のような具体作業になります。
モチベーション維持にも効くのは、進んでいる実感が数字と素材で残るからです。

改善ポイントとして優先度が高いのは、サンプルの用途一致、価格表の読みやすさ、提案文の冒頭、規約確認の更新です。
特に規約は一度見て終わりではなく、委託案件を受ける段階で再確認したほうが安全です。
ココナラは通常サービスで販売時手数料が税込22%なので、見積は手取りではなく販売総額ベースで考えたほうが崩れにくくなります。
クラウドワークスも報酬額帯で手数料が変わるため、応募時点で「最低ライン」を決めておくと消耗しません。

この記事をシェア

関連記事

AI動画・音声

AIアバター動画は、撮影も顔出しもせずに説明動画や研修動画、SNS向けの短尺コンテンツを作れるので、副業の入口としてかなり現実的です。受託制作、運用代行、自社発信、研修素材づくりの4ルートで収益化を狙える一方で、伸びる動画にするには「アバターを立たせるだけ」では足りません。

AI動画・音声

Vrewで字幕付き動画を最短で1本仕上げたい初心者なら、まずはPC版で「自動字幕を出す→直す→不要部分を切る→書き出す→SRTでも残す」の流れを覚えるのがいちばん早いです。

AI動画・音声

AI字幕や自動文字起こしは、音声をそのまま納品物に変える魔法ではなく、AIで下地を作って人が仕上げることで在宅副業として成立しやすい仕事です。この記事では、未経験から始めたい人に向けて、字幕・文字起こし案件の種類、使うツール、作業の流れ、案件の探し方、収入の目安、法的な注意点までを一気に整理します。

AI動画・音声

筆者の感覚では、平日夜に30〜45分だけ使って2〜3曲を試作し、翌日に選曲と微修正を回すやり方がいちばん続けやすく、再生成を前提にしたほうが完成度も安定します。日本語歌詞は漢字を減らして、ひらがなやふりがなを入れるだけでボーカルの聞き取りがかなり良くなる実感があります。