AI動画・音声

AI字幕・文字起こし副業の始め方|在宅で月1〜5万円

更新: 田中 美咲(たなか みさき)

AI字幕や自動文字起こしは、音声をそのまま納品物に変える魔法ではなく、AIで下地を作って人が仕上げることで在宅副業として成立しやすい仕事です。
この記事では、未経験から始めたい人に向けて、字幕・文字起こし案件の種類、使うツール、作業の流れ、案件の探し方、収入の目安、法的な注意点までを一気に整理します。

筆者の感覚では、VrewやYouTube Studioの自動字幕をたたき台にして、10分動画の字幕校正を40〜60分で仕上げる運用がいちばん再現しやすく、週5〜10時間でも月1〜5万円は十分に狙えます。
派手な高収入をうたうより、1週間でプロフィール整備からサンプル作成、初回応募まで進めるほうが、初心者にはずっと現実的です。

AI字幕・文字起こし副業とは?在宅でできる仕事内容

AI字幕・文字起こし副業は、動画や音声をAIでいったんテキスト化し、その下起こしを人が整えて納品物に仕上げる在宅ワークです。
実務では、AIの自動字幕や自動文字起こしをそのまま出すのではなく、誤変換や話者ズレを直し、読みやすい形に整える工程が中心になります。
納品形式はテキストのTXT、字幕データのSRT、動画に文字を載せた焼き付けMP4まで幅があり、同じ「字幕案件」でも求められる作業は違います。

仕事内容の種類と納品物

この副業で扱う仕事は、大きく分けると「聞いて直す仕事」と「読める形に整える仕事」です。
たとえばNottaやWordの文字起こし機能、Vrew、YouTube Studioの自動字幕を下地にして、誤字修正、句読点の整理、不要な言いよどみの処理、タイミング調整を行います。
AIで作業時間は短くできますが、最終修正は人の手が前提です。

案件でよく見かける仕事内容は、次のように整理できます。

  • 字幕作成:動画のセリフに合わせて字幕文を作り、表示タイミングを合わせる
  • SRT納品:字幕番号、開始時間、終了時間、字幕文をSRT形式で整えて納品する
  • ケバ取り文字起こし:「えー」「あのー」などを省いて、読みやすい会話記録にする
  • 整文:話し言葉を文書向けに整え、議事録や記事下書きに近い形へ仕上げる
  • 話者分離チェック:誰が話したかを確認し、話者ラベルの誤りを直す
  • 字幕焼き付け補助:完成した字幕を動画に載せ、MP4として書き出す作業を手伝う

ここ、すごく大事で、同じ「文字起こし」でも求められる精度が違います。
会議録なら内容の正確さが優先されやすく、YouTube字幕なら視聴者が読みやすいかどうかが優先されます。
筆者も動画案件では、まず音声を一度通して聞いて、話の流れと話者の切り替わりをつかんでから触るほうが、修正の往復が少なくなりやすいと感じます。

実務ガイドの目安としては一般に1行13〜25文字程度(多くの現場では13〜14字×2行が基準)です。
筆者は読みやすさ重視の運用で1行13〜20文字を目安にしており、用途に応じてこのレンジを使い分けることを推奨します。

納品物は案件ごとに違いますが、実際には次のような形が多いです。

  • TXTの議事録・インタビュー起こし
  • 話者名入りのTXT文字起こし
  • SRT字幕ファイル
  • 動画に字幕を焼き付けたMP4
  • 修正用の字幕原稿データ一式

字幕と文字起こしの違い

字幕と文字起こしは似ていますが、目的が違うので作り方も変わります。
文字起こしは「内容を記録する」仕事、字幕は「映像を見ながら読めるようにする」仕事と考えると整理しやすいのが利点です。

項目字幕文字起こし
主な目的動画視聴時に内容を読み取れるようにする会話内容を記録・共有・再利用する
読みやすさの基準短く区切り、瞬時に読めることが重要内容の欠落なく、文意が伝わることが重要
タイムコード基本的に必要ない場合も多い
話し言葉の扱いそのまま書かず、読める形に圧縮することが多い素起こし・ケバ取り・整文でレベルが分かれる
主な納品形式SRT、焼き付けMP4TXT、Word相当の文書データ
SRTとの関係代表的な納品形式通常は使わないことが多い
TXTとの関係原稿確認用に併用することはある主力の納品形式になりやすい
焼き付けMP4との関係完成動画として納品されることがある基本的には対象外

SRTは、字幕番号とタイムコード、字幕文をセットで管理するファイルです。
YouTubeでもSubRip形式の.srtが使われています。
いっぽうTXTは、内容確認や議事録向けのテキスト納品に向いています。
焼き付けMP4は、字幕を映像に直接載せた動画ファイルで、表示のオンオフはできませんが、見せ方が固定されるので納品物として分かりやすいのが利点です。

💡 Tip

実務では、SRT単体より「SRT+焼き付けMP4」のほうが確認しやすい場面があります。視認用の動画と修正可能な字幕データを分けて渡せるので、チェックのやり取りがスムーズです。

なお、MP4は字幕トラックを持たせる形でも扱えますが、再生側での見え方より、案件では外部字幕ファイルのSRTか、見た目が固定された焼き付けMP4のほうが扱いやすいことが多いです。
文字コードも見落としやすいポイントで、SRTはUTF-8で整えておかないと文字化けの原因になります。

この副業が向いている人/向いていない人

AI字幕・文字起こし副業に向いているのは、派手な編集よりも、地道な確認作業を丁寧に積み上げられる人です。
音の違いに気づきやすい、同音異義語のミスを見つけるのが得意、話し手の意図をくみながら文を整えられる、といったタイプは相性がいいです。
在宅で進めやすく、クラウドワークスやランサーズでも「字幕制作」「文字起こし」「動画編集・テロップ」の募集カテゴリが実際に存在するので、作業内容と案件のつながりも見えやすい分野です。

逆に、AIに投げて自動で終わる仕事だと思って入ると、ギャップがあります。
音質が悪い音声、複数人が重なる会話、専門用語が多い収録では、自動文字起こしの精度が落ちやすく、人の修正負荷が一気に上がるからです。
完全自動化だけで稼ぎたい人、細かい確認が苦手な人、単純作業をすぐ飽きてしまう人には向きにくい副業です。

この仕事は「早く打てる人」より「違和感を放置しない人」のほうが伸びます。
字幕の改行位置ひとつ、話者ラベルひとつで見やすさも信頼感も変わるので、地味でも精度を詰められる人ほど評価されやすいのが利点です。
機密性の高い会議音声や個人情報を含むデータを扱うこともあるため、作業の丁寧さは、文章のうまさ以上に実務価値があります。

必要な準備|ツール・スキル・初期費用

無料スタート用ミニマム環境

未経験から試す段階では、いきなり有料ツールをそろえなくても十分です。
実務で必要なのは、音声を文字にする手段、字幕の見た目を整える手段、納品前に確認する手段の3つなので、まずは無料寄りの組み合わせで回せます。

Auris AI は導入が手軽で試しやすい候補ですが、商用利用やアップロードデータの取り扱いは利用規約で確認する必要があります。
実務投入前には利用規約中の「ユーザーコンテンツ」「ライセンス」「データ取り扱い」などの項目を確認し、必要ならクライアントの許諾を得てください。

Canva はキャプション付きの MP4 を書き出せる機能が公式ヘルプに記載されていますが、SRT のインポート/エクスポートに関する明確な記載は見当たりません(2026年3月時点)。
SRT の入出力が必須の案件では、事前に公式ヘルプで仕様を確認するか、SRT 互換を明示するツールを併用してください。

無料スタートの初期費用は、既にPCとイヤホンがある場合は追加投資を最小化できることが多いです。
ただし、音質改善用のマイクや長尺対応の有料プランなど、用途によっては小規模な投資が必要になることもあります。
まずは手元の環境で1本作ってみて、必要な投資を見極めてください。

有料導入の判断基準

有料ツールは、最初から必須ではありません。
導入の目安になるのは、無料運用だと手修正の時間が重くなってきたときです。
手作業では10分動画の字幕入れに約3時間かかることがある一方で、AIを使って下地を作ると、その後の校正に集中しやすくなります。
筆者も受注前は無料構成で十分回していましたが、実際に案件が入り始めてからVrewとNottaを入れて、修正時間をまとめて削りました。
無料で作業の型を作り、受注後に時短へ投資する流れのほうが失敗しにくい設計です。

各ツールの役割は、次のように分けて考えると選びやすくなります。

ツール主な用途強み向いている案件タイプ
Notta文字起こし・字幕作成・翻訳高精度寄り、多言語対応、SRT/TXT出力文字起こし、SRT納品、会議録
Vrew字幕作成+動画編集初心者が扱いやすく、無音カットなど編集補助があるYouTube字幕、ショート動画編集
PowerDirector動画編集+自動字幕本格編集に広げやすいテロップ込み動画編集案件

Nottaは文字起こし中心の副業と相性がよく、『Notta AI字幕作成サービス』では精度98%以上、最大1GB・最長5時間のファイルアップロード、42言語翻訳に対応する案内があります。
SRTやTXTで出力しやすいので、会議録や字幕データ納品のようなテキストを納品物にする案件で強みが出やすいのが利点です。
Vrewは字幕作成から軽い編集までつなげやすく、YouTube系の案件で扱いやすい印象があります。
PowerDirectorは編集機能まで踏み込めるので、字幕だけでなく動画全体の体裁を整える案件に広げたい人向けです。

ここで気をつけたいのは、料金や細かい仕様は変わりやすいことです。
Notta、Vrew、PowerDirectorのプラン内容や価格は2026年3月時点で各公式情報の確認が前提です。
今回の比較では、用途と作業の相性を軸に見ています。

初期費用の考え方は、無料スタートと有料最小プランの2ルートで整理できます。

  • 無料スタート:YouTube Studio、Canva、Word文字起こし、Auris AIを中心に試し、サンプル制作まで進める
  • 有料最小プラン:受注後にNottaまたはVrewを追加し、必要ならPowerDirectorを検討する

損益分岐点は、月額料金そのものより何分の作業を短縮できるかで考えると現実的です。
たとえば字幕案件はランサーズで1分500円からの出品例が見つかります。
1本10分の案件なら売上の目安は5,000円です。
この1本で、手修正時間をどれだけ削れるかを見れば、有料化の意味が見えます。
月に1〜2本しか受けない段階なら無料運用で十分ですが、継続案件で本数が増えるなら、有料ツールのほうがむしろ利益を残しやすくなります。

ℹ️ Note

、無料環境で1本仕上げてから有料化したほうが、必要な機能に無駄なく絞れます。文字起こし中心ならNotta、字幕+軽編集ならVrew、編集込みで単価を上げたいならPowerDirector、という選び方がぶれにくい設計です。

www.notta.ai

必須スキルと表記・機密ルール

この副業で強いのは、派手な編集センスよりも基礎の正確さです。
AIが作った下地を整える仕事なので、タイピングが速いだけでは足りません。
聞き取り、言い換えの判断、表記のそろえ方、機密の扱い方まで含めて、納品物の質が決まります。

まず必要になるのは、音声を聞きながら迷いなく直せるタイピング力です。
秒速で打てる必要はありませんが、再生停止を細かく繰り返しながら、誤変換を潰していける程度の入力速度は欲しいところです。
もうひとつ大きいのが聞き取りです。
音質が悪い音源や話者が重なる場面では、AIの精度が落ちやすいので、前後の文脈から語を補える力がそのまま品質差になります。
作業前に一度通して聞くと流れをつかみやすいのも、この仕事では効きます。

表記統一も見逃せません。
たとえば「出来る/できる」「YouTube/ユーチューブ」「1つ/一つ」のような揺れを放置すると、内容は合っていても雑に見えます。
字幕では改行位置まで読みやすさに直結するので、文字を正しく起こすだけでなく、どう見えるかまで含めて整える必要があります。

最低限のルールは、実務ではこの4点に集約されます。

  • 音声を作業前に一度通して聞き、話者と流れを先につかむ
  • 表記ルールを案件ごとに固定し、途中で揺らさない
  • 固有名詞、数字、社名は不明なまま確定しない
  • 受領データを私物クラウドや公開設定のある場所に置かない

機密保持は特に欠かせません。
字幕や文字起こしでは、会議音声、顧客情報、未公開動画などを扱うことがあります。
文章のうまさより、データを漏らさない人であることのほうが信用につながる場面も多いです。
副業として始めるなら、会社員の人は就業規則との関係も含めて整理しておきたい領域です。
三菱UFJ銀行の副業の基礎解説でも、会社ルールの確認は前提として触れられています。

用語ミニ辞典

ここは案件文を読むときに引っかかりやすい言葉を、実務目線で短く整理します。用語の意味が分かるだけで、募集文の読み違いが減ります。

素起こしは、言いよどみや言い直しも含めて、話した内容をできるだけそのまま文字にする方法です。
会話の生っぽさを残したいインタビューや証跡性が必要な場面で使われます。

ケバ取りは、「えー」「あのー」「そのー」などの不要語を省き、読みやすくした文字起こしです。副業案件ではこの指定が多めです。

整文は、話し言葉を文書向けに整える作業です。主語述語のねじれを直したり、言い回しを自然な文にしたりするので、単なる文字起こしより編集寄りです。

話者分離は、誰が話したかを区別することです。会議音声では「話者1」「話者2」の自動判定が入ることがありますが、ズレるので人の確認が必要になります。

SRTは、字幕番号、開始時間、終了時間、字幕文で構成される代表的な字幕ファイルです。
YouTubeでも扱われる定番形式で、シンプルなぶん納品にも使いやすいのが利点です。

TXTは、プレーンテキストの納品形式です。議事録や会話記録の確認用によく使われます。タイムコードが不要な案件ではこちらが中心になります。

クローズドキャプションは、視聴者が表示のオンオフを切り替えられる字幕です。外部字幕ファイルやプレーヤー上の字幕トラックがこの考え方に近いです。

オープンキャプションは、動画に焼き付けられていて消せない字幕です。
SNS動画や確認用MP4でよく使われます。
修正が入ると動画を書き出し直す必要があるので、実務ではSRTと併せて持っておくと手戻りを減らしやすいのが利点です。

こうした用語を見て、案件が「そのまま起こす仕事」なのか、「読める形に整える仕事」なのかが見分けられるようになると、必要なツールも準備も選びやすくなります。

AIを使った作業フロー|案件受注から納品までの5ステップ

実務では、AIに投げて終わりではなく、前処理→下起こし→人の修正→納品形式の調整までをひとつの流れとして回すと安定します。
文字起こし案件でも字幕案件でも骨格はほぼ同じで、この5ステップに分けると作業時間とミスの出どころが見えやすくなります。

Step 1 音源確認

最初にやるのは、いきなり文字を直し始めることではなく、音源の全体像をつかむことです。
冒頭だけで判断せず、冒頭から終盤まで一度通して聞くのがここでは欠かせません。
話者が何人いるか、途中でマイク位置が変わるか、BGMが強いか、専門用語が多いかを先に把握しておくと、後の修正精度が変わります。

この段階では、音質のチェックも外せません。
たとえば会議録音なら空調音やキーボード音、インタビューなら反響、動画素材ならBGMのかぶりが精度低下の原因になりやすいのが利点です。
音がこもっている、環境ノイズが強い、声よりBGMが前に出ているといった素材は、そのままAIに入れるより、先にノイズ除去や音量調整をしたほうが結果が安定します。
筆者は環境ノイズが強い録音を先にノイズリダクションしてから自動字幕を回す運用にしていて、後工程の修正時間が体感で20〜30%ほど短くなりました。
ここ、すごく大事で、前処理を省くとそのぶん後ろで誤変換の山を拾うことになります。

同時に、固有名詞や専門用語の当たりも付けておきます。会社名、製品名、人名、業界用語はAIが崩しやすいので、事前にメモしておくと検索や照合が速くなります。

Step 2 AI下起こし

全体像がつかめたら、AIで下起こしを作ります。
文字起こし中心ならNottaやMicrosoft Word、処理速度を重視するならRIMO voice、字幕まで見据えるならVrewやPowerDirector系の流れが組みやすいのが利点です。
『Notta AI字幕作成サービス』では文字起こし精度98%以上とうたわれていて、SRTやTXTの出力にもつなげやすいので、在宅副業のたたき台として扱いやすい部類です。

長尺音源では上限も見ておきたいところで、Nottaは最大1GB・最長5時間まで対応しています。
対してWordの文字起こしはMicrosoftサポート上で月300分です。
Office環境ですぐ試せる良さはありますが、継続案件で分量が増えると足りなくなりやすいのが利点です。
RIMO voiceは1時間の音声を約5分前後で処理できる案内があり、急ぎ案件の初稿づくりでは助かります。

この工程のコツは、AI出力を完成品として扱わないことです。
AIは速いですが、話者交代、同音異義語、略語、笑いながらの発話、語尾の飲み込みに弱い場面があります。
あくまでゼロから打つ負担を減らす下地として使うと、期待値のズレが起きにくい設計です。

Step 3 ケバ取り/整文

下起こしができたら、次はクライアント指定のレベルに合わせて整えます。
ここで分かれるのが、素起こし寄りなのか、ケバ取りなのか、整文まで求めるのかという線引きです。
同じ音源でも、求められる仕上がりで手の入れ方が変わります。

ケバ取りでは、「えー」「あのー」「そのー」「まあ」など、意味を持たないつなぎ語を落として読みやすくします。
整文ではさらに、ねじれた言い回しを文章として自然な形に直します。
ただし直しすぎると発言ニュアンスが変わるので、会議録なのか、公開記事用なのか、字幕なのかで温度感を変える必要があります。

ここでは表記統一ルールの適用もセットです。
「できる/出来る」「1つ/一つ」「AI/AI」のような揺れを一度決めたら、文書全体でそろえます。
字幕案件なら読みやすさ優先で短く切り、文字起こし案件なら文意優先でつなげる、といった判断もこの工程です。
人が仕上げる価値が最も出るのはこの部分で、同じAI出力でも整文のうまさで納品品質が変わります。

Step 4 タイムコード・話者修正

字幕案件では、この工程が品質の山場です。
SRTなら各ブロックの行頭に入るタイムスタンプを見直し、表示タイミングが音声とズレていないかを詰めます。
SRTの基本書式は、通し番号、開始時間と終了時間、字幕文、空行の構成で、時刻は hh:mm:ss,mmm 形式です。
ここが崩れると読み込みエラーになりやすいので、文面だけでなく書式も納品物の一部として扱います。

話者ラベルの修正も欠かせません。
AIの話者分離は便利ですが、2人の対話でも途中でラベルが入れ替わることがあります。
会議や座談会では、発言内容だけでなく「誰が言ったか」が意味になるので、ラベルのズレは早めに直したほうが整文もしやすいのが利点です。

日本語字幕の一般的な目安は1行13〜25文字程度ですが、短めに切る運用(筆者は13〜20文字目安)にすると視認性が上がる場面もあります。
表示秒数は文字量に合わせて調整してください。

💡 Tip

AI字幕は速さの面では優秀ですが、手作業の字幕入れが10分動画で約3時間かかるケースがある一方で、AIを使っても最終修正は残ります。短縮できるのは「全部自動化できるから」ではなく、人が見るべきポイントを後ろに集約できるからです。

Step 5 納品・チェックリスト

仕上げたデータは、案件指定に合わせてTXT、SRT、字幕焼き付けMP4に整えて納品します。
文字起こしならTXT中心、字幕ならSRT、SNS用や確認用では焼き付け動画を求められることがあります。
ここで押さえたいのが、クローズドキャプションとオープンキャプションの違いです。
クローズドは視聴者が表示オンオフできる字幕で、SRTやVTTのような外部字幕ファイルが近い形です。
オープンは動画に焼き付けられた字幕で、常時表示されます。
見た目の確認には強いですが、修正が入ると動画を書き出し直す必要があります。

実務では、互換性重視で焼き付けMP4が喜ばれる場面もありますが、再修正に備えるならSRTや元テキストも一緒に持っておく運用が安全です。
MP4は字幕トラックを格納できるものの、プレーヤー側での扱いより、外部字幕ファイルや焼き付けのほうが納品先で意図が伝わりやすいことがあります。

ファイル周りでは、名前の付け方と文字コードも地味に欠かせません。
統一された命名規則はありませんが、案件名や言語が判別できるファイル名にしておくと差し戻しが減ります。
SRTやVTT系はUTF-8での保存が実務上の基本で、YouTubeもUTF-8やUnicodeを推奨しています。
文字化けは内容の問題ではなく保存形式で起きることがあるので、納品前の再読み込み確認が効きます。

納品前に見るポイントは多くありません。
音声をもう一度通して聞くこと、誤字脱字の目視、タイムコードのズレ、話者名、ファイル形式、文字コードの6点がそろっていれば、初歩的な事故は防げます。
AIを使うほど、仕上げは人の目で締める。
この流れができると、在宅でも納品物の安定感を出しやすくなります。

案件の探し方|CrowdWorks・Lancersで何を探すべきか

探すべきキーワードと案件の読み方

CrowdWorksやLancersで案件を探すときは、「字幕」という単語だけで探すより、発注者が実際に使っている言い回しまで広げたほうが見つけやすいのが利点です。
まず押さえたいのが、字幕制作、テープ起こし・文字起こし、動画編集 テロップ、SRT、字幕翻訳です。
とくに初心者は「字幕制作」だけでなく、「文字起こし」「テロップ入れ」「YouTube字幕」「SRT作成」のように関連語でも横断して見ると、応募できる案件が一気に増えます。

検索結果の見方にもコツがあります。
たとえば「文字起こし」と書かれていても、実際の依頼内容を読むとタイムコード入りの納品を求めていて、実質は字幕寄りの案件ということがあります。
逆に「動画編集」と書かれていても、作業の中心はカットではなくテロップ挿入だけ、ということも珍しくありません。
案件タイトルではなく、納品形式、作業範囲、素材の長さ、修正回数まで読んで判断するのが欠かせません。

見るべきポイントはシンプルで、まず納品形式にTXT、SRT、焼き付けMP4のどれがあるかを確認します。
次に、元データが音声のみなのか、動画付きなのか、話者分離が必要なのかを見ます。
さらに「ケバ取り」「整文」「誤字修正のみ」など仕上げレベルの指定があるかで、必要な工数が大きく変わります。
文字起こし系は音源時間だけでなく整文の深さで重さが変わり、字幕系は尺よりもタイミング調整と改行設計で手間が増えます。
ここ、すごく大事で、同じ10分でも楽な案件と重い案件は違います。

プラットフォームごとの使い分けも整理しておくと動きやすいのが利点です。
CrowdWorksは仕事を探して提案する流れが中心で、カテゴリやスキル登録から見つけてもらう導線があります。
『CrowdWorksの字幕制作カテゴリ』のように、受注側プロフィールで「何ができるか」を示す場所が機能しやすい印象です。
一方でLancersは、仕事への提案に加えて「出品」型のメニュー掲載も使いやすく、『ランサーズの字幕カテゴリ』を見ると、1分500円からの出品例のようにサービス化しやすいのが特徴です。
ざっくり言うと、CrowdWorksは募集案件への提案、Lancersは提案と出品の両輪で考えると整理しやすいのが利点です。

案件文の読み方としては、良案件かどうかを単価だけで決めないことも欠かせません。
継続の可能性、マニュアルの有無、参考動画の提示、修正指示の明確さがある案件は、最初の実績作りに向いています。
反対に、依頼内容が曖昧なまま「まず一式お願いします」と書かれている案件は、作業範囲が膨らみやすいのが利点です。
筆者は、募集文に「SRT納品可」「焼き付け対応歓迎」「テロップ経験者優遇」とある案件は、納品物のイメージが固まっていることが多く、比較的進めやすいと感じています。

字幕制作の仕事を依頼・外注・代行する | 簡単ネット発注なら【クラウドワークス】 crowdworks.jp

プロフィール/ポートフォリオ作成ガイド

案件が取れない時期は、提案文より先にプロフィールを整えたほうが効くことが多いです。
発注者は、応募者が「何をどこまでできる人か」を短時間で見ています。
字幕や文字起こしの副業では、プロフィールに書く内容が曖昧だと、実務経験が少なくても不利になりやすいのが利点です。
逆に、だけで、安心感が出ます。

プロフィールは、次の要素を入れておくとまとまりやすいのが利点です。

  • 対応業務範囲:字幕制作、テープ起こし・文字起こし、SRT作成、焼き付け動画作成、簡易テロップ挿入、字幕翻訳の可否
  • 納品形式:TXT、SRT、焼き付けMP4
  • 使用ツール:Notta、Vrew、PowerDirector、Word文字起こしなど
  • 守秘姿勢:守秘義務順守、共有データの適切管理
  • 対応時間帯:平日夜、土日、日中の連絡可否など
  • テスト可否:トライアル対応の可否、短尺サンプル対応の可否

このままだと硬く見えるので、実際には文章として自然につなげると読みやすいのが利点です。
たとえば「字幕制作・文字起こしを中心に、SRT作成、TXT納品、焼き付けMP4の作成に対応しています。
使用ツールはNotta、Vrew、PowerDirectorです。
守秘義務を前提に、平日夜と土日に対応しています。
短尺テストにも対応可能です」といった形です。
実績が少ない段階でも、できることとできないことの線引きが明確な人は信頼されやすいのが利点です。

ポートフォリオは、豪華に作る必要はありません。
むしろ小さくても、納品物の種類が伝わる構成のほうが強いです。
おすすめは、5〜10分の公的素材や自作動画を使って、TXT、SRT、焼き付け見本を各1本ずつ用意する形です。
音声が聞き取りやすいものだけでなく、少し話し言葉が多い素材も混ぜると、整え方の技術が見えます。
字幕サンプルでは、改行位置、読ませる速度、固有名詞の表記統一が伝わるようにしておくと実務感が出ます。

字幕見本は、SRTだけを置くより、焼き付け動画も一緒に見せると通りやすいのが利点です。
筆者はSRTと焼き付け見本を同時に提示したときのほうが、発注者が完成形を想像しやすいのか、採用率が上がる印象があります。
テキストファイルだけだと「作業はできそう」までで止まりやすいのですが、見た目つきの見本があると「納品後の状態」が一目で伝わります。

ℹ️ Note

サンプルを作る際は、実務ガイドの目安(1行13〜25文字)を基準にしつつ、筆者は読みやすさ優先で13〜20文字に調整した見本も併記しています。
用途ごとにバランスを見て使い分けてください。

プロフィールで地味に効くのが、守秘義務への姿勢です。
会議録、社内インタビュー、講座動画は、内容そのものより「外に出さない前提で扱えるか」が見られます。
派手な自己PRより、「共有素材は業務用途のみに使用」「納品後のデータ管理も含めて対応」といった一文のほうが効く場面は多いです。

提案文テンプレと応募戦略

提案文は長文で熱意を語るより、依頼内容を理解していて、納品までの流れが見えていることを示すほうが通りやすいのが利点です。
字幕・文字起こし案件では、発注者が不安に感じるポイントが決まっています。
聞き取り精度、納期、修正対応、ファイル形式、この4つです。
ここを先回りして書けると、実績が少なくても比較されやすくなります。

提案文の型は、次の順番だと崩れにくい設計です。

  1. 依頼内容の再述
  2. 自分の作業フロー
  3. 納期目安
  4. 確認事項
  5. 簡易見積

文章にすると、こんな形です。

「ご依頼内容を拝見し、動画の字幕制作およびSRT納品の案件として理解しました。
AIで下地を作成したうえで、人力で誤変換、話者表記、タイミング、改行位置を修正して仕上げます。
納期は素材共有後からの作業量に応じてご相談可能です。
確認事項として、納品形式がSRTのみか、焼き付けMP4も必要かを伺えますと進行がスムーズです。
簡易見積は、ご提示条件に沿って対応いたします。

この型の良いところは、余計な自己紹介を増やさずに、仕事の理解度を見せられることです。
文字起こし案件なら「素起こし・ケバ取り・整文のどのレベルをご希望か」、字幕案件なら「SRTのみか、焼き付け動画も必要か」を確認事項に入れると、質問の質そのものが評価されます。
正直に言うと、初回応募ではスキル差よりも、話が噛み合う相手かどうかで選ばれることがあります。

応募戦略としては、最初から高単価だけを狙いすぎないほうが進めやすいのが利点です。
初回は低単価でも、納品精度を最優先にして評価を取りにいくほうが、その後の継続受注につながりやすいのが利点です。
とくに字幕案件は、納期厳守と修正対応の丁寧さがそのまま実績になります。
1本目で「細かいところまで見てくれる人」と思ってもらえると、2本目以降は単価交渉もしやすくなります。

実績作りの段階では、応募数を増やすより、通りやすい案件だけに絞って精度高く提案するほうが効率的です。
たとえば、尺が短い、納品形式が明確、参考動画がある、継続予定あり、こうした条件がそろう案件は初心者向きです。
反対に、字幕翻訳まで含む案件や、編集一式をまとめて求める案件は、単価が高く見えても工数が重くなりやすいのが利点です。
映像翻訳系はCrowdWorks Timesでも2〜ここは単純な字幕打ち込みとは別スキルとして見たほうが安全です。

提案後のやり取りでは、返信速度より中身の整い方が欠かせません。
質問が来たら、素材形式、希望納期、表記ルール、話者ラベルの有無など、必要な確認を短く返すだけで印象が変わります。
副業で時間が限られていても、質問の精度が高い人は納品も安定しそうと受け取られやすいのが利点です。
こうした小さな積み重ねが、字幕制作や文字起こしの案件ではそのまま信頼残高になります。

収入の目安と時給感|月1万円〜5万円はどう作るか

字幕案件の収入試算と時給感

字幕案件は、最初に収益イメージをつかみやすいのが強みです。
すでに触れた通り、Lancersの『字幕カテゴリ』では1分500円からの出品例があります。
この水準を基準にすると、10分動画1本で売上の目安は5,000円です。

ここから月収に置き換えると、現実感が出ます。
たとえば10分動画を月に2本こなせば1万円、6本で3万円、10本で5万円です。
副業として見ると、月1万円は現実的で、月5万円は「本数を安定して回せるか」が分かれ目です。

時給感は、AIを使うかどうかで変わります。
CyberLinkでは、手作業の字幕入れは10分動画で約3時間がひとつの目安です。
この条件で1本5,000円なら、単純計算の時給感は約1,667円です。
ここに確認作業ややり取りが乗るので、実際はもう少し下がることもあります。

一方で、自動字幕をたたき台にして人力で整える運用だと、10分動画の字幕校正は短くできます。
前述のように、VrewやYouTube Studio系の下地が使える案件では、誤変換修正、改行、読ませる速度の調整に集中できるので、手打ち前提より明らかに回しやすいのが利点です。
売上が同じ5,000円でも、作業時間を大きく圧縮できれば時給感は改善します。
ここ、すごく大事で、字幕副業は単価の高さだけでなく、下地作成の速さで利益が決まる仕事です。

筆者は、字幕単体よりも字幕+軽編集のセット受注のほうが単価が伸びやすいと感じています。
理由はシンプルで、完成画が見えるからです。
SRTだけより、焼き付け動画や軽い見栄え調整まで含めると、発注者に「何が納品されるか」が伝わりやすいのが利点です。
客観的な完成物を見せられる案件は、価格の説明もしやすくなります。

字幕の依頼・発注・代行 www.lancers.jp

文字起こし案件の収入試算と時給感

文字起こしは、字幕よりも「聞いて、打って、整える」比重が高い仕事です。
工数の目安としては、コエラボの解説で1時間音源に対して約3〜4時間、リコーの一般的な目安でも音声時間の約4倍が示されています。
つまり、60分の会議音声やインタビューを起こす仕事は、手作業中心だと半日仕事に近い感覚になります。

この前提で見ると、文字起こし案件は見かけの報酬だけでは判断しにくい設計です。
たとえば4時間かかる案件で報酬が5,000円なら、時給感は1,250円です。
ここに素起こしではなくケバ取りや整文が入ると、さらに見直し時間が増えます。
字幕よりも納品物が地味に見えますが、実際は集中力を使います。

AIの恩恵は、文字起こしでも大きいです。
Nottaは公式に98%以上の精度をうたい、長尺データにも対応しやすい設計ですし、Nottaブログで紹介されているRIMO voiceのように1時間音声を約5分前後で処理する系統のサービスもあります。
もちろん、そのまま納品する仕事ではありませんが、下地を数分で作って、人が固有名詞や言い回しを整える流れに変えるだけで、作業の体感は変わります。

ただ、文字起こしはAI化しても、字幕ほど時給が跳ねやすいとは限りません。
理由は、タイミング調整がない代わりに、会話の意味を崩さず整える判断が残るからです。
特に会議録やインタビューは、発言の抜け漏れや主語の補完が求められる場面が多く、ここは人のチェックが価値になります。
副業として見るなら、文字起こしは安定受注しやすい一方で、単価アップは整文力しだいという性格が強いです。

週5〜10時間でどこまで届くかをざっくりモデル化すると、こんなイメージです。
前提は、10分字幕案件は1本5,000円、文字起こしは1時間音源の処理に3〜4時間かかる目安をベースにしています。

モデル前提月収イメージ
字幕特化10分動画を月2本〜10本1万円〜5万円
文字起こし特化1時間音源を月2件前後〜複数件受注単価次第だが工数は重め
混在10分字幕を月2〜6本+文字起こしを数件1万円台後半〜5万円を狙いやすい

※ 上のモデルはあくまで目安です。
実際の月収は単価、作業効率、作業時間の割当てによって変わります。
継続受注や有料ツール導入で効率化すれば、同じ本数でも収益性は改善します。
この中で再現しやすいのは、個人的には混在型です。
字幕だけで埋めるより、平日は文字起こし、土日は字幕や焼き付け動画という分け方のほうが案件を拾いやすいですし、スキルも横に広がります。

単価アップの道筋

初心者のスタート地点は、どうしても低単価寄りです。
これは悪いことではなく、むしろ自然です。
最初は「AIで下地を作れる人」ではなく、最後まできちんと整えて納品できる人として評価を積む段階だからです。
そのうえで単価を上げやすいのが、字幕・文字起こし周辺の付加価値です。

わかりやすい伸ばし方は、整文、翻訳、動画編集を少しずつ足していくことです。
とくに映像翻訳系は、CrowdWorks Timesで2〜7万円前後の価格帯が紹介されていて、単純な打ち込み作業とは別レンジで見られています。
もちろん、これは語学力と映像文法の両方が要る領域なので、いきなり狙う仕事ではありません。
ただ、字幕の改行、要約、表示尺の感覚が身についてくると、翻訳字幕への橋はかけやすくなります。

単価アップの順番としては、まず「文字を起こせる」、次に「読みやすく整えられる」、さらに「SRTで納品できる」、その先で「焼き付け動画まで出せる」という流れが強いです。
PowerDirectorやVrewのように、字幕と編集を一画面で進めやすいツールに慣れておくと、この段差を越えやすいのが利点です。
編集込みになると、発注者は単なる作業者ではなく、完成物を任せられる相手として見始めます。

筆者が実感しているのもこの部分です。
字幕だけの提案より、字幕に軽い編集を添えたほうが、見積の説明が通りやすいのが利点です。
たとえば、テロップの見やすさ調整、無音部分の整理、焼き付け動画の納品まで入ると、成果物がテキストではなく「公開できる動画」になります。
この差は想像以上に大きいです。
単価が伸びる人は、作業量を増やす人というより、納品物の完成度を一段上げた人だと感じます。

副業で月1万〜5万円を狙うなら、最初は低単価の字幕や文字起こしで実績を作り、そこから整文や編集を混ぜていくのが現実的です。
字幕案件を月2本で1万円、6本で3万円、10本で5万円という軸を持ちつつ、同じ10分動画でも「SRTのみ」から「焼き付けMP4込み」に変えるだけで、受け方は変わってきます。
収入を増やす近道は、無理に高額案件へ飛ぶことより、1本あたりの見せ方と付加価値を増やすことにあります。

失敗しやすいポイントと品質を上げるコツ

品質NGの典型と回避策

継続で受注できるかどうかは、AIを使えたかより事故をどれだけ潰せるかで決まります。
ここ、すごく大事で、自動字幕や自動文字起こしは下地としては優秀でも、そのまま出すと品質NGが残ります。
Nottaのように高精度をうたうツールでも、人の耳と目で詰める工程は外せません。

とくに起きやすいのが、AIの誤変換です。
音が似ている言葉、文脈で意味が変わる言葉、語尾の取り違えは定番で、自然な会話ほど誤変換が紛れます。
普通名詞ならまだ修正しやすいのですが、厄介なのは固有名詞ミスです。
社名、製品名、人名、難読地名は、1文字違うだけで信用を落とします。
筆者はこの手の語を見つけたら、その場でタイムスタンプ付きでメモしておき、あとで公式サイトの表記と照合する運用にしています。
これに変えてから、再修正の戻りは減りました。
聞き直しの回数も減るので、結果的に時短にもなります。

話者誤認も見落とされやすい判断材料になります。
対談や会議では、AIが話者を入れ替えたり、途中から一人の発言としてつないでしまったりします。
文字としては読めても、誰が何を言ったかがズレると納品物としては危険です。
インタビュー案件や座談会では、話者ラベルを入れるのか、省略するのかも先に揃えておかないと、途中で表記がぶれます。

ノイズ環境も精度を大きく崩します。
屋外収録、反響の強い会議室、BGMが大きい動画、複数人のかぶり発話では、単語の抜けや文末欠落が起きやすいのが利点です。
こういう素材は「誤変換」より「抜け」のほうが怖いです。
意味のある一文が丸ごと落ちることもあるので、聞き取れない箇所を曖昧なまま流さない姿勢が品質差になります。

実務では、次の項目をチェックリスト化しておくと崩れにくい設計です。

  • AIの誤変換が残っていないか
  • 固有名詞、社名、製品名、専門用語の表記が正しいか
  • 話者誤認がないか、話者ラベルの有無が案件条件と一致しているか
  • ノイズ区間で抜け漏れが起きていないか
  • 読みにくい字幕になっていないか
  • 効果音表記の有無が要件と合っているか
  • 商用利用条件を未確認のまま使っていないか

Auris AI のようなクラウド文字起こしサービスは、商用利用可否やデータの二次利用許諾が利用規約でどう規定されているかを事前に確認してください。
特に利用規約の「ユーザーコンテンツ」/「ライセンス」欄に注意し、あいまいな点はクライアントへ確認する運用をおすすめします。

読みやすい字幕のルールと表示設計

まずは1行13〜25文字を目安に、基本は2行以内で収めると画面上で破綻しにくい設計です。
文字量に応じて表示秒数を設計し、読み切れる速度を確保してください。
筆者は短め(13〜20文字)を優先することが多いです。

読みにくい字幕になりやすい例はわかりやすくて、1枚に文字を詰め込みすぎる、改行位置が不自然、話し言葉をそのまま全部出す、背景と文字色がぶつかる、このあたりです。
ショート動画でありがちな派手な演出も、案件によっては逆効果です。
副業で継続受注を狙うなら、まずは装飾より可読性です。

フォントはゴシック系が基本です。
日本語ならNoto Sans JPのようなサンセリフ体は画面で読みやすく、字幕用途と相性がいいです。
明朝体は雰囲気は出ても、動きのある映像では細部がつぶれやすく、視認性で不利になりやすいのが利点です。
合わせて、行間は詰めすぎず、背景が明るい映像でも埋もれないように縁取りやシャドウを入れておくと安定します。
細い白文字をそのまま置くと、白背景や逆光カットで一気に読めなくなります。
明朝体は雰囲気は出ますが、動きのある映像では細部がつぶれやすく視認性で不利になりがちです。
字幕用途では Noto Sans JP などのゴシック系(サンセリフ)を基本に、行間を詰めすぎず縁取りやシャドウで可読性を確保する運用をおすすめします。
表記統一も品質の差が出る部分です。
句読点を入れるか減らすか、カギ括弧を会話に使うのか、三点リーダを「…」で統一するのか「・・・」にするのか、これが途中で混ざると素人っぽく見えます。
対談なら「田中:」「佐藤:」のように話者ラベルを付ける案件もありますし、バラエティ寄りなら話者ラベルなしでテンポ優先にすることもあります。
効果音表記も同じで、「拍手」「笑い」「ドアが閉まる音」を入れる案件と、セリフのみでよい案件は別です。
要件が曖昧なときほど、最初に表記ルールを一枚決めておくと後半がぶれません。

💡 Tip

1行13〜25文字、2行以内、ゴシック系フォント、適度な行間と縁取り。
この基本を抑えるだけで見た目の完成度は大きく変わります。
筆者は実務で13〜20文字目安の運用をよく使います。

最終チェックリストとトラブル対処

納品前の最終チェックは、1回通して見るだけだと甘くなります。
筆者がいちばん取りこぼしを減らせたのは、視点を分けて3段階で見るやり方です。
まず音声なしで再生して、字幕だけで意味が通るかを見ます。
ここでは読みにくい改行、表示が短すぎる箇所、画面に対して文字が多すぎる箇所が見つかりやすいのが利点です。
次に音声ありで見て、タイミングずれ、誤変換、話者誤認、ノイズ区間の抜けを拾います。
そこからテキストだけを見直すと、句読点、カギ括弧、三点リーダ、話者ラベル、効果音表記の有無といった表記揺れが見えてきます。
この順番にすると、同じ動画でも見る目的が明確なので、エラー検出率が上がります。

チェック項目を絞るなら、納品直前はこの順で十分です。

  1. 音声なしで視聴し、字幕だけで読めるか確認する
  2. 音声ありで視聴し、誤変換やタイミングずれを直す
  3. テキストだけを見て、表記統一と固有名詞を詰める

技術的なトラブルも、副業では地味に評価を左右します。
SRTが文字化けしたときは、保存時の文字コードをUTF-8にそろえるのが基本です。
YouTube系の運用でもUTF-8が前提になりやすく、ここがずれると中身が正しくても読めません。
特にテキストエディタで開いて再保存したあとに崩れることがあるので、書き出し後の再読み込み確認まで含めておくと安全です。

SRTのタイムコード整合性も見逃せません。
書式は通し番号、開始時間と終了時間、本文、空行の並びが基本で、タイムスタンプは「hh:mm:ss,mmm」です。
ここのカンマが別記号になっていたり、開始と終了が逆転していたり、空行が欠けていたりすると、読み込みエラーの原因になります。
VTTや他形式から変換したデータは、とくにこのズレが出やすいのが利点です。
スタイル情報を持つ形式からSRTに落とすと、見た目の情報が消えることもあるので、変換後はタイミングと改行の両方を見直したほうがきれいに仕上がります。

エクスポート設定の考え方も整理しておくと作業が安定します。
オンオフ可能な字幕が必要ならSRTやVTTのような別ファイル納品が扱いやすく、どの再生環境でも確実に表示したいなら焼き付け動画が強いです。
ただし焼き付けは修正のたびに再出力が必要になります。
実務では、焼き付けMP4と元の字幕ファイルをセットで持っておくと、差し戻しへの耐性が上がります。
見た目の完成度と再編集のしやすさを分けて管理する発想が、継続案件では効いてきます。

法的・実務上の注意点

就業規則と副業ルール

副業で字幕や文字起こしを続けるなら、ツール選びや案件探しと同じくらい、勤務先の就業規則と申請ルールが欠かせません。
ここ、すごく大事で、会社員の副業トラブルは仕事内容そのものより「無断で始めていた」「申請が必要なのに出していなかった」でこじれることが少なくありません。
副業可否だけでなく、事前申請制なのか、競業避止の制限があるのか、本業の勤務時間外でも会社名義の機材やアカウントを使ってはいけないのか、といった細部まで見ておく必要があります。
厚生労働省の副業・兼業に関する情報のような公的資料を見ると、

字幕や文字起こしの副業は在宅で静かに進めやすいぶん、本人の感覚では「小さな作業」に見えがちです。
ただ、実務上は業務委託に当たることが多く、報酬が発生し、納期責任もあります。
本業と近い業界の動画や会議録を扱う場合は、競合性の判断も絡みます。
たとえば企業の研修動画や社内向けコンテンツの字幕案件は、発注元の業種によっては本業の守秘義務や利益相反の観点とぶつかることがあります。
安全なのは「動画編集の延長だから軽い副収入」と捉えず、ひとつの業務受託として扱う姿勢です。

実務では、案件ごとに契約条件や納品物の権利範囲が変わるので、就業規則の確認と合わせて、受ける仕事の種類を絞る考え方も効きます。
最初はYouTube用の一般公開動画やセミナーアーカイブの字幕修正のように、権利関係と業務範囲が比較的読みやすい案件のほうが進めやすいのが利点です。
逆に、社外秘の会議録、未公開の製品発表動画、社内研修資料の文字起こしは、単価だけで選ぶと後から取り扱いルールで詰まりやすいのが利点です。

確定申告・報酬管理の基本

副業で報酬を受け取る以上、確定申告の要否は避けて通れません。
ここで重要なのは、SNSの断片情報で判断しないことです。
副業所得の扱いは、雇用か業務委託か、必要経費をどう整理するかでも見え方が変わります。
具体的な金額基準や申告方式は毎年の制度や公式案内で確認する前提になりますが、少なくとも「クラウドソーシング経由で少額だから何もしなくていい」とは考えないほうが実務的です。

字幕や文字起こしの副業は、1件ごとの報酬が比較的小さくても、月をまたいで積み上がると把握が曖昧になりやすい仕事です。
特にCrowdWorksやLancersのようなプラットフォーム案件と、直接契約の案件が混ざると、入金日と作業日、手数料差し引き前後の金額がごちゃつきます。
筆者は、案件名、受注日、納品日、入金日、手数料、実受取額、使用ツールを最低限ひとつの表でそろえておく運用にしています。
これをしておくと、申告のためだけでなく、どの案件が時間に対して見合っていたかも見えやすくなります。

経費の考え方も、感覚で処理すると危ない部分です。
たとえばNottaやMicrosoft 365のようなサブスク型ツール、ストレージ費用、納品確認に使うソフトは、副業に使った範囲が整理できているかが欠かせません。
反対に、本業と私用と副業が混ざった支出は、後から説明しにくくなります。
副業を長く続けるなら、報酬管理は節税テクニックより先に、記録を崩さないことが基本になります。

ℹ️ Note

報酬管理は「確定申告の直前に集める」より、受注した日に1行追加する形のほうが圧倒的に楽です。字幕案件は本数が増えると似た名前の動画が並ぶので、案件IDや納品形式も一緒に残しておくと取り違えを防げます。

機密情報と著作権の確認ポイント

業務委託の字幕案件で見落としやすいのが、機密情報の管理著作権の所在です。
とくにAIツールを使う副業では、効率化のためにデータをアップロードする場面が増えるので、契約書や発注条件でどこまで許されているかを先にそろえておかないと危険です。
録音データ、未公開動画、インタビュー素材、会議音声は、それ自体が機密情報であることも多く、ローカル保存の可否、クラウド共有の可否、第三者サービスへのアップロード可否まで読み分ける必要があります。

この点は、Nottaのような文字起こしサービス、YouTube Studio、Auris AIのような字幕系ツールを使うときに特に意識したいところです。
便利なツールでも、商用利用やアップロードデータの取り扱いは利用規約で条件が分かれます。
2026年3月時点でも、各プラットフォームや各ツールの商用条件は更新される前提で見ておくべき領域です。
無料で試せることと、受託案件の素材を安心して入れられることは別です。
筆者はここを慎重に見ています。

共有方法も、実務では差が出ます。
筆者はクライアントとクラウドストレージで素材を受け渡すとき、アクセス権限を閲覧限定かつ期間限定にする運用を基本にしています。
編集ミスより情報漏えいのほうがダメージが大きいので、ダウンロード自由・無期限共有の状態はできるだけ避けています。
小さな運用ですが、これだけでも不要なリスクを減らせます。

著作権まわりでは、まず元動画や音声素材の権利者が誰かを明確にしておく必要があります。
発注者が動画を持っていることと、字幕化や翻訳字幕制作まで依頼できる権利を持っていることは同じではありません。
一般的な日本語字幕の作成でも、納品したSRTや焼き付けMP4をどこまで再利用するのか、SNS切り抜きに転用するのか、別プラットフォームにも流用するのかで、二次利用範囲の認識を合わせておくほうが安全です。

さらに注意したいのが、歌詞字幕や翻訳字幕です。
ここは通常の字幕修正より一段難しく、歌詞には作詞者や音楽出版社の権利が関わり、翻訳字幕は翻訳物として別の論点も乗ってきます。
映画、ドラマ、MV、ライブ映像などは、映像本体の権利だけでなく、音楽著作権、原盤権、翻訳利用の許諾が絡むことがあります。
筆者は著作権グレーな案件は受けない前提で動いていますが、特に歌詞を画面に出す依頼や、多言語字幕をつける依頼は、通常案件より権利処理の確認項目が増えると見たほうが実務に合っています。

納品物の形式にも権利の考え方が出ます。
たとえば、焼き付け済みのMP4だけを渡すのか、SRTやVTTも渡すのかで、発注側の再編集可能性が変わります。
外部字幕ファイルは流用しやすいぶん、二次利用の範囲を明確にしておかないと、当初想定していない媒体へ展開されることもあります。
字幕はテキストなので軽く見られがちですが、実際には映像の利用範囲と強く結びつく制作物です。
副業として安全に続けるなら、作業効率だけでなく、素材・字幕データ・納品物の扱いを契約単位で切り分ける視点が欠かせません。

最初の1週間アクションプラン

この1週間は、完璧に学ぶ期間ではなく、納品できる形を1セット作る期間として動くのがいちばん効率的です。
副業は準備に時間をかけすぎると止まりやすいので、まずは無料ツールで1本仕上げて、見せられる形まで持っていくことを優先してください。
筆者も、勉強だけしていた時期より、TXT・SRT・焼き付け動画の3点を並べて見せられるようにしてから、提案への返信が明らかに返ってきやすくなりました。

Day1-2:下起こしと整文

Day1は、YouTube Studio、Word、Auris AIのような無料または手元で試しやすいツールを使って、5〜10分の音声を1本文字起こしします。
ここで大事なのは、題材を探し回らないことです。
自分で録音した短い説明音声でも、公開されている練習用素材でも構いません。
まず1本を最後まで通して、「AIでたたき台を作り、人が直す」という流れを体で覚えるのが目的です。

文字起こし結果は、最初からきれいである必要はありません。
むしろDay1では、誤変換、句読点のズレ、話し言葉の崩れがどこに出やすいかを見る時間です。
Wordの文字起こしはMicrosoft 365で使える機能としてまとまっていますし、Auris AIのような導入しやすいツールもあります。
YouTube Studioも無料で試しやすいので、まずはコストをかけずに比較しながら、自分が直しやすい出力を見つければ十分です。

Day2は、その素起こしをTXT納品用のドラフトに整えます。
順番は、素起こしのまま保存し、その次にケバ取り、そこから整文です。
この3段階を分けておくと、クライアントがどのレベルを求めているかに応じて出し分けしやすくなります。
実務では「えー」「あのー」を削るだけでよい案件もあれば、読んで理解しやすい文章に整える案件もあるので、最初から工程を分ける癖をつけておくと後で楽です。

この日に一緒にやっておきたいのが、簡易の表記ルール作りです。
たとえば、数字は算用数字で統一するのか、話者の笑いはどう書くのか、固有名詞が不明なときはどう印を付けるのか、といった最低限のルールです。
大げさなガイドラインは不要で、A4一枚もいりません。
自分用に数行まとめるだけでも、2本目以降の修正スピードが安定します。

Day3-4:SRT化とポートフォリオ整備

Day3は、Day1で使った同じ素材をSRT化します。
別素材にすると比較しにくいので、同じ音声でTXTとSRTの両方を作るほうが学びが深いです。
ここではタイムコードを付け、必要なら話者ラベルも入れます。
SRTは通し番号、開始時間と終了時間、字幕テキスト、空行という基本形を崩さないことが重要で、保存時はUTF-8を意識しておくと後の文字化けを避けやすくなります。

字幕は、ただ全文を入れればよいわけではありません。
読む前提で区切る感覚が必要です。
筆者はこの段階で、1枚ごとの文字量を欲張りすぎないように見直します。
日本語字幕は1行13〜25文字程度が目安として使われることが多いので、長いセンテンスをそのまま押し込まず、意味の切れ目で割る意識を持つと見やすくなります。
ここ、すごく大事で、文字起こしが得意な人ほど字幕で詰め込みすぎやすいのが利点です。

Canva はキャプション付き MP4 の書き出しをサポートする案内がありますが、SRT の入出力についての公式な明記は見当たりません(2026年3月時点)。
SRT が必要な納品では事前確認を行ってください。

Day4はプロフィール整備に使います。
ここでは、対応可能業務、納品形式、使用ツール、守秘姿勢、そしてサンプル2本のリンクをそろえます。
対応可能業務は「文字起こし」「SRT字幕作成」「焼き付け動画作成」のように分け、納品形式はTXT、SRT、MP4を明記すると伝わりやすいのが利点です。
使用ツールもYouTube Studio、Word、Auris AI、Vrew、Canvaなど実際に使ったものだけを書けば十分です。
ここでは、対応可能業務、納品形式、使用ツール、守秘姿勢、そしてサンプル2本のリンクをそろえます。
詳しくは当サイトの video カテゴリや筆者プロフィールも参照してください。
プロフィール文は長さより具体性です。
初心者でも、「素起こし・ケバ取り・整文に対応」「SRTの作成が可能」「短尺の字幕焼き付け動画も作成可能」と書けるだけで、依頼内容との一致が見えやすくなります。
守秘姿勢についても、素材の取り扱いを丁寧に行うこと、納品データを整理して管理することを短く入れておくと、実務への意識が伝わります。

💡 Tip

サンプルは1種類だけより、TXT・SRT・焼き付け動画を並べたほうが仕事のイメージが伝わりやすいのが利点です。筆者はこの3点セットにしてから、クライアント側が「何を頼める人か」を判断しやすくなった手応えがありました。

Day5-7:市場観察と初回応募・仕組み化

Day5は、CrowdWorksとLancersで「字幕制作」「文字起こし」の案件を10件見て、要件と単価をメモします。
この日は応募しなくて大丈夫です。
むしろ観察に徹したほうが、初心者が受かりやすい案件のサイズ感が見えてきます。
見るポイントは、納品形式、尺、話者数、修正回数、実績必須かどうかです。
数件見るだけだと偏るので、10件並べると共通項が見えやすくなります。

正直に言うと、最初は単価だけで選びたくなります。
ただ、初回は作業量の読みやすさのほうが欠かせません。
10分前後の短い素材、話者が少ないもの、編集込みではなく文字起こしや字幕作成に範囲が絞られているものは、経験を積むには向いています。
市場観察のメモがあると、無理な案件に勢いで応募しにくくなるので、これは地味ですが効きます。

Day6は、初心者向けの小規模案件に3件応募します。
ここでは提案文を毎回ゼロから書かず、テンプレを作って使い回してください。
冒頭で募集内容を読んだことを示し、対応できる業務範囲、納品形式、サンプルの有無、納期、修正対応の考え方を書く流れが扱いやすいのが利点です。
特に納期と修正対応を明記しておくと、発注側が進行を想像しやすくなります。

応募文で盛りすぎる必要はありません。
「実績は少ないですが、5〜10分素材でTXTとSRTのサンプルを作成済みです」といった書き方のほうが、むしろ信用されやすいのが利点です。
できないことを広げるより、今できる納品物を具体的に見せることに集中したほうが通りやすくなります。
Day4でプロフィールを整えてあると、この段階で動きやすくなります。

Day7は、納品テンプレを整備する日にします。
ファイル命名、SRT書式、チェックリストの3つを自分用に固定してください。
ファイル名は案件名と納品形式が分かる形にそろえ、SRTは通し番号とタイムコードの崩れがないか確認し、TXTは表記ゆれを見直す。
この流れを毎回同じ順番でチェックできるようにしておくと、応募後に案件が取れたとき慌てません。

ここで作るチェックリストは、長いものではなくて大丈夫です。
たとえば「誤字脱字」「タイムコード抜け」「話者ラベルの統一」「文字コードの確認」「ファイル名の統一」くらいでも十分実用的です。
SRTはUTF-8で保存し、納品前に一度開き直して崩れていないかを見るだけでも、初歩的な事故を防げます。
フィードバックをもらえたら、その内容をこのテンプレに追記していけば、自分専用の作業標準が育っていきます。

1週間で目指すべき到達点は、すごい実績を作ることではありません。
無料ツールを試し、サンプルを1本作り、プロフィールを整え、3件応募し、納品テンプレまで置く。
この流れができれば、翌週からは「準備中の人」ではなく、「提案と納品を回せる人」に変わります。
副業はこの切り替わりがいちばん大きいです。

この記事をシェア

関連記事

AI動画・音声

AIアバター動画は、撮影も顔出しもせずに説明動画や研修動画、SNS向けの短尺コンテンツを作れるので、副業の入口としてかなり現実的です。受託制作、運用代行、自社発信、研修素材づくりの4ルートで収益化を狙える一方で、伸びる動画にするには「アバターを立たせるだけ」では足りません。

AI動画・音声

Vrewで字幕付き動画を最短で1本仕上げたい初心者なら、まずはPC版で「自動字幕を出す→直す→不要部分を切る→書き出す→SRTでも残す」の流れを覚えるのがいちばん早いです。

AI動画・音声

筆者の感覚では、平日夜に30〜45分だけ使って2〜3曲を試作し、翌日に選曲と微修正を回すやり方がいちばん続けやすく、再生成を前提にしたほうが完成度も安定します。日本語歌詞は漢字を減らして、ひらがなやふりがなを入れるだけでボーカルの聞き取りがかなり良くなる実感があります。

AI動画・音声

AIナレーション副業は、台本をAI音声で仕上げて納品する仕事です。週5〜10時間で月1〜5万円を目指す会社員の初心者なら、まずは商品紹介、社内研修、eラーニング、音声ガイド向けの音声データ納品や動画に組み込んだMP4納品から狙うのが現実的で、ツールは試しやすい音読さん、編集しやすいAudacity、