Return to List

ChatGPTで音声の文字起こしは可能?方法とおすすめの代替ツール4選紹介します!

Update date: 2025/2/6 00:19
X(formerly Twitter)facebook
The current meeting was remote.
cover image

音声の文字起こしをするにあたって、ChatGPTを使用してみたいと考える方もいらっしゃるのではないでしょうか。昨今は文字起こしや議事録作成など、様々なシーンでAIツールを活用する場面が増えました。

しかし、AIツールによっては音声認識に対応していないため、注意が必要です。本記事では、ChatGPTで音声の文字起こしは可能なのかを詳しく解説します。ChatGPT以外の代替ツールや、ツール利用のメリット・デメリットなども詳しく解説しますので、ぜひ最後までご覧ください。

No.6.png

ChatGPT単体では音声ファイルの文字起こしができない

結論、無料版のChatGPT(web)単体では、音声データを文字にすることはできません

スマホアプリ・ChatGPT有料版であれば音声入力が可能で、マイクを起動して発言すると、話した内容が文字に変換されます。

ただ、文字変換は発言後に実行されるため、会話中にリアルタイムで文字起こしをしていくことはできません

また、無料版・有料版・スマホアプリ含め、音声ファイルや動画ファイルをアップロードして文字起こしする機能はありません

image.png

※2024年5月時点。5/13のGPT-4oの発表でマルチモーダル化の推進が宣言されていたため、今後有料版から順に開放されていく可能性はあります。

手持ちの音声データ・動画データを元にChatGPTに指示をしたい場合、まず別の手段で文字起こしをして、その結果をChatGPTに伝えた上で要約や校正、議事録作成等の指示を出す必要があります。

別手段については、次章「おすすめの代替手段4選」で詳しく解説します。

「Whisper」を利用する方法も

ChatGPTの開発元Open AIでは、音声認識エンジンの「Whisper」を公開しています。Whisperを活用することで、音声ファイルをアップロードして文字起こしすることも可能です。対応しているファイル形式は、以下のとおりです。

Whisperの対応ファイル形式

WhisperはAPI形式での公開となるため、ChatGPTのように手軽に利用できるようにはなっていません。

原則はプログラミングをして利用をするか、既にWhisperのAPIを組み込んでいる他社サービスを利用する必要があります。

Whisperの詳しい公式情報は以下をご覧ください。

参照:Introducing Whisper

おすすめの代替手段4選

Whisperを使うのはハードルが高いがやっぱり音声ファイルなどを文字起こししたい...という方におすすめの、代替手段4選をご紹介します。

下記4つのツールは、無料で手軽に音声ファイル・動画ファイルからの文字起こしを試すことができます。

サービス名

Microsoft

Copilot

Gemini

Google

ドキュメント

Rimo Voice

区分

AIチャットボット

AIチャットボット

ドキュメントツール

文字起こし・議事録作成ツール

利用料

無料

(有料プランは月額:3,750円)

無料

(有料プランは月額:3,200円)

無料

(法人契約は有料)

【個人】

音声:22円/30秒

動画:33円/30秒


【法人】

月額:3万円〜

テキスト編集機能

※要約、校正、翻訳など

※要約、校正、翻訳など

※要約、校正、翻訳など

※要約、ケバ取り、翻訳、専門用語認識など

ここからは、各ツールの特徴を詳しく解説します。ツール単体で文字起こしや要約・校正などができるツールをお探しの方は、ぜひ参考にしてください。

Microsoft Copilot

Microsoft Copilotは、ChatGPTのAPIを搭載している、Bing検索が可能なAIチャットボットです。

webの無料版でも音声入力が可能で、以下画像のようにリアルタイムで発言内容が文字起こしされます。

Untitled (6).png

弊社で確認したところ、webの場合は一定のまとまりで自動送信がされてしまうのですが、スマホアプリであれば比較的まとまった時間の文字起こしが可能でした。

そのため、PCで文字起こししたい音声を流し、スマートフォンでcopilotのアプリを立ち上げて音声入力モードで文字起こしをさせるということは可能です。

Microsoft Copilot(旧:BingAI)とは?始め方や使い方・ChatGPTとの違いを徹底解説」では、Copilotについて詳しく解説しているので、ぜひご覧ください。

Gemini

Geminiは、Googleが開発・提供しているAIツールです。以前は「Google Bird」という名称で提供されていました。Google検索結果も踏まえて回答してくれるのが特徴です。

Geminiも、Microsoft Copilotと同様に無料版のweb上で音声入力が可能です。

pasted image 0.png

弊社で調べた限り、Copilotに比べてGeminiは音声入力可能な時間が長く、例えばスマートフォンで再生した音声をgeminiを開いているPCの音声入力で文字起こしするといったことができました。

Gemini(ジェミニ)の使い方を基礎から徹底解説!ChatGPTとの比較や便利な活用例も紹介」では、Geminiの詳しい概要については解説しているので、あわせてチェックしてみてください。

Googleドキュメント

Untitled (7).png

文章を書く際によく使われるGoogleドキュメントですが、実は音声認識機能が搭載されています。

スマホアプリでは、マイク入力で音声を文字起こしするのが可能です。

PC版では、音声入力の他、録音データをPC内で再生すれば、Googleドキュメント上で音声を拾って文字起こしをすることができます。

ドキュメントソフトに直接テキストデータが入力されていくので、業務効率が格段にアップするのが魅力的です。

ただし、入力した音声ファイルは保存されないため、録音データを保存したい場合は別の方法を使用しなければなりません。

Googleドキュメントで文字起こしはできる?スマホ・PCそれぞれでのやり方や注意点について徹底解説!」では、Googleドキュメントで文字起こしをする詳しい方法を詳しく解説しているので、ぜひ参考にしてください。

Rimo Voice

Untitled (8).png

Rimo Voiceは、音声から文字起こし・要約を自動作成できるAI議事録ツールです。

リアルタイムの音声文字起こしだけでなく、音声ファイル・動画ファイルをアップロードして文字起こし・要約作成をすることもできます。

文字起こし・要約作成スピードも特徴で、1時間の音声データであれば、約5分で文字起こし・要約作成が完了します。

「え〜」「あの」といったケバを取ったり、事前登録した専門用語を認識して文字にしたりと、ビジネスシーンで役立つ機能が充実しているのも魅力です。

Zoom、Microsoft Teams、Google Meetと連携して、議事録を作成することもできます。ISO27017認証を取得しているので、安全にデータを保存・共有できるのも、ビジネス利用を考えている人におすすめしたいポイントです。

そのほか利用料金等は以下の表にまとめているので、ぜひご覧ください。

Rimo Voice

利用料

【個人】

音声:22円/30秒

動画:33円/30秒


【法人】

月額:3万円〜

1ファイルあたりの時間制限

5時間未満

1ファイルあたりの容量制限

音声:1GB以下

動画:3GB以下

テキスト編集機能

※要約、ケバ取り、専門用語認識など

他ユーザーへの共有機能

Rimo Voice以外の文字起こしツールについては、以下記事でまとめました。

しっかり比較検討されたい方は「【2024年最新】文字起こし(書き起こし)アプリ・ソフトおすすめ25選!選び方のコツも解説」の記事も、ぜひあわせてご覧ください。

ChatGPTによる文字起こしデータ活用法

ここからは、ChatGPT上で文字起こし完了データを活用する方法について解説します。

1つずつ見ていきましょう。

文章校正

誤字脱字の修正や、語尾の修正が可能です。言い間違いを直したり、話し言葉を報告用のフォーマルな文章に修正したりできます。

Untitled (9).pngUntitled (10).png

ChatGPTを使用すれば、膨大なテキストデータを簡潔にまとめつつ、文章としてきれいなかたちに修正可能です。

要約・議事録作成

ChatGPTは、音声ファイルの文字起こしには使えませんが、文章要約には活用できます。長い文章の重要ポイントのみをピックアップし、文字数を圧縮する作業です。

Untitled (11).png

1時間以上にわたる会議を文字起こししたテキストでも、的確に要約し、議事録を作成してくれます。

ChatGPTを用いた要約・議事録作成についてもっと詳しく知りたい方は、ぜひ以下記事をご覧ください。

関連記事:ChatGPTで文章を要約するやり方は?精度を上げるコツやおすすめプロンプトも紹介

関連記事:ChatGPTで議事録作成する方法・プロンプト・コツを徹底解説!おすすめのAI議事録ツールも紹介

インタビュー記事作成

ChatGPTでは、音声の文字起こしを行うことでインタビュー記事の作成も可能です。メディア等に掲載できる体裁で作成もできるでしょう。

Untitled (12).pngUntitled (13).png

記事のフォーマットを指定すれば、より理想に近い状態で出力してくれることも期待できます。

その他、ChatGPTの詳しい使い方を知りたい方は、以下記事もご覧ください。

ChatGPT最新モデルGPT-4oの使い方を徹底解説!基礎知識から実践的な活用法・コツ・事例も紹介

インタビューを効率的に文字起こしする方法とは?

文字起こしに利用するAIツールを選ぶポイント

4.jpg

文字起こしに利用するAIツールを選ぶ際には、以下6つのポイントで比較してみましょう。

文字起こしに利用するAIツールを選ぶポイント

それでは、各ポイントについて詳しく解説します。

音声認識の精度・辞書機能

ツールによって、音声認識の精度は異なります。特に音声認識は、人それぞれのしゃべり方・言語毎の特性・専門用語などを正確に認識しなければならず、精度の違いが出やすい分野です。

どのツールであっても精度が100%であることはないため、重宝するのが辞書機能です。

専門用語や固有名詞などは辞書登録ができるAIツールを選ぶのがおすすめです。

AI要約機能

要約機能の有無で、業務効率は大きく異なります。ツール毎に要約機能も異なるので、以下から必要な機能はあるか探してみましょう。

AI要約機能の例

上記のように、文章量を調整しやすかったり、語尾を調整できたり、重要箇所をハイライトできたりと、ツール毎にさまざまな機能が搭載されています。

議事録編集機能の充実度

議事録作成に活用する場合は、議事録編集に関する機能の充実度も重視しましょう。主な編集機能として、重要箇所のハイライトや、議題・検討事項・決定事項のリストアップがあります。

議事録編集機能が充実していると、議事録作成にかかっていた時間が削減できます。また、議事録作成を教えるための時間や、議事録チェックにかかる時間の削減も可能です。

結果として、より多くの時間を会議やアイデア出しに使えるでしょう。

業務支援機能があるか

文字起こしや要約のみならず、業務支援機能があるかも、ツール選びでは重要です。例えば、参考資料の検索や、課題解決のためのアイデア出しなどができるAIツールでは、業務効率の改善に役立つでしょう。

また、ネット検索を活用した回答生成だけでなく、社内データを参照して回答を生成できるツールもあります。社内検索機能として活用できるツールでは、顧客情報や過去の議事録などを参照して最適な回答を得られて非常に便利です。

料金と利用時間

日々の仕事で使用するのであれば、料金プランが予算内かどうかも重要です。料金プランは、月額・年額で決まっているツールや、入力する音声データの時間によって変動する種類などがあります。

また、利用に関する制約がないかも確認しましょう。ファイル容量・音声の時間、利用時間などの制限が厳しいと、ビジネスシーンでは使いにくくなります。上限が高め(緩め)に設定されていて、たくさん使えるツールを選びましょう。

対応言語

ツールごとに、対応している言語は異なります。本記事で紹介しているツールはすべて日本語に対応していますが、種類によっては日本語に対応していないため注意しましょう。

また、日本語に対応しているものの、英語と比べて正確に文字起こしできないケースも少なくありません。特に、音が同じで複数の意味がある言葉(ほしょう、きこう、たいせい、など)は、文脈から漢字を推測しなければならず、ツール毎に精度の差が現れやすいでしょう。

さらに、専門用語をうまく文字起こしできないケースも非常に多く存在します。日本語だでは、和製英語やビジネス用語などが飛び交うシーンも多くあるため、用語登録ができるツールを使用するのがおすすめです。

文字起こしにAIツールを利用するメリット

文字起こしにAIツールを利用するメリットとして、業務速度・効率の向上や、コスト削減などがあげられます。具体的なメリットは、以下のとおり。

文字起こしにAIツールを利用するメリット

具体的にどのような点がメリットとなるのか、解説します。

速度と効率が向上する

文字起こしにAIツールを利用する最大のメリットは、効率良く作業が完了することでしょう。

人間がタイピングで文字起こしする場合、ワープロ検定2級レベルで入力できるのは1分あたり約50文字程度です。人間は1分あたり400文字前後を喋るとされているので、1分の音声を文字起こしするのに8分もかかってしまいます。

しかし、AIツールを使用すれば、1時間の音声データであっても数分で文字起こしが完了します。また、要約や議事録作成も数分で完了できるのです。

文字起こしに問題があっても、校正機能が付いていればツール側で修正をかけられます。

各種機能によって、速く正確に文字起こしや要約ができるのは、AIツールを活用するメリットです。

関連記事:文字起こしはやり方次第で早くなる!効率的にできるコツを徹底解説します

コスト削減につながる

AIツールを削減すると、人件費をはじめとしたコストを削減することが可能です。

文字起こしをする場合、1会議ごとに従業員一人を1〜2時間ほど働かせる必要があります。アルバイトであっても、3,000円ほどはかかるかもしれません。

また、議事録作成となると、作成できる社員を育成する教育コストや、内容をチェックする社員の人件費もかかりますが、AIツールを導入すれば、採用・教育にかかるコストや、人件費を削減ができます。

もちろん、AIツールを商用利用する場合は、利用料がかかるケースがほとんどです。しかし、利用料を上回るコストを削減できるケースがほとんどでしょう。

多言語に対応している場合が多い

AIツールの多くは、英語・中国語・日本語・フランス語・ドイツ語など多言語に対応しています。

多言語対応しているツールでは、重要な指標発表や、記者会見、インタビュー動画などを文字起こしして、そのまま翻訳できるので非常に便利です。

逆に、日本語のテキストを外国語に翻訳するのも可能です。外国人観光客向けの文章作成や、外国人向けHPの文書作成など、グローバルにビジネスをしていくうえで、非常に役立つでしょう。

関連記事:【2024年最新版】英語が必要な業務を効率化!文字起こしツール完全ガイド

文字起こしにAIツールを利用するデメリット

コスト削減や業務効率改善などに役立つAIツールですが、利用にあたっては以下のようなデメリットも考えられます。

文字起こしにAIツールを利用するデメリット

この後の内容を参考にして、デメリットを把握したうえで、文字起こしにAIツールを利用するべきかを判断しましょう。

利用料金がかかる場合がある

AIツールによっては、利用期間やデータファイル容量ごとの利用料金がかかります。

ビジネスシーンで利用する場合、ファイル容量や使用できるツールのレベルといった問題があるため、基本的には有料版を使用するのがおすすめです。無料版では、精度が低かったり、アップロードできるファイルの制限が厳しかったりします。

すぐに有料契約をするのが不安な場合は、無料トライアルを提供しているツールも多いため、ぜひ気軽に試してみましょう。

Rimo Voiceの無料トライアルはこちらから試すことができます。複数ツールを比較して、精度や使い勝手で気に入ったものを導入するのがおすすめです。

セキュリティ対策レベルはツールにより様々

AIツールごとに、セキュリティ対策レベルは異なります。会議音声や顧客情報が漏洩しないように、プライバシーポリシーセキュリティ対策などを詳しく調べておきましょう。

具体的には、以下のポイントをチェックしておくのがおすすめです。

セキュリティ対策レベルに関するチェックポイント

昨今、AIツールにおいて問題になっているのが、学習データが他利用者に表示されてしまう事例です。

ISO認証を取得しているかどうかやプライバシーポリシーに関する情報保管規制に記載があるかどうかなどツール提供者側からの判断も重要でしょう。

関連記事:ChatGPTは企業でも安心して使える?セキュリティ対策・情報漏洩対策方法を徹底解説

人による最終チェックが必要

どれだけ高精度のAIツールであっても、現状、100%の精度で文字起こしするのは困難です。音声文字起こしにミスが発生する原因として、以下のようなケースがあります。

音声文字起こしでミスが起こりやすいケース

上記のようなミスが起こってしまうため、最終的には人によるチェックが必要です。

しかし、文字起こし〜校正〜最終チェックとすべてを人力でやるよりは、圧倒的に効率よく文字起こしができるでしょう。

まとめ

ChatGPT単体では、音声認識に対応しておらず、文字起こしができません。そのため、音声認識用の外部ツールを使用したうえで、文字起こしをする必要があります。

ChatGPT以外のAI文字起こしツールを選ぶ際には、機能性だけでなく、料金や対応言語もしっかりとチェックしましょう。また、入力するデータの機密性が保てるか、セキュリティ対策に問題がないかも細かくチェックする必要があります。

ChatGPTを使って、文字起こしや要約・議事録作成などをしたいとお考えの方には「Rimo Voice」がおすすめです。

RimoVoice訴求画像.png

1時間ほどの音声データを、約5分で文字起こしし、ChatGPTにより要約を作成します。

無料トライアルもできるため、文字起こし・議事録作成にお困りの方はぜひ一度お試しください。

最終更新日: 2025 / 2 / 6

Improve work efficiency by entrusting meeting minutes creation to AI in Rimo

Easy automatic transcription starting at 22 yen per 30 seconds. Available on smartphones and computers.

Rimo

Related articles

Tags

  • AI
  • Transcription
  • 業務効率化

Return to List

Rimo

AI transcription and summary