Whisperとは？メリットや使い方、料金、注意点をわかりやすく解説

2024.12.13

著者株式会社SHIFT　マーケティンググループ

Introduction

Whisperとは、OpenAI社が開発した音声認識モデルで、人間の会話の文字起こしや翻訳などができるAIツールです。このようなAIツールをビジネスに活用すれば、業務効率の改善や作業品質の向上が期待できます。

しかし、Whisperによる文字起こしの精度はどの程度なのか、まわりの騒音などが含まれる音声データに対応できるのかなど、気になる点も多いでしょう。また、Whisperを導入すると具体的にどのようなメリットがあるのか、簡単に導入できるのかなども気になるところです。

この記事では、Whisperとは何か、音声認識モデルとはどのようなものか、Whisperを利用するメリットや注意点、具体的な使い方などについて解説します。

※2024年11月20日時点の情報に基づいて制作しています。

Whisperとは？

Whisperは音声認識モデルで、入力された音声を文字に変換するツールです。ここでは、Whisperの基本情報や音声認識モデルとは何かについて解説します。

▽おすすめ資料▽
「わかったふりからの卒業「ヒンシツ大学生成AI活用スキル習得講座」のご案内」
SHIFTが培ったナレッジを言語化・体系化した教育専門機関「ヒンシツ大学」の生成AI講座に関する資料です。生成AIの活用スキルを身につけ、業界のリーダーへと成長するための特別な講座をご紹介します。
＞＞「わかったふりからの卒業「ヒンシツ大学生成AI活用スキル習得講座」のご案内」のダウンロードページへ

OpenAI社が提供している音声認識モデル

Whisperは、OpenAI社が開発した音声認識モデルです。さまざまな言語の音声を文字起こしできるツールで、日本語の音声にも対応しています。

OpenAI社の公式サイト『Introducing Whisper』によると、以下のように定義されています。

Whisper

Whisper is an automatic speech recognition (ASR) system trained on 680,000 hours of multilingual and multitask supervised data collected from the web.

訳：Whisper は、Web から収集された 680,000 時間の多言語およびマルチタスク監視データに基づいてトレーニングされた自動音声認識 (ASR) システムです。

OpenAI社が上記で紹介しているように、Webから収集した68万時間分の多言語の音声データを学習しています。そのため、音声データを高い精度で文字起こしすることが可能です。※2024年11月20日時点での情報

たとえば、録音データを読み込ませて文字起こしする、音声をさまざまな言語に変換するなどの使い方があります。また、雑音が多い環境での音声や、複数人の同時会話も識別でき、動画に字幕をつけることも可能です。

▼あわせて読みたい▼
＞＞音声認識とは？AIを活用する仕組み、導入するメリット・注意点を解説のページへ

そもそも音声認識モデルとは？

Whisperは音声データを認識し、テキスト情報として出力する音声認識モデルです。そもそも、音声認識モデルとは何なのでしょうか？

音声認識モデルとは、人間の音声をAIが認識し、その音声をもとにさまざまな形式のデータを出力する技術です。たとえば、Amazon Echoなどのスマートスピーカーも音声認識の一種で、人間の声を認識して内容を理解し、ネット検索をしたり家電を操作したりします。

Whisperの音声認識モデルが音声を認識する仕組みについて、簡単に見ていきましょう。入力された音声は30秒単位に区切り、人間の耳の聞こえ方に近い周波数で変換され、数値化されます。この変換されたデータがエンコーダーに送られ、そのあとにデコーダーでテキストに変換されます。

Whisperを利用するメリット

Whisperには、音声認識の精度が高い、処理速度がはやいなど多くのメリットがあります。ここでは、Whisperを利用するメリットについて解説します。

音声認識の精度が高い

上記でもご説明したとおり、Whisperはネット上の約68万時間もの大量の音声データを学習済みです。そのため、日本語の文字起こしの単語誤り率は5.3％と、高い精度で文字起こしが可能です。

音声認識の精度が低いと、文字起こしした結果の間違いが多くなり、あとで人間が手直しする作業が増えてしまいます。その点、Whisperの認識精度は高いため、手直しする作業負担を軽減できるでしょう。

処理速度と認識精度のバランスを選べる

Whisperの音声認識モデルは、tinyからlargeまでの5段階が用意されており、処理速度と認識精度のバランスを選べます。

もっとも処理速度がはやいのがtinyモデルで、そのかわり認識精度がもっとも低くなっています。単純な音声データの文字起こしをスピーディーに行いたい場合に、適しているでしょう。一方、largeモデルは処理時間がもっとも長いですが、高精度な文字起こしが可能です。

このように、モデルによって特徴が異なるため、状況にあった最適なモデルを選ぶとよいでしょう。

長時間の音声データにも対応できる

1回にWhisperに入力できる音声データの最大容量は、25MBです。しかし、データを圧縮する、分割して入力するなどの工夫をすれば、長時間の音声データにも対応できます。

※2024年11月20日時点での情報

プロンプトでの指示出しが可能

音声データのなかに難解な専門用語が含まれていたり、音声だけでは認識がむずかしい単語が含まれていたりする場合もあります。そのような場合にも、プロンプトで指示を出して専門用語をWhisperに覚えさせる、正しい句読点の位置を正確に把握させるなどが可能です。

プロンプトを入力して適切な指示を出すことで、認識がむずかしい音声でも、高い精度で文字起こしできます。

安価で利用できる

Whisperは、Google Colaboratory やGitHubに含まれる、オープンソースモデルを利用すれば無料です。API経由で利用すると、1分ごとに0.006ドル（1ドル155円の場合は0.93円）です。1時間使用しても約55.8円なので、非常に安価なことがわかります。

なお、性能面では、有料版のAPI版の方が高精度といわれています。

※2024年11月20日時点での情報

多言語に対応している

Whisperは、日本語以外にもさまざまな言語に対応できる点が、ほかの音声認識モデルにはない強みといえます。また、音声データをテキストデータに変換するだけではなく、音声データの翻訳も可能です。

Whisperは、登場してから多くの音声データを学習しつづけているため、新たな言語に対応できるように進化しています。そのため、今後も対応できる言語の幅が広がる可能性もあります。

Whisperの使い方

ここでは、Google Colaboratory を利用して、Whisperをインストールして使いはじめるまでの具体的な手順についてご説明します。ほかにも、GitHubのソースコードやWhisper APIを利用する方法もありますが、基本的には同じ流れです。

①Whisperにログインする

OpenAIのAPI管理サイトにアクセスし、アカウント登録を行いましょう。メールアドレスの登録、氏名、生年月日の登録と手続きを進めていき、アカウントを登録します。

API管理サイトにログインしたら、API keyの払い出しを行います。メニューから「API keys」を選び、「Start verification」を選んでください。入力した電話番号にコードが送信されるので、そのコードを入力します。API keyの名前を決めて入力すると、API keyが表示されるので、メモ帳にコピーなどをして保管しておきます。

②環境設定を行う

Colabにアクセスして「ノートブックを新規作成」を選び、新しいプロジェクトを作成します。

その後、インストールコードを実行します。インストールコードはGitHubのWhisperのオープンソースコードが記載されたページで確認できます。

インストールが完了までに時間がかかるため、完了するまで待ちます。

③音声ファイルをアップロードする

文字起こししたい音声ファイルをアップロードします。

④再生して文字起こしを実行する

文字起こしを行うコードを実行すると、文字起こし作業が行われて、抽出されたテキストが表示されます。

文字起こしした結果をファイルに出力するコードを実行すれば、Googleドライブ上のファイルに結果が出力されます。

Whisperを利用する際の注意点

Whisperを利用する際にはいくつかの注意点もあるため、ご説明します。

実行環境の構築やプログラミングコードの知識が必要

『Whisperの使い方』でもご説明したとおり、事前に実行環境の構築、設定が必要です。また、環境構築、設定時以外にも、Whisperを使う際にプログラミングコードを実行する必要があるため、ある程度コードについて知識を得ておかなければなりません。

ツールをインストールすれば、アイコンやメニューを選ぶだけで使えるというものではないため、注意が必要です。

セキュリティ対策が必要になる

Whisperを使用する際には、機密情報の流出リスクも考えられるため、セキュリティ対策について十分な検討が必要です。

Whisperに入力した音声データは、AI学習に使われてしまう可能性があります。アップロードした音声データは削除できないため、社内の重要な会議の音声など、機密情報が含まれるデータのとり扱いには注意が必要です。

まとめ

この記事では、Whisperとは何か、音声認識モデルとはどのようなものか、Whisperを利用するメリットや注意点、具体的な使い方などについて解説しました。

Whisperの文字起こし機能や翻訳機能を活用することで、ビジネスにおける作業効率の改善やコストカットなどに役立つでしょう。しかし、その一方で、Whisperを使うためにはプログラミング知識が必要、機密情報流出のリスクが存在するなどの注意点もあります。Whisperを使いこなすためには、IT知識をもつ人材が必要になるでしょう。

Whisperをビジネスに役立てたいが自社にノウハウがない、IT人材が足らないとお悩みの場合は、SHIFTにお任せください。AIに関する高度な専門知識やノウハウを活かして、お客様の強力にサポートをいたします。

ご相談はこちらから。
＞＞お問い合わせ
＞＞料金について

SHIFTなら、安全・高品質なAIシステムの構築が可能です

「音声データを文字起こしする作業をもっと効率よくできないものか…」「AIツールをもっと業務にとり入れたいが、自社にノウハウがなく困っている」「社内にIT人材が少なく、AIツールの導入まで手がまわらない」などの悩みを抱えている企業様も多いでしょう。

近年のAIツールの進化は、すさまじいものがあります。今回ご紹介した音声認識モデルのWhisperを活用すれば、音声データの文字起こしや翻訳などを高い精度で行うことが可能です。

しかし、AIの技術を活用する際には情報流出のリスクがあり、慎重に対応していかなければなりません。AIを導入して業務に組み込むだけでなく、AI特有のセキュリティに関する問題を解決するのは、むずかしいというケースも多いでしょう。

そこで、SHIFTのAI特化型品質保証サービスをご利用いただければ、AI活用に関する課題を解決いたします。効果的なAIや機械学習の活用をお手伝いし、さらに安全性の高いシステム開発を強力にサポートすることが可能です。SHIFTの豊富なAIに関する専門知識や技術を活かして、お客様のビジネスを支えるAIシステムの品質を守ります。

ご相談はこちらから。
＞＞お問い合わせ
＞＞料金について

引用元：

OpenAI社の公式サイト｜Introducing Whisper

この記事を書いた人

著者株式会社SHIFT　マーケティンググループ

SHIFTは「売れるサービスづくり」を得意とし、お客様の事業成長を全力で支援します。無駄のないスマートな社会の実現に向けて、ITの総合ソリューションを提供する会社です。

サービスサイト：https://service.shiftinc.jp/
コーポレートサイト：https://www.shiftinc.jp/
X（旧Twitter）：https://twitter.com/SHIFT_cp

ご支援業種

製造、金融（銀行・証券・保険・決済）、情報・通信・メディア、流通・EC・運輸、ゲーム・エンターテイメント

など多数

コラム一覧に戻る