GPT-4oとは?
OpenAI社が提供する AI言語モデル「GPT」の最新バージョン
GPT-4oとは、OpenAI社が提供するAI言語モデル「GPT」のバージョンで、2024年5月にリリースされました。前バージョンのGPT-3.5とGPT-4よりも処理速度や翻訳性能が向上し、テキスト、音声、画像、動画を同時に処理できるようになっています。
GPTのこれまでの進化の道のりは、以下のとおりです。
・2018~2019年:GPT、GPT-2が登場
・2020年:GPT-3が登場
・2022年11月:GPT-3.5が登場、ChatGPTがリリースされて世界中の注目を集める
・2023年3月:GPT-4が登場
・2024年5月:GPT-4oが登場
※2024年11月7日時点
GPTの機能をバージョン別に比較
GPT-4oは、過去のバージョンと比較して、どのような進化を遂げているのでしょうか?ここでは、GPT-3.5からGPT-4oまでの機能を比較してみました。
【GPTバージョンごとの機能比較】
|
GPT-3.5
|
GPT-4
|
GPT-4o
|
特徴
|
高速で低コスト、コスト効率がよく短いタスクに最適
|
大規模データを扱う、高度な理解が可能、高性能だがコストが高い
|
ベンチマークで高評価、コスト効率がよい
|
得意分野
|
コスト重視、短いタスクが得意
|
複雑なタスクが得意
|
コストパフォーマンスを重視する
|
モデルサイズ
|
約1,750億パラメータ
|
非公開だがGPT-3.5より大規模
|
非公開だがGPT-3.5より大規模
|
コンテキストウィンドウ*
|
入力
|
16,000トークン
|
最大128,000トークン
|
最大128,000トークン
|
出力
|
4,000トークン
|
8,000トークン
|
2,000トークン
|
マルチモーダル機能
|
ー
|
テキスト、画像に対応
|
テキスト、画像、音声、動画に対応
|
コスト効率
|
入力トークンあたりの費用
|
0.50ドル/1M
|
10.00ドル/1M
|
5.00ドル/1M
|
出力トークンあたりの費用
|
1.50ドル/1M
|
30.00ドル/1M
|
15.00ドル/1M
|
*コンテキストウィンドウとは、AIが一度に処理できる情報量のこと。
※2024年11月7日時点の情報に基づきます
GPT-4oはGPT-4からどのように進化した?
ここでは、GPT-4oはGPT-4からどのように進化したのかを具体的にご説明します。
テキスト、音声、画像などを組み合わせて処理できるようになった
GPT-4oは、複数の形式のデータを同時に処理できるようになりました。このような機能は、マルチモーダル機能と呼ばれています。
GPT-4では、テキスト、画像を扱うことが可能でしたが、GPT-4oではそれに加えて、音声や動画も含む完全なマルチモーダル機能を実現しています。
人間の会話とほぼ同じ応答時間になった
GPT-4oの応答時間の平均は320ミリ秒で、人間の会話速度に近い速度です。これにより、スムーズな受け答えが可能になりました。一方、GPT-4は処理速度よりも、大規模データの処理、より高度な理解を得意としているモデルです。
コスト効率が大幅に向上した
上記の『GPTの機能をバージョン別に比較』の表でもご説明したとおり、GPT-4oはGPT-4と比べると、コスト効率が向上しています。
|
GPT-4
|
GPT-4o
|
特徴
|
大規模データを扱う、高度な理解が可能、高性能だがコストが高い
|
ベンチマークで高評価、コスト効率がよい
|
コスト効率
|
入力トークンあたりの費用
|
10.00ドル/1M
|
5.00ドル/1M
|
出力トークンあたりの費用
|
30.00ドル/1M
|
15.00ドル/1M
|
※2024年11月7日時点の情報に基づきます
GPT-4は高性能なモデルですが、そのぶんのコストが高くなっています。一方、GPT-4oはマルチモーダル機能を搭載し、高度な知識理解が可能と、高性能ながらコストパフォーマンスに優れていることがわかります。
機能別にGPT-4o のアップデート内容を解説!
ここでは、GPT-4oに追加された新機能について解説します。
音声認識・音声会話機能
GPT-4oでは、音声モードに以下のような新機能が追加されています。
入力された音声のトーンを認識することで、複数の話者の区別が可能になり、背景の騒音も認識できます。そのため、複数人の会話や野外での会話など、複雑な環境でも正確な音声処理が可能になりました。
また、音声を読みあげる際は、笑い声、歌声のような感情の表現を含めた、多彩な音声の表現を実現しています。
画像生成機能
GPTをベースにした画像生成AI「DALL-E 3」や「Stable Diffusion」において、一人のキャラクターを一貫して生成することは大きな課題でした。GPT-4oのアップデートにより、この問題が改善され、同一キャラクターを一貫して描画することが可能になっています。
そのほか、画像上でのテキスト表現、複数の画像の合成、3Dアニメーション生成などの機能が改善されました。
データ分析機能
GPT-4oの有料プランを選択することで、AzureやGoogle Driveのファイルと連携することが可能です。これにより、Google スプレッドシードやドキュメントなどのファイルを用いて、直接データ分析や資料作成ができます。
GPT-4oの利用方法
ここでは、GPT-4oの料金やはじめ方、使い方について解説します。
GPT-4oの料金
GPT-4oの料金は、リクエスト数やデータの処理量にもとづき、以下のように設定されています。
・入力トークン1Mあたり5.00ドル
・出力トークン1Mあたり15.00ドル
※2024年11月7日時点の情報に基づきます
無料版と有料版は、以下のように利用できるサービスのレベルが異なります。
|
無料ユーザー
|
有料ユーザー
|
利用可能なモデル
|
GPT-3.5、GPT-4o
|
GPT-3.5、GPT-4、GPT-4o
|
利用回数制限
|
5時間あたり10回
|
3時間あたり80回
|
回答文字数制限
|
約2,048文字
|
約25,000文字
|
回答のスピード
|
混雑時には遅くなる
|
優先的に処理される
|
画像生成機能
|
なし
|
あり
|
※2024年11月7日時点の情報に基づきます
GPT-4oのはじめ方 ・使い方
GPT-4oの有料プランのはじめ方は、以下のとおりです。
1.chatgpt.comにアクセスする
2.アカウント作成を行い、有料プランにアップグレードする
3.ページ上部のプルダウンメニューから「GPT-4o」を選択する
なお、無料プランはchatgpt.comにアクセスすれば、利用できます。入力フィールドに質問や指示を入力することで、利用可能です。
まとめ
この記事では、GPT-4oとはどのような言語モデルなのか、GPT-4からどのように進化したのかなどについて解説しました。GPT-4oは、2024年5月にリリースされたGPTの最新バージョン(2024年11月7日時点)で、マルチモーダル機能の実装や処理速度の高速化などを実現しています。
GPTをはじめとしたAI技術は進化をつづけており、ビジネスに活用するためには、最新の技術について理解を深めていく必要があるでしょう。最新のAI技術を活用するためには、専門的な知識や経験が必要です。その際には、SHIFT のAIに関する豊富な専門知識をお役立てください。
AIを活用したDXサービス開発なら、SHIFTにご相談を!
生成AIの代表的なサービスといえば、ChatGPTです。最新のバージョン(2024年11月7日時点)GPT-4oは、コストパフォーマンスがよく、優れた機能が豊富です。最新バージョンをうまく活用できれば、ビジネスの効率化などが実現できる可能性も十分にあるでしょう。
しかし、ChatGPT に詳しい社員がいない、社内の理解が得られず最新バージョンに乗り換えが進まないなど、課題を抱えているケースも多いのではないでしょうか?
そこで、SHIFTのDXサービス開発をご利用いただくことで、AIの活用の課題を解決いたします。AIに関する豊富な知見や多種多様な業界ノウハウを活かし、お客様の業務やお悩みに対する最適なご提案をいたします。
これまでSHIFTのサービスを導入いただいた企業様は、3,000社以上です。その豊富な専門知識と経験を活かして、売れるサービスづくりの実現をサポートいたします。
ご相談はこちらから。
>>お問い合わせ
>>料金について