OpenAI、音声、視覚、テキストをリアルタイムで推論できる新しいフラッグシップモデル「GPT-4o」を発表
※本サイトは、アフィリエイト広告および広告による収益を得て運営しています。購入により売上の一部が本サイトに還元されることがあります。
OpenAIが、ChatGPTの新バージョン「GPT-4o」を発表しています。
音声、視覚、テキストをリアルタイムで推論できる新しいフラッグシップモデルで、より自然な人間とコンピュータの対話への一歩であり、テキスト、音声、画像のあらゆる組み合わせを入力として受け入れ、テキスト、音声、画像のあらゆる組み合わせを出力として生成します。
音声入力に対して最短232ミリ秒、平均320ミリ秒で応答することができ、これは会話における人間の応答時間(新しいウィンドウで開きます)に似ています。
GPT-4oは、英語とコードのテキストでGPT-4ターボの性能に匹敵し、非英語言語のテキストでは大幅に改善され、APIでははるかに高速で50%安価です。
GPT-4oは、既存のモデルと比較して、視覚と音声の理解において特に優れています。
GPT-4o以前は、ボイス・モードを使ってChatGPTと話すことができましたが、その待ち時間は平均2.8秒(GPT-3.5)、5.4秒(GPT-4)でした。
これを実現するために、Voice Modeは3つの独立したモデルのパイプラインになっています。
1つのシンプルなモデルが音声をテキストに書き起こし、GPT-3.5またはGPT-4がテキストを取り込んでテキストを出力し、3つ目のシンプルなモデルがそのテキストを音声に戻します。
このプロセスは、知能の主要な源であるGPT-4が多くの情報を失うことを意味ます。
つまり、トーン、複数の話者、背景のノイズを直接観察することができず、笑い、歌、感情の表現を出力することができません。
GPT-4oでは、テキスト、視覚、音声にまたがる単一の新しいモデルをエンドツーエンドで訓練しました。
つまり、すべての入力と出力が同じニューラルネットワークによって処理されます。
GPT-4oの機能は、順次展開される予定です(今日からレッドチームへのアクセスが拡大されます)。
GPT-4oのテキストと画像の機能は、ChatGPTで今日から展開され始め、GPT-4oは無料版と、最大5倍のメッセージ制限を持つプラスユーザーで利用できるようになります。
今後数週間でChatGPT Plusのアルファ版でGPT-4oを使ったボイスモードの新バージョンを展開する予定です。
また、開発者はテキストとビジョンモデルとしてAPIでGPT-4oにアクセスできるようになりました。
GPT-4oはGPT-4 Turboに比べて2倍速く、価格は半分で、レート制限は5倍高くなっています。
GPT-4oの新しいオーディオとビデオ機能のサポートは、今後数週間のうちにAPIで信頼できるパートナーの少人数グループに開始する予定です。