
5/13(米国時間)にOpenAI社が新モデル「GPT-4o」を発表しました。
今回は、大きな話題を呼んでいる「GPT-4o」について、3分でわかりやすく解説します!
今回のアップデートで変わった重要なこと
・入力がテキスト、音声、画像、ビデオの自由な組み合わせで活用可能に
・出力もテキスト、音声、画像の自由な組み合わせで活用可能に
・音声入力に対する初動時間が劇的に短縮(5.4秒→0.32秒)、人間レベルに向上
・日本語の生成速度が約3倍に
・API料金が半額に
今回の更新で印象的なことは、性能の向上がUXの向上にも寄与しており、全体的な使いやすさが向上したことです。
他社がOpenAIに追いつけ追い越せをしている中、UXの向上にコミットしてきたのはさすがですね!
モデル概要
機能 | モデルが単一のマルチモーダルモデルとして新しく作られたそうですが、これにより入出力が各モーダルの自由な組み合わせで活用できるようになりました。 |
---|---|
精度 | モデルの性能については、OpenAI社自身のGPT-4 Turbo や音声専門のwhisper、他社のClaude、Gemini、Llama3と比較し、テキスト、音声、画像のほとんどのベンチマークでトップとなっています。 |
速度 | モデルが単一となったことで速度が向上し、人間と対話しているような速度で反応が返ってくるようになりました。トークン生成の速度も2倍になり、また日本語のトークン化効率が1.4倍になったことで、これまでのGPT-4 Turbo の約3倍の速度で日本語が生成されるようになりました。これらはビジネスにおいて、新たな可能性を拓くと考えられます。 スマートフォンとの相性も良いため一般消費者向けにも新たな活用方法が生まれると考えられます。 |
コスト | API料金が半額になったことも活用の敷居を下げました。 |
新たな可能性と留意点
入出力パターンを様々に選択できること、反応速度が人間レベルになることで、用途に新たな可能性が拓いた
一方で入力方法や利用デバイスが変わるということは、その分のリスクについて考慮しなければなりません。
これまで策定してきたポリシーも含め、AIの活用方法について再考する機会なのではないかと思います。
これまでと変わらないこと
全体的に性能が向上したが、LangChainによるプログラミングやRAGアーキテクチャを中心にソリューションを検討することはこれまで通り必要
精度は向上しましたが、大幅な性能向上というわけではなく、最終的に得られる出力は既存のものと大きな差はないと思われます。
したがって現在と同じように、LLMの前後で各種処理を挟んで最終的なソリューションを構築するというアプローチは変わらないと考えられます。
今後もGPT-4oを含むLLMの動向を追いながら、検証記事などもTDSEマガジンでお伝えしていきますのでお見逃しなく!
TDSEは、これまで画像処理や自然言語処理等、多種多様なモーダルを用いたデータ活用プロジェクトをご支援してまいりました。
LLMのビジネス活用に関するプロジェクト実績もございます!
LLMやマルチモーダルAIのビジネス活用にご興味をおもちでしたら、是非お気軽にご相談ください!
TDSEの専門チームがお客様の具体的なニーズに合わせたソリューションをご提案いたします。