グーグルの開発者会議で表示されたAIの基盤モデル「Gemini(ジェミニ)」のロゴ=2024年5月14日、米カリフォルニア州マウンテンビュー、五十嵐大介撮影

 対話型AI(人工知能)「ChatGPT(チャットGPT)」など最新のAI技術で、音声や動画など様々なデータを扱える機能が広がっている。人間並みの速さで会話できる技術など、人間とAIのやりとりのハードルを下げる動きが急加速してきた。

 米オープンAIは13日、新たな言語モデル「GPT―4o(フォー・オー)」を発表した。チャットGPT上で音声で話しかけると、人間と会話を交わすようにリアルタイムで対話できる。利用者の表情や声のトーンからその人の感情も理解できるという。

 GPT―4oは、文章や音声、動画など異なる形式のデータを一つのモデルで処理し、処理速度を向上させた。日本語など50言語で性能を向上させたほか、企業向けでは利用コストが半分になるという。文章と画像機能は13日から無料で提供し、新たな音声機能は今後数週間かけて有料会員向けに提供するという。

顔の表情で「心理状況も把握」

 同社が示したデモでは、男性…

共有