Googleが来場者をざわつかせた「AIとの対話」

マルチモーダル性を備え、音声で対話する生成AIを持っているのはGoogleだけではない。

冒頭で述べたように、Google I/O開催の前日には、OpenAIが「GPT-4o」を発表している。こちらもマルチモーダル性の強化が特徴だ。そして、Project Astraと同じように、人間と話しているような対話を実現している。

OpenAIが狙っているのも、Googleと同様に「人と対話しながら使うサービス」だ。OpenAIが究極的に目指しているのは「汎用人工知能(Artificial General Intelligence、AGI)。AGIが実現されていくなら、人間をサポートするAIエージェントに使われるのは必然である。

AIが人と対話するには、マルチモーダル性とともに「即応性」も必須になる。質問への回答に何秒もかかるようでは会話にならないからだ。

GPT-4oにしてもProject Astraにしても、AIの反応は非常に素早い。GPT-4oはすでにChatGPTの有料版である「ChatGPT Plus」で利用可能になっている。筆者も使ってみたが、従来に比べとにかく回答までの待ち時間が短く驚かされた。

Googleも今回、素早くスムーズな対話に特化した「Gemini Live」や即応性とコストを改善した「Gemini 1.5 Flash」を発表している。

生成AIの評価点と言えば「賢さ」というイメージが強いかもしれないが、実際にはそれは正しくない。多くの人が利用するようになればなるほど、サービスの即応性は極めて重要な要素になってくる。反応が遅いと利用者が「離脱」してしまうからだ。

即応性の追求と競争は、生成AIが本格的に社会実装され、利用者が増えていく過程で必須の変化なのだ。

スマホとの連携がGoogleの強み

では、近い将来に登場するAIエージェントはどこで使われるのか?

まずはスマートフォンの中で使われることになるだろう。スマホにはカメラもマイクも内蔵されている。常に持っていることが多く、もっとも身近なコンピューターでもある。

現在もネットの大半はスマホから利用されているが、様々な日常的な情報を検索しつつ生活の助けとするなら、スマホの上に賢いAIが搭載され、それを活用する流れになるのは間違いない。

だとすれば、生成AIにはマルチモーダル性が必須であり、スマホへの搭載も必然ということになる。

生成AIの技術面ではOpenAIが先行していると言われるが、人々が実際に接するにはなんらかの機器が必要。GoogleはAndroidというOSを持っていて、スマホメーカーとの関係も密である分、OpenAIよりも有利な部分がある。

今回のGoogle I/Oで、同社のスンダー・ピチャイCEOは「The Era of Gemini(Geminiの時代)」という言葉を使った。Googleのあらゆるサービスの基盤にGeminiが使われていくことを示したものだ。その中核はもちろんAndroidへのGemini統合があり、将来的にはProject Astraの成果がある。Googleとして強調したいのはそこなのだろう。

Googleのスンダー・ピチャイCEOは「The Era of Gemini」と宣言(筆者撮影)

そこで気になるのは「もう1つのスマホOSメーカー」だ。

生成AIからスマートフォンで動くAIエージェントへと移行していくのが必然であるなら、アップルも同じことを考えるのも、また必然であろう。

アップルは現状、この種の技術に対する方向性を明確に示してはいない。6月には開発者会議「WWDC」を開催するため、そこでなにかが発表される可能性は高いだろう。アップルの提携先としてはいくつかの噂があるが、OpenAIやGoogleの施策との関係を想像すると、「アップルがどことなにをするのか」が見えてくるような気もするのだが……。