学術&研究

1~13 / 617件

学術&研究
2026/1/9 [FRI]
アリババ、新世代GUIエージェント「MAI-UI」を発表──AIエージェントによるスマートフォン操作で最高性能を記録のサムネイル画像

アリババ、新世代GUIエージェント「MAI-UI」を発表──AIエージェントによるスマートフォン操作で最高性能を記録

Alibaba GroupのAI研究組織であるTongyi Labは2025年12月26日、GUI(グラフィカル・ユーザー・インターフェース)を直接操作できる新たなAIエージェントモデル群「MAI-UI」を[発表]{target=“_blank”}した。 MAI-UIは、スマートフォンやPCの画面を人間と同様に認識・操作することを目的としたモデル群で、GUI要素の認識(グラウンディング)と操作(ナビゲーション)に関する複数のベンチマークにおいて、最高水準の性能を記録したとしている。 ## GUIエージェントを前提に設計した統一アーキテクチャ MAI-UIの最大の特徴は、GUIエージェントに必要とされる複数の能力を、単一の統一アーキテクチャとして設計している点にある。 Tongyi Labによると、MAI-UIは以下の要素をネイティブに統合している。 - ユーザーとの対話による指示内容の補完 - MCP(Model Context Protocol)を用いた外部ツール呼び出し - デバイス(端末)とクラウドの協調実行 - オンライン強化学習による長期タスク対応 **■ MAI-UIの実行フロー例。GUI操作に加え、ユーザー確認(Call User)やMCPツール呼び出しを組み合わせてタスクを完了する構成を示す** ![MAI-UI x2.png] :::small 画像の出典:[MAI-UI Technical Report]{target=“_blank”} ::: この設計により、画面操作だけに依存する従来のGUIエージェントと比べ、操作回数の削減やタスク成功率の向上を図っているという。 ## デモで示されたスマートフォン操作能力 Tongyi Labが公開したデモ動画では、MAI-UIが画面表示を直接認識し、複数のアプリをまたいで操作を行う様子が示されている。 MAI-UIは、アプリの内部APIに依存せず、画面上のボタンや入力欄を視覚的に把握し、タップ、入力、画面遷移を段階的に実行する。 条件が不足している場合には、即座に処理を進めるのではなく、ユーザーに確認を求めた上で操作を継続する挙動も確認できる。 **■ スマートフォンの鉄道予約アプリを操作するMAI-UIのデモ画面。左が実際の端末画面、右がエージェントの観測・判断・操作ログを示している** ![mai-ui2.jpg] :::small 画像の出典:[MAI-UI: Real-World Centric Foundation GUI Agents]{target=“_blank”} ::: 一部の処理では、MCPツールを併用することで、UI操作をすべて画面経由で行うのではなく、効率的にタスクを進める構成が採られている。 ## デバイスとクラウドの役割分担 MAI-UIは、端末側で動作するローカルエージェントと、クラウド側のエージェントが役割分担する構成を採用している。 基本的なGUI操作や進行管理は端末側で行い、タスク逸脱や高度な判断が必要な場合のみ、クラウド側が介入する設計だという。 **■ 物件情報の比較とメッセージ送信を行うMAI-UIのタスク実行例。GUI操作とMCPツール呼び出しを組み合わせて処理している** ![x7 (2).png] :::small 画像の出典:[MAI-UI Technical Report]{target=“_blank”} ::: この構成により、処理遅延の抑制やプライバシーへの配慮を両立させる狙いがあるとしている。 ## ベンチマークと実世界タスクへの対応 MAI-UIは、既存のGUI操作ベンチマーク「AndroidWorld」に加え、複数アプリをまたぐ長期・複合タスクを想定した新ベンチマーク「MobileWorld」でも評価が行われた。 **■ MAI-UIのベンチマーク結果。ScreenSpot-Pro、AndroidWorld(SR)、MobileWorld(SR)において、既存モデルとの比較を示している** ![mai-ui overview.jpg] :::small 画像の出典:[MAI-UI: Real-World Centric Foundation GUI Agents]{target=“_blank”} ::: MobileWorldでは、ユーザーとの対話、MCPツール活用、第三者への情報共有など、実際の利用環境に近いタスクが設定されている。 **■ 物件情報の比較とメッセージ送信を行うMAI-UIのタスク実行例。GUI操作とMCPツール呼び出しを組み合わせて処理している** ![x8.png] :::small 画像の出典:[MAI-UI Technical Report]{target=“_blank”} ::: ## 公開モデルと今後の展開 MAI-UIのモデル群のうち、2B(20億)および8B(80億)パラメータのモデルはオープンソースとして公開されており、公式リポジトリやモデル配布プラットフォームから利用可能となっている。 Tongyi Labは、MAI-UIを単一アプリ内の自動操作にとどまらない、実世界タスクに対応するGUIエージェントの基盤として位置付けている。 @[YouTube] :::box [関連記事:GUIエージェントの夜明けを示唆する「Claude 3.5 Computer Use」のケーススタディ] ::: :::box [関連記事:OpenAI、ブラウザを直接操作するAIエージェント「Operator」を公開ーー米国Proユーザー向けにリサーチプレビューとして提供開始] ::: :::box [関連記事:AppleがスマートフォンのUI画面を認識できるマルチモーダルLLM「Ferret-UI」に関する論文を発表] ::: :::box [関連記事:Anthropic、AIシステムと外部データソースを統合する「Model Context Protocol」を発表] ::: :::box [関連記事:Google、MCPを全サービスに展開──Gemini時代の「AI×クラウド接続」を標準化] :::

アクセスランキング
mailmagazine_Benefit_260109
FOLLOW US
各種SNSでも最新情報をお届けしております