DeepMindが汎化AIエージェント「Gato」を構築 単一モデルのエージェントが600以上のタスクを実行可能

このエントリーをはてなブックマークに追加

イギリスに本社を持つDeepMind Technologiesは5月12日、テキスト出力の領域を超えた単一の汎化エージェント「Gato」を構築したことを発表した。Gatoは画像のキャプション付けやチャット、本物のロボットアームによるブロック積みなどさまざまな動作を実行でき、文脈からテキストの出力や関節の動作、ボタンの押下などを決定する。

Gatoはトレーニング段階で、異なるタスクやコンピュータビジョン、音響などからのデータをトークンの順番にシリアル化・バッチ処理し、大規模言語モデルに似たニューラルネットワークによって処理されるという。米TechCrunchによると、Gatoは単一のエージェントで604のタスクをこなせるようにトレーニングされているようだ。

Gatoはテキストなどの周りの環境から行動を決定し、実行する。この一連の動作は連続して実行され、常に1024の過去の環境と行動を参照して次の行動を決定しているという。

以下の画像は学習済みのGatoモデルが画像のキャプション付けやチャットでの対話、ロボットアームの制御など、さまざまなタスクを実行している様子を示している。

>>Gato公式サイト