Ledge読者の皆様であればもはや既知の話ではありますが、正直現在のAI技術はまだ『分類』と『選択』がメイン。
なので、もちろん調整と学習次第ではいろいろ便利にはなるものの、AI側の判断ミスや指示把握エラーを起こさせないための人力管理と設計が何よりも大事で何よりも面倒くさい。…と、いうのがこれまでの常識でした。
常識だった。 の…ですが!!
とりあえず以下動画をご覧ください。日本の Preferred Networks がやってくれました。
動画の中身ざっくり紹介
- 人間が「輪ゴムの箱取って、 右上のボックスにうつして」と音声指示
- ロボットに搭載されたAIが音声を認識 ⇒ テキスト分解 ⇒ 指示内容を把握
- 指示内容に対し、AIが精緻化を求める質問『すんません2個あるんすけどどっちですか?』を発話
- 人間は「くまのぬいぐるみの近くにあるほうだよ」と追加で指示
- AIが『あー、わかった。やります』と発話
- 指示内容に即しオブジェクトを映像認識して座標把握
- 実際の行動プロセスを選択し実行
すんごいふわふわした指示から、理解できない部分を確認して実行する処理をAIが自ら選択しています…。
これまでロボティクス系の先端技術と言われていた『画像認識によるアラートや対応選択』ですとか、『問題のあるオブジェクトの検出と分類』なんていう段階を一気に飛び越えて……もはや 『それなんてSF?』 てレベルです。
つまりどういう技術なのか? 公開された論文ざっくりまとめ
以下は Preferred Networks が arXiv.org で公開してくれている論文から抜粋。ひとまず解説してみます。

- Google Speech APIで音声入力を指示テキストに変換
- ロボットのカメラで取得した画像に対しSSD※ ベースの物体検出器でオブジェクトを認識
- 認識したオブジェクトに対しCNN※ で画像特徴を抽出
- 指示テキストと対象画像の特徴情報を照らし合わせて対象オブジェクトを特定
- 与えられた指示があいまいな場合、人間のオペレータにフィードバックを提供(要するに聞き直す)
- 指示テキストの精緻化を行い行動を選択 ⇒ 実行
と、こんな感じで動いてるそう。
確かに、理屈ではできることは分かります。分かります…が、それをこのスピードで、この精度で実現してしまいますか。。。すごい。。
※CNN:Convolutional Neural Network: CNNまたはConvNet
これができるようになるとつまり何が起こるのか
動画ではなんだかしれっと実行してしまっているのでパッと見「へぇー」って程度の話に見えてしまうんですが、今回の研究結果が示すのはつまり
≒『コレやっといて』でいろいろできちゃう世界
…の、実現可能性を具体的に示してくれたこと。なんじゃないかなぁ? なんて思っています。
- 制約の無い言語で指示された命令を処理し
- 対話を通じて指示の曖昧さを回避
- そしてディープラーニングによる『見ているもの』との情報すり合わせを行い
- 指示を実行してくれる
今後のロボティクス、あるいはチャットボットなどに代表される『人とAIとのコミュニケーション』という文脈において大きな意味を持つ研究結果と言えそうですね。
さらなる詳細情報をもとめて Preferred Networks への取材申請は現在まさにお願い中。ぜひぜひ続報をお待ち下さい。