昨年10月、Preferred Networksが画期的なロボットの研究を発表しました。人間が『コレやっといて』と指示を出すだけで、ロボットが言葉を理解しピッキングをおこなうというもの。
ご覧のように『輪ゴムの箱を、 右上のボックスにうつして』といった、かなり細かい指示まで理解して動作します。
- この仕組みは一体どうなっているのか?
- この研究はどういった目的のもと、おこなわれたのか?
など、気になることをPreferred Networksに取材してきました。
今回お話を伺ったのは、
- 知的情報処理事業部 事業部長 海野 裕也 さん
- ビジネス開発 河合 圭悟 さん
のお二人です。
複数のニューラルネットワークを組み合わせ、複雑な問題を解く
――動画拝見しました、まるで人と機械が本当にコミュニケーションをとっているかのようですね。このピッキングロボットの仕組みを教えいただけますでしょうか?
「ユーザーの指示をロボットへの操作に落とし込む過程に深層学習の技術を使っています。複雑な問題なのですが、3つのニューラルネットワークを組み合わせ、複雑な問題を解いているというわけです。」
各ニューラルネットワークの役割は、下記のとおり。
(2) カメラからの画像を解析(物体検出)
(3) 2つの結果を結びつけて、ピッキングする物体を判断づける
「(1)のネットワークでは、ユーザー発話を処理します。深層学習をつかうことによって、曖昧な話し言葉も扱うことができるんです。
具体的には、『ふわふわ』や『茶色』という単語たちと『くま』という単語を結びつける、といったことですね。」
ただ、教師あり学習なので、基本的には教えた範囲でしか対応できない、と海野さん。とはいえ、今回の研究では指示パターン数万件・100種類ほどの物体で学習をしたおかげか、その100個以外の物体も認識できるようになっているとのことです。工場の現場での実用も期待できそうですね。
「(2)では、カメラに写った画像を解析します。(1)と(2)を組み合わせ、(3)のネットワークで最終的に“どの物体をピッキングすれば良いのか”を判断します。
『ぬいぐるみ』『茶色』『青色』『箱』『四角い』といった言葉が、何を指しているのかという事前情報を一切与えていませんが、学習の結果としてそれぞれが適切な視覚情報と紐付いて判断できるようになります。」

▲ 現在ピッキングしているのは「おにぎりケース」。筆者も最初は正式名称がわからなかったですが、「三角」「オレンジ色」というキーワードでピッキングが可能でした。
なるほど。たしかに、ティッシュの箱や輪ゴムの箱って、普段目にしている日本人にはわかりますが、外国の方にはさっぱり何なのかわからないです。曖昧な指示に対応するというのはもちろん、文化・文脈が理解できず名前がわからなかった場合にもピッキングできるというわけですね。
「もし、指示されたものが複数見つかればユーザーに質問を仕返す、という機能も実装しています。」
インタラクションの設計にも工夫があるのですね、まるでロボットが意思を持っているように感じました。素晴らしいですね。
人と機械の対話に、深層学習が必要な理由
――深層学習の技術は、ロボティクスの世界にはどのような影響を与えるでしょうか?
「産業用ロボットって、実はまだ自動車の工場での溶接や塗装、搬送とか一部でしか使われていないんですね。『数センチ先までアームを右に動かす』といった、定型的な作業しかまだできないのが現状です。」
「ただ、私たちはもっとできることがあると思っています。曖昧なデータを扱うのが得意な深層学習によって、ロボットがもっと多くのことや、人とのインタラクションをおこなうことができるようになってきます。」
その曖昧なデータの代表が人間の言葉、というわけなんですね。
海野さんいわく、深層学習はデータ・ドリブンなため、くずれたデータを集めれば、くずれた話し言葉にも対応することができるとのことです。
より重要になってくる、データと“現実世界との結びつけ”
――今回の研究のなかで、特に強く意識した点はありますか?
「今回、複数のニューラルネットワークを組み合わせることで、機械が『耳で聴き、目で認識し、考えて行動を起こす』といった“現実世界との対話”や“現実世界との結びつき”を強く意識しました。こうしたことが実現できれば、あらゆる場面での可能性が広がると思っています。」
「茶色」「ふわふわ」といった断片的なワードたちと、カメラに写ったものを実際に結びつける、といった部分ですね。複数のニューラルネットワークが組み合わさってリンクする光景は、実際に体験してみると非常に驚きました。
「いままで自然言語処理はバーチャルな世界での話だったんです。たとえばWord2Vecで『りんご』『みかん』が似ていると結果が出ますが、機械はそれらを見たことも触ったことも味わったこともないですよね。」
単語を数値ベクトルに変換できるニューラルネットワーク。単語同士の類似度を測ったり、「王 – 男 + 女 = 女王」といった単語同士の足し算引き算もできることで有名。
Word2Vecを含めこれまでの自然言語処理は、分析や学習を、文書データ“だけ”で行っていました。
そのため機械のなかでは、単語の意味を“他の単語との関係性”によってしか捉えられず、文章の中の世界で完結していたのです。
つまり、視覚・触覚といった、人間が普通に言葉を覚える過程での経験が抜けていて、現実世界との結び付きは一切なかったということ。
“現実との結びつき”、たしかに自動運転車などでもかなり重要になってきそうです。たとえば「あそこの隅っこに駐車して」とか「赤い車の横に駐車して」という指示を、車が理解して動いてくれたら素敵ですよね。
「そうですね。これまでは、そういった視点で自然言語処理をおこなうことがなかったし、できなかったと認識しています。
ただ、ロボティクスや自動運転もふくめ、現実世界に干渉する機械を扱うときには、これまでのアプローチでは対応しきれない問題が出てきます。
そういった問題にフォーカスしていくのが、Preferred Networksのテーマでもあり、今回の研究は『こういうことを引き続きおこなっていきますよ』という意思表明でもありますね。」
単体では1つの問題しか解決できないニューラルネットワークも、複数組み合わせることでこんな複雑なことができるとは驚きでした。
スマートスピーカーなどの対話インタラクションが普及しはじめている現在、現実世界との対話・結び付きはより重要になってきますね。
ロボティクス・自動運転にかぎらず、Preferred Networksが今後もいろいろすごいことを発表してくれそう。今後もとても楽しみです。