エンジニアリング
「生成AIと自動運転開発の舞台裏」Developer eXperience Day 2024イベントレポート
2024年7月16日、17日の2日間に渡り、日本CTO協会主催の「Developer eXperience Day 2024」が浅草ヒューリックホールにて[開催]{target=“_blank”}された。 Ledge.aiを運営するレッジもメディアスポンサーを務めた本カンファレンスは、“開発者体験” をテーマに、その知見・経験の共有とそれに関わる方々のコミュニケーションを目的としたカンファレンスだ。両日オフライン・オンラインのハイブリッド形式で行われた。 本記事では、チューリング株式会社の取締役 共同創業者である青木 俊介氏の講演の中で、起業から自動運転技術の開発を目指した経緯、そして特に注目を集めている自動運転技術の開発の舞台裏に関するレポートをお届けする。 :::box ![TURING_19.png] チューリング株式会社 取締役 共同創業者 青木 俊介 米・カーネギーメロン大学 計算機工学科で博士号取得。米国では自動運転システムの開発・研究に従事し、サイバー信号機の開発やゼネラルモーターズ社のウルトラクルーズの開発に携わる。2021年より国立情報学研究所 助教として着任し、青木研究室を主宰。名古屋大学 客員准教授・JSTさきがけ研究員を兼任。MITテクノロジーレビュージャパンより35歳未満のイノベーターIU35に選出。 ::: ## 自動運転開発を目指したきっかけと起業までの道のり チューリング株式会社という社名の由来は、AIの父とも呼ばれるアラン・チューリングからいただきました。アメリカでは、ニコラ・テスラの名前を取って設立されたテスラという会社が、この世紀ではできないと言われていた自動車産業を大きく盛り上げています。そのような会社を日本からも出したいと立ち上がり、ニコラ・テスラに勝つなら誰だ?と考えた時に、アラン・チューリング氏が浮かび、名前をいただきました。 情報化科学やコンピュータサイエンスにはチューリング賞という賞があり、プログラミング言語を作った人、OSのすごい発見をした人などが受賞しています。しかし、日本人からはまだ受賞者がおりません。そこで、完全自動運転技術を開発できたらチューリング賞を受賞できるのではないか?という思いを込めて、“AIとカメラだけでハンドルがない車を作る”という目標を掲げ、2021年に私を含めた技術者二人でタッグを組んで創業した会社です。 ![TURING_1.png] 自動運転と生成AIはまだまだこれから盛り上がる領域だと思いますので、そういった部分も含め紹介していきたいと思います。 まず技術系創業の話ですが、Googleに対しての強みは何ですか?や、テスラに対しての強みは何ですか?という問いに対して考えても、基本的にはないのです。何万人もの社員で形成されている大規模な会社に対して、「うちはこの技術1本で行きます」と言うのは簡単ですが、そこはフェイクでは駄目だと思っています。 私たちは、テスラに勝ちたい、Googleに並ぶような会社を作りたいという思いで頑張っている。ですが、今この瞬間に勝っている話でないということを応援者や一緒に仕事をしている人に対して話をしている。「私たちはこのような高い技術を持っています!絶対勝てます!よろしくお願いします!一緒にやりましょう!」というのはフェイクだと思っていて、我々はこのようなフェイクはしないと決めています。 私は元々、日本でIoTのアプリなどを開発していたのですが、2015年からアメリカのカーネギー・メロン大学(CMU)で研究を始めました。アメリカで研究を始める際に驚いたことがあります。それは、研究のテーマが日本とは大きく違うことです。論文や国際会議を見ていると、意外な分野がすごく盛り上がっていて、日本ではこのテックカンファレンスを目指していたのに、この領域は人がいない、など、CMUやスタンフォードを回って改めて感じることが多かった。そこに刺激を受けて、アメリカでしかできないことをやりたいと思いました。 技術者あるあるだと思うのですが、いろいろな人に「それ何の意味があるのですか?」、「何の役に立つのですか?」などと聞かれることが多く、その度に頑張って説明するじゃないですか。たとえば、30回くらい「意味ありますか?」と聞かれたら嫌な気持ちになりますよね。 一方で、自動運転車はそういった質問がほとんどなかった。私は合計5年半ほどアメリカで研究を続け、その後、日本に帰国して創業を決意しました。 ![TURING_2.png] 日本への帰国と創業を考えるきっかけとなったのは、アメリカでの研究で出会ったルーマニア人の教官に「How can we conquer the market held by Japanese car makers by autonomous driving? (日本の自動車メーカーが持っている市場を どう自動運転ソフトウェアで奪えるだろうか?)」と、言われたときでした。ランチタイムに何気なく言われたこの一言にとてもショックを受け、なぜ自分はショックを受けたのか?と、理由を突き詰めたところ、日本の伝統的なモノづくりの強さがITによる変化で負けている部分にあると気づきました。 日本のメーカーがパソコンを作っても、OS側にお金が流れていく。これと同じように、私がアプリを開発していた際も、3割ほどをAppleに、3割をAWSに払っていた。個人の体験としてですが、とても悔しかった。これが車の業界に起こるのであれば、それは本当に悔しいと思いました。 ![TURING_3.png] 市場の評価に目を向けた時に、左側がテスラの時価総額、右側がフォルクスワーゲンやトヨタ、ダイムラーです。この評価を見て、自分の資産をどこに当てるかを考えると、やはりテスラ株を買いたくなるのだと思いました。 日本でモノづくりや製造業、製造業DXがすごく盛り上がっている理由の1つが、製造業をメインに長く続けている企業が多く、産業規模が大きいところにあると思っています。ここで負けてしまうと、日本の基幹産業の危機だと再認識し、日本で完全自動運転の開発が必要だと改めて感じました。 続いて、創業に関する話を3つ用意してきましたので、順番に話していきたいと思います。 ### 1つ目は、“共同創業者を見つけること” ![TURING_4.png] 統計的にも言われていることですが、すごく大事なことで、スタートアップ創業期の2年間での一番の失敗理由が共同創業者との仲違いや思想の違いだと思います。例えば、チーム創業の場合は30%程度資金調達量が多く、163%パフォーマンスが良いと統計的にも結果が出ています。この表は、マーケット・インするまでの時間軸を表しており、一番下は一人で、その上が二人で創業した場合を表しています。二人の場合が最も短く、一方で、3人以上になると議論が発散してしまうため、時間が長くなってしまうという研究結果がスタンフォードから発表されています。 私は、共同創業者と泊まり込みでソフトウェアを書いたり、お互いの研究成果を話したり、スタートアップの話をしたり、ほとんどの時間をともに過ごしていました。例えるならば、この時間は結婚するための付き合っている期間のようなもので、とても大事な時間だと思っています。共同創業者を探すことはいつでもできることではありません。3年、5年経った頃に、この人を共同創業者にしたいと言ってもできないですから。 ### 2つ目は、技術のベクトル・営業のベクトル ![TURING_5.png] 2つ目は技術のベクトル・営業のベクトルです。 ここを混同して考えている人がたくさんいます。表の横軸が技術の難しさ、縦軸が営業や社会実装の難しさを指しています。難しさのベクトルが直交していて、互いに独立要素であることを考えなくてはなりません。赤い四角で記載されている危険エリアはとても難しい部分。「それを作って誰が使うのか+それを作れるの?」という2つの難しさがあると、もう議論として煙に巻くしかなくなってしまう。これはとても難しい問題だと思います。 例えば、フランスの空港などにある電動キックボード。実は、あの乗り物は技術的には結構難しいものなのです。仮に作ったとして、それが実装されるかと言うと、街中では道路交通法があるため簡単には実装されないですよね。 我々はテックの会社で技術者が集まって創業しているので、技術側に重点を置いて、営業や社会実装の難しさに関しては簡単にしていくという戦略を立てています。このように、難しさのベクトルを1つに減らしていくことがスタートアップの有効な戦略だと思います。 ### 3つ目は、シリアル起業家は強い! ![TURING_6.png] 最近では、アメリカのスタートアップでもシリアル起業家が増えていて、1社起業した後に、そのお金を使用してまた起業をしている。スタートアップを一度上場成功まで導いた体験はやはり強みだと思いますし、最近のスタートアップ市場を見たときに、メルカリさんやZOZOさんを上場させた人が新しい会社を立ち上げている。早めにスタートアップに入り、経験を積んで階段の1段目に上がっていくことは大事だと思います。 私は運良く2人に出会えたので、今こうして起業できていますが、2人に出会えなかったら今この場にはいなかったかもしれません。経験した2人を見ていて、改めてスタートアップに一度入ることはすごく大事なムーブなのだと実感しました。 ## 自動運転開発に向けた課題と検証 ![TURING_7.png] 生成AIや自動運転AIなど、様々なシーンで盛り上がりを見せていますが、俯瞰的に見たときに、AIが色々な領域を破壊していくという懸念が見え、最終的には汎用で強力なAIが生き残るという印象でした。今後も恐らく強力なAIが登場すると思います。 自動運転に関しても、強力なAIを開発して活用することが世界的なトレンドとなりつつあります。その中で、運転環境は図のようにロングテールと言われており、縦軸が発生する頻度で横軸が運転状況をどのようにマネジメントするかの難しさを表しています。 左側の写真は、高速道路や自動車専用道路でよく見る道路で、白線を検知して辿っていけば比較的簡単に自動運転ができる道路ですが、右側の写真は複雑な状況を示しています。交通整理で人が立っている状況をどのようにマネジメントするかが自動運転技術の課題とされている。この課題に対して、クラウドを使用したり、センサーを使用するなど様々な手法を試みた結果、自動運転に生成AIを用いてAIに認識させるという結論に至りました。 ![TURING_8.png] 左の写真の状況は、交通整理の人が誘導棒を持って立っているので、OKの案内があるまで待っていなければならない状況。一方で、右の写真は男性が手を挙げているので、恐らくタクシーを待っている。この2枚の写真に写る後ろ側の工事現場や信号機は、人間が見たら独立事象であると分かる。 ![TURING_9.png] 人間は色々なことを考えながら運転をしていて、この写真を人間が見るとなんとなく状況を把握できると思います。黄色の文字で書いてある部分は、日本語で書いてあるため、外国人がパッと見てすぐに工事をしているとは分からないですが、カラーコーンがあることによって、侵入してはいけないことが人類共通で分かる。そして、2人の誘導員がいて、信号もあって、緑の部分に書いてある身体的指示の理解で誘導棒を持っているので、棒を振ってくれたら先に進んで良いということが人間はパッと瞬時に理解することができる。 ![TURING_10.png] チューリングが開発中の「Heron」は、マルチモーダル生成AIで文章と画像をインプットをして、文章を出力するというシステムです。「今進んで良いですか?」と聞くと「工事中で交通誘導員がブロックしているため行けません」と案内してくれます。 続いて、「信号が変わったら進んで良いですか?」と聞くと、「信号が変わっても誘導員が進んで良いサインを出さないと行けません」と返してきます。自動運転にはここまでの知能が必要不可欠だということを開発していて改めて実感しました。 実験的に行ったことを1つ紹介すると、高速道路で車から豚が逃げ出しているという、まさにロングテールな事象でしか起きない状況。人間でもあまり遭遇しない状況ですが、それでも私たちはマネジメントはできます。同じようにマルチモーダルAIに「この状況でどうすれば良いですか?」と聞くと、「豚が逃げ出しています。豚に危害を加えないように前の車に追従して走ってください」と返してきました。 現在の生成AIはここまでの知能が備わっているのです。このレベルの返答ができたら、私たちが出会ったことがない状況でも、様々な学習データから類推できることを実現できるようになってきました。 ![TURING_11.png] 自動運転の歴史を紐解いていくと、3つの世代があると言われています。 第1世代はCNNが出てきた2012年頃で、深層学習が出てきて、信号機データセットを作れば見れる、人のデータセットを作れば人が認識できると言われた時代でした。 第2世代は2019年頃で、トランスフォーマーが登場し、高精度マップをクラウド側に入れて、速度の上限値や一時停止のサイン、信号機の情報を全てクラウド側に入れたら自動運転ができるのでは?と言われた時代。 そして第3世代は、生成AIやLLMなどが発展し、現在はCVPRでも自動運転の研究が多数公開されています。しかし、最近の論文はもうバウンディングボックスが全然出てこないのです。文書生成のように書いて評価している論文がすごく増えており、研究者個人としてはとても驚いていますが、会社の創業者としては「意外と良いところまでいっているかも」などと思っています(笑) ![TURING_12.png] 今まで研究界隈では、左側の写真のように人や車に対してバウンディングボックスをつけて、ここにはこのような人がいて、ここにはこういう物体があるということを認識させてきました。一方で、右側の論文を読んだ時に、文章で全部説明して評価している。右下の写真は状況説明だけではなく、カメラの状況も説明しています。右下の写真は霧の影響でぼやけていて、いつものカメラセンサーよりもレンズが曇っている状況。そうすると生成AIは、「少し曇っていてぼやけています」と言ってくれます。これだけのことができてくると、おそらく生成AIが自動運転に搭載できる未来も近いのではないかと思っています。 ![TURING_13.png] 完全自動運転AIという風に話をしていますが、現在は1つ手前の段階であるエンボディードAIの研究開発を進めています。 例えば、今手元にあるペットボトルが仮にガラス瓶だとしたら、落としたら割れてしまいます。しかし、ペットボトルだったら落としても割れないと分かっている。一度割ったり、割れる瞬間を見た経験から、割れるから落としてはいけない、これは落としても割れないということが分かります。 このような物理現象を理解できるAIを開発することで、最終段階の完全自動運転AIに繋がるのではないかと考えています。今のAIは、基本的に画像情報と文書情報を入れてネットワークを作っていますが、新しい物理世界を理解できるデータセットをちゃんと加えていく必要があると思っています。 生成AIは、人間程度の論理的な思考ができ、考えの中身をちゃんと説明できるほどに進化しています。しかし、物理世界で生きている我々には簡単なことが、生成AIには理解できないことが多数あります。具体的にどのようなことかと言うと、「私の左手には何がありますか?」と聞いたときに、人間の場合は左側を指しているかもしれない、左手に時計をしているかもしれない、などと考えると思います。 人間のコンテキストによって変わってくることが、LLMはまだ弱いというのが我々が自動運転車を実装した上で感じたことです。 ![TURING_14.png] 我々は、現在Vision-Language Modelの開発を行っています。画像からの対話を可能にしたマルチモーダル生成AIです。GPT4がリリースされる前に実装しており、世界で初めて最大約700億パラメータのモデル軍と、大規模な日本語の画像テキストデータセットを公開しました。このような技術を活用し、チューリングは人間と同等以上にこの世界を理解する自動運転AIの開発を進めています。 ![TURING_15.png] データセットに必要なのは、「大きい」、「クリーン」、「多様性」の3つだと思います。まず、「大きい」ということに関して、スケーリング則でもよく言われているようにデータ量が多ければ多いほど賢くなり、AIの性能が高くなるため、自動運転でもまずはある程度の走行データを撮るのがスタートです。 次に「クリーン」ということに関して、欠損データや重複データがなく、同じ基準で収集されたデータは、モデル構築の安定性を高めます。自動運転でいうなら同じセンサーのセッティングでデータを収集することは非常に大事なことです。また、関連してデータの質も重要な要素となります。最近テスラさんのデータマイニングのYouTubeの動画を見ると、一般の人たちのデータが一時停止サインを無視していたり、信号機を無視していたり、よく分からない挙動をしているユーザーがたくさんいる。ユーザーフィルタリングをかけても、綺麗にならなかったようです。 このような結果から、自社である程度データを収集するべきだと思いました。テスラさんが公開しているテックブログを見る限り、おそらくテスラさんも自社である程度データを集めているだろうと類推できたので、こういった経緯で我々も自分たちでデータを収集しています。 最後に多様性に関して、モデルの汎用性を高めるためには様々なシナリオをカバーするデータが必要となるのですが、同じ道をずっと走っているだけではこれを獲得することが困難です。ただ一方で、生成AIやLLMを車内にデプロイするというところが、良い言い方をすると戦う余地がある、苦しい言い方をすると厳しい、困ったと思っています。実際に生成AIはほとんどクラウドで使用しているので、エッジデバイスで使用していることがほとんどありません。エッジデバイスで動くLLMを開発する必要がありますし、どのようにして車内で完結させるかというところが1つのポイントになると思います。 ![スクリーンショット 2024-08-20 200546.png] 自動運転は、もともとはコンピューターサイエンスの基盤OSシステムから始まった分野ですが、実はもうOS側でできることがほとんどなくなっているのが現状です。現在の自動運転における1番のホットトピックは、自然言語処理やニューラルネットワークの部分に移りつつあります。 他国では、世界モデルの研究をしていたり、先に例えで挙げたような物理現象の研究をしていたり、様々な場面で自動運転の研究を盛り上げています。 Huaweiさんの研究内容では、自然言語が自動運転に流れ込んできているというデータがありますので、我々もマルチモーダル学習を進めるために、一般に出ている画像データや文章データだけではなく、ステアリング、アクセル、ブレーキなどの多様な情報を含む運転データを自社独自で集めながら、マルチモーダルAIを活用した自動運転システムの開発をしています。 :::box [関連記事:チューリング、日本初の自動運転向け生成世界モデル「Terra」を開発] ::: :::box [関連記事:チューリングがプレシリーズAで30億円の資金調達、完全自動運転の開発加速] ::: :::box [関連記事:完全自動運転EVスタートアップのチューリングとS.RIDE、自動運転領域での協業を開始 タクシー走行データを活用] :::