ラーニング

ラーニング
2024/5/1 [WED]
AIエージェントとは|マニアックなプロンプトエンジニアリングはいらない 注目の生成AI活用トレンドのサムネイル画像

AIエージェントとは|マニアックなプロンプトエンジニアリングはいらない 注目の生成AI活用トレンド

:::box **目次** - 導入 - AIエージェントの仕組み - AIエージェントの実装例 ::: ## 導入 ### AIエージェントという概念 ~AIのエージェントアプローチ+LLM~ AIエージェントという仕組みは、昨今の生成AI活用ブームの中で注目を集めているが、エージェントという概念自体は、コンピューターサイエンスやロボット工学の分野で研究が進められてきたものである。特に1980年代にロボット研究者であるロドニー・ブルックスらの研究は、自律型ロボットやエージェントシステムに大きな影響を与え、2000年に発売された自動掃除機ルンバといった製品として実用化もされている。その後、機械学習の手法を組み合わせた研究が進み、近年の大規模言語モデル(LLM)の普及によって、より複雑な問題を自律的に解決できる仕組みであるAIエージェントという概念として語られるようになった。 ### プロンプトエンジニアリングの限界 2022年11月30日にOpenAIが発表したChatGPTは、その利用の手軽さや生成物のクオリティから、生成AIという技術がビジネスを大きく変えていく未来を想像させた。 チャット型のユーザーインターフェースは、プログラミング言語などの特殊な言語を扱うことなく、人間と対話するときと同じような感覚で送ったテキスト情報に対して意味の通る文章を生成、回答してくれる。 生成される回答は、プロンプトと呼ばれる命令の出し方一つで異なってくる。生成AIから質の高い回答を得るためには、効果的なプロンプトを作ることが重要であり、プロンプトを使いこなす手法や技術を指す分野としてプロンプトエンジニアリングという言葉も誕生した。 ChatGPTの発表以後も、様々な活用方法が生み出され、プロンプトエンジニアリングに関するセミナーや書籍なども数多く目にするようになった。 生成AIは、プロンプトを使いこなせるようになると便利なツールである。ただし実際の業務に最適化させていくほど、プロンプトは長く複雑なものになっていく。実行してもらいたいタスクの詳細情報や実行の条件、参照すべき情報など、業界や業種、業務の用途に合わせてプロンプトに書き込んでいかなければならないからである。 さらに、ベースの学習済みの言語モデル自体も、日々アップデートされている。アップデートによって、以前使用していたプロンプトの出力内容も変わってしまう可能性がある。 生成AIはうまく活用できれば業務の効率化に役立てられるが、それを実感できるレベルにまでたどり着ける人は少ないのかもしれない。 このような背景を踏まえると、プロンプトエンジニアリングで業務効率化を実現していくアプローチには限界があるといえる。 そこで注目を集めているのが、細かな指示がなくとも自律的に目的に向かってタスクをこなしてくれる「AIエージェント」の仕組みである。現在はまだ先進的な企業で技術検証が進んでいる段階ではあるが、今後の生成AI活用における大きなトレンドになると期待されている。本記事で「AIエージェント」の基本的な概念や仕組みについて理解を深め、生成AI活用のヒントとしてもらいたい。 ### AIエージェントの概要 AIエージェントとは、一言でいうとある目標を達成するために自律的に行動するソフトウェアプログラムやシステムのことである。 例えば、オフィスでの会議室の予約をしたい状況で、AIエージェントの活用イメージとして以下のようなシナリオを描くことができる。 ![aiagent-concept.png] まず最初にユーザーがAIエージェントに対して、来客用の会議を予約するという目的を与える。AIエージェントは、会議室予約のデータベース参照し空き状況を確認するというタスクを実行する。もし会議室の空きがなかった場合には、会議の重要性を判断し、他の会議室予約者との交渉を行い、会議室の確保を自律的に遂行してくれる。 AIエージェントは、現在もなお研究・開発が進行している分野である。研究や社会実装の分野での様々なプロジェクトの中で、AIエージェントの技術的な可能性が示され、現在に至っている。以下にAIエージェントの発展の中で注目を集めたマイルストーンプロジェクトを紹介する。 **社会シミュレーション「Generative Agent」:** 複数のAIエージェントによる社会シミュレーションを行ったスタンフォード大学とGoogleとの共同研究のプロジェクト。 25人のエージェントと仮想的なゲーム環境による人工的な村社会を構築し、AIエージェント同士が創発的に協同しあうかを実験した内容が論文として発表された。 **ソフトウェア開発会社「ChatDev」:** AIエージェントが経営するソフトウェア開発会社を仮想的に再現し、エージェント同士の協働によって、実際のソフトウェアを開発するツール。 現実世界のソフトウェア会社のように、プログラマー・テストエンジニア・アートデザイナーなどのAIエージェントにそれぞれ役割を与え、エージェント同士でコミュニケーションを取りながらソフトウェア開発のステップ(設計、コーディング、テスト等)を進めていくことができる。 **完全自律型AIエンジニア「Devin」:** 米国のAIスタートアップCognition社が発表したソフトウェア開発のAIエージェント。与えられた要件からソフトウェア開発の一連のプロセスを自動で実行し、エラー発生時にも自律的に問題解決するなど、高度なエンジニアリングスキルを持っている。Devinの発表は、そう遠くない未来にソフトウェア開発のあり方が大きく変わる可能性を示した。 :::box 関連記事:[世界初の完全自律型AIエンジニア「Devin」が、ソフトウエア開発工程をすべてAIだけで行う 米AIスタートアップ Cognition が発表] ::: ## AIエージェントの仕組み AIエージェントは、概念的には個性/記憶/計画/行動の4つの機能で構成されており、互いに作用し合うことで、複雑な問題の解決を実現する。AIエージェントはまだ研究途上の段階にある仕組みではあるが、これらの要素のポイントを押さえて設計していくことがAIエージェント構築の肝になる。 ![AIエージェントの機能.png] ### 個性(Profile) 個性(Profile)は、年齢、性別、職業等といった基本情報や性格・社内的な立場といった情報で、AIエージェントの振る舞いに影響を与える。 現実世界では、営業や人事、開発、法務など様々な職域があり、複数の職種の人たちによる相互の営みを通じて事業は構成されている。それぞれに与えられた役割があり、向いている性格や思考や行動の特性があり、適切な人材を配置し、組織を設計することで生産性を向上させることができる。AIエージェントも同様に、異なる性格や価値観、役割を定義することで、AIエージェントの思考・行動の決定プロセスに影響を与えることができる。 ### 記憶(Memory) タスクを適切に実行していくためには、「記憶」の仕組みを考える必要がある。その理由の一つには、LLMが一度に扱えるデータ量には制限がある。もう一つは、会話の文脈や過去の経緯を踏まえて適切に判断を下すためには、短期的な記憶と長期的な記憶を区別して情報を処理する必要がある。 さらにAIエージェント自身の体験の記憶だけでなく、外部に蓄積されているデータベースを参照し、大量の業務データを記憶として扱える点は、人間の記憶とは大きく異なる。 扱えるデータ形式としては、リレーショナルデータベースとベクトルデータベースの大きく2種類存在する。 **リレーショナルデータベース:** 業務システムで一般的に利用されるデータベースであり、データをテーブル形式の構造化された状態で保存する。データの検索・抽出といった操作には、SQLというデータベースクエリ言語を使う。大規模言語モデルを用いて、SQLクエリの生成を行うことができ、記憶の呼び出しができる。 **ベクトルデータベース:** 文書や画像など、構造化された形式のデータに変換ができない形式のデータを扱うデータベース。データをベクトル空間という空間内の特定の座標にマッピングすることで、データ同士の意味的な関係性を、2点間の座標の方向や大きさという数値情報によって扱うことができる。 海外では、Airtableというクラウドデータベースサービスに様々なデータを格納し、それらをAPI経由で、AIエージェントがアクセスできるようにしておき、ファイルやデータの参照から書き込みまで各種タスクの実行を行えるようにする活用事例なども出てきているという。 ### 計画(Planning) 計画は、AIエージェントが目的を達成する上で非常に重要なプロセスである。このプロセスでは、必要なタスクを思考し、それらを分解をすることで、目的達成のための最適な手順とアクションを明確にする。 AIエージェントにおける計画で押さえておくべきアプローチとして、”タスク分解”がある。 タスク分解は、文字通り目的の達成のために必要なタスクを分解することである。AIエージェントでは、ユーザーから提示された目的に対して、そのタスク分解のためのプロンプトを生成し、タスク分解を行うように設計していくことが重要になる。 オープンソースのAIエージェント「BabyFoxAGI」では、タスク分解のプロンプトを生成する仕組みがプログラムされており、汎用的なタスク実行に対応できるようになっている。 さらにReActというプロンプティングの手法を取り入れることで、分解したタスクに対してLLMに正しい推論と意思決定を行わせ、計画の解像度を高めていくことができる。 ReActは、理由(Reason)と行動(Action)を中心に思考しながらタスクを進めていくアプローチであり、その英単語の頭文字を取って名付けられている。 与えられたタスクを達成するために、行動を思考し、行動の結果を観察、そこから得た学びを思考に反映し、行動を最適化していく、というのがReActの基本的な流れである。 例えば、先程あげた会議室予約を例に、AIエージェントでのタスク分解のイメージを下記に示す。 :::box **会議室の予約で想定されるタスク分解例** - ユーザーのその日のスケジュールを確認し、会議可能な時間を把握 - 同席者の有無を確認し、同席がいる場合に同席者のスケジュールを踏まえた会議時間を設定 - 会議室予約のデータベースを参照し、設定時間での会議室の空き状況を確認 - 会議室の空きがなかった場合は、ユーザーに会議室確保の重要度に関するフィードバックをもらう - 重要度が高い会議の場合、先に会議室を予約している担当者を確認 - 会議室を空けてもらうための依頼文章を生成し、メッセージを送信 - 担当者から承諾をもらえた場合、カレンダー予約システムに対して、会議室予約の変更手続きを実行 - ユーザーに完了報告 ::: ### 行動(Action) AIエージェントに具体的なタスクの実行を定義するのが、「行動」である。 LLM単体では、学習データにない最新情報に基づいたアウトプットができなかったり、言語モデルの特性上、数値計算なども得意ではない。AIエージェントは概念的には、外部機能にアクセスできる権限や実行プログラムを定義することができるものについては何でも実行できる。 一般的に取り上げられる行動の例としては、ブラウザ検索を行い最新の情報を収集や、外部システムと連携しデータベースからデータの抽出や保存、pythonプログラムによる数値解析処理など、実装次第で様々な行動を起こさせることができる。定義した各種行動の中からどれを実行するかは、AIエージェント自身が思考プロセスの中で判断する。 **AIエージェントのユースケース** AIエージェントが各種システムやデータにアクセスし、様々な操作・処理が行えることが前提にはなるが、AIエージェントが実現しうる世界観として考えられるユースケースを以下に示す。 :::box **旅行予約** - 旅行に行きたいエリアを提示すると、AIエージェントがそのエリアまでの交通手段の調査や、チケットの空き状況を確認 - 現地のホテル情報やグルメ・観光情報を収集し、ユーザーの過去の傾向から好みを踏まえて旅行プランを作成 - 予算や観たいところなど、ユーザーからのフィードバックを受けて、再度旅行プランの再作成 - チケット・予約手配を代行 - 旅行中の各種案内や予定変更などのサポート ::: :::box **営業管理** - お問い合わせを受け付けた際に、インターネット上の公開情報を検索し、問い合わせ企業の情報を調査 - 過去の問い合わせ履歴から同じ業界や会社規模での類似の問い合わせがなかったを自社データベースから調査 - 問い合わせに関連する社外ニュースなどの参考情報も収集 - 調査結果を次回以降も再利用できるようにデータベースに保存 ::: ## AIエージェントの実装例 実験的なものも含めてプロダクトとしてインターネット上に公開されているものや、独自のAIエージェント開発を支援する開発フレームワークなどが出てきている。まずは既存のAIエージェントツールに触れ、AIエージェントの動きを体感してみるのもいいだろう。その上で実際の業務シーンでの活用に向けては、開発フレームワークを用いて設計・カスタマイズしていく必要がある。 ここでは代表的なものをいくつか紹介する。 ### AIエージェントアプリケーション **AutoGPT:** AutoGPTは、2023年3月に登場した実験的なプログラムで、AIエージェントブームの火付け役と言われている。目的を与えると、AIが自律的に達成に必要な道筋を考え、情報を収集し、それらをまとめた内容をファイルに出力するといったことができる。この仕組みがAIコミュニティの中で注目され、AutoGPTの活用事例(AutoGPTがウェブサイトを構築するデモetc)が活発に公開されるようになったことで、AIエージェントブームが巻き起こった。 **BadyAGI:** AIエージェントブームの中で注目を集めたもう一つ代表的なAIエージェントが「BabyAGI」である。AutoGPTとほぼ同時期の2023年の4月に、ヨウヘイ・ナカジマ氏によって開発されたAIエージェントである。タスクを自動で実行していくという点はAutoGPTとにていますが、AutoGPTが個別のタスク毎にユーザーによるフィードバックと承認が必要な事に対し、BabyAGIは最終目標に向かって自動的にタスクの実行と調整を繰り返していくことが特徴である。 :::box **BabyAGIの実行フロー** 1. 「タスク作成エージェント」がゴール達成に必要なタスクリストを生成 2. 「タスク優先度付けエージェント」が実行の優先順位付け 3. 最初のタスクを「タスク実行エージェント」に渡し、タスクを実行 4. 実行結果を「タスク作成エージェント」に渡し、新たなタスクを生成 5. 全てのタスクが終了するため2〜4をループ ::: ![BabyAGI-post] **Scalable Instructable Multiworld Agent(SIMA):** SIMAは、Google DeepMindは2023年3月13日発表した新たなAIエージェント。様々なビデオゲームで自然言語の指示に従ってタスクを実行する能力を持つ。トレーニングには、「No Man's Sky」「Teardown」「Valheim」「Goat Simulator 3」「Satisfactory」「Hydroneer」「Space Engineer」「Wobbly Life」「Eco」といったバラエティに富むゲームを使用した。「左折」「はしごを登る」「地図を開く」 などの約600の基本スキルを持ち、さまざまな状況に適応する訓練が施されており、研究チームの報告によると、初めてプレイするゲームでも、そのゲームに特化してトレーニングを受けたエージェントと平均してほぼ同じパフォーマンスを示したとのこと。今後、日常生活のタスク、より複雑な指示への対応、効率的な学習方法の開発に向けて進められる。 :::box 関連記事:[Google DeepMindが新たなAIエージェント「SIMA」を発表 ビデオゲームから学び、汎用性のある多様なタスクを実行] ::: ### 開発フレームワーク **Langchain:** LangChainは大規模言語モデルを活用してアプリケーションを構築するためのフレームワークであり、開発者がAIを利用した言語理解の能力を簡単に組み込むことができるように設計されている。LangChainが提供する多様な統合機能を活用して、複雑なタスクや問題解決に取り組むAIエージェントを構築することができる。 **AutoGen:** Microsoft Researchから発表されたAIアプリケーション開発フレームワーク。「複数のAIエージェント」が相互に会話しながらタスクを解決するのが特徴。AutoGenを使うことで、複数のAIエージェントを組み合わせることができたり、役割に応じてタスクをAIエージェントに割り振ることができるようになる。 2024年は、各企業での生成AI活用に向けた取り組みがより一層加速していくとみられる。 :::box 関連記事:[2025年度には69%の企業が生成AIを「全社で本格的に利用する」と回答--MM総研2024調査] ::: そうした動きの中で「AIエージェント」は確実に今後の重要トレンドとなってくると言える。 LLMを始めとするAI技術の発展・普及とともに、AIと人との関わり方は変わっていくだろう。目的達成のための手段やその計画は、AIエージェントが行ってくれる。AIエージェントの仕組みが実用化された世界で私達人間が求められる役割は、正しい目的を与え、成果物に対して適切なフィードバックを返すことである。 ーーー レッジでは生成AIの導入支援サービスを提供しています。 その中ではAIエージェントを企業の生成AI活用の重要テーマとして包括的な支援が可能です。 ご興味ある方は、下記ページよりお問い合わせください。 :::box 関連ページ:[生成AI導入支援 | 生成AIを自社ビジネスにスピーディに導入 |Brand & Solution - Ledge.ai] :::

ラーニング
2024/4/28 [SUN]
Google の無料教材公開「Beyond the Prompt」「Prompting guide 101」生成AIの効果的な活用法やヒントを紹介のサムネイル画像

Google の無料教材公開「Beyond the Prompt」「Prompting guide 101」生成AIの効果的な活用法やヒントを紹介

Google
ラーニング
2024/4/27 [SAT]
GWに徹底理解!GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開のサムネイル画像

GWに徹底理解!GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開

基盤モデル
ラーニング
2024/3/18 [MON]
NVIDIA、生成AI分野の技術者向けにプロフェッショナル認定制度を新設のサムネイル画像

NVIDIA、生成AI分野の技術者向けにプロフェッショナル認定制度を新設

ラーニング
2024/3/14 [THU]
Anthropic、チャットAI「Claude 3」向け公式プロンプト集を公開のサムネイル画像

Anthropic、チャットAI「Claude 3」向け公式プロンプト集を公開

ラーニング
2024/3/1 [FRI]
パーソルホールディングス、生成AI研修で社員スキルアップを加速のサムネイル画像

パーソルホールディングス、生成AI研修で社員スキルアップを加速

DX
国内企業事例
ラーニング
2024/2/28 [WED]
JDLAが「生成AIの利用ガイドライン(画像編)」を公開のサムネイル画像

JDLAが「生成AIの利用ガイドライン(画像編)」を公開

ナレッジ
DX
国内企業事例
ラーニング
2024/2/7 [WED]
日本最大級のDX推進コンテスト『日本DX大賞2024』応募開始のサムネイル画像

日本最大級のDX推進コンテスト『日本DX大賞2024』応募開始

DX
ラーニング
2024/2/6 [TUE]
 LoRA(ローラ)とは|今年注目の画像生成AI (Stable Diffusion) のファインチューニングを試してみた
のサムネイル画像

LoRA(ローラ)とは|今年注目の画像生成AI (Stable Diffusion) のファインチューニングを試してみた

ラーニング
2024/1/23 [TUE]
Webアプリケーションの巡回ツールを開発せよ|MBSD Cybersecurity Challenges 2023のサムネイル画像

Webアプリケーションの巡回ツールを開発せよ|MBSD Cybersecurity Challenges 2023

ラーニング
2024/1/15 [MON]
大学入試の記述式対策もAI活用 駿台、AI学習教材「スルメ」で特許を取得のサムネイル画像

大学入試の記述式対策もAI活用 駿台、AI学習教材「スルメ」で特許を取得

DX
国内企業事例
ラーニング
2024/1/11 [THU]
GPT Store(GPTストア)とは|GPTを公開して収益化する方法のサムネイル画像

GPT Store(GPTストア)とは|GPTを公開して収益化する方法

ラーニング
2023/12/29 [FRI]
AIのファインチューニングとは|ビジネスパーソン向けの解説と転移学習・RAG・プロンプト埋め込みとの違いのサムネイル画像

AIのファインチューニングとは|ビジネスパーソン向けの解説と転移学習・RAG・プロンプト埋め込みとの違い

アクセスランキング
GWに徹底理解!GPTの仕組みをめちゃくちゃ分かりやすく解説する無料動画公開
ファミリーマートが生成AI導入で関連業務時間を約50%削減と発表 会社全体でAI活用を推進
LoRA(ローラ)とは|今年注目の画像生成AI (Stable Diffusion) のファインチューニングを試してみた
4
NVIDIAのCEO、Jensen HuangがOpenAIに最新GPU「H200」を直接お届け
5
Forebesが選ぶ「2024年の注目すべきAI関連企業50社」発表 シリコンバレーの投資家を動かす合計347億ドル調達の企業リストとは
FOLLOW US
各種SNSでも最新情報をお届けしております