特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
OpenAIは2025年2月18日、新たなAIベンチマーク「SWE-Lancer」を[発表]{target=“_blank”}した。 このベンチマークは、従来のコードスニペットや理論的な問題ではなく、実際のフリーランスマーケットで発注されたソフトウェア開発タスクを基にしている。Upworkの1,488件の案件(総額100万ドル)を活用し、AIがどこまで実務レベルのタスクを遂行できるかを評価するという。 ## リアルなフリーランス市場を反映した評価手法 SWE-Lancerに含まれるタスクは、UI/UX、アプリケーションロジック、サーバーサイド開発、システム全体の品質向上など多岐にわたる。これらのタスクは、バグ修正や新機能追加、信頼性向上などのカテゴリに分類されており、エンジニア個人の貢献だけでなく、マネジメント業務も含まれる。 **SWE-Lancerのタスクカテゴリ。開発・運用に関わる幅広い分野が評価対象となっている** ![GkFnjBjW4AA9bFT.jpg] :::small 画像の出典:[OpenAI]{target=“_blank”} ::: また、タスクの報酬額は50ドルの小規模なバグ修正から、最大32,000ドルの大規模な機能実装まで幅広い。平均して、フリーランサーが各タスクを完了するまでに21日かかるとされており、AIがこの期間内にどれだけのタスクをこなせるかも評価指標の一つとなる。 **SWE-Lancerの概要。1,488件の実案件が含まれ、総額100万ドル相当のフリーランス報酬に基づいて評価される** ![GkFnpcrbYAA-vkz.jpg] :::small 画像の出典:[OpenAI]{target=“_blank”} ::: ## フリーランスマーケットと同様の価格変動モデル SWE-Lancerでは、フリーランス市場と同じように、タスクが解決されないまま時間が経過すると報酬が増額される仕組みを採用している。例えば、あるバグ修正タスクは、最初の報酬1,000ドルで公開されたが、解決に時間がかかるにつれて報酬が段階的に上昇し、最終的には8,000ドルで解決された。このように、AIがどのレベルのタスクまで解決できるかを市場の経済原理に基づいて測定できる点が特徴である。 **タスクの報酬変動。時間経過とともに報酬が増加し、最終的に解決された時点で8,000ドルに到達した** ![GkFnukAagAAMUSo.jpg] :::small 画像の出典:[OpenAI]{target=“_blank”} ::: ## 最先端AIモデルでも限界が露呈 OpenAIはSWE-Lancerを用いて、GPT-4o、Claude 3.5 Sonnet、o1といった最先端のAIモデルの能力を評価した。その結果、各モデルは最大100万ドル分のタスクのうち、約30万〜40万ドル分しか完了できなかった。特に、複雑なソフトウェア設計やマネジメント業務には対応が難しく、現段階では人間エンジニアの実力には及ばないことが明らかになった。 **主要AIモデルの獲得報酬額。Claude 3.5 Sonnetが最も多くのタスクを解決したが、いずれのモデルも完全制覇には至っていない** ![GkFnzO2WwAA-17C.png] :::small 画像の出典:[OpenAI]{target=“_blank”} ::: ## 今後の展望 – AIはエンジニアの補助役へ SWE-Lancerの結果は、現時点ではAIがフリーランスエンジニアの代替にはならず、一部のタスクでのみ貢献できることを示している。しかし、ルーチンタスクの処理や提案の補助など、人間と協力する形での活用が期待される。 :::box [関連記事:AIの競技プログラミング能力、強化学習がもたらすここまでの進化──OpenAI o3がトップ層に迫る] ::: :::box [関連記事:サム・アルトマン氏が語るAGI(汎用人工知能)の経済学と社会的影響:3つの観察点] ::: :::box [関連記事:Meta、次世代AI戦略を加速—中堅エンジニア並みのAIエージェントと3段階リスク管理で業界をリード] :::