特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 2660件
北京に拠点を置くAI企業Z.aiは2026年2月12日、新たな大規模言語モデル(LLM)「GLM-5」を公式ブログで[発表]{target=“_blank”}した。同社は複数の国際ベンチマークにおける評価結果を公開し、Gemini 3 ProやClaude Opus 4.5などの主要モデルと比較した。 ## エージェント志向モデルとしての位置づけ Z.aiはGLM-5を「Agentic Engineering」を掲げるモデルと位置づける。対話応答にとどまらず、推論やコーディング、ツール利用を含むタスク遂行型の挙動を重視した設計であると説明している。 公式ブログでは、Humanity’s Last Exam、SWE-bench Verified、Terminal-Bench 2.0、BrowseComp、MCP-Atlas、τ²-Bench、Vending Bench 2など、計8種類の評価指標を用いた結果が示された。 **■ GLM-5と主要モデルのベンチマーク比較。推論・コーディング・エージェントタスクなど8指標で評価** ![20260212-010724.jpg] :::small 画像の出典:[Z.ai公式ブログ]{target=“_blank”} ::: 図によれば、GLM-5はSWE-bench VerifiedやBrowseCompなど複数の項目で上位帯に位置している。一部指標ではGemini 3 ProやClaude Opus 4.5が上回る結果も示されているが、全体としては主要モデル群と同水準に並ぶスコアレンジに入っている。 ## Vending-Bench 2でのシミュレーション結果 Z.aiは、エージェント型モデルの能力を測るベンチマーク「Vending-Bench 2」におけるシミュレーション結果も公開した。同ベンチは仮想環境内で資金を増やすタスクを課し、日数経過に伴う資金推移を比較する形式を採る。 **■ Vending-Bench 2における資金推移の比較。GLM-5は最終的に上位帯で推移** ![bf5c97ae6ba5f07ba980ed9bcc116f47.jpg] :::small 画像の出典:[Z.ai公式ブログ]{target=“_blank”} ::: グラフでは、GLM-5は最終的に4,000ドル超の水準に到達し、Gemini 3 ProおよびClaude Opus 4.5と近いレンジで推移している。一方で、GPT-5.2や他の中国モデルとの間にも差が見られる。この結果は、中国発モデルがエージェント型タスクにおいても国際競争圏内に入っていることを示すデータとして提示されている。 ## 公開形態と提供 GLM-5はHugging FaceおよびModelScopeを通じて公開されている。API経由での利用も紹介されている。 同社はこれまでGLMシリーズを継続的にアップデートしてきたが、今回のGLM-5はエージェント志向への明確なシフトを打ち出したモデルとして位置づけられる。 Z.aiは公式ブログを通じて、推論、コーディング、ツール統合を含む包括的な能力向上を掲げた。GLM-5は、中国AI勢の技術開発がエージェント型モデルの領域へと本格的に移行していることを示す事例の一つといえる。 :::box [関連記事:中国Z.ai、MoE型LLM「GLM-4.5」をオープンソース化:フラッグシップ&軽量モデルを同時リリース、Claude級性能を訴求] ::: :::box [関連記事:中国AIテック、オープンソース推論モデルを相次ぎ公開──Alibabaが「Qwen3-Max-Thinking」、Moonshot AIは「Kimi K2.5」発表] ::: :::box [関連記事:画像生成AIの拡散モデル一強に“自己回帰×拡散”で対抗 中国Z.aiが「GLM-Image」発表、文字・知識系の生成に強み] ::: :::box [関連記事:中国スタートアップMoonshot AI、1兆パラメータの新LLM「Kimi K2」をオープンソースで公開──長文推論とコード生成でGPT-4系に迫る性能] ::: :::box [関連記事:DeepSeek R1の詳細がNatureに掲載、初の査読付き著名LLMに──開発コストと学習手法を初公開、トレーニング費用はわずか30万ドル] :::
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ