ビジネス

1~13 / 2481件

ビジネス
2025/11/19 [WED]
xAI、「Grok 4.1」公開──創造性・感情理解・安全性を強化した新フラッグシップモデルのサムネイル画像

xAI、「Grok 4.1」公開──創造性・感情理解・安全性を強化した新フラッグシップモデル

イーロン・マスク氏率いるAI企業 xAI は2025年11月18日(日本時間)、最新AIモデル「Grok 4.1」の提供を[発表]{target=“_blank”}した。発表によると、Grok 4.1はgrok.com、X、iOS/Androidアプリで利用可能になり、Autoモードで順次展開されるほか、モデルピッカーから明示的に選択できるようになった。同社は今回のアップデートについて、創造性や感情理解、協調性など「実世界での使いやすさ」の向上を重視したと説明している。 ## 創造性・感情理解・協調性をさらに強化 xAIによれば、Grok 4.1は従来の推論性能を維持したまま、創造性、感情理解、協調的な対話といった能力を高めたとしている。ユーザーの微妙な意図の読み取り、一貫した人格の維持など、会話体験の質を高める点が今回の特徴だ。 同社はGrok 4で構築した大規模強化学習インフラを活用し、「スタイル」「人格」「helpfulness」「alignment」といった検証が難しい報酬を最適化した。これを支える仕組みとして、先端的な推論モデルを報酬モデルに用い、応答の生成と評価を大規模に自動反復する新手法を導入したという。 ## 2週間のサイレントロールアウトで改善を確認 xAIは11月1日〜14日にかけて、Grok 4.1のプレビュー版を本番環境へ段階的に投入。実際のユーザーによる盲検ペアワイズ評価を行った結果、Grok 4.1は従来モデルに対して**64.78%**の勝率となり、ユーザーからより支持されたとしている。 ## LMArenaで1位と2位を獲得 公開ベンチマーク「LMArena Text Arena」では、Grok 4.1が上位を独占した。 - Grok 4.1 Thinking(quasarflux):Elo 1483(全体1位) - Grok 4.1(Non-Thinking/tensor):Elo 1465(全体2位) 非推論モードのGrok 4.1が、他社モデルの推論モードも含めて上回るスコアとなり、従来のGrok 4(33位)から大きな改善が確認された。 ![LMArena Text Leaderboard.jpg] :::small 画像の出典:[xAI Latest news]{target=“_blank”} ::: ## EQ-Bench3:感情知能の大幅な向上 感情知能(EQ)を測定するEQ-Bench3では、以下のスコアが示された。 - Grok 4.1 Thinking:1586 - Grok 4.1:1585 - 旧Grok 4:1206 ![EQ-Bench.jpg] :::small 画像の出典:[xAI Latest news]{target=“_blank”} ::: 公式発表では、ペットロスのユーザーに対する応答例を提示し、Grok 4.1が具体的な情景や共感表現を含む自然な対話を生成できることを示している。 ## Creative Writing v3でも上位に 創作ライティング能力を評価するCreative Writing v3では、以下の順位となった。 - Polaris Alpha(early GPT-5.1):1756.2 - Grok 4.1 Thinking:1721.9(2位) - Grok 4.1:1708.6(3位) ![Creative Writing v3.jpg] :::small 画像の出典:[xAI Latest news]{target=“_blank”} ::: xAIによる評価では、文体や物語表現の豊かさが向上している点が数値として示されている。 ## 事実性の向上:ハルシネーション率を大幅削減 Grok 4.1は、特に情報探索系のプロンプトで事実誤り(ハルシネーション)を減らすことに重点を置いたという。公式発表の評価では、非推論モードで以下の改善が示された。 **■ ハルシネーション率(低いほど良い)** - Grok 4 Fast(従来):12.09% - Grok 4.1:4.22% **■ FActScore(500問のバイオグラフィ評価)** - Grok 4 Fast:9.89% - Grok 4.1:2.97% 非推論モードでも事実性が向上した点が明確に示された。 ![Hallucination Rate.jpg] :::small 画像の出典:[xAI Latest news]{target=“_blank”} ::: 非推論モードでも事実性が向上したことが数値で示された。 ## モデルカードで公開された安全性評価 添付された「Grok 4.1 Model Card」では、xAIのリスク管理フレームワーク(RMF)に基づき、安全性評価が詳細に示されている。主な評価項目は以下の通り。 - Abuse Potential:有害リクエスト拒否性能、jailbreak耐性 - Deception/Sycophancy:欺瞞的応答や迎合行動の評価 - Dual-Use Capabilities:生物・化学・サイバー領域の二重用途リスク - Persuasion:MakeMeSayによる操作的応答の傾向 モデルカードでは、生物・化学領域の知識タスクで高い正答率が見られる一方、実験設計や多段推論では人間エキスパートに及ばないケースがあるなど、能力の強弱が併記されている。また、こうした評価を踏まえて入力フィルタの強化などの安全対策を実施したと説明している。 :::box [関連記事:世界最強AI「Grok 4」公開──xAI、わずか数カ月という常識外れのスピードでモデル刷新 マスク氏「ネットにない難問も解ける」] ::: :::box [関連記事:イーロンマスク「地球で最も賢いAI」と宣言ーーxAI、最新AIモデル「Grok 3」を正式リリース 有料会員向けに提供開始] ::: :::box [関連記事:xAIがチャットAI「Grok」に会話記憶機能を追加 個別最適化された対話体験が可能に] ::: :::box [関連記事:OpenAI、「GPT-5.1」をリリース──会話性とトーン設定を強化したChatGPT最新版] ::: :::box [関連記事:中国Moonshot、1兆パラメータ級『Kimi K2 Thinking』を公開──7月発表のKimi K2を基盤に推論性能とツール連携を強化したオープンソースAI] :::

25to26_pre_registration_rectangle_top_typeB_70th
FOLLOW US
各種SNSでも最新情報をお届けしております