特集
FEATURE
ビジネス
BUSINESS
ラーニング
LEARNING
エンジニアリング
ENGINEERING
学術&研究
ACADEMICS & STUDY
公共
PUBLIC
エンタメ&アート
ENTERTAINMENT & ART
1~13 / 150件
OpenAIの創設メンバーであり、元TeslaのAIディレクターとしても知られるAndrej Karpathy(アンドレイ・カルパティ)氏は2025年10月19日(現地時間)、ChatGPTのようなAIチャットボットを一から構築できるオープンソースプロジェクト「nanochat」を[発表]{target=“_blank”}した。 ## 4時間・約100ドルでChatGPT風モデルを構築 Karpathy氏は投稿で、「わずか4時間・100ドルでChatGPTのような会話モデルを訓練できる」と説明。 クラウドGPU(8×H100構成)上で単一スクリプトを実行するだけで、LLMの事前学習から推論、WebUIまでを一括構築できる点が特徴だ。 コードは約8,000行と比較的コンパクトで、依存関係を最小限に抑えた「フルスタック実装」。 前作「nanoGPT」が事前学習フェーズに特化していたのに対し、今回の「nanochat」はトークナイザーの訓練から強化学習(RL)、推論エンジン、WebUIまでを統合している。 ## Rust製トークナイザーと一貫した学習パイプライン nanochatでは、Karpathy氏が自作したRust実装のトークナイザーを用いてFineWebデータセットで事前学習(pretraining)を行う。 その後、SmolTalkデータによる会話形式の中間学習(mid-training)を経て、指示追従(SFT)や数学・コード・世界知識のベンチマーク評価(ARC-E/C、MMLU、GSM8K、HumanEval)を実施。 さらに、GSM8Kタスクに対する強化学習(GRPO)にも対応している。 推論時には、KVキャッシュを用いた効率的なデコードと、軽量Pythonサンドボックスでのツール使用(コード実行)機能を備える。CLIおよびChatGPT風のWebUIから利用でき、学習結果はMarkdown形式の「レポートカード」として自動出力される。 ## 性能とスケーラビリティ 約4時間の訓練で「GPT-2を上回るCOREスコア」を達成し、12〜24時間の訓練では、MMLUで40点台、ARC-Easyで70点台、GSM8Kで20点台を記録。Karpathy氏は「1000ドル規模の訓練まで拡張すれば、数倍の一貫性と応答精度が得られる」としている。 ## LLM教育「LLM101n」シリーズの集大成 Karpathy氏は、nanochatを自身が開発中の教育プログラム「LLM101n」の“集大成プロジェクト(capstone project)”と位置づけている。 リポジトリは教育・研究者コミュニティ向けに「最大限フォーク可能」であり、LLMの構造理解や再実装の教材としても活用できる。 同氏は投稿の締めくくりで「これからが本番。チューニングとヒルクライミングを始める」と述べ、今後の最適化と拡張を予告した。 - GitHubリポジトリ:[karpathy/nanochat]{target=“_blank”} - 技術解説スレッド:[Discussions #1 – nanochat speedrun walkthrough]{target=“_blank”} :::box [関連記事:Hugging Face CEO、「コードを書くようにLLMも自前で訓練すべき」と訴え――Nanotron公開で“企業製AI”の時代が現実味] ::: :::box [関連記事:Microsoftの研究チーム 1ビットLLMを発展させ、超軽量で高性能な「BitNet b1.58 2B4T」を発表] ::: :::box [関連記事:LLMはRAGと事前知識をどう使い分けるのか マサチューセッツ大とMicrosoftの研究グループが発表] ::: :::box [関連記事:Difyとは|話題のノーコード生成AIアプリ開発プラットフォーム] :::
Ledge.aiにソリューション情報を掲載しませんか?
使い方や具体的な目標などを詳しくご説明します
お問い合わせ