ストックマーク株式会社のR&D部門の機械学習エンジニアらによる『BERTによる自然言語処理入門:Transformersを使った実践プログラミング』(オーム社)が、6月28日に販売開始する。
ライブラリやColabを使って手軽に入門
BERTはGoogleが2018年末に発表した自然言語処理モデル。当時はさまざまなタスクで最高スコアを叩き出し、「文脈を読める」モデルとして一躍有名になった。
本書では、そのBERTを使った文章分類・固有表現抽出・文章校正・類似文章検索・データの可視化を紹介する。データセットの処理から、ファインチューニング(BERTを特定の言語タスクに特化させるための学習)、性能の評価までの一連の流れを体験できる。
TransformersやPyTorch LightningといったライブラリやGoogle Colaboratory(ブラウザ上でプログラミングができる計算環境)を使うので、環境整備から実際に動かすまでのハードルが低い。もちろん、TransformersやPyTorch Lightningを使ったことがなくても入門できるよう、ライブラリの使い方も解説している。
日本語特有の扱い・ノウハウも公開
本書のもう1つの特長は、自然言語処理における日本語の扱いも学べることだ。本書にはストックマークの自然言語処理の研究や自然言語処理を扱った企業向けプロダクト開発のなかで培った経験から得たノウハウが盛り込まれており、データセットも全て日本語で準備されている。
想定読者は自然言語処理を行うエンジニアや、自然言語処理に興味を持つ情報系学部の学生とのことだ。
予約・購入はこちらから
>>BERTによる自然言語処理入門 Transformersを使った実践プログラミング | Ohmsha
本書の詳細情報
目次
第1章 はじめに
第2章 ニューラルネットワークを用いた自然言語処理
第3章 BERT
第4章 Huggingface Transformers
第5章 文章の穴埋め
第6章 文章分類
第7章 マルチラベル文章分類
第8章 固有表現抽出
第9章 文章校正
第10章 文章ベクトルを用いたデータの可視化と類似文章検索
付録A ニューラルネットワークの学習の基礎
付録B Colaboratoryの使い方
環境
著者プロフィール
本書はR&D部門の機械学習エンジニア4名による共著だ。
近江 崇宏
ストックマーク株式会社にて自然言語処理の研究開発に従事。
2012年に京都大学大学院理学研究科博士課程修了。博士(理学)。その後は、2020年まで東京大学生産技術研究所(最終職位:特任准教授)にて時系列解析を中心とする統計学・機械学習の研究に従事。2020年4月より現職。主な著書として「点過程の時系列解析」(共立出版)がある。
金田 健太郎
ストックマーク株式会社にて自然言語処理の研究開発・アプリケーション開発に従事。
2018年に早稲田大学理工学術院基幹理工学研究科修了。修士(工学)、専攻は自然言語処理。ゲーム会社にてサーバサイドエンジニアに従事した後、2019年9月より現職。Kaggle Expert。
森長 誠
ストックマーク株式会社にて自然言語処理の研究開発に従事。
2010年に北海道大学大学院情報科学研究科修士課程修了。修士(情報科学)。その後は、2018年まで日鉄ソリューションズにて官公庁向けのインフラ及びミドルウェア構築案件を担当。2019年1月より現職。現職では、Deep Learning技術を中心にアルゴリズムの検証・実装・モデル化を担当。
江間見 亜利
ストックマーク株式会社にて自然言語処理の研究開発に従事。
2018年に東京大学大学院工学系研究科博士課程修了。博士(工学)。その後は、Yahoo! JAPANグループのシナジーマーケティング株式会社に入社して、人工知能を中心とする研究に従事。2020年4月より現職。
自然言語処理に強み
ストックマークは自然言語処理に強みを持ち、AIを搭載したSaaS「Anews」「Astrategy」を提供している。編集部では、以前同社に「機械翻訳DeepLのスゴさ」を解説していただいた。こちらの記事もあわせてチェックしてみてほしい。
>>プレスリリース