IBM、55種類以上のプログラミング言語、約5億行のコードで構成される大規模データセットを公開

このエントリーをはてなブックマークに追加

米IBMは現地時間5月11日、公式ブログにおいて、人工知能(AI)にコードを教えることを目的とする大規模なデータセット「Project CodeNet」を公表した。本データセットは55種類以上の異なるプログラミング言語、約1400万のコードサンプル、約5億行のコードで構成されている。



本データセットは「C++」「Java」「Python」「Go」などの最新言語だけではなく、「COBOL」「Pascal」「FORTRAN」などのレガシー言語にも対応。コードの検索やクローンの検出、正しいコードと問題のあるコードの区別、コードの自動修正の検討、回帰研究や予測などに役立つという。

>>公式ブログ(英語)