新型コロナの網羅的なデータセット構築・分析へ向け「COVID-19チャレンジ」開催へ

このエントリーをはてなブックマークに追加

現在、新型コロナウイルス感染症(COVID-19)が世界中で猛威を振るっている。感染症対策には、罹患者に関するデータを迅速に収集し公開することが極めて重要だ。

データサイエンスのコンペティションプラットフォーム「SIGNATE」 を運営する株式会社SIGNATEは3月19日、新型コロナウイルス罹患者と患者間の関係データにおけるデータセットの構築、および感染実態のインサイト抽出を目指すプロジェクト「COVID-19チャレンジ(外部サイト)」を開始した。





これにより、新型コロナウイルスへの対策に寄与する。

網羅的なデータセットを構築し、感染実態のインサイトを明らかにする

このプロジェクトでは、データサイエンスのコンペティションプラットフォームであるSIGNATEに登録している約3万人のデータサイエンティストから有志を募り「COVID-19チャレンジ」を開催する。

フェーズ1として、日本国内のCOVID-19罹患者数と患者間の関係データに関する、マシンリーダブルかつデータ分析可能な最大規模のデータセットを構築する。

続けてフェーズ2では、フェーズ1で構築したデータセットを用い、さまざまな統計学的手法によるデータ分析を実施し、感染実態に迫るインサイト抽出を目指す。

このプロジェクトにおける成果は、営利・非営利を問わず自由に利用可能なライセンス形態で公開予定だという。実際のプロジェクトの進め方は以下の通り。

1, データ

罹患者データ、罹患者関係データ2種類のGoogleスプレッドシート(外部サイト)を皆で更新していく。

2, データ情報源やクローラー・スクレイパーのソースコード

データ取得元として有用なサイトがあれば、フォーラム(SIGNATE内の掲示板)にて知らせる。また、クローラー・スクレイパーもGithub等リポジトリのURLをフォーラムで告知する。

3, その他、データセット構築に関するアドバイス(こういう設計にした方がいいのではないか?など)

フォーラムに投稿し、議論の上、採用可否が決定される。

形式がバラバラな国内データを統一し、分析可能な状態へ

新型コロナウイルスへの対策として、海外ではECDC(外部サイト)などが、国別の罹患者数や死亡者数などの統計データを一元的に収集、配信している。国内でも、東京都が最新感染動向をわかりやすく伝えるダッシュボード(外部サイト)をいち早く開発し、OSSとして公開(外部サイト)するなど、データをオープンにする動きが進んでいる。

一方、現時点で国内の新型コロナウイルスに関する情報は、国や自治体などで配信方針がバラバラであり、テキスト形式やPDF形式、画像形式などの非構造データで配信されているものも多い。つまり、一元的・網羅的でマシンリーダブルかつデータ分析可能な状態になっていないのが実情だ。

また、罹患者数などの統計データだけではなく、罹患者一人ひとりに関する感染背景や症状なども網羅的に収集しデータ分析が可能な状態で共有すれば感染対策や治療方針の策定に有用だが、このようなデータセットは海外でも未だ公開されていない。そうした状況のなかで、今回のチャレンジ開催に至ったと同社はプレスリリースで語っている。

また同社広報は、こうも語っている。

「公開から2時間で大変な盛り上がりを見せており、Twitter上でも多くの方々が参加表明してくださっています。この流れが大きなうねりとなって、データサイエンティストが力を結集して社会課題解決にチャレンジしていく、という新しい形が根付いていって欲しいと願っています」

Source:PR TIMES