SDGsの分類
研究テーマ
自然科学
学科の分類
情報科学部データサイエンス学科

新型コロナウイルスにおけるオープンデータの教育的利用 「データサイエンス入門」や「データサイエンス実践演習II」で使える実例作成

情報科学部

データサイエンス学科

統計的データ探求研究室

濵田悦生 教授

厚生労働省が提供する新型コロナウイルス感染症に関するデータはオープンデータである。このデータは全国で収集された、PCR検査数、PCR陽性者数、重症者数、死亡者数などを含むが、簡単なモデルを適用することによって、学部3年生向けのPBL教材で使うことの出来そうな実例を作成することが見込まれる。学生にとっても非常に身近なデータであり、その教育的効果は高いであろう。

厚生労働省が提供する新型コロナウイルス感染症に関して、国内の発生状況をグラフ等で見ることが出来るサイトと、オープンデータとして時系列データを Excel ファイルとして得ることが出来るサイトなどが存在する。そのサイトの中で、オープンデータを得ることが出来るサイトでは、具体的に、陽性者数、PCR検査実施人数、入院治療等を要する者の数、退院又は療養解除となった者の数、死亡者数、PCR検査の実施件数、発生状況、雇用調整助成金、緊急小口資金等の特例貸付、重症者数を得ることが出来る。例えば、令和2(2020)年2月5日から令和4(2022)年8月2日までの、PCR検査実施人数、PCR陽性者数、PCR検査におけるPCR陽性率、及び重症者数、死亡者数、重症者数における死亡率を使ったグラフは以下の通り:

上の図での実線の縦線は、緊急事態宣言開始日を示しており、破線の縦線は緊急事態宣言の終了日を示している。

1回目:令和2(2020) 年4 月7 日~5 月25 日

2回目:令和3(2021) 年1 月8 日~3 月21 日

3回目:令和3(2021) 年4 月25 日~6 月20 日

4回目:令和3(2021) 年7 月12 日~9月30日

これを見ると、緊急事態宣言があった時と、第6波以降とではデータにかなりの違いが生じていることが分かる。以下の図は、PCR陽性者数だけのグラフを拡大したものである。

PCR陽性者数と死亡者数に対して単回帰モデルを適用

メディアで毎日ように報道されているPCR陽性者数に注目してみる。PCR陽性者数は新型コロナウイルス感染者数とは必ずしも一致しないが、メディアではPCR陽性者数をあたかも感染者数の如く報道している。しかし、PCR陽性者の中から感染者が生じることは明らかであり、その結果重傷となったり死亡したりする。故に、ここではPCR陽性者数と死亡者数データを利用して、元々時系列データであるが、教育的配慮を踏まえて、相関係数を求めた上で敢えて単回帰モデル

        Y = a + b X + ε

を適用し、単回帰分析を実施してみる。ここで X はPCR陽性者数、Yは死亡者数、ε は誤差項とする。この場合、回帰分析であるので、予測という観点からのアプローチとなることに注意が必要である。

統計処理ソフトウェア R を使った分析結果は以下の通り。

上のRを使った分析結果から分かることは、令和2年2月5日から令和3年7月26日までのデータに基づいてみた場合、

(1)PCR陽性者数と死亡者数の相関係数は約 0.47 である。

(2)PCR陽性者数が10000人多くなると、死亡者数は平均的に7人多くなる。

(3)PCR陽性者数が0人のときの死亡者数は約26人である。

(4)PCR陽性者数が死亡者を説明する割合(決定係数)は約22%である。

となる。回帰係数の数値に関しては有意であることも分かる。

単回帰分析のプロット図は以下の通り。

単回帰分析の結果をまとめると、PCR陽性者数が1000人多くなると、死亡者数は平均的に13人多くなる、ということが分かった。このように単回帰分析ではあるが、実データを利用することでイメージが湧きやすく現実感が出てくるので、学生にとっての教育的な効果は高いように思われる。

時系列データとしてPCR陽性者数にシンプルな加法モデルを適用

PCR陽性者数は、本来のデータは時系列データであるので、そのまま時系列として一番シンプルなモデルである加法モデル

         Y  =  T + S + ε

によって分解した図を与えておく。但し、T はトレンド成分、S は季節変動成分、ε は誤差成分である。(先ほどの単回帰モデルの式と比較すると同じような式であることが分かる。)

上の図は、元々の時系列データを、トレンド部分、季節変動部分、誤差部分に加法分解したものである。緊急事態宣言の時期での誤差項を見てみると、第6波や第7波の誤差項に関してかなり構造的に違いがあることが分かる。元のデータを図示するだけでは分からなかったことが、ある種の統計的モデルを想定することで新たな知見を得ることが出来る。こういった図を学生に対して参考図扱いでもいいので示すことによって、統計的モデルの有効性を示唆することが出来、学部3年生向きのPBL教材として教育的効果が高いように思われる。データサイエンス学科では3年生向けでデータサイエンス実践演習IIにおいて、このようなデータ分析の実践も視野に入れている。

まとめ

今回は厚生労働省が提供するオープンデータを利用して、時系列データではあるが敢えて単回帰分析の手法でアプローチした結果と、シンプルな時系列モデルを適用した結果を比較してみた。モデル式を見ると、ほとんど同じような式ではあるが、これだけ違うという側面を学生に見せることが出来たように思われる。今回の処理ではPCR陽性者数を中心に分析を行ったが、学生の課題としては、他のデータに対して同じようなモデルを想定してみて分析してみることが出来る。データを処理するというモチベーションを上げるには、興味ある実例が如何にふさわしいか、ということが言えるであろう。

論文

「日本での COVID-19 禍における PCR 陽性者数と感染死亡者数の Granger 因果性の検討」(2021)濵田悦生『行動計量学』48(1)p.39-48.

研究シーズ・教員に対しての問合せや相談事項はこちら

技術相談申込フォーム