情報あれこれ

主に海外保守系の記事を翻訳、更に登録している180以上の動画から、他メルマガからの抜粋ネタも掲載しています。

世界を支配したダッシュボード


2024年4月20日、Thomas Verduyn



2020年1月に起きた出来事には、控えめに言っても奇妙なものが複数ある。

そのひとつは、中国が武漢市で「未知の肺炎」の症例を数例発見したと報告したわずか23日後、メリーランド州ボルチモアの3人が、世界各国のこの病気の症例数と死亡者数を追跡するためのダッシュボードを立ち上げたことである。この3人は全員、ジョンズ・ホプキンス大学(JHU)の土木システム工学科に関係していた。


彼ら自身の言葉を借りれば、ダッシュボードは「研究者、公衆衛生当局、そして一般の人々に、発生が進むにつれて追跡できる使いやすいツールを提供するために開発された」。ダッシュボードとともに、彼らは症例と死亡例の公開データ保管庫も管理している。


1月22日の発表は、Covidのタイムラインの中では非常に早い時期に行われたため、WHOの最初の状況報告はその前日に発表されたばかりで、「Covid」という言葉はまだ使われていなかった。その最初のWHO報告では、「2019-nCoVの確定症例が中国を含む4カ国から282件報告された」と発表された。


中国以外の国の感染者総数はわずか4人で、死亡者はゼロだった。実際、この日までに公式にこのウイルスに関連して死亡したのはわずか6人で、そのすべてが武漢の患者であった。


ノロウイルスは毎年6億8500万人が感染し、21万2000人が死亡していると推定されている。ノロウイルスのダッシュボードは世界のどこにもない。


感染者数も死亡者数も非常に少ないにもかかわらず、JHUのチームが名もない病気のダッシュボードを作成し、立ち上げるというのは奇妙なことかもしれないが、なぜそうしたのかについては説明がつく。わずか3ヶ月前、JHUは、新型コロナウイルスが世界的で致命的なパンデミックを引き起こすという「架空のシナリオに基づいた...訓練卓上演習」であるイベント201を主催していた。


さらに、ダッシュボードの筆頭著者(ローレン・ガードナー教授)は、感染症モデリングの専門家である。これらの事実が示唆するところはともかく、少なくとも彼ら自身の証言によれば、ダッシュボードは「とっさの」決断の結果であり、構築には「わずか数時間」しかかからなかった。


この性急なスタートにもかかわらず、新しいウェブサイトは短期間で多くの注目を集め、米国だけでなく世界中のメディア、医学研究者、保健当局、そして一般市民にとって最高のデータサイトとなった。


開設から2ヵ月も経たないうちに、このウェブサイトは「1日あたり12億回アクセスされる」と報告され、これはインターネットの巨人グーグルのトラフィックのほぼ半分にあたる。2年以内に、8,500以上の論文で医学研究者たちによって引用された。


ホプキンスのダッシュボードは、米国連邦政府機関や主要なニュースソースに引用され、どこにでもある信頼できる参照ポイントとなっている。


Covid事件の際、JHUのダッシュボードが世界に与えた影響力の大きさを考えると、その詳細を検討することは適切である。ここでは特に、リアルタイムでデータを入手することの難しさ、データを入手するために使用した情報源、データをどのようにシステムに取り込んだか、そのプロセスに関わる言語の壁、そして最後に、コンピューター・シミュレーションが果たした役割について述べる。この記事は、ある都市、つまりニューヨークの例で締めくくられている。



リアルタイムでのデータ取得


現代のコンピューターの助けを借りたとしても、信頼できる死亡率データを作成するには、通常何ヶ月も(あるいは何年も)かかる。例えば、カナダで公式に全死因死亡率の数字が入手できる最新の年は、まだ2020年である。国の統計局であるStatsCanは、「報告の遅れ」と「不完全なデータ」が3年の努力の背景にあるとすぐに指摘する。


現在、StatsCanのような連邦政府が資金を提供する組織が死亡率データを公表するのに2~3年かかるとすれば、JHUがCovidの死亡データをリアルタイムで入手することはどのように可能だったのだろうか?


ある特定の病原体やウイルスに関する統計を作成することも同様に困難である。例えば、2017/2018年のインフルエンザ・シーズンが終了して7カ月が経過した時点でも、アメリカのCDCは依然として患者数と死亡者数の推定値しか発表していなかった。その理由は、「2017-2018年シーズンの検査実施と死亡に関するデータ」がまだ得られていないためであった。


その声明の日付は2019年11月22日だった。それからちょうど2カ月後にJHUのダッシュボードが公開され、インフルエンザに似た呼吸器系ウイルスが新たに発見された場合の症例と死亡に関する情報がリアルタイムで提供されることが約束された。インフルエンザの死亡率や症例データを入手するのに数カ月から数年かかるのであれば、どうしてCovidのデータをリアルタイムで入手することが可能だったのだろうか?2019年には不可能だったことが、なぜ2020年に突然可能になったのだろうか?


当然ながら、世界にはデータ報告が信頼できない国がたくさんある。同様に、国別の死亡率を追跡するHuman Mortality Databaseは、多くの国で10年遅れている。では、JHUはどうやって世界のすべての国のCovid死亡をリアルタイムでプロットできると期待したのだろうか?さらに重大なことは、どうやって「15分ごと」にダッシュボードを更新したのだろうか?



JHUダッシュボードのデータソース


優れたデータは優れた情報源に依存しており、JHUダッシュボードがどのようにしてリアルタイムでデータを入手したかを理解する唯一の方法は、その情報源を調べることである。重要なのは、ソースが時間とともに変化していることである。当初、彼らの主要なデータソースは「DXY、中国の医療コミュニティのメンバーによって運営されているオンラインプラットフォームで、地元のメディアや政府の報告を集約し、中国の省レベルとそれ以外の国レベルのCOVID-19症例の累積をほぼリアルタイムで提供している。したがって、この情報源はニュースと政府報告の組み合わせであった。


やがてJHUのチームは、DXYはデータの入手と公表に時間がかかりすぎると感じ、他の情報源に手を広げた。 「新しい症例を特定するために、さまざまなツイッター・フィード、オンライン・ニュース・サービス、ダッシュボードを通じて送られてくる直接の連絡をモニターしています」。世界中の保健機関が独自のダッシュボードを立ち上げたので、JHUはそれらを情報源のリストに組み入れた。


したがって、JHUは、政府の公式ウェブサイト以外の3つの主要な情報源を認めている。


●ツイッターフィード
●オンライン・ニュース・サービス
●ダッシュボードに送られた直接のコミュニケーション


私たちの知る限り、これら3つの情報源のいずれについても、詳細は記載されていない。これら3つの情報源はいずれも、誤った情報、誇張された情報、あるいは完全に捏造された情報を含む可能性がある。いずれも公的な説明責任を負っておらず、独立した検証の対象にもなっていない。誰が直接JHUに連絡できたのか、あるいはできたのか、具体的なことは書かれていない。


Covidに関するニュース記事をインターネットでかき集めることは、確かにデータ収集のプロセスを早める可能性がある。残念なことに、上記の問題のほかに、ノイズを増幅するフィードバックループの可能性もある。結局のところ、もし 「主要なニュースソース 」が正確なデータについてJHUを信頼しているのであれば、JHUが同じニュースソースから(潜在的に)データを入手している可能性はどうなるのだろうか?



重複


さらに、JHUが使用したソースがすべて正確であったと仮定しても、「複数のデータソースを組み合わせる」という作業は複雑なプロセスである。注目すべき課題の一つは、重複をどう扱うかである。複数の情報源から情報を得る場合、同じ出来事が2度カウントされる可能性がある。結局のところ、報道機関は、その記事の中で言及された人々の健康識別子を含まない。


では、JHUはどのようにしてデータの重複を削除したのだろうか?このことは、ダッシュボードで報告されたCovidの症例数と死亡数が、地域によっては現実の2倍、3倍、あるいは何倍も多かった可能性があることを意味するのだろうか?実際、データの利用者はダッシュボードに重複が含まれていると確信したことがある。例えば、2020年3月11日、JHUのデータリポジトリのあるユーザーは次のように書いている。


都道府県レベルと市区町村レベルの両方を同じ列で報告することは、問題を引き起こすに違いない」。これに対して別のユーザーは、「CSSEは症例と死亡を二重にカウントしているようだ」と答えている。CSSE("Center for Systems Science and Engineering":システム理工学センター)は、このデータリポジトリを管理するJHUの部局の頭字語である。



データソースとしてのWorldometer


JHUはWorldometerをデータソースの一つとして明記している。Worldometer自身もこの事実を認めており、次のように述べている。 「我々のデータはジョンズ・ホプキンスCSSEでも信頼され使用されている」。一般的に、Worldometerは、「リアルタイム 」で統計情報を報告するために、コンピューターシミュレーションを使用している。


そのシミュレーションは、年間の合計とコンピュータの推定値に基づいている。例えば、毎年100万人が自動車事故で死亡しているとすると、平均して31.6秒に1人が死亡していることになる。Worldometerの事故に関するダッシュボードは、その時間内に実際に誰かが死んだかどうかにかかわらず、それに従って新しい死亡者を1人追加するだけである。当然、Worldometerは誰かが死んだかどうかを知る術を持たない。


Worldometerは、自動車事故と同じような方法で、コンピューター計算を使ってCovidの統計を取ったのだろうか?もしそうだとしたら(そして年間合計を事前に知ることができないので)、その年に何人がCovidで死亡するかを推定するのに、実際の死亡者ではなく疫学的モデルを使ったのだろうか?どちらの疑問にも確実に答えることはできない。彼らの情報源リストには政府機関しか含まれていない。


しかし、出典の完全なリストは入手できないし、彼らはコンピュータ・アルゴリズムの使用を明確に否定していないので、Worldometer社がCovidの統計を作成するためにコンピュータ・モデルを使用した可能性はかなり高い。これは、各国政府がリアルタイムでCovid情報を生成することができなかったであろうという事実によって、より確実なものとなっている。


2020年5月、CNNは興味深いニュース記事を掲載し、JHUのダッシュボードとWorldometerの関係の混乱を浮き彫りにした。その記事の準備のためにJHUから質問されたことに対するJHUからの回答は、やや回避的で、答えよりも疑問が多く残されていた。


もちろん、答えのない根本的な疑問は、そもそもなぜJHUはWorldometerをソースとして使ったのかということである。JHUがWorldometerをソースとして使ったということは、JHUのダッシュボードの基礎データも、実際の出来事ではなく、コンピューターモデルに基づいているということなのだろうか?


これらの質問に答えることが難しい理由の一つは、ダッシュボードで使用されているコードがオープンソースではなかったことである。もう一つの理由は、データがしばしば説明も検証可能な参照もなしにシステムに入力されたことである。



システムへのデータ入力


GardnerらによるLancetの論文によると、JHUダッシュボードの開始後最初の10日間は、「すべてのデータ収集と処理は手作業で行われ、更新は通常1日に2回行われた」 。ロジスティクスの観点からは、この期間は症例数が非常に少なく、関係する国も限られていたため、これは可能であった。


データの正確性に関して、彼らは「ダッシュボードを手動で更新する前に、地域や地方の保健局、都市レベルや州レベルの保健当局に症例数を確認している」と主張している。しかし、カナダもアメリカも6ヶ月以内の死亡率やインフルエンザのデータを作成できなかったことはすでに立証されている。では、カナダとアメリカだけでなく、最終的には世界中のすべての国が、JHUが検証に使えるような症例数と死亡者数を毎日提供できたのはなぜなのか?


この最後の疑問に答えるため、カナダ統計局のウェブサイトを調べ、どのようにしてCovidのデータを入手しているのかを調べた。その結果、StatsCanもJHUのチームと同じように、「COVID-19に関する様々なウェブサイトから関連データを収集するためにウェブスクレイピング技術」を使っていることがわかった。


どのウェブサイトがスクレイピングされたかという情報は提供されていないので、私はStatsCanに電子メールを送ってリストを入手した。その親切な返信にはこう書かれていた。 「カナダ統計局は、パンデミック中にウェブスクレイピングに使われた可能性のあるすべてのウェブサイトの包括的な最終リストを持っていない。その理由は2つあった。1つ目は、複数の部門が関与しており、それぞれが異なる手順を踏んでいること、2つ目は守秘義務の問題である」。


StatsCanは、カナダ公衆衛生局(PHAC)に問い合わせることを提案した。しかし、PHACは情報をStatsCanに依存しており、WebスクレイピングはPHACではなくStatsCanが行っていた。この返答は、StatsCanがCovidのデータをどこから入手したのか知らないという意味なのだろうか?それとも知っていて、その情報源を公開したくないということなのだろうか?


StatsCanからの回答は、彼らの情報がJHUのダッシュボードから得たものなのか疑問に残る。JHUのダッシュボードは、保健当局が集団感染を追跡できるように特別に設計され、米国連邦政府機関によって引用され、医学研究者によって広く利用されている。


仮にカナダがそうでなかったとしても、いくつかの国がJHUのデータを自国のデータとして採用した可能性は高い。もし同じ保健当局がJHUからデータを得ていたとしたら、JHUはどうやって保健当局にデータを確認したのだろうか?


そう考えると、JHUがダッシュボードにデータをアップロードし、いくつかの国がその情報を使って自国のウェブサイトで公表し、JHUが政府の公式ウェブサイトの数値と比較することでその入力を確認した、という可能性が極めて現実的に存在する。このようなことが起こったとすれば、円環的推論の極みである。残念ながら、このようなことが起こったのか起こらなかったのかを証明する方法はない。いずれにせよ、JHUがどのような情報源からデータを入手したのかは疑問が残る。



自動更新


どのような情報源であったにせよ、手動更新はすぐに中止され、自動更新に切り替わった。


「手作業による報告プロセスは持続不可能になったため、2020年2月1日に半自動のリビングデータストリーム戦略を採用しました」


「持続不可能」という言葉を聞くと、まるで新型コロナの感染者で溢れかえっているかのように聞こえる。実際の事実はそれを否定している。WHOの報告によると、この日に感染者を報告したのは19カ国だけだった。2月1日の入国者数は80~100人だった可能性がある。なぜこれほど少ない入国者数が持続不可能とみなされたのかは全く明らかではない。


ランセットの記事では、手動による更新はまず適切な保健当局に確認されたと主張している。一方、自動入力が確認されたかどうかについては何も言及されていない。


さらに、ウェブサイトごとにデータを表示するためのフォーマットが異なる場合、増え続ける国々から複数のウェブサイトにまたがるデータ収集を自動化することは可能なのでしょうか? この疑問は、コロナ禍でこれらのフォーマットが頻繁に変更されたことを考えると特に当てはまります。実際、ある研究グループが発見したように、2021年5月になっても、コロナデータを報告するための「標準」はまだありませんでした。では、小規模なJHUチームは、最終的にこれらすべての問題を認めたときに、どうやってそれを実現したのでしょうか?



言葉の壁


JHU ダッシュボードの設計に関わった 3 人のうち 2 人は中国出身で、3 人目はアメリカ人でした。そのため、DXY の Web サイトで公開されている中国語のレポートを読むことができたはずです。しかし、世界中のすべての国が中国語または英語でデータを公開しているわけではありません。自動翻訳ツールを使っても、外国語の Web サイトからデータを抽出するのは困難です。


これを世界規模で自動化することはほとんど考えられません。検索対象の Web サイトが研究者にとって未知の言語である場合、インターネットをスクレイピングすることはほぼ不可能です。この種の課題は、世界規模の研究を行う誰もが一般的に経験することであり、その結果、研究者は、自分たちが知っている言語を使用する国に限定されることがよくあります。では、JHU チームはどのようにしてそれを実現したのでしょうか。



最初に門を出た


JHUダッシュボードは、特定の場所での最初のコロナウイルス感染例を報告する最初のウェブサイトであることがほとんどでした。ガードナー氏は次のように主張しました。


オーストラリア、香港、イタリアを除いて、ジョンズ・ホプキンス大学のCSSEはWHOに先駆けて新規感染国を報告しており、香港とイタリアは対応するWHOの状況報告から数時間以内に報告されている。


ダッシュボードがこの種の情報を把握するのではなく、人が把握するのである。JHUの小さなチームが、誰よりも早く、ほとんどすべての国で最初の新症例を発見するほど迅速に対応したのはなぜなのだろうか?ガードナーが最近、航空便のパターンを使ってまさにこれを予測するモデルを開発したのは単なる偶然なのだろうか?そのモデルについて彼女はこう書いている。 「このモデルは、世界の各空港に到着する輸入症例(100例)の予想数を提供する」。


このモデルは、JHUが最初の新しい症例を発見するのに役立つほど正確だったのだろうか?このモデルがいかに不正確であったかを考えると、そのようなシナリオは非常に考えにくい。同じモデルが予測した中国での患者数は、報告されている数の5倍であった。このように彼女のモデルには明らかな問題があるにもかかわらず、ガードナーは、それが事実に基づいた報告よりも正確であると感じていた。


中国本土における実際の2019-nCoV感染者数は、これまでに報告された数よりもはるかに多い可能性が高いと我々は考えている。具体的には、1月末までに中国本土で発生した2019-nCoVの累積患者数は約58,000人と推定される(1月31日現在、報告されている患者数は12,000人に近い)。


したがって、ガードナーもまた、いつどこで最初の症例が発生するかという自分の予測が、どの国の報告よりも正確だと感じていた可能性はないのだろうか?JHUは彼らのモデルに基づいてダッシュボードに新しい症例を報告したのだろうか?これが彼女が「ダッシュボードは特に効果的だった」と言った理由なのだろうか?もしそうなら、他の国やWHOはJHUの報告を信じ、自分たちでも報告したのだろうか?



主なデータ源としてのコンピューターモデリング


これまでの疑問を合理的に説明できる唯一の答えは、JHUのダッシュボードは観測データではなく、コンピューター・シミュレーションに基づいているということである。また、時折、JHUチームは経験的データを入手し、それを使ってモデルからの出力を調整し、「修正」していたようである。これが最も妥当な答えである理由は以下の通りである。


●政府はリアルタイムでデータを提供できない。


●外国語のニュース・メディア・サイトからデータを抽出するのは難しすぎる。


●ダッシュボードの入力は自動化されている。


●ニュースソースからデータを入手した場合、重複を排除する有効な方法がなかった。


●ダッシュボードの更新間隔が短い(15分または1時間ごと)。


●情報源には、コンピューターシミュレーションの専門サイトWorldometerが含まれる。


●情報源には「ダッシュボードへの直接通信」も含まれており、コンピュータ・シミュレーションからのデータも含まれている可能性がある。


●自動入力が何らかの形で確認されたかどうかは不明である。


●ダッシュボードは保健当局にデータを提供するために設計された。


●保健当局はJHUのデータを正確なものとして信頼していた。


●リポジトリには、データを 「修正 」するための複数のデータダンプが含まれている。


●ダッシュボードは他の誰よりも早く、その国で最初の新しい症例を報告した。



コンピュータモデリング使用の証拠


2024年3月4日、私はローレン・ガードナー(JHUダッシュボードプロジェクトの筆頭著者)にメールを送り、ダッシュボードにコンピューターモデルが使われたかどうか、またそのモデルは利用可能かどうかを尋ねた。残念ながら、現在までに返事はない。


口頭での確認がなく、今のところ状況証拠しか見つかっていないため、JHUがデータを取得するためにコンピューターモデルを使用したかどうかについて、より良い証拠を探し続ける必要があった。驚くことではないが、証拠は存在する。例えば、2020年3月13日、ローレン・ガードナー教授はダッシュボードについて説明するため、国会議事堂の公聴会で講演した。プレゼンテーションの中で、彼女は「私たちが舞台裏で行っているモデリング作業」について明確に言及した。


さらに、JHUのウェブサイトには次のように書かれている。


ガードナーは、COVID-19を含む感染症リスクのモデリングの専門家である。ガードナーは、米国の都市と協力してCOVID-19のモデリング作業を指揮し、地域レベルでCOVID-19のリスクを推定するためにカスタマイズされたモデルを開発している。


この2つの引用と、ガードナーが2020年初頭にはダッシュボードの管理に忙殺され、他のことをする時間がなかったと報告されている事実を合わせると、モデリング作業がダッシュボードのためのものであったことは間違いない。実際、ある記事が指摘しているように、「10週間連続で24時間体制で働き、ダッシュボードのメンテナンスにかかりきりで、実際に表示されるデータを分析する時間はほとんどなかった」。


また、2019年にガードナーがウイルスアウトブレイクを推定するための「新しい数学的モデリングの枠組み」を開発したが、このモデルは「過去のアウトブレイクデータを使ってキャリブレーションする」ことを意図したものであったことも注目に値する。


さらに、JHUのCenter for Systems Science and Engineering(システム理工学センター)のウェブサイトには、モデリングが同学科の基礎となる柱の1つであると記載されている。CSSE部門は次のように自らを定義している。「システム科学は、時間と空間における人工的、人間行動的、自然的構成要素の動的相互作用を包含するモデリングアプローチである」。


したがって、ガードナーは疾病モデリングの専門家であり、経験的データでモデルを校正することに慣れており、Covidのモデル開発に積極的に関与し、彼女のモデルは公式に報告されている数値よりも正確であると公言していること、そして彼女の部署はあらゆる問題にアプローチする上でモデリングが基本であると考えているという事実に基づけば、データの基礎となるソースとしてコンピュータモデルが使用されていることは当然と考えるべきである。


言い換えれば、これに反する強力な証拠がない限り、JHUのチームが症例数と死亡者数の算出にコンピューターモデルを使用していたことは確実である。しかし、直接的な証拠は見つかっていない。


このような意見と一致して、Jesse Pietzらによる25の異なるCovidダッシュボードの調査では、JHUダッシュボードが2020年にSIRD(Susceptible、Infected、Recovered、Deceased)疫学モデルをCovidの拡散シミュレーションに使用していたことが明示されている。


最後に、2020年11月に興味深いTwitterのスレッドが投稿され、Ensheng Dong(ダッシュボードを構築した学部生)がコンピュータモデリングで作成したデータをJHUのリポジトリにアップロードしていた証拠となっている。


(このスレッドの重要性に長い間気づかなかったことを残念に思うが、この記事のきっかけとなった研究の重要な部分をこのスレッドの発見が形成したことは認める)


2022年8月、Ensheng Dongらはダッシュボードのレビューを発表した。著者は、「オープンデータへのコミットメントに沿って、ダッシュボードに表示されるデータは、一般にアクセス可能なソースからのものだけである」と主張している 。


そして、その少し先には「ダッシュボードは、すべて一般に入手可能なデータに依存している 」と付け加えている。これは、ダッシュボードが事実に基づいた実証的なデータのみを使用したことを意味するのだろうか?必ずしもそうではない。Worldometerは「一般に入手可能な情報源」であり、ほぼ間違いなくコンピューターモデルに基づいている。さらに、政府によっては、Covidによってどれだけの人々が病気になったり死亡したりするかを推定するためにコンピューターモデルを使用していた。


これらのモデルの出力も公開されていた。そして、そもそもいくつかの保健当局がJHUのモデルから直接数字を入手していたと考えるのも無理はない。注目すべきは、実証データや観察データのみを使用したとは言っていない点である。


Covid感染者と死亡者の推定には、複数の国でコンピューターモデルが使われていた。そのモデルにどんなに欠陥があろうとも(そしてそれはひどく欠陥のあるものであった)、それが単なるモデルであることは常に理解されていた。一方、JHUのダッシュボードは、実際のCovid感染者と死亡者のデータをリアルタイムで提供していると主張している。証拠はそうでないことを強く示唆している。



データの混乱


あるダッシュボードが、保健当局が使用するのに適した経験的データをホストしていると称しているが、その基礎となるデータは実際にはコンピュータモデルによって生成されている場合、当然ながら複数の問題が発生する。これらの問題は、データが「確認」され、政府の公式ウェブサイトからのデータで更新されたとしても、持続することが保証されている。


いくつか顕著な問題がある。


●リアルタイムでデータを入手できないことを知っている一部の国々は、ダッシュボードを信頼し、その数字を自国の数字に使いたがるだろう。そして、JHUは「公式」数字に対して独自の推計を「確認」する。公式の数字はそもそも独自の推計に基づいているため、間違いが確認され、JHUのデータも国の公式データも正しくなくなる。その結果、ある国のCovidの数字はコンピューターモデルと同じように間違っていることになる。


●他の国は完全に自国のデータに頼ることになる。JHUが推計値を「確認」すれば、JHUのデータは修正される。このシナリオでは、データは検査や研究所の診断が許す限り、あるいはそれらの国のデータが許す限り正しいものとなる。


●上記の結果、隣接する2つの国でCovid感染者と死亡者の割合が大きく異なることがあるが、これはCovidの挙動が2つの国で異なるからではなく、一方の国がJHUのデータを信頼できるものとして受け入れ、他方の国が受け入れなかったからである。その結果、Covidの統計を国間で比較することは不可能になる。


●JHUのデータは世界のいくつかの地域で都市別に分類されているので、JHUのデータを受け入れた都市と受け入れなかった都市があるかもしれない。その結果、Covid統計は、ある都市では経験ベース、別の都市ではモデルベースとなる可能性がある。これでは、ある都市とその近隣の都市を比較することは不可能である。


●JHUが都市レベルのデータを提供している国では、JHUのデータを自国のデータとして使用している都市とそうでない都市があるため、各都道府県の集計値は意味をなさないかもしれない。


●JHUのデータを受け入れる地域と受け入れない地域があることの正味の影響は、都市、州、国レベルの両方で、JHUのモデルで使用されているコンピュータ・アルゴリズムが、ある地理的位置では見えるが、他の地理的位置では見えないことを意味する。その結果、ある場所ではデータがSIRDモデルに適合するが、別の場所では適合しないということになる。これは疫学研究を絶望的に混乱させることになる。


上記の問題はすべて、Covidをめぐる多くの議論の中心的な側面であった-私たち自身が関与し、執筆したものだけでなく、私たちが読んだ、あるいは知っているものも含めて-。例えば、イタリアを調査したところ、Covidによる死亡は、新型ウイルスの流行から予想されるようなものではなく、地域の境界線に一致していることがわかった。


ニューヨークを調査したところ、ニューヨークで起こったとされることは、アメリカの他の大都市では起こらないことがわかった。世界中の死亡パターンを調査したところ、Covidは予想外の方法で地域の境界を「尊重」していることがわかった 。


したがって、Covidのデータを研究している間に表面化した実際の問題は、もしJHUのダッシュボードが観察データによって補強されたコンピューター・シミュレーションに基づいていた場合に予想されるタイプの問題と一致している。


コンピューター・モデルに基づいているにもかかわらず、情報が実際の事実に基づいていると信じられている場合に、どれほど深刻な事態になるかを示す例として、2014年のMH370便失踪事件がある。マレーシア航空が航空機追跡に使用していたソフトウェアによって、行方不明機はカンボジア上空にいると信じられていた。


しかし後に、「『フライトトラッカー』は(コンピューターシミュレーションによる)投影に基づいており、実際の測位や捜索に(頼ることは)できなかった」ことが判明した。飛行機はカンボジアの近くにはなく、この誤解による遅れが飛行機を見失わせるのに十分だった。



例: ニューヨーク


最後に、これらの問題のいくつかを視覚的に示すために、ニューヨーク市(NYC)をケーススタディとして調べることで、JHUダッシュボードの議論を終える。下の最初のグラフでは、2つの異なる情報源から得たデータを用いて、毎日のCovid死亡数をプロットしている。 NYCヘルス(青線)とJHUダッシュボード(赤線)である。3本目の線(緑色)は、JHUの毎日の値に4/3を掛けたものである。この緑の線の理由は後述する。このグラフには、2020年5月17日までにニューヨークで報告されたすべてのCovidによる死亡が含まれている。


図1:2つの異なる情報源から得たNYCにおける1日のCovid死亡数: NYC Health(青線)とJHUダッシュボード(赤線)。両ソースとも "死亡日 "ではなく "報告日 "であるとしている。データは2024年3月に抽出された。緑の線は、JHUの1日の値に4/3をかけたものである。
出典: NYC Health: https://github.com/nychealth/coronavirus-data/blob/master/trends/deaths-by-day.csv 
JHUダッシュボード :https://github.com/CSSEGISandData/COVID-19/blob/master/csse_covid_19_data/csse_covid_19_time_series/time_series_covid19_deaths_US.csv


2020年5月17日をこのグラフの締切日としたのは、NYC Health(NYCH)がこの日に報告方法のいくつかの重要な部分を変更し、JHUのトレンドに大きな混乱を引き起こしたためである。また、上記のグラフで使用されているデータは、表示されている日にそれぞれのGithubリポジトリに入力されたものではないことに留意されたい。NYCHのデータは2020年12月22日に初めてリポジトリにコミットされ、その後3年間に渡って何度も調整された。


JHUのデータは5月17日まで毎日入力され、その後7月1日、8月31日、9月1日に再度調整された。ただし、9月1日の日大の入力は、5月17日まで毎日行われた。JHUの9月1日の入力は、ニューヨーク市での死亡を地区別に分配するために行われたという事実以外に、他の調整についての説明は知らない。


一般に、NYCHもJHUも、「probable deaths」と呼ばれるものを毎日の数字に含めていた。NYCHとJHUの両機関は、このような死亡者数を別々に日次で記録しているため、NYCHの日次値(青線)にはこのような死亡者数を含め、JHUの日次値(赤線)には含めないことにした。このようにして、上のグラフの青線と赤線の差は、"probable deaths "によるものである。


青線と緑線の類似性は、「死亡確率」の数字がコンピューター上で人為的に作られたものであることの反論の余地のない証拠となる。少し努力すれば、この2つの線が完全に一致する比較的簡単な方程式を見つけることができた。しかし、NYCHやJHUがどのような方程式を使って "probable death "を生成したかについては、そちらに譲ることにする。


次に、NYCHのみのCovid死亡データ("probable deaths "を含む)をプロットしてみる(下図2)。この曲線の滑らかさには目を見張るものがあり、データの基礎となるソースとしてSIRD疫学モデルが使われていることを反映していることはほぼ間違いない。当然ながら、JHUの曲線も(数字が小さいだけで)同じ形をしているので、これもSIRDモデルを反映している。「確診死亡数」についてはすでに簡単な式が存在することが証明されているので、確診、確率、総計のすべてのデータにモデルが使われていることはかなり説得力のある証拠である。


図2:ニューヨーク市におけるCovidによる死亡。
出典: ニューヨーク市保健局:https://github.com/nychealth/coronavirus-data/blob/master/trends/deaths-by-day.csv


この最後の点を強調するために、また比較のために、次に2020年1~3月の湖北省におけるCovidによる死亡者数のグラフをプロットしてみる(下図3)。湖北省の人口(5,800万人)はニューヨーク市(830万人)の7倍であるにもかかわらず、湖北省の死亡者数(ピーク:147人、合計:3,164人)はニューヨーク市(ピーク:831人、合計:23,338人)を大幅に下回っている。


この数字が正しいとすれば、ニューヨークで起きたことは、Covid発祥の地とされる省で起きたことの51倍も悪いということになる。このようなシナリオはありえないことであり、ニューヨークのデータは観測された事実に基づいていないという考えを裏付けるものである。


図3:2020年1月から3月までの中国武漢におけるCovidによる死亡者数(報告日別)。2月12日、13日、2月21日、22日、2月23日、24日は2日平均を使用。これはグラフの形状を観察しやすくするためである。本来、2月12日、21日、23日の死亡報告数はゼロであり、ピークは2月13日の242人であった。
出典:  JHU CSSE COVID-19データ 。https://github.com/CSSEGISandData/COVID-19


また、湖北省のグラフ(図3)は、経験的データが通常示すもの(ギザギザ)と一致しているのに対し、ニューヨーク市のグラフ(図2)は、コンピューターモデルが生成するもの(滑らか)に似ていることが観察される。


我々は以前、2020年春にニューヨークで23,338人がCovidで死亡することはあり得ないことを証明した。また、NYCの死亡率データは完全性に疑問があることも証明した。現在の議論に基づき、我々は現在、誤ったデータの最も実行可能な説明は、(疫学モデルに基づく)コンピュータアルゴリズムが、JHUとNYCHの間の不適切なフィードバックループと結合したことであると主張している。


これらのことから、ニューヨークのCovid死亡数は、死体安置所でカウントされたのではなく、計算機上で考案されたものであることがわかる。私たちは、NYCHかJHUのいずれかに、なぜ、そしてどのようにこの数字が異なって解釈されるべきかを説明し、証拠として死亡者の死亡証明書を提出するよう求める。


もちろん、もしニューヨークにおけるCovidによる死亡者数がコンピューターモデルに基づいていたのなら、ニューヨーク市民は2020年初頭の3ヶ月間、不必要な恐怖にさらされ、Covidのせいで何千人もの隣人が亡くなっていると聞かされたことになる。


したがって、2020年の春にニューヨークで異常なことが何も起こらず(中国で異常なことが何も起こらなかったように)、この期間中に911通報が平均24%増加し、心停止が不可解かつ不穏に増加したのは、Covidが原因ではなく、メディアが誘発した恐怖が原因であった可能性が高い。



結論


JHUのダッシュボードは、「研究者、公衆衛生当局、そして一般市民が、アウトブレイクを追跡できる使いやすいツールを提供するために開発された」。どのような病気でもリアルタイムで追跡することは機能的に不可能であることに加え、彼らが開発したときには特別なことは何も「発生していなかった」という事実にもかかわらず、すべての証拠が、政府の公式ウェブサイトから入手したデータで随時「修正」されたコンピューターモデルを使用することによって、Covidダッシュボードを作成することに成功したことを示唆している。


コンピューターモデルのデータと観測データを混ぜ合わせると同時に、「すべて一般に入手可能なデータに頼っている」と主張することで、彼らはデータを無意味なものにするほどひどく混乱させた。その結果、JHUのCovidデータベースは信頼性に欠け、Covidの症例や死亡の判定に使用されるべきではなかった。


この結論は驚くべきように聞こえるかもしれないが、基本的にはアーロン・カッツ(JHU開発チームの監督者)が4年前に言ったことである。


今から 10 年後、私たちは正確に何がどこで起こったのかを伝えるすべてのレポートや回顧録を目にすることになるでしょう…[しかし今のところは] 現時点で私たちはこの状況認識の問題を解決しようとしています。


少なくとも彼の言葉は、特定の病気に関する正確なデータを得るには通常10年かかることを教えてくれる。最悪の場合、この言葉は、JHUのダッシュボードは信頼性が低く、データへの信頼はまったく見当違いであり、JHUのダッシュボードはCovidに関する多くの間違った結論を引き起こしたことを保証している。


これらすべての事実と観察を考慮すると、


●私たちは、世界中の政府や統計局に対し、通常のルートを通じて信頼できるデータを収集する、かつてのゆっくりではあるが正確なプロセスに戻るよう呼びかける。


●私たちは、医学研究者がJHUのリポジトリからCovidデータを使用する誘惑に負けず、信頼できるデータが利用可能になるまで待つことを勧める。


●私たちは、ジョン・ホプキンス大学に対し、彼らのダッシュボードで使用されているコンピューターコード、モデル、情報源、手順について、完全にオープンで透明性のあるものにするよう要請する。


●私たちはニューヨーク市に対し、彼らのデータがコンピューターモデルによって破損されたのかどうか、またどのように破損されたのかについて、透明性のある調査を開始するよう求めます。


●私たちは一般市民に対し、ある疾病の「リアルタイム」世界統計を主張するいかなる主張に対しても、より批判的になるよう求める。