データの精度を計算して監視することが重要な理由

計算モデルの結果である製品を提供する際に、最初に確認する必要があるのは、結果の品質です。エンドユーザーのニーズに十分に答えられているでしょうか？提供するエアクオリティデータは、有害な大気汚染物質への暴露を減らすことで、人々の健康を改善できるほど正確なのでしょうか？これらの質問に答える適切な方法は、モデル全体の精度をテストすることです。このようなテストは通常、製品の精度の指標として機能する単一の結果を生成します。

たとえば、天気予報が摂氏 20度となっているとき、この数値が現実にどれほど近いかを知っておくと便利です。通常は何度か違っている場合もあります。エアクオリティデータについても同じことが言えます。

データモデルのパフォーマンスやデータモデルのさまざまな部分を理解することは、非常に重要です。欠点やデータの異常を指摘でき、また改善点についての意見も提供できるようになります。

どのようなメソッドが使われるのでしょうか。

モデルの結果の品質評価 (モデル検証) は、基本的に結果が正しいと見なされるデータと比較し、実行されます。統計の分野では、この「true data」またはグラウンドトゥルースデータは、モデルの目的を表す任意のデータポイントのセットです。モデルが物理現象の場合、機器を使用してフィールドに出て、モデルが計算するように設計された現象を測定することにより、グラウンドトゥルースを取得できます。グラウンドトゥルース測定自体がモデルの入力の一部である場合、結果を評価する別の方法として交差検証します。

交差検証 (クロスバリデーション) は、入力データのサブセットが除外され、後にグラウンドトゥルースとして機能し、モデルの結果と比較されるモデル検証の統計手法です。この比較は、単純な減算であり、モデルの誤差を生成します。

通常このプロセスは、データの分散を考慮して、データの異なる部分を残し、複数回実行されます (各チャンクデータはわずかに異なります)。次に、すべての比較の結果 (エラー) を組み合わせて、全体的な状況を最もよく表します。エラーを組み合わせることが可能な方法は、nが繰り返しの数であるときにそれらの平均を取ることです:

交差検証にはいくつかのタイプがあり、データの分割方法によって名前が付けられています。たとえば、K-分割交差検証では、入力データがk回ランダムに分割され、モデルが k回実行されます。そのたびに入力として別の分割が使用されます。別の例としては、モデルが実行されるたびに単一のデータポイントが入力から削除される leave-one-out 交差検証 (LOOCV，一個抜き交差検証) があります。

BreezoMeterが開発したツール

平均値 (Mean) または平均 (Average) は、広く知られている用語です。これは、数字のグループの合計を、グループ内の数字の量で割ったものです。一方、パーセンタイル (Percentile) と中央値 (Median) は、非科学的な文脈で使用されます。

パーセンタイルは、エラー値の分布に関する情報を提供するため、モデルのエラーと動作をより深く理解するために重要です。

同様の洞察は、二乗平均平方根誤差 (RMSE：Root Mean Squared Error) を使用して行うことができます。

エラーを二乗することで、より大きな値に重みを付け、この統計値を外れ値 (極値) として検知しやすくします。したがって、二乗平均平方根誤差が平均よりも大幅に大きい場合、結果におそらくいくつかの大きなエラー値があることがわかります。

継続的なダイナミック精度テストの利点

CAT (継続的精度テスト) システムを補完するために、ダイナミックレポートのグラフを使用してライブ CAT レポート結果を表示します。CAT レポートは Google のデータポータルに組み込まれており、非常にフレキシブルです。実行する各タイプの精度テストには、さまざまな期間のデータを表示できる独自のセクションとグラフがあります。このダイナミック CAT レポートは、パフォーマンスを監視し、重要な決断をサポートするために毎日使用されます。たとえば、この情報を使用して、改善から利益を得ることができるモデルの領域を特定することが可能であり、モデルの精度を利害関係者実証できます。また、モデルに加えられた変更が精度のレベルにどのように影響し、それに応じて変更できるかを確認することもできます。精度レベルを知ることは、長期の問題になる前に問題を特定するのに役立ちます。

上記は、BreezoMeter の CAT レポートのグラフの例です。これらは、汚染物質の地上レベルのオゾン O3 (10 億分の 1 ppb) に対する、2018 年 5 月からの 2 週間にわたる、モデルの 1 時間ごとの誤差です。データは、80か国以上を含む世界の大気質 API からのもので、各色付きの線はエラーの異なる統計を表し、灰色のバーは各計算に含まれる監視ステーションの数を表します。

BreezoMeter 製品の詳細は、弊社 Web サイトをご確認ください。

2018 年 6 月 7 日

「Continuous Accuracy Testing for Accurate Air Quality Data」