2015年4月9日木曜日

ビッグデータの罠

伝統的な統計学の大きな柱が推定と検定であったことに疑いを持つ人は(この分野でメシを食う人であれば)いないはずだ。

その統計的推測の基盤が標本分布と標準誤差にあることは、そもそも無作為サンプルが普通は小標本であるのだから、当然のロジックだった。大体、データを集めるには時間もコストもかかる。そんな背景があったのだな。

ビッグデータは必ずしもコスト・ゼロではないが、しかし、「大数の法則」という理論的仮定でしかなかった状態を現実の状態にしつつある。ここが新しいのだ。

実際「ビッグデータ」を小生はGoogle Alertのキーワードにしているが、毎日必ず数件のメディア情報がメールで届く。まるでビッグデータ時代の到来でこれまで分からなかったことが分かるようになった。そんな事実を伝えるかのようにだ。

★ ★ ★

確かにビッグデータによって「これまで分からなかったことを知ることができる」、この点に間違いはない。しかし、ここにビッグデータの罠がある。これまた一つのロジックである。

大体、相関が厳密にゼロという状態は、たとえていえば摩擦がゼロという状態にも似ていて、現実にはありえない。月の月齢と地球上の出生数に何らかの関係がある、だから相関があるというのは古来言われてきたが、では軽井沢の雲の量とパリ市内の交通事故に相関はあるだろうか?そんな相関があるはずはないが一つの思考実験をしよう。実際に毎日毎時のデータを300年間(=2628000レコード)集めるとして、(これでもビッグデータといえるデータではないが)計算される相関係数は厳密にゼロには合致しないはずである。そして260万のデータから計算される相関係数は有意になるはずである。

ビッグデータは、小標本で有意性が出ない、いわば「データの偶然」として判定されてきた関係を全て「有意」とできる。というか、どんな関係も全て有意判定できる。それが常態になる。

「なるほどこんな因果関係もあったか」と。このこと自体は、確かに新しい知識だ。「分からなかったことが確認できたでしょ」というわけなのだが、では「この要因をプラス方向に変化させると、目的変数はプラスに反応するはずだよね」と、「次の結果」を予測しようとしても、「いや、そうとは言えません」と。

ビッグデータを活用してもノイズの作用がなくなるわけではなく、現実はなにも変わらないのだ。分かりにくいことが見えた。ただそれだけである。そして、分かりにくいことというのは、要するに微妙でハッキリしないことであることに変わりはない。

★ ★ ★

ある食品に毒性があるかどうか。それはビッグデータによって確かに立証可能である。では、そのビッグデータで「初めて」毒性が証明された食品は食べない方がいいのか?それは違うでしょ。実はこれがロジックだ。

もしも特定産地のコメを普通サイズの茶碗を1杯と数えるとして1億杯も食すれば有害であることがハッキリしてくる……としよう。思うのだが、ビッグデータで毒性が証明されるとしても、それは無用の証明であろう。なぜなら百歳まで必ず一日三食そのコメを茶碗一杯だけ食べるとしても一生で食べられるコメは11万杯に届かない。11万杯のコメを食べるだけで毒性が出てくるか、有害であるかという問題はやはりハッキリとはしないのである。ビッグデータと関係なく、小標本で有意性を認められないという事実はやはり事実である。

というか、小標本で確認可能な事実こそ、本当に確かで知るに値する事実なのだ。そんな風にすら言えるのはでないか。

日常のビジネスなり、生活は基本的に小標本の結論を信用して用いるべきだ。そんな側面も非常にある。そうも思われるのだ。いやあ、逆説的!そうは思いませんか。

ビッグデータではじめて分かったことがあるとしても、それまでデータが少なかったために「分からない」としてきた結論そのものが誤りであったことにはならないのである。

ビッグデータは確かに新しい利益機会をもたらすものだ。有用なものだ。埋もれていた「情報のクズ」をカネに変える錬金術でもある。しかし、ビッグデータ活用の投資コストがカギであることはこれまでと同じ経済学の理屈が当てはまっている。

0 件のコメント: