2013年7月19日金曜日

統計ブームが統計バブルになる可能性

カミさんの母の三十三回忌が四国・松山で執り行われるので新千歳空港まで送って行った。母を亡くしたのはカミさんが23歳のときで、さらにそれより前、まだ東京の某女子大在学中に父を亡くしている。小生と初めてあった時には二親ともいなかったわけだが、小生の父がカミさんの父と同じ小学校、旧制中学校、旧制高校出身で、カミさんの父の方が2年先輩であった。そんなこんなで縁があったのだろう、ずっと法事がある度に松山に里帰りしていたが、一人健在だった兄も昨年他界して、カミさんが家族の中で一人残ることになった。今度の法事で永代供養にして終わりにしようと話しながら正午前の飛行機で帰って行った。

こんな家族状況はあまりないなあと、昨晩、カミさんに話しかけると「いつも話している▲▲さんと○○さんも、もうご両親いないんだよ、四人とも」、「そうなの?意外といるんだなあ」。長寿社会の中で、小生と同世代の人間の多くは老親の介護で大変苦労している。そんな世情の中で拙宅が歩んできた道のりは、どちらかと言えば、少数派だと思っていたが、案外いるものなのだなあ、しかし2シグマ範囲の中には含まれていないのじゃあないか……、こんな言い回しをするようじゃ、統計をメシの種にしていることが直ぐに分かってしまう。

★ ★ ★

総務庁統計局が定期的に出している『統計調査ニュース』の今月号(No.320)に文科省初中局の長尾視学官が「高等学校における統計的な内容の意義と指導」という巻頭言を寄せている。曰く
高等学校では,新学習指導要領に基づき数学と理科が昨年度(平成24年度)から他教科に先駆けて学年進行で実施されています。数学科では,必履修科目数学Ⅰに「データの分析」という統計的な内容が含まれています。現場の先生方に「データの分析」について聞くと「どのように指導すればよいか分からず苦慮している」という返事が多くの場合,返ってきます。
(中略)
例えば,平均や分散,標準偏差などの知識があってもそれらの知識は適切に使われなければ意味はありません。これらの知識が適切に使われるためには,それらの知識の意味理解をきちんとすること,これらの知識を使う場面を設けてどのように使うかを実際に経験することが必要です。 
よく分かります……。平均はともかく、いや平均は最も大事なのだが、それとペアで活用する標準偏差。概念を説明して、計算方法を説明して、基本的な性質を説明して、さてこんなクイズを出す。

★ ★ ★

ある遊器具の利用者全体の体重分布は、平均が50Kgで、標準偏差が15Kgだと想定しています。これはまあ、現実にかなり近いのじゃないかと思いますけど、いま想定どおりだとして、ある日に開催した試乗会に来た人は、どの位の体重の人が多いでしょう?目安はつきますか?あなたはどう思う?
「???……、50キロなんですかね?」
「5人をランダムに選びましょう。その5人の体重はどの位になりますか?見当がつきますか?」
「50キロですか?」
「みんな?」
「…そうです…ネ」
「みんな50キロの人になるんですか!?」
★ ★ ★

以前頻繁に投稿したテーマであるのだが、日本人は几帳面なせいか、確実な議論が大好きである。「こうなりそう」とか、「ああなりそう」という話しは、ホンネでは軽蔑しているというか、意味がないと考えている節がある ― よくそれでもって「計画」とか「戦略」を語れるものだと、小生は逆に不思議なのだが。日本人のこの潔癖症を小生は<確実な議論をしましょうよ症候群>と名付けている。純粋数学などをやると、日本人は高度の研究成果を出す。100%論理の世界には強い。

しかし、無作為にとった9人のサンプルはどの位の体重になるか?そんなの確定的には言えませんよ。当たり前でしょう。色々な9人がいるんだから。「なあんだ、分からないわけじゃないですか」。ここなんだ、な。統計を担当していて多数の人に共通のウィークポイントがあると思うのは。確実なことが言えないときは、ただちに「分からない」と答える。どうなるか分からないことは、要するに分からないのだ、と。

これが間違いだ。というより、確率的な考え方を感覚的に受け付けない。こう言う方が実態に近い。

どんな9人がとられるにせよ、その9人の平均体重は45キロから55キロまでの範囲におさまる確率が高い。安全を考えるなら40キロから60キロまでの範囲に収まるでしょうと予想しておけば、まずは確率95%でバッチリのはずだ。
「いわゆるルートNの法則と呼ばれているものですが、簡単な計算で、サンプルの平均値がこの程度の値になる確率がこの位ある、と。確率を数理的に評価できるのですね。確率が分かれば、事態の推移をマネージできるでしょう」。
どんな結果になるか分からないが、確率だけは数理的に求められて出てくる。本来は分からないのに、あたかも結果が分かっているように語る。変だ。おかしい。まやかしだ。そう感じる人は<確実な議論をしましょうよ症候群>にかかっている。

★ ★ ★

統計ブームは、多くの人が科学の目を開くのに絶好のチャンスだ。しかし、何事も確実であることを好む。こうなれば、こうなる。それこそ真理であって、それのみが真理であり、そうならなくても、ならない確率がわずかであれば、そんなことはないと割り切ればよいのだ。そう話すと、いや、それはおかしいと。じゃあ、原発はどうなる?大震災はどうなる?可能性があるなら、起こりうると考えるべきだ。

理屈の筋が通っているから、尚更、厄介な議論であるが、こんな議論に現在の統計ブームが埋没してしまうと、いまの統計ブームは槿花一朝の夢、はかないバブルとなる。そんな可能性もあると見ているのだ。

ひょっとしてビッグデータは、怪しげな統計的推測と違って、「データから本当のことを教えてくれる技術」だと期待されているのかもしれない。


0 件のコメント: