2016年12月7日水曜日

この2、3日; 日本語の変化と統計教育の変化を思う

北海道地方はこの2、3日、にわかに冬らしくなり、昨日の吹雪のあと今日は冷え込んでいる。空は晴れているが雪晴れというやつであって、真冬日である。

若ければ、宅から車で10分のところにあるスキー場に急行していただろう。

昨朝、居間のカーテンを開けながら『結構、雪ってるなあ』、そんな単語が口をついて出たら、カミさんが「エッ?」と聞き返した。

雪ってる、そんな動詞はまだ現代日本語にはない。が、面白くもあるではないか。

「イヤア、雨ってるねえ・・・」、意味は通じるはずだ。そもそも、「曇ってる」という動詞がある以上、「雪ってる」、「雨ってる」だって、あっても可笑しくないだろう。神ってる、はちょっと違うような気もするが。「雨が降っていますね」よりは「雨ってますねえ」のほうが生活実感があるようにも感じるのだ、な。

言葉は風俗や生活習慣と同じで、これまでにも変態に次ぐ変態を遂げてきている。「をかし」という形容詞の意味は現代の「おかしい」と全く変わってしまったし、現代語の「すごい」も昔の「スゴシ」とはまったく意味が違う。

雪が降るを語源として「雪る」という動詞が派生する。ごくごく自然なメタモルフォーゼである。そもそもイタリア語もフランス語ももとはラテン語なのである。



***



学部向け授業の数理統計学も終盤である。昨日はカイ二乗分布と不偏分散の関係をとりあげた。

が、どうなのだろう。たとえば身長の分布が正規分布$N(170,10^2)$になっているとして、そこから6人の無作為データをとって不偏分散$\hat{\sigma^2}$を算出するとする。その値が144を超える確率はいくらあるのだろうか。そんな例題をとりあげた。

解答するだけなら、
jikken <- replicate(10000,var(rnorm(6,mean=170,sd=10)))
という10000回程度ののシミュレーションを行えばいい。そうすれば
sum(jikken > 144)/10000
実際に144を超えたケースの回数を数えるだけだ。大体20%程度の確率で不偏分散の値が144以上になるサンプルが出てきうるわけだ。

「これだけを知りたいなら、カイ二乗分布やそれが不偏分散の値とどのように関係づけられているかという勉強はいらないのですよ」と、そんな数理統計学担当者としては不適切な説明もせざるをえないのが、最近の統計教育の現状である。

ここを理論的にやれば

$$
P\left( \hat{\sigma^2} > 144 \right)
= P\left(\frac{10^2}{6-1} \chi^2_{6-1} > 144 \right)
= P\left( \chi^2_5 > 7.2 \right)
= 0.2061859
$$

となるのだが、普通の履修者にここまでさせる必要はないだろう。

更に、不偏分散という統計量の分散がどの程度出てくるのか。これまたたった1行の実験から様子はわかるのである。それを理論的に詰めると:

$$
V\left[\hat{\sigma^2}\right] = V\left[ \frac{10^2}{6-1} \chi^2_5 \right] = 20^2 \times 10 = 4000
$$

『この4000は、実験結果から得られる分散4084と大体近いでしょ?』、と。理論計算は、だから、事実にも当てはまっている。こんな講義になるのであるが、こんな風に理論的に成り立っている結論をわざわざ実験で確かめるのが必要かという疑問もあるだろうし、Rという統計ツールで簡単にわかる事柄に数学を使って考えさせる。これは統計学なのだろうか。そんな疑問をも感じるのだ、な。

数学の勉強に使っている時間を統計分析ソフトの勉強に使った方が生産性は遥かに高い。

確かに大学の統計教育は激変期にあるようだ。

0 件のコメント: