読者です 読者をやめる 読者になる 読者になる

統計学が最強の学問である - 西内啓

ビジネス

昨年は”ビッグデータ”というバズワードがIT業界で流行りました。ただ”ビッグデータ"という言葉自体の定義は曖昧で、誰が、何をしようとするかによってその対象となるデータもまちまちです。ですから、去年後半には「ビッグデータってなんだろう?」といった疑問を持つ人も多くいました。

去年はこの言葉だけでハードウェアビジネスが賑い、多くの製品がリリースされました。一方で、それを使いこなす人材などのソフトウェアは、不足しています。本当は本書で書かれているように、大学院を卒業した若い人がこういうことにビジネスとして取り組むことができれば良いと思います。ただ現実として、なかなかそうした雇用は生まれていません。

こういう本が広まり、多くの人がデータ分析、統計学の必要性と有効性を感じて頂けると、IT業界にいる人間としては嬉しいです(また、私もそういった分野を大学、大学院で修得した人間なので)。

統計学は最善最速の正解を出す

なぜ統計学は最強の武器なのか?それは、”どんな分野の議論においても、データを集めて分析することで”最速で最善の答えを出すことができるから。もし、十分なデータがあるのならば、「感と経験」だけに基づく議論を重ねても時間の無駄である。

「エビデンス」が医療を変えた

現代の医療でもっとも重要な考え方は"EBM(Evidenced - Based Medice)"、日本語にすると「科学的根拠に基づく医療」。医師の経験と勘だけではなく、きちんとしたデータとその解析結果、すなわちエビデンスに基づくことで最も適切な判断をすべきだ、というのが現代医学において主流の考え方である。

1%の精度に数千万円かけるべきか?

全数調査よりサンプリング調査の方が精度が低いことは間違いない。だが問題は、「それによってどの程度精度が下がるのか」、「そして、その精度が低下した結果、実際の下すべき判断や取るべき行動にどのような影響があるのか」である。逆に言えば、判断や行動に影響しないレベルの精度は無意味で、そのためにかけなければいけないコストは無駄だ。

データをビジネスに使うための3つの問い

1. 何かの要因が変化すれば、利益は向上するのか?

2. そうした変化を起こすような行動は、実際に可能かのか?

3. だとしたら、その利益はコストを上回るのか?

現代においては企業の様々な部署において、大量のデータが存在している。また何らかの新しい調査を行うことも、今では大したコストがかかるわけではない。重要なのは、「ここから何かわからないか」という漠然とした問ではなく、「そのようなデータのうち何が、どのような関係で利益とつながっているのか」を考えることである。

科学に必要な謙虚な姿勢

科学とは、正しいことを最大限謙虚に、大胆に掘り下げようとする姿勢である。我々人間は基本的に馬鹿なのだと私は思っている。いくら考えても分かるわけのないことに対して、よく考えたり話しあえば分かるようになるだなんて思うこと自体、大変馬鹿な思いあがりなのではないだろうか。

私達にできることは、まずランダムさによって運を天に任すことであり、そして統計解析によって天の思し召しに耳を傾けることである。

分析のあれこれ

相関とは「一方の大きい時に他方も大きい」という傾向を示しているだけで、「一方の値が大きいから他方も大きい」かどうかという因果関係とは全く別物だ。

形態素分析とは一般的に文章を単語ごとに分割し、どのような単語が何度使われているかを集計する作業のことを言う。

帰納”とは個別の事例を集めて、一般的な法則を導こうとするやり方。”演繹”とはある事実や仮定に基づいて、論理的推測より結論を導こうという方法で、例えば「ニュートンの力学」を言う。

4階層に分かれるエビデンス

最善の答えは既に公開されている。エビデンスで最もエビデンスレベルとして高いのは、「メタアナリシス/系統的レビュー(meta-analysis/systematic review)」、次に「ランダム比較実験(Heackman)」。これらと調べたいキーワードをGoogle Scholar等で調べれると有力なエビデンスを得ることができる。

Google Scholar

最後に

おそらく我々がすべきことの多くは、既に文献やデータと上では明らかなのである。だが、それを現実のものとして実行するまでのギャップが我々を「最善」から遠ざけているのではないかと思う。

やるべきことが明らかなのであれば、私達がすべきことはいかに速く、そうした真実を探し当て、理解し、自らが実践するとともにその知恵を周りに普及していくことだと思う。

Amazon.co.jp: 統計学が最強の学問である: 西内 啓: 本