とある銀行員がデータサイエンティストを目指すブログ

小さな地方銀行でのびのびと働くアラサーが、データサイエンティストとして働くことを命じられた!

【要約まとめ】統計学が最強の学問である

一言まとめ

統計学は、あらゆる分野において最速最善の正解を答えを出すことができるので、最強です

 

2013年に出版され、統計ブームの火付け役となった本です。
この本のヒット以降、町の書店には統計に関する本が溢れ、統計の民主化を推し進めた意味では、功績ある書籍と言えます。

タイトルからは統計学の概要を把握するような、初学者向けの内容を想定していたのですが、本書は決して初学者向けの内容ではなく、統計学について、平均や分散などの記述統計から、各種検定に代表される推測統計の概要を把握している方向けです。

本書を読めば、統計学の全体像と、ビジネス課題の解決や意思決定にどのように寄与するのかを理解することができます。

 

統計学が最強の学問である (日本語) 単行本(ソフトカバー)」
西内 啓

https://www.amazon.co.jp/dp/4478022216?tag=biz-memo-22&linkCode=ogi&th=1&psc=1

 

 

 第1章 なぜ統計学が最強の学問なのか?

01 統計リテラシーのない者がカモられる時代がやってきた

あみだくじやビジネスの現場において、統計学的思考の差によって、勝率に差が生じている。
統計学的なリテラシー(統計リテラシー)が必須の能力になっている。

02 統計学は最善最速の正解を出す

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる。

03 すべての学問は統計学のもとに

教育、医療、経済やスポーツなどのほとんどすべての学問にかかわる学者は統計学を使わざるを得ない時代が訪れている。

04 ITと統計学の素晴らしき結婚

デジタル化によって、あらゆる情報がデータ化され、コンピュータの計算能力の向上によって大量のデータを処理できるようになったことから、統計学はパワフルさを増した。マイクロソフトIBMは統計関係の会社の買収を進めている。Googleの創業者の1人は、これからの10年で最もセクシーな職業は統計家だろうと言っている。

 

第2章 サンプリングが情報コストを激減させる

05 統計家が見たビッグデータ狂想曲

データをビッグなまま解析することが、どれだけのコストと効果を生むものかを理解できていないのではないか。

06 部分が全体に勝る時

全数調査のほうがサンプリング調査よりも精度が高いのはその通りであるが、大切なのはサンプリングによってどの程度精度が低下し、精度が低下した結果、実際に下すべき判断や取るべき行動にどのような影響があるかということ。

07 1%の精度に数千万円をかけるべきか?

まずは、正しい判断に必要な最小十分のデータを扱うべき。

 

第3章 誤差と因果関係が統計学のキモである

08 ナイチンゲール的統計の限界

データ分析において重要なことは、その結果がビジネスにおける具体的な行動につながること。そのためには、ただの集計ではなく、以下の3つの問いに答えるものでなければならない。

【問1】
何かの要因が変化すれば利益は向上するのか?

【問2】
そうした変化を起こすような行動は実際に可能なのか?

【問3】
変化を起こす行動が可能だとしてそのコストは利益を上回るのか

09 世間にあふれる因果関係を考えない統計解析

データの偏り、量が不適切な情報は無価値。上記3つの問いに答えない情報も無価値。十分なデータをもとに「適切な比較」を行う、という統計的因果推論の基礎を身に着けることが大切。

10 「60億円儲かる裏ワザ」のレポート

マーフィーの法則に代表されるあるあるはアテにならない。実際のデータを使い、網羅的な比較を行うことで、「何となくわかっていたこと」は具体的な利益につながる数字とともに裏付けられ、「今一番何をすべきだろうか」という戦略目標が明らかになる。

11 p値5%以下を目指せ!

p値とは、実際には何の差もないのに誤差や偶然によってある一定の差が生じる確率のこと。クロス集計表において、誤差でもこのくらいの差が生じるのか、を確かめるための方法として、カイ二乗検定がある。テストの結果の差が誤差なのか有意な差なのかをきちんと見極めることが大切。

12 そもそも、どんなデータを解析すべきか?

利益に繋がり、そこに至る因果関係の道筋が明らかなものを解析すべき。

13 「因果関係の向き」という大問題

因果関係には、A⇒BまたはB⇒Aという、向きがある。因果関係を明らかにするためには、比較集団がフェアである必要がある。そのためには、2つの方法がある。

【方法1】
「関連しそうな条件」を考えうる限り継続的に追跡調査し、統計学的な手法を用いて、少なくとも測定された条件に付いては「フェアな比較」を行う

【方法2】
解析ではなく、そもそものデータの取り方の時点で「フェアに条件を揃える」

 

第4章 「ランダム化」という最強の武器

14 ミルクが先か、紅茶が先か

ランダム化比較試験では、人間の制御できる何に対しても、因果関係を分析できる

15 ランダム化比較実験が社会科学を可能にした

科学の方法論には、観察と実験がある。

観察:対象を詳細に見たり測定したりして、そこから何かの真実を明らかにしようとする行為

実験:さまざまに条件を変えたうえで対象を見たり測定したりして何らかの真実を明らかにする行為

ある実験において、何かの因果を観測したいとき、諸条件をランダム化してしまえば、平均的に比較したい両グループ間で諸条件は同じになる。

16 「ミシンを2台買ったら1割引き」で売上は上がるのか?

統計的な裏付けもないのにそれが絶対に正しいと決めつけるのと同じくらいに、統計的な裏付けもないのにそれが絶対に誤りだと決めるけることも愚か。
とりあえずランダムに試してみる(小さなコストであえて間違いを犯す)こともできる。
一方、ランダムは意外と難しい(例えば人間がAとBをランダムに並べろと言われたとき、AAAやBBBは出てきにくい)

17 ランダム化の3つの限界

ランダム化には3つの壁がある

【現実の壁】
そもそも発生頻度が少ない出来事である場合

【倫理の壁】
①人為的にもたらされる介入が明らかに有害である場合
②明らかに不公平なレベルで「ものすごくいい」ものと「そうでもない」ものが存在してると事前にわかっている場合

【感情の壁】
運次第で自分の運命が左右されるのが嫌と思う人がいる場合

第5章 ランダム化ができなかったらどうするか?

18 疫学の進歩が証明したタバコのリスク

ランダム化に基づいて条件をコントロールする実験だけでなく、ただ何も手を加えずに調査を行う観察においても統計学は力を発揮する。層別解析をして、比較対照することで、フェアな比較ができる。

19 「平凡への回帰」を分析する回帰分析

データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析。データは平均値へ回帰する。

20 天才フィッシャーのもう1つの偉業

無限にデータを取得することで得られる真の値を「真値」と呼ぶ。たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを整理できる。

【回帰係数の推定値】
真値を推定した結果

【標準誤差】
推定値の誤差の大きさ。

【95%信頼区間
p値が5%以下になる真値としてあり得ない値の範囲

【p値】
ばらつきのせいでこれくらいの回帰係数が推定されてしまう確率。

21 統計学の理解が劇的に進む1枚の表

f:id:kiwtn1010:20200420225653p:plain


22 重回帰分析とロジスティック回帰

全集団同士での単純比較は、その内訳となる小集団同士との比較の結果と矛盾することがある。このパラドックスは層別解析によって避けることができるが、条件が多くなるとうまくいかなくなる。このとき、複数の回帰係数を同時に推定するのが重回帰分析。ただし、複数の回帰係数はお互いに相乗効果がないことを仮定している。

もともと0か1かの二値の結果変数を変換し、連続した変数として扱うことで重回帰分析を行えるようにしたのがロジスティック回帰。

23 統計学者が極めた因果の推論

回帰モデルを使う際は交互作用がないことに注意する。交互作用がある場合には交互作用項を設定する必要がある。ただし、ドツボにはまらないよう注意。

 

 

第6章 統計家たちの仁義なき戦い

24 社会調査法vs疫学・生物統計学

統計学には6つの分野がある

【分野①】実態把握を行う社会調査法

【分野②】原因究明のための疫学・生物統計学

【分野③】抽象的なものを測定する心理統計学

【分野④】機械的分類のためのデータマイニング

【分野⑤】自然言語処理のためのテキストマイニング

【分野⑥】演繹に関心をよせる計量経済学

 

社会調査のプロは可能な限り偏りなく、求められる誤差の範囲に収まる推定値を最もよく得ることに関心がある。

疫学・生物統計家は、p値に基づき原因をちゃんと見つけることに関心がある。

25 「IQ」を生み出した心理統計学

心理統計家は「心」や「精神」といった目に見えない抽象的なものを測定することを目指すため、因子分析やパス分析を行う。

26 マーケティングの現場で生まれたデータマイニング

ある事象の関連性を分析するには、バスケット分析よりもカイ二乗分析が望ましい。また、高度な識別力の高いデータマイニング手法として、サポートベクターマシンニューラルネットワークがあるが、これらは説明力が低い。したがって、予測そのものが目的であれば、先述のようなデータマイニング的な手法が、予測モデルから今後何をするかを議論するのであれば回帰モデルのほうが役に立つ。

27 言葉を分析するテキストマイニング

テキストマイニングとは自然言語で書かれた文章を統計学的に分析すること。代表的な手法として、形態素分析N-Gramがある。

形態素分析:文章を単語ごとに分解し、どのような単語が何回使われているかを集計する作業

N-Gram機械的に重複を許したN文字ずつの文字列を切り出し、そこから求める単語を探す方法

28 「演繹」の計量経済学と「帰納」の統計学

計量経済学では、データからの演繹(モデル化)を求める。
統計学では、データからの帰納(個別事例のまとめ)を求める。

29 ベイズ派と頻度論派の確率をめぐる対立

統計学者には分野をまたいで、頻度論者とベイズ論者が存在する。

頻度論者:事前に何らかの確率を想定しない(シンプルに考える)

ベイズ論者:事前に何らかの確率を想定する

ベイズ的な考え方だと、事前の仮定を置くとデータがどのようになるかを議論でき、計量統計学と相性が良い。

 

 

終章 巨人の肩に立つ方法

30 「最善の答え」を探せ

エビデンスにはヒエラルキーがある

f:id:kiwtn1010:20200420234305p:plain

最もエビデンスとしてヒエラルキーが高いものに、メタアナリシスと系統的レビューがある。

【系統的レビュー】
あらかじめレビューする論文の条件を決めたうえで過去に公表された関連論文を選び、分析し、結論をまとめること

【メタアナリシス】
レビューの中で複数のランダム化比較実験や観察研究の中で報告された統計解析の結果を、さらに解析してまとめあげる作業

それらの結果は、人類全体で共有すべき最善の答え。
Google Scholarなどで検索が可能。

31 エビデンスを探してみよう

日本の論文はゼロという結果になることもある。日本全体で統計リテラシー不足とも言える。

 

 

以上、『統計学が最強の学問である』の要約まとめでした!

 

最後に日本全体の統計リテラシーの低さを指摘している本著ですが、本の冒頭では統計リテラシーが低いとカモられちゃうよ、と警告していたこともあり、筆者が本著を通じて伝えたかったことは、統計学の最強さよりも、日本全体に対する危機感なのかもしれません…。

 

 

では!