とある銀行員がデータサイエンティストを目指すブログ

小さな地方銀行でのびのびと働くアラサーが、データサイエンティストとして働くことを命じられた!

【要約まとめ】統計学が最強の学問である

一言まとめ

統計学は、あらゆる分野において最速最善の正解を答えを出すことができるので、最強です

 

2013年に出版され、統計ブームの火付け役となった本です。
この本のヒット以降、町の書店には統計に関する本が溢れ、統計の民主化を推し進めた意味では、功績ある書籍と言えます。

タイトルからは統計学の概要を把握するような、初学者向けの内容を想定していたのですが、本書は決して初学者向けの内容ではなく、統計学について、平均や分散などの記述統計から、各種検定に代表される推測統計の概要を把握している方向けです。

本書を読めば、統計学の全体像と、ビジネス課題の解決や意思決定にどのように寄与するのかを理解することができます。

 

統計学が最強の学問である (日本語) 単行本(ソフトカバー)」
西内 啓

https://www.amazon.co.jp/dp/4478022216?tag=biz-memo-22&linkCode=ogi&th=1&psc=1

 

 

 第1章 なぜ統計学が最強の学問なのか?

01 統計リテラシーのない者がカモられる時代がやってきた

あみだくじやビジネスの現場において、統計学的思考の差によって、勝率に差が生じている。
統計学的なリテラシー(統計リテラシー)が必須の能力になっている。

02 統計学は最善最速の正解を出す

どんな分野の議論においても、データを集めて分析することで最速で最善の答えを出すことができる。

03 すべての学問は統計学のもとに

教育、医療、経済やスポーツなどのほとんどすべての学問にかかわる学者は統計学を使わざるを得ない時代が訪れている。

04 ITと統計学の素晴らしき結婚

デジタル化によって、あらゆる情報がデータ化され、コンピュータの計算能力の向上によって大量のデータを処理できるようになったことから、統計学はパワフルさを増した。マイクロソフトIBMは統計関係の会社の買収を進めている。Googleの創業者の1人は、これからの10年で最もセクシーな職業は統計家だろうと言っている。

 

第2章 サンプリングが情報コストを激減させる

05 統計家が見たビッグデータ狂想曲

データをビッグなまま解析することが、どれだけのコストと効果を生むものかを理解できていないのではないか。

06 部分が全体に勝る時

全数調査のほうがサンプリング調査よりも精度が高いのはその通りであるが、大切なのはサンプリングによってどの程度精度が低下し、精度が低下した結果、実際に下すべき判断や取るべき行動にどのような影響があるかということ。

07 1%の精度に数千万円をかけるべきか?

まずは、正しい判断に必要な最小十分のデータを扱うべき。

 

第3章 誤差と因果関係が統計学のキモである

08 ナイチンゲール的統計の限界

データ分析において重要なことは、その結果がビジネスにおける具体的な行動につながること。そのためには、ただの集計ではなく、以下の3つの問いに答えるものでなければならない。

【問1】
何かの要因が変化すれば利益は向上するのか?

【問2】
そうした変化を起こすような行動は実際に可能なのか?

【問3】
変化を起こす行動が可能だとしてそのコストは利益を上回るのか

09 世間にあふれる因果関係を考えない統計解析

データの偏り、量が不適切な情報は無価値。上記3つの問いに答えない情報も無価値。十分なデータをもとに「適切な比較」を行う、という統計的因果推論の基礎を身に着けることが大切。

10 「60億円儲かる裏ワザ」のレポート

マーフィーの法則に代表されるあるあるはアテにならない。実際のデータを使い、網羅的な比較を行うことで、「何となくわかっていたこと」は具体的な利益につながる数字とともに裏付けられ、「今一番何をすべきだろうか」という戦略目標が明らかになる。

11 p値5%以下を目指せ!

p値とは、実際には何の差もないのに誤差や偶然によってある一定の差が生じる確率のこと。クロス集計表において、誤差でもこのくらいの差が生じるのか、を確かめるための方法として、カイ二乗検定がある。テストの結果の差が誤差なのか有意な差なのかをきちんと見極めることが大切。

12 そもそも、どんなデータを解析すべきか?

利益に繋がり、そこに至る因果関係の道筋が明らかなものを解析すべき。

13 「因果関係の向き」という大問題

因果関係には、A⇒BまたはB⇒Aという、向きがある。因果関係を明らかにするためには、比較集団がフェアである必要がある。そのためには、2つの方法がある。

【方法1】
「関連しそうな条件」を考えうる限り継続的に追跡調査し、統計学的な手法を用いて、少なくとも測定された条件に付いては「フェアな比較」を行う

【方法2】
解析ではなく、そもそものデータの取り方の時点で「フェアに条件を揃える」

 

第4章 「ランダム化」という最強の武器

14 ミルクが先か、紅茶が先か

ランダム化比較試験では、人間の制御できる何に対しても、因果関係を分析できる

15 ランダム化比較実験が社会科学を可能にした

科学の方法論には、観察と実験がある。

観察:対象を詳細に見たり測定したりして、そこから何かの真実を明らかにしようとする行為

実験:さまざまに条件を変えたうえで対象を見たり測定したりして何らかの真実を明らかにする行為

ある実験において、何かの因果を観測したいとき、諸条件をランダム化してしまえば、平均的に比較したい両グループ間で諸条件は同じになる。

16 「ミシンを2台買ったら1割引き」で売上は上がるのか?

統計的な裏付けもないのにそれが絶対に正しいと決めつけるのと同じくらいに、統計的な裏付けもないのにそれが絶対に誤りだと決めるけることも愚か。
とりあえずランダムに試してみる(小さなコストであえて間違いを犯す)こともできる。
一方、ランダムは意外と難しい(例えば人間がAとBをランダムに並べろと言われたとき、AAAやBBBは出てきにくい)

17 ランダム化の3つの限界

ランダム化には3つの壁がある

【現実の壁】
そもそも発生頻度が少ない出来事である場合

【倫理の壁】
①人為的にもたらされる介入が明らかに有害である場合
②明らかに不公平なレベルで「ものすごくいい」ものと「そうでもない」ものが存在してると事前にわかっている場合

【感情の壁】
運次第で自分の運命が左右されるのが嫌と思う人がいる場合

第5章 ランダム化ができなかったらどうするか?

18 疫学の進歩が証明したタバコのリスク

ランダム化に基づいて条件をコントロールする実験だけでなく、ただ何も手を加えずに調査を行う観察においても統計学は力を発揮する。層別解析をして、比較対照することで、フェアな比較ができる。

19 「平凡への回帰」を分析する回帰分析

データ間の関係性を記述する、あるいは一方のデータから他方のデータを予測する数式を推定するのが回帰分析。データは平均値へ回帰する。

20 天才フィッシャーのもう1つの偉業

無限にデータを取得することで得られる真の値を「真値」と呼ぶ。たまたま得られたデータから計算された統計量がどの程度の誤差で真値を推定しているかを整理できる。

【回帰係数の推定値】
真値を推定した結果

【標準誤差】
推定値の誤差の大きさ。

【95%信頼区間
p値が5%以下になる真値としてあり得ない値の範囲

【p値】
ばらつきのせいでこれくらいの回帰係数が推定されてしまう確率。

21 統計学の理解が劇的に進む1枚の表

f:id:kiwtn1010:20200420225653p:plain


22 重回帰分析とロジスティック回帰

全集団同士での単純比較は、その内訳となる小集団同士との比較の結果と矛盾することがある。このパラドックスは層別解析によって避けることができるが、条件が多くなるとうまくいかなくなる。このとき、複数の回帰係数を同時に推定するのが重回帰分析。ただし、複数の回帰係数はお互いに相乗効果がないことを仮定している。

もともと0か1かの二値の結果変数を変換し、連続した変数として扱うことで重回帰分析を行えるようにしたのがロジスティック回帰。

23 統計学者が極めた因果の推論

回帰モデルを使う際は交互作用がないことに注意する。交互作用がある場合には交互作用項を設定する必要がある。ただし、ドツボにはまらないよう注意。

 

 

第6章 統計家たちの仁義なき戦い

24 社会調査法vs疫学・生物統計学

統計学には6つの分野がある

【分野①】実態把握を行う社会調査法

【分野②】原因究明のための疫学・生物統計学

【分野③】抽象的なものを測定する心理統計学

【分野④】機械的分類のためのデータマイニング

【分野⑤】自然言語処理のためのテキストマイニング

【分野⑥】演繹に関心をよせる計量経済学

 

社会調査のプロは可能な限り偏りなく、求められる誤差の範囲に収まる推定値を最もよく得ることに関心がある。

疫学・生物統計家は、p値に基づき原因をちゃんと見つけることに関心がある。

25 「IQ」を生み出した心理統計学

心理統計家は「心」や「精神」といった目に見えない抽象的なものを測定することを目指すため、因子分析やパス分析を行う。

26 マーケティングの現場で生まれたデータマイニング

ある事象の関連性を分析するには、バスケット分析よりもカイ二乗分析が望ましい。また、高度な識別力の高いデータマイニング手法として、サポートベクターマシンニューラルネットワークがあるが、これらは説明力が低い。したがって、予測そのものが目的であれば、先述のようなデータマイニング的な手法が、予測モデルから今後何をするかを議論するのであれば回帰モデルのほうが役に立つ。

27 言葉を分析するテキストマイニング

テキストマイニングとは自然言語で書かれた文章を統計学的に分析すること。代表的な手法として、形態素分析N-Gramがある。

形態素分析:文章を単語ごとに分解し、どのような単語が何回使われているかを集計する作業

N-Gram機械的に重複を許したN文字ずつの文字列を切り出し、そこから求める単語を探す方法

28 「演繹」の計量経済学と「帰納」の統計学

計量経済学では、データからの演繹(モデル化)を求める。
統計学では、データからの帰納(個別事例のまとめ)を求める。

29 ベイズ派と頻度論派の確率をめぐる対立

統計学者には分野をまたいで、頻度論者とベイズ論者が存在する。

頻度論者:事前に何らかの確率を想定しない(シンプルに考える)

ベイズ論者:事前に何らかの確率を想定する

ベイズ的な考え方だと、事前の仮定を置くとデータがどのようになるかを議論でき、計量統計学と相性が良い。

 

 

終章 巨人の肩に立つ方法

30 「最善の答え」を探せ

エビデンスにはヒエラルキーがある

f:id:kiwtn1010:20200420234305p:plain

最もエビデンスとしてヒエラルキーが高いものに、メタアナリシスと系統的レビューがある。

【系統的レビュー】
あらかじめレビューする論文の条件を決めたうえで過去に公表された関連論文を選び、分析し、結論をまとめること

【メタアナリシス】
レビューの中で複数のランダム化比較実験や観察研究の中で報告された統計解析の結果を、さらに解析してまとめあげる作業

それらの結果は、人類全体で共有すべき最善の答え。
Google Scholarなどで検索が可能。

31 エビデンスを探してみよう

日本の論文はゼロという結果になることもある。日本全体で統計リテラシー不足とも言える。

 

 

以上、『統計学が最強の学問である』の要約まとめでした!

 

最後に日本全体の統計リテラシーの低さを指摘している本著ですが、本の冒頭では統計リテラシーが低いとカモられちゃうよ、と警告していたこともあり、筆者が本著を通じて伝えたかったことは、統計学の最強さよりも、日本全体に対する危機感なのかもしれません…。

 

 

では!

「データサイエンティスト スキルチェックリスト」を読む ~データサイエンス力・見習いレベル編~

どうもこんにちは!

 

以前の記事で、データサイエンティストに必要とされるスキルを、カテゴリとレベルごとに記載した「データサイエンティスト スキルチェックリスト」の概要を紹介しました。

kiwtn1010.hatenablog.com

 

こちらのチェックリストには全528のスキルが定義されており、スキルはビジネス力、データサイエンス力、データエンジニアリング力の3つのカテゴリと、Senior Data Scientist(業界代表)、Full Data Scientist(棟梁)、Associate Data Scientist(独り立ち)、Assistant Data Scientist(見習い)の4つのレベルに分類されています。

 

私は、Assistant Data Scientist(見習い)レベルを目指しています。
見習いレベルであっても必要なスキル数は合計で100以上もあります。

 

本記事ではデータサイエンス力のカテゴリに絞って、今後の自身の学習計画も兼ねつつ、そのスキルの一覧とどのようにして習得を目指すかをまとめていきます。

 

スキルチェックリスト データサイエンス力・見習いレベルの一覧と習得方針

 1.基礎数学

(1)統計数理基礎

① 順列や組合せを式nPr、nCrを用いて計算できる

② 条件付き確率の意味を説明できる

③ 平均(相加平均)、中央値、最頻値の算出方法の違いを説明できる

④ 与えられたデータにおける分散と標準偏差が計算できる

⑤ 母(集団)平均と標本平均、不偏分散と標本分散がそれぞれ異なることを説明できる

⑥ 標準正規分布の分散と平均の値を知っている

⑦ 相関関係と因果関係の違いを説明できる

⑧ 名義尺度、順序尺度、間隔尺度、比例尺度の違いを説明できる

⑨ 一般的な相関係数(ピアソン)の分母と分子を説明できる

⑩ 5つ以上の代表的な確率分布を説明できる

⑪ 二項分布の事象もサンプル数が増えていくとどのような分布に近似されるかを知っている

⑫ 変数が量的、質的どちらの場合でも関係の強さを算出できる

⑬ ベイズの定理を説明できる

いずれも統計2級検定の取得を目指します。
Twitterを見ていたら、データサイエンティストを目指すならまずは統計検定2級から、という趣旨のツイートを見たような気がするのですが、それはこういうことなのですね。
統計検定2級の出題範囲を確認したところ、上記のスキルはきちんと出題範囲に入っていたので、十分そうです。

(2)線形代数基礎

① ベクトルの内積に関する方法を理解し線形式をベクトルの内積で表現できる

② 行列同士、および行列とベクトルの計算方法を正しく理解し、複数の線形式を行列の積で表現できる

③ 逆行列の定義、および逆行列を求めることにより行列表記された連立方程式を解くことができることを理解している

④ 固有ベクトルおよび固有値の意味を理解している

この線形代数基礎の分類には、Associate Data Scientist(独り立ちレベル)以上のスキルが定められていません。

したがって、線形代数としては、これだけを知っておけばよいということなのだと思いますので、上記4つをネットで復習しておきます。
(大学で線形代数は学んだ経験あり)

 

(3)微分積分基礎

① 微分により計算する導関数が傾きを求めるための式であることを理解している

② 2変数以上の関数における偏微分の計算方法を理解している

③ 積分と面積の関係を理解し、確率密度関数を定積分することで確率が得られることを説明できる

こちらも Associate Data Scientist(独り立ちレベル)以上のスキルが定められていません。

ですのでこちらも、上記3つをネットでさらっと復習しておくことにします。

ちなみに③は統計検定2級でも習得できそうです。

 

 

2.予測

(1)回帰/分類

① 単回帰分析について最小二乗法、回帰係数、標準誤差の説明ができる

② 重回帰分析において偏回帰係数と標準偏回帰係数、重相関係数について説明できる

統計検定2級でカバーします。

(2)評価

① ROC曲線、AUC(Area under the curve)、を用いてモデルの精度を評価できる

② 混同行列(正誤分布のクロス表)、Accuracy、Precision、Recall、F値といった評価尺度を理解し、精度を評価できる

③ MSE(Mean Square Error)、MAE(Mean Absolute Error)といった評価尺度を理解し、精度を評価できる

④ ホールドアウト法、交差検証(クロスバリデーション)法の仕組みを理解し、学習データ、パラメータチューニング用の検証データ、テストデータを作成できる

⑤ 時間の経過とともに構造が変わっていくデータの場合は、学習データを過去のデータとし、テストデータを未来のデータとすることを理解している

ここは残念ながら統計検定2級ではカバーされていないので、個別に学習する必要がありますね。

あれこれと調べてみたところ、 「はじめてのパターン認識」という書籍が評価が高く、また内容としてもカバーできていそうです。
だいたい、最初の1章から5章くらいが該当します。

なにやらこの本、データサイエンティスト界隈では有名なものなのか、さまざまなブログで見かけます。

https://www.amazon.co.jp/dp/4627849710/ref=cm_sw_r_tw_dp_U_x_wpiLEbEY9X4F0

 

 

3.検定/判断

(1)検定/判断

① 点推定と区間推定の違いを説明できる

② 帰無仮説と対立仮説の違いを説明できる

③ 第一種の過誤、第二種の過誤、p値、有意水準の意味を説明できる

④ 片側検定と両側検定の違いを説明できる

⑤ 検定する対象となるデータの対応の有無を考慮した上で適切な検定手法を選択し、適用できる

統計検定2級でカバー可能です。
すごいな統計検定w 

 

 

4.グルーピング

(1)グルーピング

① 階層クラスター分析と非階層クラスター分析の違いを説明できる

② 階層クラスター分析において、デンドグラムの見方を理解し、適切に解釈できる

こちらは「はじめてのパターン認識」の第10章が該当していますので、そちらにて習得を目指します。 

 

 

5.性質・関係性の把握

(1)性質・関係性の把握

① 適切なデータ区間設定でヒストグラムを作成し、データのバラつき方を把握できる

② 適切な軸設定でクロス集計表を作成し、属性間のデータの偏りを把握できる

③ 量的変数の散布図を描き、2変数の関係性を把握できる

 統計検定2級で(以下略

 

 

6.サンプリング

(1)サンプリング

① 標本誤差とは何かを説明できる

② 実験計画法の概要を説明できる

 統計検定2級で(以下略

 

 

7.データ加工

(1)データクレンジング

① 名義尺度の変数をダミー変数に変換できる

② 標準化とは何かを知っていて、適切に標準化が行える

③ 外れ値・異常値・欠損値とは何かそれぞれ知っていて、指示のもと適切に検出と除去・変換などの対応ができる

これは実際のデータを触ってなれていくしかないですね。
個別にググって習得していくこととします。

ところで、データサイエンティストはPythonというプログラミング言語を主に使う生態だそうですので、実務で使えるスキルを習得するために、Pythonでどのようなコードになるのか、ということを意識して学んでいきます。

 

(2)データ加工

① 分析要件や各変数の分布などをふまえて、必要に応じて量的変数のカテゴライズやビン化を設計・実行できる

上記に同じく、個別に学んで記事化します。
Pythonでどのように行うのかを習得します。 

 

8.データ可視化

(1)方向性定義

① 可視化における目的の広がりについて概略を説明できる(単に現場の作業支援する場合から、ビッグデータ中の要素間の関連性をダイナミックに表示する場合など)

こういう抽象的なスキルは難しいですね。
可視化の目的の広がりは、実際に分析をビジネスで行ってみて感じるものですね。
適当な感じがして気が引けますが、これは習うより慣れろなスキルだと思います。

 

(2)軸だし

① 散布図などの軸だしにおいて、縦軸・横軸の候補を適切に洗い出せる

② 積み上げ縦棒グラフでの属性の選択など、適切な層化(比較軸)の候補を出せる

ここも統計検定2級で。
一応出題範囲に入っているので、統計検定2級としていますが、軸の候補を適切に洗い出す方法が試験範囲とは思いませんので、都度深掘りが必要ですね。

 

(3)データ加工

① サンプリングやアンサンブル平均によって適量にデータ量を減らすことができる

個別にネット等でさまざまな記事を見つつ学びます。
Pythonでどのように行うのかを習得します。 

 

(4)表現・実装技法

① 適切な情報濃度を判断できる(データインク比など)

② 不必要な誇張をしないための軸表現の基礎を理解できている(コラムチャートのY軸の基準点は「0」からを原則とし軸を切らないなど)

③ 強調表現がもたらす効果と、明らかに不適切な強調表現を理解している(計算データに対しては位置やサイズ表現が色表現よりも効果的など)

④ 1~3次元の比較において目的(比較、構成、分布、変化など)に応じ、BIツール、スプレッドシートなどを用いて図表化できる

⑤ 端的に図表の変化をアニメーションで可視化できる(人口動態のヒストグラムが経年変化する様子を表現するなど)

⑥ データ解析部門以外の方に、データの意味を伝えるサインとしての可視化ができる

⑦ ボロノイ図の概念と活用方法を説明できる

⑧ 1~3次元の図表を拡張した多変量の比較を適切に可視化できる(平行座標、散布図行列、テーブルレンズ、ヒートマップなど)

理論もありつつ慣れの部分が大きいものと感じます。
と、いうより、データ可視化のスキル項目が多くて驚きました。

それだけ重要なスキルということなのでしょう。

したがって、今後のスキルアップも視野にいれつつ、体系的なもので学びたいなぁと思い書店でふらりとしていたら、「データビジュアライゼーションの教科書」が気になったので、この本と学んでいくことにしました。

https://www.amazon.co.jp/dp/4798053481?tag=sharela06-22&linkCode=ogi&th=1&psc=1

書籍のタイトルも、ザ・これからの人向け、という感じがしてよいですねw

 

(5)意味抽出

① データの性質を理解するために、データを可視化し眺めて考えることの重要性を理解している

② 外れ値を見出すための適切な表現手法を選択できる

③ データの可視化における基本的な視点をあげることができる(特異点、相違性、傾向性、関連性を見出すなど)

①はそうなのでしょう。いわゆるビッグデータといわれる大量のデータを人間が個別に目視でデータの性質を理解することは困難です。
可視化すれば、一気に情報が入ってきます。
そうした考えがあるので、①はクリアしていると思います。

②は分かりません、個別に調べてみます。

③は「データビジュアライゼーションの教科書」でカバー。

 

9.分析プロセス

(1)アプローチ設計

① スコープ、検討範囲・内容が明快に設定されていれば、必要なデータ、分析手法、可視化などを適切に選択できる

このスキルは経験が必要ですね。
自由研究や実際の分析事例に多く触れて、さまざまなケースでどのような分析がなされているかを知る必要があります。

Kaggle等で実際に分析されているコードを実際に見てみて、写経してみることで本スキルの習得を目指します。

 

 

10.データの理解・検証

(1)統計情報への正しい理解

① ニュース記事などで統計情報に接したときに、数字やグラフの持つメッセージを理解できる

統計検定2級の取得および「データビジュアライゼーションの教科書」での習得を目指します。
このスキルは、統計に関する理解と、どのようなときにどのようなグラフが使われるのかを理解することで習得可能と考えます。

 

(2)データ確認

① 単独のグラフに対して、集計ミスなどがないかチェックできる

② データ項目やデータの量・質について、指示のもと正しく検証し、結果を説明できる

こちらのスキルは、正直どのようなナレッジをもって習得できるものかきちんと理解できていません。

①集計ミスのチェックは、集計方法を理解すればよいので統計検定でカバーできているかと思いますが、②データの検証というものがくせ者です。

実際にどのようなデータ検証が行われているのかを筆者が知らないので、9.アプローチ設計と同様に、実際の分析事例に触れてみることで検証実務を理解することから習得を目指します。

 

(3)俯瞰・メタ思考

① データが生み出された背景を考え、鵜呑みにはしないことの重要性を理解している

これは今でも理解できています。

データとは何かしらの人による選別やバイアスがかかっているもので、純粋な一次情報が含まれていることはまれです。

筆者の働く金融機関でも、例えば融資先の信用力(お金を貸せるかどうか)を知りたくて、企業の決算書を入手したとしても、決算書の作成過程では経理担当者や税理士、社長などの恣意的な意図や操作が介入していないことを否定できません。

いかなるデータに対しても、健全な懐疑心を持つことが大切です。


(4)データ理解

① データから事実を正しく浮き彫りにするために、集計の切り口や比較対象の設定が重要であることを理解している

② 普段業務で扱っているデータの発生トリガー・タイミング・頻度などを説明でき、また基本統計量を把握している

③ 何のために集計しているか、どのような知見を得たいのか、目的に即して集計できる

これは実務で習得するほかありませんね。
いわゆる、ドメインナレッジ、と言われるものでしょうか。
したがって、殊更に習得方針を策定せず、上記3項目を意識して仕事に取り組むこととします。

 

11.意味合いの抽出、洞察

(1)洞察

① 分析、図表から直接的な意味合いを抽出できる(バラツキ、優位性、分布傾向、特異性、関連性、変曲点、関連度の高低など)

② 想定に影響されず、分析結果の数値を客観的に解釈できる

①は分析事例に多く触れることで習得します。

②はビジネス力でも同様のスキルが上げられていました。人間の潜在的な意識やバイアスの大きさを認識した上で、客観的な視座を取ることの重要性は、1ビジネスパーソンとして、理解しているつもりです。また、解釈の基本となる統計知識は、統計検定2級でカバーすることとします。 

kiwtn1010.hatenablog.com

 

 

12.機械学習的手法

(1)機械学習

① 機械学習に当たる解析手法の名称を3つ以上知っており、手法の概要を説明できる

② 指示を受けて機械学習のモデルを使用したことがあり、どのような問題を解決することができるか理解している

③ 「教師あり学習」「教師なし学習」の違いを理解している

④ 過学習とは何か、それがもたらす問題について説明できる

⑤ 次元の呪いとは何か、それがもたらす問題について説明できる

⑥ 教師あり学習におけるアノテーションの必要性を説明できる

⑦ 観測されたデータにバイアスが含まれる場合や、学習した予測モデルが少数派のデータをノイズと認識してしまった場合などに、モデルの出力が差別的な振る舞いをしてしまうリスクを理解している

⑧ 機械学習における大域的(global)な説明(モデル単位の各変数の寄与度など)と局所的(local)な説明(予測するレコード単位の各変数の寄与度など)の違いを理解している

 必ずしも①~⑧をフルカバーしている訳ではないようですが、あれこれと調べたところによると、加藤公一さん著の「機械学習のエッセンス」を読んでみることが良さそうです。

https://www.amazon.co.jp/gp/product/B07GYS3RG7/

Python、数学、可視化についても触れられているようですので、他のスキル習得ともよい組合せになるかもしれません。

13.時系列分析

(1)時系列分析

① 時系列データとは何か、その基礎的な扱いについて説明できる(時系列グラフ、周期性、移動平均など)

全くの基礎から時系列分析をする人向けの高評価な書籍として、「現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~」があるようです。

本スキルは”説明できる”ことが求められているので、上記書籍をさくっと読んでみて、ブログ記事で自分の言葉で言語化することを目指します。

https://www.amazon.co.jp/dp/B00KNRL068/ 

 

14.言語処理

(1)言語処理

① テキストデータに対する代表的なクリーニング処理(小文字化、数値変換、半角変換、記号除法、ステミングなど)をタスクに応じて適切に実施できる

② 形態素解析係り受け解析の概念を説明できる


①については 、ざっと調べたところ体系的にまとめていただいているコンテンツがありましたので、それを見て、手元でハンズオンしてみることで習得します。

②については、説明できればよいというレベルであれば、ひたすらググって自身で体系化していくことで習得を目指します。

 

15.画像・動画処理

(1)画像処理

① 画像のデジタル表現の仕組みと代表的な画像フォーマットを知っている

② 画像に対して、目的に応じた適切な色変換や簡単なフィルタ処理などを行うことができる

③ 画像データに対する代表的なクリーニング処理(リサイズ、バディング、標準化など)をタスクに応じて適切に実施できる

 
①については、ネットでググって調べれば習得できそうですね。
②、③については、適切な学習方法がイマイチ見当たらず・・・

こんなことを言っては元も子もないのかもしれませんが、地方銀行で働く私にとって、社内での画像・動画処理に関する業務ニーズはきわめて低いです。

無論、OCR等で手書き書類を電子化することも期待はできますが、既存のソリューションが街にあふれていますし、本来は入り口から電子化すべき(要は紙に書かずにタブレット等でデジタル入力してもらうべき)だと思うのです。

したがって、本スキルは他のスキルに劣後させ、ある程度データサイエンス力の他のスキルを習得した後に再度習得方針を策定することとします。

 

16.音声/音楽処理

(1)音声/音楽処理

① wavやmp3などの代表的な音声フォーマットを知っている

 フォーマットを知っているだけであれば、既に知っているつもりではありますが・・・
ざっとネットで調べてみて、簡単に記事にまとめてみましょう。

 

17.パターン発見

(1)パターン発見

① 条件Xと事象Yの関係性をリフト値を用いて評価できる

こちらは統計検定2級の出題範囲ではないようです。

したがって、個別に調べて、評価方法を記事にまとめてみます。

 

 

 

 

ふぅ。

ここまで、データサイエンティスト見習いレベルに求められるデータサイエンス力とそれぞれに対する習得方針をまとめてきましたが、とても多いですね。

データサイエンティストのスキルチェックリストとあって、データサイエンス力に分類されているスキルは全528スキル中271と、なんと半分を占めているのです。

印象的なのは、一口にデータサイエンス力といっても範囲が広いこと。
これを習得していくのは、とても大変そうで、既に心が折れそうではありますが、コツコツと積み上げていきたいと思います。

 あと、統計検定のカバー範囲広い!
データサイエンティストの登竜門と揶揄されるのも納得です。

 

次回は、データエンジニアリング力について、スキルの一覧と習得の方向性をまとめようと思います。

乞うご期待!

”データドリブン(Data Driven)な考え方”を考える

この記事では、データサイエンティストのスキルチェックリストにおいて、ビジネス力スキルとして挙げられている”データドリブンな考え方”とは、どのようなものかを考えてみます。

最近よく聞く「データドリブンって何だよ!」と疑問に思っておられる方の理解の支えになればと思います。

(注意)本記事に記載している内容は、あくまで筆者個人の見解であることをご留意ください。

 

 

1.データドリブンとは

もともと「データドリブン」とはデータ駆動とも呼ばれ、計算機科学における計算方法のひとつを表す言葉なんだそうです。そこでは、ひとつの計算によって生成されるデータが次の計算を起動し、次々に計算が実行されることをデータドリブンと定義されています。データドリブンでは、何らかのデータに基づいて次の行動が起こります。

これから転じて、ビジネスにおける意思決定をデータに基づいて行うことを一般的にはデータドリブンと表現されています。

 

データドリブンの定義が分かったところで、「これまでもデータに基づいた意思決定してきたよ!」という人も多いでしょう。

少なくとも筆者が見てきたビジネスでの現場においては、データに基づかない思いつきの意思決定がなされることはまれだと思います。

 

2.データドリブンの対義語、デマンドドリブン

少し見方を変えて、データドリブンでない考え方とはどのようなものなのかについて考えてみます。
計算機科学におけるデータドリブンの対義語として、「デマンドドリブン」という計算方法があるそうです。デマンドドリブンでは、計算は何かしらの要求に基づいて実行されます。要求された計算に必要な他の計算が要求されて実行され、その結果に基づいて、元の計算が実行されます。

これを1.同様にビジネス用語に再定義すると、必要なデータを集めて意思決定を行うことを、デマンドドリブンと言えるのではないでしょうか。

 

3.データドリブンとデマンドドリブンの比較

データドリブンとデマンドドリブンを比較することで、目的である”データドリブンな考え方”がより理解しやすくなります。

データドリブンな意思決定とデマンドドリブンな意思決定をフローで示すと、以下のようになります。

f:id:kiwtn1010:20200412222005p:plain

データドリブンな意思決定とデマンドドリブンな意思決定のイメージ図

データドリブンな意思決定では、データありきです。デマンドドリブンな意思決定では、意思決定ありきです。
何かを決めるためにデータで論理を作るのではなく、データに基づいた論理から何かを決めることが、データドリブンとデマンドドリブンの大きな差と言えます。

 

4.データドリブンな考え方とは

ここで、データドリブンな考え方を、言語化してみましょう。

私の考えるデータドリブンな考え方とは、何らかの要求を介入させず、データをきっかけに意思決定する考え方です。

これは、データだけを見て意思決定をするということを意味しません。
必要に応じ、いわゆる「えいやぁ」と言われる気合いと勘に頼って意思決定せざるを得ないケースだってあるはずです。
しかしながら、その意思決定の発端はデータにあることがデータドリブンだと考えます。

例えば、売上が下がっている、例えば取引先の倒産件数が増えてきている・・・そうしたデータに基づき、必要に応じ追加のデータを要求したり、関係者にヒヤリングしたりしながら、何らかの意思決定を下すことがデータドリブンな考え方だと考えます。

例えば、月末なので来月のシフト調整をする必要があり、シフトメンバーの希望とスキルや経験年数がまとめられた人事データに基づいて来月のシフトを決定する意思決定は、いくらデータを利用しているからといって、データドリブンとは言えないと考えます。

データドリブンは、意思決定のきっかけがデータであることが大切です。

 

5.デマンドドリブンも必要

本記事は、データドリブンな考え方を示すことを考えており、デマンドドリブンな考え方を否定している訳ではありません。

むしろ、デマンドドリブンな考え方もとても大切ですし、実際にはこうした意思決定の機会の方が多いと思います。

しかし、何らかの要求に基づいた意思決定は、いわばルーティンジャッジであり、ビジネスの幅を広げるものとならないことが一般的だと感じています。

 

6.データドリブンの注意点

これまで説明してきたデータドリブンな考え方は、決して全てのビジネス課題を解決する魔法の考え方ではなく、2つの注意点があります。

(1)正しいデータを見ること

当たり前ですが、データの内容が間違っていては、意思決定の根幹がゆらぐことになります。データの内容だけでなく、データ収集方法や定義、加工方法等を必要に応じ確認しておくことが重要です。

(2)正しくデータを見ること

データが正しくても、内容を正しく把握できるとは限りません。人間はどうしてもバイアスが強いものです。既にある知識や経験に引っ張られた意思決定をしがちです。

目の前にあるデータから読み取れる事実と、自信の考えをきっちりと区別して、正しくデータの内容を把握することが重要です。

 

データの正しさと理解の正しさを、きちんと意識しておくことが大切です。

 

 

 

以上、データドリブンな考え方についてまとめてみました。 

あくまで私の理解に基づく”データドリブン”ですが、皆様の考える”データドリブン”と照らしてお考え等がありましたら、お気軽にコメント等でご意見いただければと思います。

 

では!

 

「データサイエンティスト スキルチェックリスト」を読む ~ビジネス力・見習いレベル編~

どうもこんにちは!

 

前回の記事で、データサイエンティストに必要とされるスキルを、カテゴリとレベルごとに記載した「データサイエンティスト スキルチェックリスト」の概要を紹介しました。

kiwtn1010.hatenablog.com

 

こちらのチェックリストには全528のスキルが定義されており、スキルはビジネス力、データサイエンス力、データエンジニアリング力の3つのカテゴリと、Senior Data Scientist(業界代表)、Full Data Scientist(棟梁)、Associate Data Scientist(独り立ち)、Assistant Data Scientist(見習い)の4つのレベルに分類されています。

 

私のような全くの素人が目指すレベルは、Assistant Data Scientist(見習い)レベルが適当でしょう。
見習いレベルであっても必要なスキル数は100以上もあります。

 

本記事ではビジネス力カテゴリに絞って、今後の自身の学習計画も兼ねつつ、そのスキルの一覧とどのようにして習得を目指すかをまとめていきます。

 

スキルチェックリスト ビジネス力・見習いレベルの一覧と習得方針

 

 

 

1.行動規範

(1)ビジネスマインド

① ビジネスにおける論理とデータの重要性を理解し、分析的でデータドリブンな考え方に基づき行動できる

これは行動できるかどうか、なので意識付けの部分が大きいですね。
ビジネスにおける論理とデータの重要性は、銀行員として融資やマーケティングを5年ちょっとやっているので、概ね理解できているはずです。
後半部分の、分析的でデータドリブンな考え方、については「データドリブン」という聞きなれない言葉もありますので、どのような考え方なのかを人に説明できる程度にまで、理解しておく必要があります。

(追記:データドリブンについてまとめてみました)
kiwtn1010.hatenablog.com

 

② 「目的やゴールの設定がないままデータを分析しても、意味合いが出ない」ことを理解している

理解できています。
データ分析は目的やゴール達成のための道具だと思っています。
極論、ビジネスにおいては、データ分析しなくたって、最終的に目的にたどり着くのであればそれでよいです。

③ 課題や仮説を言語化することの重要性を理解している

理解できています。
ビジネスの現場には、様々なバックグラウンドや価値観、思い入れを持った人がいます。自分自身ははっきりと伝えている・理解しているつもりでも、ふわふわとした伝え方では思いのほか他人には伝わっていないものです(何度も痛い目を見てきたタイプですw)。
また、課題や仮説を言語化しておくことで結果の判定や振り返りも容易です。もし課題や仮説に変更があった際にも、何が変わったのかを認識しやすくなるメリットがあります。
課題や仮説のみならず、ビジネスゴール等、複数人で共有しておくべき事項は、極力言語化しておくことが望ましいでしょう。

④ 現場に出向いてヒヤリングするなど、一次情報に接することの重要性を理解している

理解できています。
一次情報はバイアスがかかっていない真水のようなもので、真の課題を認識すること等に極めて有用です。
ヒヤリングやインタビューを通じて、データ化されていない情報やニーズが得られることもあり、いかなるプロジェクトにおいても現場(顧客体験や業務プロセス)を意識することが大切だと考えています。

 

(2)データ倫理

① データを取り扱う人間として相応しい倫理を身に着けている(データのねつ造、改ざん、盗用を行わないなど)

身についているはずです。
不正はよくない。
(ちなみに、不正はいつかバレるといいますが、バレていない不正が仮にあっても認識できないはずなので、不正はいつかバレる説はなんとなく卑怯だと思っています)

 

(3)コンプライアンス

① 個人情報に関する法令(個人情報保護法EU一般データ保護規則GDPRなど)や、匿名加工情報の概要を理解し、守るべきポイントを説明できる

なんやよく分かりません。
データサイエンティストはもちろんデータを触るわけですので、データにまつわる知っておくべき法令を整理することを目指します。
具体的には、行政機関の一つである個人情報保護委員会の公式HPに、個人情報保護法に関する中小企業向けの留意点等をまとめた資料がありますので、それを読みつつ、本ブログ記事でまとめていくことを目指します。

www.ppc.go.jp

 

 

2.契約・権利保護

(1)契約

① 請負契約と準委任契約の違いを説明できる

説明できます。
請負契約と準委任契約は業務委託契約の種類です。
請負契約では、受注者は発注者が指定したものの完成を約束するもので、発注者はその過程を問いません。何人月かかろうが、再委託があろうが、完成物を納品さえしてくれればよいという契約です。したがって受注者には成果物の完成義務が発生します。
準委任契約には、履行割合型と成果完成型があります。
いずれの場合も、善管注意義務(「普通に考えてこのくらいやるでしょ」レベルの義務感)を追うもので、成果物の完成を必ずしも約束しない点が請負契約と異なります。
この成果物への完成のコミット具合から、瑕疵担保責任(正しくは「契約不適合責任」)や解約に関する考え方が異なります。

こういう契約まわりは、銀行員でも理解できる数少ない事項の1つですね。

 

 

3.論理的思考

(1)MECE

① データや事象の重複に気づくことができる

気づくことができます。
業務中でも、WBSの作成時や要因分解する際に意識しています。
MECE(ミーシー、またはミッシー)は「Mutually Exclusive and Collectively Exhaustive」の略で、直訳すると「お互いに重複せず、全体に漏れがない」という意味です。だいぶロジカルシンキングの基本としてよく挙げられるMECEですが、私自身は銀行に入ってから4年目に、出向先の方に教えていただきました。
その時、人生が変わったと言えるかも知れません。
このあたりのスキルは汎用的かつ重要度も高いので、個別に記事をあげようと思います。

(2)言語化能力

① 通常見受けられる現象の場合において、分析結果の意味合いを正しく言語化できる

”通常見受けられる現象”というのがどのような場合かが分からないので、なんともですが、ここは分析結果の意味合いを言語化するには、まずは解釈することが必要かと思いますので、データサイエンス力の充足をもって達成されるものと考えます。


(3)ストーリーライン

① 一般的な論文構成について理解している(序論⇒アプローチ⇒検討結果⇒考察 や、序論⇒本論⇒結論 など)

理解しています(大学で理系だったので)。
ただ、改めて学びなおしてみたいと思っていたので、何かよい本でもさらっと読んで本ブログにまとめ記事でもあげようと思います。
おすすめ書籍がございましたら教えていただけると大変喜びます。
ちなみに、ストーリラインとは、要はロジカルに伝えることだと思っていますので、ミント・バーバラ先生の「考える技術・書く技術―問題解決力を伸ばすピラミッド原則 」を読んでみようと思っています。


(4)ドキュメンテーション

① 1つの図表~数枚程度のドキュメントを論理立ててまとめることができる(課題背景、アプローチ、検討結果、意味合い、ネクストステップ)

まとめることができます。
このドキュメンテーションには、不朽の名曲である木下是雄先生の「理科系の作文技術」に説明されているものかと思いますので、こちらも記事にまとめてみようと思います(見習いレベルではオーバースペックかもしれません)。


(5)説明能力

① 報告に対する論拠不足や論理破綻を指摘された際に、相手の主張をすみやかに理解できる

理解できます。
説明能力カテゴリに、まずは相手の話を理解できることが記載されているのは感慨深いですね。人間、自らのロジックの綻びを指摘されると、どうしても我を通したくなってしまうものです(極端に一般化しましたが、少なくとも私はそうですw)。
そこでぐっと堪えて、まずは素直に人の話を聴くことは、とても大切ですね、はい。

 

 

4.課題の定義

(1)KPI

① 一般的な収益方程式に加え、自らが担当する業務の主要な変数(KPI)を理解している

理解できていません。
収益方程式、と言われるものを知りません。まずはググってみて、どういうものかを理解することからですね。
自らが担当する業務の主要な変数(KPI)の理解はできています(何年も銀行の本部セクションで働いてきたので)。


(2)スコーピング

① 担当する事業領域について、市場規模、主要なプレーヤー、支配的なビジネスモデル、課題と機会について説明できる

銀行業であれば、説明できます。
ここはデータサイエンティストとして働く方(さまざまな業種の方から委託を受けて分析を行う方)は、クライアントの事業領域について、これらを説明できないといけませんよ、ということですね。


② 主に担当する事業領域であれば、取り扱う課題領域に対して基本的な課題の枠組みが理解できる(調達活動の5フォースでの整理、CRM課題のRFMでの整理など)

 

 

5.データ入手

(1)データ入手

① 仮説や既知の問題が与えられた中で、必要なデータにあたりをつけ、アクセスを確保できる

これは実際に経験を積む中で習得していくものでしょうか。
まずは1つ、データ分析に関する自由研究をやってみることから始めようと思います。

 

 

6.ビジネス観点のデータ理解

(1)データ理解

① ビジネス観点で仮説をもってデータを見ることの重要性と、仮に仮説と異なる結果となった場合にも、それが重大な知見である可能性を理解している

理解しています。
仮説が違っていたことを知ることも、ビジネスに限らず大きな前進です。


(2)意味合いの抽出、洞察

① 分析結果を元に、起きている事象の背景や意味合い(真実)を見抜くことができる

ここは、論理的思考ともつながっている部分ですが、分析の結果得た事実をもとに、「なぜ?」を繰り返していくことが洞察力の本質と思います。
ここも実体験を通じて鍛えていくしかないことだと思いますので、データ分析に関する自由研究を通じて鍛えていくこととします。

 

7.事業への実装

(1)評価・改善の仕組み

① 結果、改善の度合いをモニタリングする重要性を理解している

理解しています。
結果は出して終わりじゃないですね。
金融機関は、貸出先に対するデフォルト率を算定するためにモデルと言われるものを利用していますが、同じローン商品でも申込層が変わってくるなどの理由で、モデルが陳腐化してしまうことがよくあります。
結果を出す前に、結果を評価する軸と基準を決めておくことは、とても大切なことだと考えています。

 

 

8.活動マネジメント

(1)プロジェクト発足

① ウォーターフォール開発とアジャイル開発の違いを説明できる

分かっているようで分かりません。
このあたりはネット上に解説記事も多いので、それをまとめることをしようと思います。

(2)リソースマネジメント

① 指示に従ってスケジュールを守り、チームリーダーに頼まれた自分の仕事を完遂できる

タスクの妥当性にもよりますが、できている…はずです。

(3)リスクマネジメント

① 担当するタスクの遅延や障害などを発見した場合、迅速かつ適切に報告ができる

このあたりは、プロジェクトマネジメントにかかすスキルをまとめたPMBOKで体系化されている項目ですので、余裕があればその勉強もしてみたいですね。

 

 

 

以上が、データサイエンティスト スキルチェックリストに定義されている、見習いレベルに必要とされるビジネス力に関するスキルです。

わりとたくさんありますね(汗

 

上記のように習得方針を記載してはいますが、実際はすべてを知る必要もないと思うので(スキルチェックリストでは、各スキルごとに「必須」フラグが定められているものの、全項目の70%を満たすことが求められている)、適宜必要に応じて学んでいこうと思います。

 

次回は、データサイエンス力・見習いレベル編のスキルを紹介します!

「データサイエンティスト スキルチェックリスト」を読む ~概要編~

みなさんこんにちは

 

今日は、データサイエンティストの要件定義をしてみようと思います。

 

ぶっちゃけ、まったくの素人の私がデータサイエンティストになろうと思っても、何から手を付けてよいのか分からないのが正直なところ。

データサイエンティストという言葉からイメージされるのは、漠然と、パスコン使ってデータを分析したり、AIを作ったりする人、くらいです。

 

そこで、まずはどのようなスキルを持てばデータサイエンティストと名乗れるのかを、体系的に把握しようと考えました。

あれこれと調べたのですが、最も体系的かつ網羅的と感じたのが、一般社団法人データサイエンティスト協会さんが発表しておられるデータサイエンティストスキルチェックリスト ver.3.00でした。

 

今回の記事では、こちらのスキルチェックリストの概要について解説していきます。

 

このスキルチェックリストは、データサイエンティストに求められるスキルカテゴリを以下の3つに分類しています。

 (1)ビジネス力
   課題背景を理解した上で、ビジネス課題を整理し、解決する力

 (2)データサイエンス力
   情報処理、人工知能統計学などの情報科学系の知恵を理解し、使う力

 (3)データエンジニアリング力
   データサイエンスを意味のある形に使えるようにし、実装、運用できるようにする力

 

なんだか分かったような分からないような…ですが、実際に個々のスキルを読んでみると、データサイエンティストはただデータサイエンスに長けているだけでなく、倫理感や法令遵守、プロジェクトの企画・管理や異なるスキル分野の専門家とのコミュニケーションスキル、セキュリティや分析インフラ(オンプレ/クラウド)の実装など、幅広いスキルが要求されています。

ちなみに、銀行員生活で培った寝技営業と飲み会での所作は、データサイエンティストには不要なようでした。

 

また、スキルカテゴリとは別に、個々のスキルのレベルを以下の4つに分類しています。

 (1)Senior Data Scientist
   業界を代表するレベル

 (2)Full Data Scientist
   棟梁レベル

 (3)Associate Data Scientist
   独り立ちレベル

 (4)Assistant Data Scientist
   見習いレベル

 

チェックリストでは、これら3カテゴリ4レベルの全528スキル(多っ!)がまとめられています。

一通りスキルに目を通した印象としては、比較的抽象的で(例えば「ビジネスにおける論理とデータの重要性を理解し、分析的でデータドリブンな感が肩に基づき行動できる」等)、具体的な習得方法がイメージできないものもありますが、多くは「~~できる」構文で記載されており、それができるようになればよいのだ、という指針を与えてくれます。

裏を返すと、データサイエンティストの持つスキルはこのようなものだ、ということがデータサイエンティスト以外の人にも理解できるので、データサイエンティストとお仕事でお付き合いされる方にとっても有用なリストであると感じます。

 

 

さて、今回はスキルチェックリストの紹介をしたところですが、全くの素人は背伸びせずに見習いレベルを目指すことにします。

 

次回以降の記事では、見習いレベルに求められるスキルを、スキルカテゴリ(ビジネス力・データサイエンス力・データエンジニアリング力)に分けて紹介します。

 

それでは!

「データサイエンティストになれ」と言われた私の自己紹介

「データサイエンティストになれ」

 

データサイエンティストといえば、21世紀で最もセクシーな職業と言われ、人工知能ブームに乗って人々の羨望を欲しいままにした、引く手数多の皆が憧れる職業…

そんなものになれと、ある日突然、上司から言われてしまった!!!

 

このブログは、そんなデータサイエンティストを目指し日々奮闘するサラリーマンの学びと気づきを記録するブログです。

 

私は、とある地方銀行で働いています。
銀行の規模でいうと中堅クラスの、いわばどこでもある地方銀行です。
私は大学を卒業後、その銀行に新卒として入行した6年目一般行員です。

大学では物理(厳密には物性物理)専攻で、データサイエンスに関する知識はほとんどありません。
プログラミングは、CとPython、HTMLを触った経験がありますが、いずれもチュートリアル程度です。

銀行では営業店で3年ほど働き、2年ほどFintechの関係のベンチャーに出向しました。
出向後は本部の企画部署に在籍し、役職もなく、のびのびと仕事をしていました。
無論、データサイエンティストとは無縁の仕事です。

 

とはいえ、私の働く銀行でも、AIやデータ活用に対する期待は高まりつつありました。
しかし、実際には外部ベンダーに依存したPoCを数回やったきりで、現場や業務を変えるような施策はこれといってなかったのが実情です。
そんな我が社に、どういうわけかデータ分析組織を立ち上げようという話が沸き起こり、その部署で実際に手を動かすデータサイエンティストとして、私に白羽の矢が立ったのです。

 

…どうしろと?!


このブログでは、データサイエンスとは無縁のサラリーマンが、データサイエンティストとして働くための学びを記録していきます。
この記事を書いている今は、将来的に私がデータサイエンティストとしてきちんと働いている保証もありませんが、多くの方の励みやお役に立てるよう、より汎用的・より具体的な記事をアップできればと考えています。

記事投稿は週1~3本程度のローギア運用を想定してはいますが、みなさまに応援いただけるよう、共にデータサイエンティストを目指す方のお役に立てますよう、よい記事をあげていくように努力しますので、どうぞよろしくお願いします。

コメント等いただけますと励みになります。
特に制限等は設けませんので、同じ境遇の方、先輩データサイエンティストの方、その他皆様のコメントをお待ちしております。