入門「統計」のお部屋

わかりやすく「統計」についてお話します。

統計から見た、機械学習。

本日は、流行りの

機械学習(マシーンラーニング、今回は主にディープラーニングを想定)」

について、統計と比較しながらわかりやすく書いてみたいと思います。

なーんか聞いたり見たりしたことはあるし、
AIとかバズワードで流行りまくっているけど
・実際にどんなもので
・どんなところに使われていて
・どうやって使えば良いのか
ということを泥臭いレベルでまとめてみますのでぜひご参考にして下さい!

ということで目次。

 

 

 


1.AIと機械学習ディープラーニングとは?


まず、それぞれは違うものではなく、概念の広い~狭いの違い。
AI>機械学習ディープラーニング

AIはとても定義が広いし、人によっても違う。
何なら、明確に定義できないという定義をしている場合もあるくらい。

ただ私として簡単にまとめると、
 なにかの入力に対してなにかの出力を出すもの。
ということだと抑えている。

と定義すると、大体のコンピュータプログラムはAIになってくる。笑

なので特に、その中で、知能のレベルが人間と同等以上になるとAIとして自信を持って言えるかな、と。


機械学習は入力と出力で計算するもの。
特徴をつかみ法則化する面と、その法則を自動化する、とまとめられていて、とてもスッキリする。
https://markezine.jp/article/detail/29471

私なりに補足すると、
多数のデータから、自動で、入出力の関係を見つけてくれる。
それを元に、入力があった時の出力を出してくれるような判断を自動で作ってくれる。
自分でゴリゴリプログラムを書くこととは違う
(いや、書かないといけないんですが、計算のメインは自動化されている)。

そして、ディープラーニング機械学習の一種で、
複数の層からなる人工ニューラルネットワークにて予測、分類を行うもの。

入力があって、各層で計算を繰り返していって、最終的にほしい出力の値まで加工する。
3層以上あるとディープラーニングと呼ぶ模様。

2.統計と機械学習の違い

統計は「説明可能性」が重視される。
機械学習は「説明可能性」はそこまで重視されず、「予測精度」に重きが置かれる。

 

・・・簡単にいうと、

「なんでそうなったん?」

 に答えることを重視しているのが統計、

「なんでかわからんけどよく当たる!」

 を重視しているのが機械学習、ですね。

 

なんの話かというと、

工業的な話(自動車を作る、とかね)は何でそうなったのか?を重んじる。

それは理屈を積み上げるという意味もあるけど、ちゃんと原因を掴まないと再発防止できないから。

一方、そこまで説明できなくても良い、むしろ今の方法だと50点くらいしか当たらないのでそれが60点70点になってもすごい!という世界があって、そこでは機械学習を使うと、今までよりとてもに精度が上がるので、盛り上がっている。


3.なぜ今機械学習か?

大きく2点。
一つは、たくさんのデータが得られるようになったこと。
検索したらどんな画像でも無限に出てきますよね。Googleスゴイ。

もう一つは、CPUの計算能力がとても上がったこと。

それこそ昔でいうスパコンが今のスマホになって一人1台あるような時代。

これらが噛み合って、現在はビジネスで活用して結果が出る(出そうな気がする)状態になっています。

4.機械学習の分類

使う立場でいうと、抑えておくべき分類が
 ・教師有り
 ・教師無し
の2つ。

たくさんの写真から猫が写っている写真を見つけるアルゴリズムを構築するとして。
最初に「猫有り」「猫なし」のラベルがついた画像を用意してそれを元にアルゴリズムを構築する方法が「教師有り」。
逆に、答えを与えずに勝手に計算して分類や予測を行えるか試す方法が「教師無し」。

やっぱり教師なしへの関心は高いしいずれはそっちにいくでしょうが
現在ビジネスで活用しようと思ったらやっぱり「教師有り」がメインになってくると思います。

人間ができることを高精度、長時間、大量にできることが
機械学習の現状レベル。

人間ができない判断までさせようというのは、
不可能ではないと思うけれど、
それを専門にトライしている人以外がチャレンジするには、
現状、ハードルが高い印象(実質不可能。)。

まぁこの業界の進歩はとても早いので
2、3年したら普通にできるようになっているかもしれませんね。

そういう意味で今後も楽しみです!


もう一つの分類として、使用する目的。
分類したいのか、予測したいのか。

良品と不良品の判別が前者、
様々なデータから売上を予測するのが後者。

やっているうちに「あれ、そもそも何をしようとしてたっけ?」となったときには
分類側か、予測側か、一度落ち着いて見直して見て下さい。

 


5.機械学習の基本的な手順とシステム構成

手順
 データを揃える
  目安としては、1万データ以上は欲しい
 クレンジング
  ここは地味ですが、精度を担保するためにとっても大事。
  ここに分析全体のうち、ほとんどの時間がかかることも。。
  大まかにいうと単位合わせ、平均値をゼロに、意味の無い因子を削除の3ステップ。
 モデル作成
  クロスバリデーション(交差検証)を推奨。
  過学習(手持ちデータに最適化しすぎた結果、新しいデータの予測性能が低下する現象)対策として。
 推論実行
  ここまで来たらドキドキしながら実行ー!

と言われましても、、ってなりますね。
またpythonで実際にやったらどうなるか、ということもやりますのでお楽しみに。

逆に上記を読んでふむふむっていう人は独り立ちレベル!

 

6.機械学習の限界

機械学習の「学習」と「推論」にはハイスペックなコンピュータが必要
リアルタイムデータの即時性(クラウドでの計算は難しい
一方、オンサイトにハイスペックなコンピュータを配置するとコストが課題


7.じゃあ統計は不要になるのか?

統計の重要度は減らない。

少ないデータから全体を予測するという技術に対するニーズは
今後もなくならない。
たくさんデータがあるものばかりじゃないので。

ただし、今までデータの分析をやりきらないので統計的に判断していた部分は
ゴリゴリとパソコンで計算させることで置き換えられていっている。

一方、機械学習とはいえ背景にあるのは統計的な知識もあるので
結局切っても切れない。
逆にそれをわからずとにかく使っちゃう危うさもある。

ということで、
機械学習と統計は逆方向のスキルですが
いずれも重要度は今後も増す一方。

それぞれ専門スキルで壁も高いですが
車の両輪として活用しながらスキルアップしていくことを
強くオススメします!

 

8.最後に。何からやる?

当然、目的と手持ちデータによりますが。

ここでは教師データの有り/無しに分けると、

「教師データ有り」:必要な因子をスクリーニングしつつ機械学習

「教師データ無し」:とりあえずいろんな手法にぶっこんでイメージと合う結果を採用

 

 

ということで機械学習についてある程度まとめました。

それぞれの「Todo」や「そもそもなんで?」については追ってまとめていきますので、おたのしみに!

 

 

キンドル本と動画セミナープレゼント

メルマガではブログでは非公開の情報を公開中です。更に知りたい場合は登録してください。

詳しくはこちら

f:id:kohei327:20191002002342j:plain

キンドルで発売中のこちらの本もプレゼント中!