機械学習の基本的な手法

線形回帰

  • 単回帰分析:1つの説明変数の1次関数で1つの目的変数を予測する
  • 重回帰分析:複数の説明変数の1次関数で1つの目的変数を予測する

重回帰分析の注意点 多重共線性:相関の正負と強さを表す指標である相関係数の高い特徴量の組を同時に説明変数に選ぶと予測がうまくいかないことがある.

パーセプトロン

パーセプトロンで解くことができるのは f:id:tomatomato310:20200122151557j:plain 線形分離可能(直線で分離できる)な問題だけである.

しかし,いくつかのパーセプトロンを多層化した多層パーセプトロンを用いることで,線形分離可能ではない問題も解くことができるようになる.

サポートベクタマシン

サポートベクタマシンは,マージン最大化というコンセプトに基づき2つのクラスを線形分離するアルゴリズムである. またスラック変数を導入することにより,どの程度誤分類を許容するかを調整することもできる.

カーネル法

サポートベクタマシンでは,本来は線形分離可能なデータしか分離することができないが,高次元の空間にデータを写像し,その先で線形分離する(カーネル法)をことにより非線型の決定境界を得ることもできる. 非線型特徴写像では,計算量が膨大になるため,計算量の軽減を図るカーネルトリックを用いる.

決定木

不純度の減少分を最小にするような条件分岐を繰り返し,データの分類を行う.

ロジスティック回帰

  1. データがクラスiに属する確率の対数オッズを線形回帰で予測
  2. 対数オッズにロジット変換をし,クラスiに属する確率の予測値を得る
  3. それぞれのクラスに属する確率を計算し,最大確率を実現するクラスにデータが属すると予測する.

KNN法

あるデータが属するクラスを,最も距離が近いデータから順にk個見て多数決により判定する.KNN法は各クラスタのデータ数に偏りがあると精度が落ちる傾向にある. f:id:tomatomato310:20200122151630j:plain

K-means法

  1. 任意のk個のクラスタの中心C_iを一様ランダムに選択.
  2. 全てのデータを.書くデータx_j,j={1,…,n}から最も近いクラスタiに割り当てる.
  3. Step3各クラスタごとに,以下の式に従ってクラスタの中心を求める. f:id:tomatomato310:20200122151654p:plain
  4. クラスタに変化がなくなるまで,Step2,3を繰り返す. f:id:tomatomato310:20200122151739p:plain

    参考文献

  5. 明松真司,杉山将,田原眞一,”徹底攻略ディープラーニングG検定ジェネラリスト問題集”,2019