データ前処理の種類を解説

観測データの前処理

正規化:最大値で割る計算を行い、すべてのデータを0~1の間にすること。
    データをスケーリングすると表現されることも。

標準化:データに対しの平均を0、標準偏差が1になるように計算すること。
    ※標準偏差となっている場合もあるが、標準偏差の2乗=分散なので同じことだと理解

主成分分析(PCA):特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る

画像処理の前処理

局所コントラスト正規化:減算正規化と除算正規化の処理を行う。OpenCVというライブラリで行うことが可能

自然言語処理の前処理

bag-of-words:文章に単語が含まれているかどうかを考えてテキストデータを数値化する

TF-IDF:文章に含まれる単語の重要度を特徴量とする

この記事は役に立ちましたか?

もし参考になりましたら、下記のボタンで教えてください。

関連記事

コメント

この記事へのコメントはありません。