観測データの前処理
正規化:最大値で割る計算を行い、すべてのデータを0~1の間にすること。
データをスケーリングすると表現されることも。
標準化:データに対しの平均を0、標準偏差が1になるように計算すること。
※標準偏差となっている場合もあるが、標準偏差の2乗=分散なので同じことだと理解
主成分分析(PCA):特徴量の線形結合からデータ内の分散が大きくなるような特徴量を得る
画像処理の前処理
局所コントラスト正規化:減算正規化と除算正規化の処理を行う。OpenCVというライブラリで行うことが可能
自然言語処理の前処理
bag-of-words:文章に単語が含まれているかどうかを考えてテキストデータを数値化する
TF-IDF:文章に含まれる単語の重要度を特徴量とする
この記事は役に立ちましたか?
もし参考になりましたら、下記のボタンで教えてください。
コメント