Oracle Analytics Cloudの数値予測のトレーニングの理解
Oracle Analytics Cloud(OAC)のデータフローで取り込んだデータに対して
トレーニングモデルを作成したい際にはこんな感じでやっていきますが
数値予測のトレーニングの項目を見ると
英語だしなんだか分かりづらいのでここで解説します。
Target
これは簡単で、モデルを作りたい項目はどれかを選べばいいだけです。
Regression Method
回帰の種類を選択します。
- Lasso回帰
- リッジ回帰
- Ordinary Least Squares(最小二乗回帰)
Regularization Weight
正則化の重みを1~100で選びます。
Regularization Weight(L1 ratio or L2ratio)
Please enter 0 if it is ordinary least squares linear regression
Categorical Column Imputation
属性データにおいて、もしNA(該当なし)のデータが出たときに
一番頻出する値を代入するのか一番頻出しない値か。
デフォルトでは最多頻出値となってます。
- Most frequent
- Least frequent
the mode method for categorical features to fill NA.
Two options: most frequent and least frequent .
default is most frequent.
Numerical Column Imputation
数値データにおいて、もしNA(該当なし)のデータが出たときに
平均値か最大値か最小値か中央値どれを代入するか。
-Mean
-Maximum
-Minimum
-Median
Categorical Encoding Method
カテゴリ変数のエンコーディング
(文字列を数値として持ち直す的な。例えば曜日で「日→0、月→1、、、」)
の手法を選択
Indexerエンコーディング
Onehotエンコーディング
Maximum Null Value Percent
Null値を最大何%許容するか
Train Partition Percent
読み込んだデータのうち、何割を学習に使うか。
Standardization
True
False
学習前に標準化するかしないか。する場合はTrue。
機械学習では学習する前に生データをスケーリングする場合が多々あります。
https://qiita.com/ttskng/items/2a33c1ca925e4501e609