言葉にできるは武器なるらしい

言葉に文字に残していきます何事も。いつかきっと誰かの役に立つはずだから。

OACの数値予測のトレーニングの理解

Oracle Analytics Cloud(OAC)のデータフローで取り込んだデータに対して
レーニングモデルを作成したい際にはこんな感じでやっていきますが

f:id:rodeeeen:20200422012413p:plain

数値予測のトレーニングの項目を見ると
英語だしなんだか分かりづらいのでここで解説します。

f:id:rodeeeen:20200422012502p:plain

Target

これは簡単で、モデルを作りたい項目はどれかを選べばいいだけです。

Regression Method

回帰の種類を選択します。

  • Lasso回帰
  • リッジ回帰
  • Ordinary Least Squares(最小二乗回帰)
Regularization Weight

正則化の重みを1~100で選びます。
Regularization Weight(L1 ratio or L2ratio)
Please enter 0 if it is ordinary least squares linear regression

Categorical Column Imputation

属性データにおいて、もしNA(該当なし)のデータが出たときに
一番頻出する値を代入するのか一番頻出しない値か。
デフォルトでは最多頻出値となってます。

  • Most frequent
  • Least frequent

the mode method for categorical features to fill NA.
Two options: most frequent and least frequent .
default is most frequent.

Numerical Column Imputation

数値データにおいて、もしNA(該当なし)のデータが出たときに
平均値か最大値か最小値か中央値どれを代入するか。
-Mean
-Maximum
-Minimum
-Median

Categorical Encoding Method

カテゴリ変数のエンコーディング
(文字列を数値として持ち直す的な。例えば曜日で「日→0、月→1、、、」)
の手法を選択
Indexerエンコーディング
Onehotエンコーディング

Maximum Null Value Percent

Null値を最大何%許容するか

Train Partition Percent

読み込んだデータのうち、何割を学習に使うか。

Standardization

True
False
学習前に標準化するかしないか。する場合はTrue。
機械学習では学習する前に生データをスケーリングする場合が多々あります。
https://qiita.com/ttskng/items/2a33c1ca925e4501e609