Oracle Analytics Cloudの数値予測のトレーニングの理解 - 言葉にできるは武器なるらしい

Oracle Analytics Cloud(OAC)のデータフローで取り込んだデータに対して
トレーニングモデルを作成したい際にはこんな感じでやっていきますが

f:id:rodeeeen:20200422012413p:plain

数値予測のトレーニングの項目を見ると
英語だしなんだか分かりづらいのでここで解説します。

f:id:rodeeeen:20200422012502p:plain

これは簡単で、モデルを作りたい項目はどれかを選べばいいだけです。

回帰の種類を選択します。

正則化の重みを1~100で選びます。
Regularization Weight(L1 ratio or L2ratio)
Please enter 0 if it is ordinary least squares linear regression

属性データにおいて、もしNA(該当なし)のデータが出たときに
一番頻出する値を代入するのか一番頻出しない値か。
デフォルトでは最多頻出値となってます。

the mode method for categorical features to fill NA.
Two options: most frequent and least frequent .
default is most frequent.

数値データにおいて、もしNA(該当なし)のデータが出たときに
平均値か最大値か最小値か中央値どれを代入するか。
-Mean
-Maximum
-Minimum
-Median

カテゴリ変数のエンコーディング
（文字列を数値として持ち直す的な。例えば曜日で「日→０、月→１、、、」）
の手法を選択
Indexerエンコーディング
Onehotエンコーディング

Null値を最大何％許容するか

読み込んだデータのうち、何割を学習に使うか。

True
False
学習前に標準化するかしないか。する場合はTrue。
機械学習では学習する前に生データをスケーリングする場合が多々あります。
https://qiita.com/ttskng/items/2a33c1ca925e4501e609