E資格に向けての勉強1
G検定に合格したので、そのままE資格を受けることにした。
E資格に関係のない基礎的な部分も含めて自分用に用語などをまとめる。
勉強してる感じだと、難易度はITSSレベル4くらい。G検定は2。
E資格は大学教養レベル程度の数学の基礎が身についてないと厳しい印象。
特徴量エンジニアリング
特徴量選択(feature selection)
既存の特徴量から役に立ちそうな特徴量を選択する。
特徴量抽出(feature extraction)
既存の特徴量を組み合わせて、新しい特徴量を作成する。
新データを集めて新特徴量を作成
過学習の防ぎ方
複雑になったモデルのパラメータのノルムにペナルティを課して汎化性能を向上させる。
主にL2正則化(Ridge)、L1正則化(LASSO)、ElasticNetがある。
L2正則化(Ridge)
L2ノルムにペナルティを課す。
L1正則化(LASSO)
L1ノルムにペナルティを課す。スパースなデータのときに使う。
ElasticNet
L2とL1の中間のノルムにペナルティを課す。
正則化の程度はハイパーパラメータで制御できる。
ハイパーパラメータのチューニング方法はグリッドサーチやランダムサーチがある。
グリッドサーチ
すべての組み合わせを検討するやり方
ランダムサーチ
確率分布を仮定して、無駄な施行を避けるするやり方
性能指標
- 回帰問題の代表的な性能指標
RMSE (Root Mean Squared Error)
最もよく使われる。
MAE (Mean Absolute Error)
外れ値が多い場合に使う。
RMSLE (Root Mean Squared Logarithmic Error)
値のレンジが大きい場合に使う。ある値が20、ある値が20000000など。
決定係数
みんな大好き。
- 分類問題の代表的な性能指標
Accuracy, Error rate
Precision, Recall
F1-score, Fβ-score
MCC (Matthews Correlation Coefficient)
あまり使われないが、不均衡なデータに対してモデルの性能を適切に評価しやすい。
logloss
AUC(ROC曲線)