ゴリゴリ文系の自分が統計の勉強をしていて(^q^)となった概念シリーズ。
勉強のためにまとめたもの。
・対数変換
連続値を対象にしたモデルの多くは正規分布を仮定しています。ですが、現実のデータが正確に正規分布している場合はほとんどありません。
だけど、データを一般化するためには無理やりにでも正規分布に近似させたい。そんなときに用いるのが「対数変換」です。
もし、元のデータが対数正規分布に従っているならば、対数変換後のデータは正規分布に従います。
引用:対数変換ではデータの分布が変化します。対数変換の効果が大きいのは偏りがある数値データです。対数変換には次の特徴があります。特徴量のスケールが大きい時はその範囲を縮小し、小さい時は拡大します。これにより、裾の長い分布を押しつぶしたように山のある分布に近づけることができます。また分散が大きなデータでは平均値が大きいほど等分散となりやすい傾向にあります(https://uribo.github.io/practical-ds/02/numeric.html)。
・目的関数の最小化
目的関数がパラメータについて簡単な式で書ける場合
モデルに含まれるパラメータをまとえてθとすると、データとモデルが与えられた時の目的関数は、θだけの関数としてL(θ)と書かれます。これが最小になるための必要条件は、数学的に
∂L/∂θ=0
とパラメータによる微分が0になることです。こうして出てきたパラメータの値の組が1つであればそれを採用し、複数出た場合は最終的な目的関数の値が最小のものを選択します(選ばれなかったものは局所最適解となります)。
・正則化
過学習という概念があります。モデルとデータを合わせすぎてしまい、本質的なデータ生成規則とかけ離れたモデルを推定してしまうことです。データを信用しつつもそこに合わせすぎないことが大切となります。
ウチの清水和秋教授も言ってましたが(確か因子分析の回転の話の時)、データについての理論に沿った回転を行うべきであって、結論に合わせるための回転はいけない、と。それと同じベクトルの話ですね。
そこで過学習を防ぐ方法の1つに「正則化」があります。正則化の考え方としては、パラメータの値や数を減らして複雑でないモデルを選択しやすくするというものです。これは目的関数にパラメータの「値の大きさ」である||θ||を足して
L(θ)+λ||θ||
を最小化するというものです(λは適当な定数)。これにより、パラメータ値が小さいものが選ばれやすくなります。
また、||θ||の値の大きさの定義は、例えばL2ノルム正則化という方法があります。モデルに含まれるすべてのパラメータを二乗して足して計算するそうです。
||θ||=Σiθ2i
本エントリの目的関数の最小化と正則化の内容の大部分は「データ分析のための数理モデル入門(江崎貴裕)」を参考にしました。江崎先生は自分よりも年下なのにすごい。