自動化

Salford Predictive Modeler

SPM^® 8には、一流のモデル分析家の作業構築方法からインスピレーションを受けた、70以上の事前パッケージ化されたシナリオ、つまりは実験があります。これを「自動化」と呼んでいます。この「自動化」または実験は、複数のモデルを自動的に作成して、分析家が簡単に選択を見れるようにします。

例1：銀行の応用

自動化シェービング

自動化シェービングにより、口座データ内の相関変数を含む大きなデータセットで、情報豊かなデータのサブセットを判別できます。自動化で、モデルの正確さの犠牲を最小限に抑え（該当する場合）、モデルの大幅な削減を実現できます。例えば、変数の全リストから初めて、上から自動化シェービングを実行し、学習サンプルでは良さそうに見えるものの、一般化できない変数を排除します。その後、下から自動化シェービングを実行し、冗長で不要な予測変数を自動的にたくさん排除できます。「シェービングエラー」をフォローアップすると、機能の最も情報豊かなサブセットに素早く絞ることができます。

典型的なデータマイニングツールとは対照的に、自動化シェービングは典型的な変数の重要度リスト以上のものをご提供します。分析者はさらに、変数の重要度サブセットまたは変動の全リストを手に入れることができます。これにより、すぐに最終変数リストを最適化または選択し、反復テストの負担を排除できます。モデル専門家は通常、変数の重要度リストを最適化するために多くの時間と労力を費やします。自動化シェービングは、この作業を自動化します。

例2：不正検出

自動化プライアー

典型的な不正検出アプリケーションでは、分析家はさまざまな不正の可能性につながる異なるルールセットを割り出すことに取り組んでいます。決定木とTreeNet®勾配ブースティングは通常、不正を検出する分類ルールの構築に使用されます。分類木は特定のユーザー付与の事前確率セットを基礎として構築されます。

ある事前セットは不正のレベルの高いルールを木に検索させ、別の事前セットは緩めの仮説のある木を生成します。木ベースのルール検索のアプローチを最大限に活かすために、分析家は事前確率の異なる構成を多数試みます。この作業が自動化プライアーで完全に自動化されています。この結果は、低い支持度と極めて高い信頼度の不正行為セグメントから、非常に幅広い支持度の不正行為セグメントの中程度の表示までの、たくさんのルールです。例えば、100%不正である小さなセグメントを割り出したり、より確率の低い不正の大きなセグメントを割り出したり、その中間を割り出したりできます。

例3：市場調査～アンケート

自動化MVI（欠損値指標)

アンケートでは、情報の大部分が欠損している可能性があります。回答者は、答えたくないから、または答えられないから、という理由で、質問に回答しないことも多いです。Salford Systemsの欠損値を処理する専門性に加えて、新しい自動化機能によって、以下を含む複数のモデルを自動的に生成することができます。1) 欠損値のパターンのみに基づいて応答を予測するモデル、2) 元の予測変数セットに加えてダミーの欠損値指標を自動的に作成するモデル、3) 欠損値のエンジン固有の内部処理に依存するモデル。

例4：工学応用

自動化ターゲット

現代の工学応用では、実験計画の一部として、標本抽出点が異なる稼働条件で非常に多数集められることがあります。異なるパラメータの相互依存を判別するのは難しいかもしれません。例えば、温度は相互に完全に依存しているかもしれませんし、圧力または回転などの他の稼働条件の未知の関数かもしれません。自動化ターゲットは、予測変数の中の相互依存を自動的にすべて探り、抽出できる、パワフルな手段です。ここでは、「依存」とは、従来の相関の単純さをはるかに超えた潜在的な非線形多変量関係を意味します。強力な副次的影響として、この自動化は欠損値補完の一般的な手段になり、欠損値を直接取り扱わないモデリングエンジンをサポートするのに非常に便利です。

例5：ウェブ広告

自動化サンプル

オンライン広告掲載の応用では、使用されるデータ量とモデル構築を完了するのに要する時間の間でバランスをとる必要があります。ウェブ広告では、事実上、データ量が無制限です。したがって、使用可能なデータすべてを使えれば理想的ですが、リアルタイムの展開で使える量には常に限界があります。自動化サンプルがあると、モデルの正確さに影響を与える標本の大きさを自動的に探ることができます。例えば、200,000,000のトランザクションを使用することは、モデルの正確さの面で、100,000,000のトランザクションを使用するのと変わらないことがわかったりします。

例6：マイクロアレイ応用

自動化TARGETSHUFFLE

マイクロアレイ研究データセットの特徴は、極めて数の多い予測変数（遺伝子）と非常に限られた数の記録（患者）です。予測変数の無作為抽出のサブセットでさえも良さそうなモデルを生成する可能性があるという事実から、大きな曖昧さが広がっていきます。自動化TARGETSHUFFLEがあると、モデル性能が良さそうではなく、実際に良いのかを判断することができます。自動化TARGETSHUFFLEで、ランダムにシャッフルされた目標変数に基づいた補助モデルが多数、自動的に構築されます。実際のモデル性能と参照分布（依存モデルなし）を比較しながら、モデル性能に関する最終決定を行うことができます。この技術は、現在書かれているマイクロアレイ研究の論文の一部に対する挑戦となるかもしれません。意図的に破壊された目標依存のあるデータセットがモデルに正確さを与えることができれば、元のモデルに頼ることはむしろ怪しくなります。