자동화

Salford Predictive Modeler

SPM^® 8은 대표적인 모델 분석가가 작업을 구조화하는 방법에서 영감을 받은 70여 개의 기본 제공 시나리오로 구성된 실험입니다. 이것을 "오토메이트"라고 부릅니다. 이 "오토메이트" 또는 실험은 다수의 모형을 자동으로 생성하기 때문에 분석가는 선택안을 쉽게 확인할 수 있습니다.

예제 1: 은행 응용 프로그램

오토메이트 쉐이빙

오토메이트 쉐이빙은 계정 데이터 내에 상호 관련된 변수가 포함되어 있는 큰 데이터 집합에서 정보 데이터의 부분 집합을 식별하는 데 도움이 됩니다. 자동화를 통해 모형의 정확도 감소를 최소화하면서 모형을 크게 줄일 수도 있습니다. 예를 들어, 완전한 변수 리스트로 시작하고 위로부터 오토메이트 쉐이빙을 실행하여 학습 표본에서는 유망해 보이지만 일반화하기는 어려운 변수들을 제거해 나갑니다. 나중에는 아래로부터 쉐이빙을 실행하여 중복되는 불필요한 예측 변수를 자동으로 제거할 수 있습니다. 그런 다음 가장 유용한 기능 부분 집합에서 "쉐이빙 오류"를 처리하여 신속히 0으로 만듭니다.

오토메이트 쉐이빙은 전형적인 데이터 마이닝 도구와는 반대로 일반적인 변수 중요도 리스트 이상을 제공합니다. 뿐만 아니라 분석가에게는 변수 중요도 부분 집합/변동으로 이루어진 전체 집합이 제공되므로, 최종 변수 리스트를 빠르게 최적화/선택하고 반복 검정의 부담을 없앨 수 있습니다. 일반적으로 전문 모델러는 변수 중요도 리스트를 최적화하는 데에 많은 시간과 노력을 쏟습니다. 오토메이트 쉐이빙을 사용하면 이 과정을 자동화할 수 있습니다.

예제 2: 사기 행위 감지

오토메이트 프라이어

일반적인 사기 감지 응용 프로그램에서는 분석가가 다양한 사기 확률로 이어지게 되는 서로 다른 규칙 집합을 식별하는 데 집중합니다. 결정 트리 및 TreeNet^® 경사 부스팅 기술은 일반적으로 사기 감지를 위한 분류 규칙을 빌드하는 데 사용됩니다. 모든 분류 트리는 특정 사용자가 제공한 이전 확률 집합을 토대로 구성됩니다.

한 이전 확률 집합은 트리가 강제로 사기 수준이 높은 규칙을 검색하게 하고, 다른 이전 확률 집합은 가정이 다소 느슨한 트리를 생성합니다. 트리 기반의 규칙 검색 방법에서 가장 큰 이득을 얻기 위해 분석가는 많은 수의 서로 다른 이전 확률 구성을 시도하게 됩니다. 이 과정이 오토메이트 프라이어에서는 완전히 자동화되었습니다. 결과적으로 신뢰도가 극도로 높고 지원은 낮은 사기 세그먼트부터 신뢰도는 중간 수준이며 지원이 광범위한 사기 세그먼트까지 다양한 커다란 규칙 컬렉션이 생성됩니다. 예를 들어, 사기 확률 100%인 작은 세그먼트를 확인할 수도 있고 사기 확률은 더 낮고 모든 것이 중간 정도인 큰 세그먼트를 찾을 수도 있습니다.

예제 3: 시장 조사 - 설문 조사

오토메이트 MVI(결측 값 지시자)

어떤 설문 조사에서든 정보의 많은 부분이 누락될 수 있습니다. 응답자가 원치 않거나 할 수 없어서 질문에 답변하지 않는 경우가 종종 있기 때문입니다. 결측 값 처리에 관한 Salford Systems의 전문 기술과 더불어, 새로운 자동화 기능을 통해 분석가는 다음과 같은 다중 모형을 자동으로 생성할 수 있습니다. 1) 결측 값 패턴만을 기준으로 한 응답 예측 모형, 2) 원래 예측 변수 집합 외에 의사 결측 값 지시자를 자동으로 생성하는 모형, 및/또는 3) 엔진에 따라 결측 값을 내부 처리하는 모형.

예제 4: 공학 응용 프로그램

오토메이트 목표

현대의 공학 응용 프로그램에서는 실험 설계의 일부로 서로 다른 작동 조건에서 대규모의 표본 추출 점이 수집될 수 있습니다. 서로 다른 모수 사이에서 상호 종속성을 식별하기가 어려울 수 있습니다. 예를 들어, 온도 값들은 완벽히 서로에게 의존할 수 있으며 압력 및/또는 회전수와 같은 기타 작동 조건이 알려지지 않은 함수가 될 수도 있습니다. 오토메이트 목표는 예측 변수들 간의 상호 종속성을 자동으로 탐구하여 추출할 수 있는 강력한 도구입니다. "종속성"이라는 말은 기존의 상관 관계의 단순성을 훨씬 뛰어넘는 비선형 다변량 관계를 의미합니다. 나아가 강력한 부수적 효과로서, 이 오토메이트 도구는 결측 값 대체를 위한 일반적인 수단을 제공합니다. 이것은 결측 값을 직접 처리하지 않는 모형화 엔진을 뒷받침하는 데 매우 유용합니다.

예제 5: 웹 광고

A오토메이트 표본

온라인 광고 게재 응용 프로그램에서는 데이터 사용량과 모형 빌드를 완료하는 데 걸리는 시간 사이의 균형을 맞추어야 합니다. 웹 광고에는 사실상 무한대의 데이터가 있을 수 있습니다. 따라서 사용 가능한 모든 데이터를 사용하고자 하겠지만 실시간 배포에 사용할 수 있는 양에는 항상 한계가 있습니다. 오토메이트 표본을 사용하면 분석가는 학습 표본 크기가 모형 정확도에 미치는 영향을 자동으로 탐구할 수 있습니다. 예를 들어, 200,000,000개의 트랜잭션을 사용하는 경우 100,000,000개를 사용하는 경우에 비해 모형 정확도가 더 나아지지 않는다는 것을 알게 될 수 있습니다.

예제 6: 마이크로어레이 응용 프로그램

오토메이트 TARGETSHUFFLE

마이크로어레이 연구 데이터 집합에는 예측 변수(유전자)가 극도로 많고 레코드(환자)는 매우 제한적입니다. 이로 인해 예측 변수의 랜덤 부분 집합조차도 겉으로는 그럴 듯해 보이는 모형을 생성할 수 있기 때문에 모호성이 커지게 됩니다. 오토메이트 TARGETSHUFFLE을 사용하면 모형 성능이 보이는 것처럼 정확한지 여부를 확인할 수 있습니다. 오토메이트 TARGETSHUFFLE은 랜덤으로 섞인 목표 변수를 기반으로 하여 많은 수의 보조 모형을 자동으로 구성합니다. 실제 모형 성능을 참조 분포(종속성 모형 아님)와 비교하여 모형 성능에 대한 최종 결론을 내릴 수 있습니다. 이 기술은 마이크로어레이 연구에서 현재 발표된 논문들 중 일부에 대해 도전을 제기할 수도 있습니다. 목표 종속성을 의도적으로 파괴한 데이터 집합이 바람직한 정확도를 가진 모형을 제공할 수 있다면, 원래 모형에 의존하기가 좀 애매해질 것입니다.