ARIMA: Como evitar a mentalidade de rebanho ao analisar os dados de séries temporais

Obter as informações certas a partir de dados de séries temporais exige habilidade e experiência, e talvez também inspiração e intuição. Este artigo discute como analisar dados de séries temporais usando algumas ferramentas mais sofisticadas que não são abordadas em programas de treinamento em estatística básica.  

Por Michel Thirion e Robert Collis, especialista em treinamento técnico da Minitab

 

Thirion e CollisThirion e Collis

Michel Thirion, Master Black Belt na Honeywell, e Robert Collis, especialista em treinamento técnico da Minitab

Os dados de séries temporais são abundantes nos setores de fabricação e serviços. Exemplos:

  • Número de dias que um cliente espera para receber uma resposta a uma solicitação de hipoteca
  • O tempo que leva para falar com os funcionários ao ligar para um banco
  • O tempo que os operadores em um centro de suporte técnico passam online com clientes
  • As vendas de motores de helicóptero ao longo do tempo
  • O tempo que leva para que funcionários de uma empresa farmacêutica preencham documentos importantes

Aparentemente, analisar tais dados parece simples; mas será que é?

Analisar os dados como se estivesse seguindo uma receita nunca é o bastante. Obter as informações certas dos dados certamente exige habilidade e experiência, mas monitorar qualquer processo corretamente, para que as ações corretivas adequadas possam ser efetuadas, pode exigir também inspiração e intuição.

Graças a minhas experiências no treinamento de Master Black Belt na Honeywell e em consultoria estatística oferecida pela Minitab, pude analisar dados de séries temporais usando algumas ferramentas mais sofisticadas e pouco conhecidas, que frequentemente são deixadas de lado em muitos programas de treinamento em estatística básica. O objetivo deste artigo é compartilhar com você, como aplicar algumas dessas técnicas no Minitab Statistical Software.

Etapas iniciais na análise de dados de séries temporais

Ao analisar dados de séries temporais, frequentemente, a primeira etapa é criar algumas cartas de controle estatístico. Por exemplo, podemos criar um gráfico de ensaios ao selecionar Estatística > Ferramentas de Qualidade > Gráfico de Ensaios e preencher a caixa de diálogo da seguinte maneira:

Imagem ARIMA 01

Depois de clicar em OK, o Minitab gera o seguinte gráfico:

Artigo ARIMA - imagem 2

A tendência ascendente visível é confirmada pelos valores p muito baixos de Tendências. Também há muito agrupamento, à medida que a linha vermelha cruza a mediana, do que seria esperado se os dados fossem aleatórios.

Alguns usuários desavisados poderiam tentar criar uma carta I-MR, selecionado Estatística > Cartas de Controle > Cartas Variáveis para Indivíduos > I-MR e preenchendo a caixa de diálogo da seguinte maneira:

Imagem do artigo ARIMA 3

Clicar em OK produz o seguinte resultado:

Imagem do artigo ARIMA 4

Primeiramente, parece que temos pontos fora de controle no começo e no final da carta I-MR, com uma estabilidade relativa entre eles. A partir disso, podemos inferir que esse processo tem três partes ou fases: valores baixos no início, um período intermediário estável e valores altos no final.

No entanto, deve-se atender suposições padrão para justificar o uso de cartas de controle como essa: especificamente, os dados devem ter distribuição normal e independente, com μ médio e desvio padrão σ1.

Os limites de controle na carta I são baseados na média da amplitude móvel, a diferença absoluta entre cada par consecutivo de pontos. Se não houver independência entre os pontos, temos uma condição chamada de autocorrelação, na qual há pouca diferença em cada par consecutivo de pontos. Isso significa que a amplitude móvel será artificialmente baixa e isso se manifestará como um aumento na taxa de alarmes falsos na carta I.

Como é possível dizer se seus dados estão autocorrelacionados?

Claramente, usando uma carta I-MR com dados autocorrelacionados pode levar a problemas, por isso ajudaria saber se os dados estão autocorrelacionados. Felizmente, o Assistant no Minitab Statistical Software verificará isso para nós, sem mesmo precisar usar opções sofisticadas do software.

Se escolhermos Assistant > Cartas de Controle > Carta I-MR e depois preenchermos a caixa de diálogo da maneira a seguir, o Assistant nos fornecerá o seguinte aviso:

Imagem do artigo ARIMA 5

O Assistant informa também sobre a autocorrelação e suas consequências:

Imagem do artigo ARIMA 6

Em primeiro lugar, deveríamos ter usado o Assistant para criar a carta I-MR. Sem ela, muitos usuários chegariam a conclusões falsas.

O tratamento da autocorrelação no Minitab

A autocorrelação significa que não podemos usar esses dados?  Não, apenas precisamos prosseguir com algo mais sofisticado.

Para compreender as correlações entre dados em diferentes pontos no tempo, com defasagem de um ou mais períodos, precisamos conduzir uma análise de autocorrelação e de autocorrelação parcial. Isso nos permite compreender se há correlações entre os dados em um momento t e em um momento t-1, t-2 até t-k.

Vamos selecionar Estatísticas > Séries Temporais > Autocorrelação e preencher a caixa de diálogo da seguinte maneira:

Imagem do artigo ARIMA 7

Após clicar em OK, o Minitab fornece os seguintes resultados:

Imagem do artigo ARIMA 8

A função de autocorrelação parcial pode ser obtida da mesma maneira, selecionando:

Estatísticas > Séries Temporais > Função de Autocorrelação Parcial  

O Minitab fornece o seguinte resultado:

Imagem do artigo ARIMA 9

As linhas verticais que se estendem além das linhas pontilhadas horizontais vermelhas indicam uma forte correlação entre os pontos defasados por um ou mais períodos no tempo. Agora, podemos eliminar a autocorrelação representando um ponto em cada três em uma carta I-MR. Escolha Estatística > Cartas de Controle > Cartas Variáveis para Indivíduos > I-MR e preencher a caixa de diálogo da seguinte maneira:

Imagem do artigo ARIMA 10

Para selecionar apenas um valor a cada três, clique em Opções de Dados... e preencha o subdiálogo da seguinte maneira, antes de clicar em OK em cada caixa de diálogo:

Imagem do artigo ARIMA 11

O Minitab cria o seguinte gráfico:

Imagem do artigo ARIMA 12

O processo parece estar sob controle e as suposições subjacentes foram atendidas; no entanto, deixamos de fora dois terços do gráfico. Dado o pequeno o número de valores na coluna da série temporal, poderíamos também agrupar os dados usando subgrupos relativamente grandes para terminar com relativamente poucos pontos na carta Xbar. Nenhuma dessas opções é ideal.

A melhor solução é usar o modelamento de série temporal, em especial a abordagem ARIMA (média móvel integrada autoregressiva). Essa abordagem não é bem conhecida nos círculos industriais e empresariais, mas pode ser aplicativo com relativa facilidade se algumas etapas básicas forem compreendidas. No entanto, é necessário um pouco de intuição para descobrir a melhor solução. É aqui que cada pessoa que estiver fazendo a análise precisa usar um pouco mais de arte e um pouco menos de ciência!

Construção de um Modelo ARIMA

O modelamento ARIMA faz um uso muito simples dos dados do passado recente ou mais distante para modelar os dados existentes, além de fazer boas previsões do comportamento futuro.  O objetivo é identificar um modelo subjacente que explique a mudança no processo. Qualquer ponto que desvie desse comportamento predito pode ser considerado uma causa especial, pois não está seguindo os movimentos gerais nos dados.

Para construir um modelo ARIMA, os dados precisam ser transformados em estacionários: isto é, não deve haver nenhuma tendência no processo, seja ascendente ou descendente. Em outras palavras, certa estabilidade na média do processo precisa ser obtida. Nossos dados originais não eram estacionários, eles pareciam ter uma tendência ascendente ao longo do tipo. Podemos tornar esses dados estacionários usando também a Diferença

No Minitab (Estatísticas > Séries Temporais > Diferença).

A caixa de diálogo é preenchida da seguinte maneira:

Imagem do artigo ARIMA 13

Ao clicar em OK, o Minitab gera uma coluna das diferenças especificadas. Se o dado no momento t for Xt e os dados no período de tempo antes de t é chamado de Xt-1, a diferença é Xt -Xt-1.

Agora podemos representar as diferenças escolhendo Gráfico > Gráfico de Séries Temporais > Simples e preenchendo a caixa de diálogo da seguinte maneira:

Imagem do artigo ARIMA 14

Clicar em OK produz o seguinte gráfico:

Imagem do artigo ARIMA 15

Os dados, aos quais aplicamos uma diferença de ordem 1, parecem ter se tornado estacionários, sem nenhuma tendência ascendente ou descendente clara. Isso significa que podemos usar esses dados para determinar um modelo ARIMA.

Primeiro, vamos executar uma análise de autocorrelação e autocorrelação parcial nos dados diferenciados. O Minitab nos fornece os seguintes resultados:

Imagem do artigo ARIMA 16,2
Imagem do artigo ARIMA 17

Agora, precisamos compreender o que significa os padrões nas funções de autocorrelação e parcial. Um texto que acho útil é Forecasting, Methods and Applications (Previsões, métodos e aplicações) por Makridakis, Wheelwright e Hyndman (John Wiley and Sons, Terceira edição, 1998).

Temos uma função de autocorrelação com um padrão senoidal e picos para defasagens 1 a 3, que sugere um Modelo Autorregressivo de ordem 3, ou AR(3). O comportamento senoidal na função de autocorrelação parcial e picos até a defasagem 3 sugere um modelo de média móvel de ordem 3, ou MA(3).  O modelamento de séries temporais pode ser um processo um pouco interativo, ou mesmo de tentativa e erro, mas esses gráficos sugerem que o modelo ARIMA (3,1,3) é um bom ponto de partida.

Cada parte do modelo ARIMA tem um papel nas predições que ele faz. A parte autorregressiva do modelo prediz o valor no momento t, considerando valores anteriores nas séries no momento t-1, t-2, etc. A média móvel usa valores de resíduos passados (as diferenças entre o valor real e o valor predito baseado no modelo no momento t).

Podemos avaliar como o modelo ARIMA (3,1,3) se encaixa aos nossos dados selecionando Estatísticas > Séries Temporais > ARIMA e preenchendo a caixa de diálogo como mostrado abaixo.

Imagem ARIMA 18

O Minitab produz esse resultado:

Imagem do artigo ARIMA 19

Os valores p são significativos apenas no nível de 10% do coeficiente de primeira ordem da parte autorregressiva do modelo e o coeficiente de 3ª ordem da parte da média móvel do modelo. Além disso, a estatística qui-quadrado de Ljung-Box, que testa a aleatoriedade geral do modelo sugere que pode haver um efeito sazonal de, pelo menos, ordem 1.

Dessa maneira, refinaremos nossa tentativa de compreender esses dados construindo um modelo ARIMA(1,1,3)(1,0,0)12 .  Essa notação não é tão complicada quanto possa parecer. O primeiro conjunto de parênteses informa que as defasagens das partes autorregressivas (AR) e integradas (I) do modelo serão 1, enquanto a média móvel (MA) será baseada na defasagem 3. O segundo conjunto de parênteses indica o efeito sazonal, que supomos que siga um ciclo de período de 12, ou seja, anual, em torno de AR(1).

Vamos experimentar. Um atalho prático do Minitab (CTRL-E) recorda a última caixa de diálogo utilizada. Agora, podemos construir o modelo ARIMA refinado preenchendo a caixa de diálogo da maneira mostrada:

Imagem do artigo ARIMA 20a

Antes de clicar em OK, clique em Armazenamento e selecione Resíduos e Ajustes:

Imagem do artigo ARIMA 20b

Após pressionar OK em ambas as caixas de diálogo, o Minitab exibe o seguinte:

Imagem do artigo ARIMA 20c

O coeficiente autorregressivo de primeira ordem, o coeficiente sazonal e o coeficiente da média móvel de terceira ordem são todos significativos no nível alfa de 10%, indicando que este modelo pode ser eficiente. A soma dos quadrados que mede a soma das diferenças do quadrado entre cada ponto de dado original e seu valor estimado usando esse modelo ARIMA são bastante pequenos. Além disso, a estatística qui-quadrado de Ljung-Box não mostra nenhuma correlação entre pontos com uma diferença de 12 ou 24 defasagens, incluindo o coeficiente sazonal que os eliminou.

Agora queremos avaliar como o modelo ajusta os valores originais e ver se o modelo prediz esse processo no futuro. Para ver como o modelo se ajusta, selecionamos Gráfico > Gráfico de Séries Temporais > Múltiplo e preenchemos a caixa de diálogo da seguinte maneira:

Imagem do artigo ARIMA 20

O Minitab produz esse gráfico:

Imagem do artigo ARIMA 21

Podemos ver que os valores ajustados (em vermelho) seguem de perto os valores de dados originais ao longo do tempo.

Para ver os valores preditos futuros, selecione Estatísticas > Séries Temporais > ARIMAe depois selecione Gráficos e preencha a caixa de diálogo da seguinte maneira, antes de clicar em OK:

Imagem do artigo ARIMA 22

Selecione Previsões e depois preencha a caixa de diálogo da seguinte maneira antes de clicar em OK em cada caixa de diálogo:

Imagem do artigo ARIMA 23

O Minitab produz esse gráfico de previsões:

Imagens do artigo ARIMA 24

O comportamento futuro predito desse processo faz sentido, considerando os dados passados. Com mais dados, o intervalo de confiança de 95% pode ser ainda mais reduzido.

É crucial para o ARIMA (assim como no modelamento de regressão ou ANOVA) examinar o comportamento dos valores dos resíduos para ver se eles são normais, aleatórios ou têm variação constante.

Os valores dos resíduos aqui são as diferenças entre o valor observador no momento t e o valor predito baseado no modelo ARIMA. Essas diferenças podem ser tanto negativas quanto positivas e ocasionalmente zero, se o ajuste é perfeito.

Imagem do artigo ARIMA 25

As suposições são bem cumpridas, exceto por uma variação inconstante no gráfico Versus Ajustes. Isso se origina no fato que a qualidade do ajuste do modelo é melhor para os primeiros pontos de dados do que para os dados mais recentes.

Esses valores de resíduos não têm autocorrelação, assim faria mais sentido representá-los em uma carta I-MR usando o Assistant para determinar quais pontos desviam do comportamento esperado, em outras palavras, quais pontos não seguem o modelo.

Vamos selecionar Assistant > Cartas de Controle > Carta I-MR e preencher a caixa de diálogo da seguinte maneira:

Imagem do artigo ARIMA 26

O Minitab produz o seguinte resultado:

Imagem do artigo ARIMA 27

Um ponto de dado (26) estava fora dos limites de controle. Isso pode ser explicado por uma alteração inesperada e dramática entre os pontos 25 e 26.  O modelo ARIMA sugere que podemos esperar alguma evolução nesse processo, mas nossa compreensão atual das séries de dados indica que há apenas uma causa especial para essa mudança específica.

Imagine que você esteja tentando compreender os movimentos no valor de certa ação e a tendência recente tem sido de queda, pois a empresa está enfrentando uma feroz concorrência. Você poderia modelar esse fenômeno usando ARIMA. Se o CEO da empresa (que não é popular em Wall Street) disser que ele deixará seu cargo em um ano, isso poderia fazer com que o valor das ações saltasse e superasse o resultado esperado desse dia, baseado no modelo subjacente atual. Isso seria visto nos resíduos e seria uma causa especial definida.

O que o modelo ARIMA realmente representa?

A discussão a seguir será mais interessante a usuários avançados, pois algumas derivações são um tanto complexas.

O valor predito da resposta no momento t depende dos valores passados nas séries, mas igualmente dos valores de resíduos passados.

Primeiro, seria útil compreender a notação básica, em especial a notação "backshift" que é normalmente usada na análise de séries temporais.

  • Yt é o valor dos dados no momento t
  • Ythat é o valor predito no momento t baseado no modelo
  • et este é o valor do resíduo no momento t, que é a diferença Yt -Ythat
  • O operador backshift, B, é comumente usado.
  • BYt=Yt-1
  • B(BYt)=B2Yt=Yt-2

Como o modelo ARIMA(1,1,3)(1,0,0)12  é concebido?

Há dois lados no modelo: o autorregressivo (AR) e a média móvel (MA). Além disso, a diferença de ordem um precisa ser incluída (Yt-Yt-1).

Componentes autorregressivos

Vamos começar com o lado autorregressivo da equação, que depende dos valores passados nas séries. Há três partes distintas nessa parte do modelo:

Termo autorregressivo de ordem 1: (1-φ1B)Yt=Yt-φ1Yt-1

AR(1) sazonal: (1-θB12)Yt=Yt-θYt-12

Diferença não sazonal: (1-B)Yt=Yt-Yt-1

O termo autorregressivo de ordem 1, AR(1) sazonal e diferença não sazonal são multiplicados juntos e depois trabalhados através de

(1-φ1B) (1-θB12) (1-B)Yt = (1-φ1B-θB12+φ1B-θB13)(1-B)Yt =
(1-B)Yt - φ1B(1-B)Yt -θB12(1-B)Yt +φ1θB13(1-B)Yt=Yt-Yt-1-φ1(Yt-1-Yt-2)-θ(Yt-12-Yt-13)+φ1θYt-13-Yt-14)

É interessante observar que o modelo contém ambos os valores de dados recentes Yt-1, Yt-2 e muito mais antigos, como Yt-13 e Yt-14.

Componentes da média móvel

O lado da equação da média móvel é muito mais fácil de ser construído. O lado da equação da média móvel se assenta sobre os resíduos dos períodos anteriores com relação ao momento t, o momento no qual desejamos fazer uma predição usando o modelo. Essa "média móvel" não deve ser confundida com sua definição clássica. Tradicionalmente, uma média móvel de ordem 3 seria pegar a média de cada conjunto de 3 pontos de dados consecutivos e acompanhar essas médias em um gráfico, mas não é isso que estamos fazendo aqui.

A parte da média móvel do modelo é:

(1-ψ1B-ψ2B2-ψ3B3)et =
et-ψ1et-1-ψ22et-2-ψ3et-3

O lado autorregressivo da equação e o lado da média móvel são igualados, acrescentando o termo constante no lado direito. Esses são os resultados:

Yt-Yt-1-φ1(Yt-1-Yt-2)-φ1θ(Yt-12-Yt-13)+φ1θ(Yt-13-Yt-14)=β+ etψ1et-1-ψ2et-2-ψ3et-3

Este é o resultado ao colocar Yt no lado esquerdo da equação e todos os outros termos no lado direito, expresso como o valor predito em t:

Yt= β+Yt-1 +φ1(Yt-1-Yt-2) +θ(Yt-12-Yt-13) +φ1θ(Yt-13-Yt-14)-ψ1et-1-ψ2et-2-ψ3et-3+ et

Todos somos capazes de derivar o valor predito no momento t da mesma maneira que no modelo de regressão clássico; isto é,
se Yt= modelo+ et, então Yhatt = modelo
Assim, Yhatt = β+Yt-1 +φ1(Yt-1-Yt-2) +θ(Yt-12-Yt-13)-φ1θ(Yt-13-Yt-14)-ψ1et-1-ψ2et-2-ψ3et-3

Yhatt  = 0,00066 + Yt-1 + 0,4139(Yt-1-Yt-2) + 0,9817(Yt-12-Yt-13) – 0,4139*0,9817(Yt-13-Yt-14) – (-0,1549)*et-1 - 0,1507*et-2 - 0,8431*et-3

O valor predito no 16º período de tempo é expresso da seguinte maneira:

Yhat16 = 0,00066 + Y15 + 0,4139(Y15 – Y14) + 0,9817(Y4 – Y3) – 0,4139*0,9817(Y3 – Y2) – (-0,1549)*e15 - 0,1507*e14 - 0,8431*e13

Vamos demonstrar como essa equação pode ser usada.

Essa tabela mostra os dados originais para os períodos t=-4 a t=+11, onde t=1 é o primeiro período para o qual temos dados. Os dados originais dos períodos t=1 a 11 são encontrados nas células B8 a B17.

Imagem do artigo ARIMA 39

A primeira etapa do processo de análise ocorre em segundo plano no Minitab, quando o modelo ARIMA é ajustado para calcular Y0, Y-1,Y-2..etc., em um sentido criando valores de dados preditos anteriores a t=1.

Isso não parece uma maneira fácil para calcular Y0 , pois isso era antes do período do estudo. Previsões passadas são conduzidas e podem ser observadas na janela da sessão:

Imagem do artigo ARIMA 40

A previsão passada para o momento 0 é 1,623. Então Y1-Y0=1,623 e assim Y0=59,7-1,6=58,1, que corresponde à célula B6, como exigido. O mesmo processo pode ser aplicado para Y-1,Y-2, etc., subindo na coluna B da planilha acima. Y0-Y-1=-2,121 Y-1=Y0+2,121=58,1+2,1=60,2, que corresponde à célula B5.

A equação final para o décimo período é:

Yhatt = 0,00066 + Yt-1 + 0,4139(Yt-1 – Yt-2) + 0,9817(Yt-12 – Yt-13) – 0,4139*0,9817(Yt-13 – Yt-14) – (-0,1549)*et-1 - 0,1507*et-2 - 0,8431*et-3

Yhat10 = 0,00066 + Y9 + 0,4139(Y9 – Y8) + 0,9817(Y-2 – Y-3) – 0,4139*0,9817(Y-3 – Y-4) – (-0,1549)*e9 - 0,1507*e8 - 0,8431*e7

Y9 é a célula B15, na tabela acima = 63,6
Y8 é a célula B14 = 61,9
Y-2 é a célula B4 = 60,444
Y-3 é a célula B3 = 60,535
Y-4 é a célula B2 = 58,809
e9 é a célula D15 = -0,000376466
e8 é a célula D14 = 0,012395082
e7 é a célula D13 = 0,039578177

Yhat10=0,00066+63,6+0,4139(63,6-61,9)+0,9817(60,44-60,535)-[(0,4139)(0,9817)(60,52-58,81)]-[(-0,1549)*(-0,000376466)]-[(0,15070)(0,012395082)]-[0,8431(0,039578177)]=63,44.

Isso é igual a E16.

O mesmo pode ser aplicado para encontrar os valores preditos de qualquer período de tempo baseado neste modelo.

Conclusões

Muitos profissionais analisam séries temporais ou dados de processo de uma maneira relativamente simplista, e dependem principalmente de gráficos de ensaios ou cartas de controle Shewhart simples, como cartas I-MR, Xbar-R ou Xbar-S.

Mas qualquer autocorrelação nos dados pode aumentar a taxa de alarmes falsos. Pode ser apropriado tentar modelar os dados usando uma técnica de modelamento de série temporal sofisticada, como ARIMA. Usado de maneira correta, o ARIMA pode fornecer um ajuste muito bom aos dados existentes e oferecer predições boas de comportamento futuro, o que é importante em um mundo incerto. As técnicas de ARIMA, no entanto, são bastante complexas e não muito conhecidas ou compreendidas como as análises mais básicas. No entanto, uma vez que os princípios básicos são compreendidos, pode-se construir modelos de séries temporais bem sucedidos com relativa facilidade, usando o Minitab. Além disso, uma vez que o modelo ARIMA é construído, é apropriado avaliar os valores de resíduos para ver se há qualquer causa especial.

 

1 Montgomery, Douglas (2005). Introduction to Statistical Quality Control. John Wiley and Sons, 5ª edição. Página 438.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado. Leia nossa política

OK