Sunday 16 July 2017

Movimentação Média Parcial Autocorrelação


Modelos ARIMA Introdução O XLMiner facilita a análise de conjuntos de dados através do uso de técnicas de descoberta de tendências (autocorrelação e autocorrelação parcial) e métodos abrangentes de modelagem (ARIMA e suavização exponencial). O modelo ARIMA AutoRegressive Integrated Moving-Average é um dos métodos de modelagem mais utilizados na previsão de séries temporais, devido em grande parte ao seu foco no uso de técnicas de autocorrelação de dados para alcançar modelos de alta qualidade. O XLMiner utiliza todos os aspectos da implementação do ARIMA, incluindo seleções de variáveis, definições de parâmetros não sazonais sazonais e opções avançadas, como máximos de iteração, saída e opções de previsão. Modelo ARIMA em XLMiner Um modelo ARIMA é um modelo de regressão que inclui autocorrelação. Ao estimar os coeficientes de ARIMA, o pressuposto básico é que os dados são de sentido estacionário, a tendência ou sazonalidade não pode afetar a variância. Isso geralmente não é verdade. A fim de obter dados estacionários, XLMiner precisa aplicar diferenciamento: ordinário, sazonal ou ambos. Depois de XLMiner se encaixa o modelo, vários resultados estarão disponíveis. A qualidade do modelo pode ser avaliada comparando o gráfico de tempo dos valores reais com os valores previstos. Se ambas as curvas estão próximas, então pode-se supor que o modelo é um bom ajuste. O modelo deve expor quaisquer tendências e sazonalidade, se existirem. Em seguida, uma análise dos resíduos deve transmitir se o modelo é ou não um bom ajuste: resíduos aleatórios significa que o modelo é preciso, mas se os resíduos exibem uma tendência, em seguida, o modelo pode ser impreciso. O ajuste de um modelo ARIMA com os parâmetros (0,1,1) dará os mesmos resultados que o alisamento exponencial, enquanto usando os parâmetros (0,2,2) dará os mesmos resultados que a dupla suavização exponencial. Como acessar configurações ARIMA no Excel Inicie o Excel. Na barra de ferramentas, clique em PLATAFORMA XLMINER. Na faixa de opções, clique em ARIMA. No menu suspenso, selecione Modelo ARIMA. ARIMA Modelo Resumo ARIMA. AutoRegressive Média Movente Integrada. Modelo de previsão utilizado na análise de séries temporais. Sintaxe do parâmetro ARIMA. ARIMA (p, d, q) onde p o número de termos auto-regressivos, d o número de diferenças não sazonais e q o número de termos de média móvel. Exemplo de séries temporais. Veja um exemplo de como um modelo ARIMA pode ser aplicado. Usando séries de tempo. Como usar a funcionalidade de análise de séries temporais no XLMiner. Modelos de Suavização. Como técnicas de suavização podem ser aplicadas a modelos de previsão de séries temporais. Ajuda on-line do XLMiner. Sistema de ajuda que cobre a funcionalidade dentro do módulo XLMiner. GEOS 585A, Applied Time Series Analysis Phone: (520) 621-3457 Fax: (520) 621-8229 Horário de atendimento sexta-feira, 1: 00-6: 00 PM ) Descrição do Curso As ferramentas de análise nos domínios tempo e frequência são introduzidas no contexto de séries temporais de amostras. Eu uso um conjunto de dados de séries de tempo de exemplo para ilustrar métodos e alterar o conjunto de dados de cada semestre do curso é oferecido. Este ano o conjunto de dados de amostra vem de um projeto NSF sobre a variabilidade snowpack na American River Basin da Califórnia. Este conjunto de dados inclui cronologias de anéis de árvore, índices climáticos, registros de fluxo e séries temporais de equivalentes de água de neve medidos em estações de neve. Você vai montar sua própria série de tempo para uso no curso. Estes podem ser de seu próprio projeto de pesquisa. Back to Top of Page Este é um curso introdutório, com ênfase em aspectos práticos da análise de séries temporais. Os métodos são hierarquicamente introduzidos - começando com terminologia e gráficos exploratórios, passando para estatística descritiva, e terminando com procedimentos básicos de modelagem. Os tópicos incluem detrending, filtragem, modelagem autorregressiva, análise espectral e regressão. Você passa as duas primeiras semanas instalando o Matlab em seu laptop, obtendo uma introdução básica ao Matlab e montando seu dataset de séries temporais para o curso. Doze tópicos ou lições são então cobertos, cada um alocado por semana, ou dois períodos de aula. Doze atribuições de classe acompanham os tópicos. As atribuições consistem em aplicar métodos executando scripts Matlab (programas) pré-escritos em suas séries de tempo e interpretando os resultados. O curso 3 créditos para estudantes no campus da Universidade do Arizona em Tucson, e 1 crédito para estudantes on-line. Qualquer série de tempo com um incremento de tempo constante (por exemplo dia, mês, ano) é um candidato para uso no curso. Exemplos são as medições diárias de precipitação, o fluxo total sazonal, a temperatura média do verão, os índices anuais de crescimento das árvores, os índices de temperatura da superfície do mar eo incremento de altura diária de um arbusto. Como resultado de tomar o curso, você deve: compreender os conceitos básicos de séries temporais e terminologia ser capaz de selecionar métodos de séries temporais apropriadas para os objetivos ser capaz de avaliar criticamente a literatura científica aplicando os métodos de série cronológica cobertos ter melhor compreensão das propriedades das séries temporais do seu Próprio conjunto de dados ser capaz de resumir sucintamente os resultados da análise de séries temporais por escrito Pré-requisitos Um curso de estatísticas introdutórias Acesso a um computador portátil capaz de ter Matlab instalado nele Permissão do instrutor (estudantes de graduação e on-line) Outros requisitos Se você está em uma Universidade de Arizona (UA) estudante no campus em Tucson, você tem acesso a Matlab e ferramentas necessárias através de uma licença de site UA como nenhum software de custo. Nenhuma experiência anterior com o Matlab é necessária, ea programação de computadores não faz parte do curso. Se você é um online, não no campus na UA, você será capaz de fazer o curso no semestre da Primavera de 2017 como um iCourse. Você deve se certificar de que você tem acesso ao Matlab e as caixas de ferramentas necessárias (veja abaixo) em seu local. Acesso à internet. Não há troca de papel no curso. As notas e atribuições são trocadas eletronicamente e as tarefas concluídas são enviadas eletronicamente através do sistema da Universidade do Arizona Desire2Learn (D2L). Versão Matlab. Eu atualizo scripts e funções de vez em quando usando a versão atual da licença de site do Matlab, e as atualizações podem usar recursos do Matlab não disponíveis nas versões anteriores do Matlab. Para 2017, estou usando Matlab versão 9.1.0.441655 (R2016b). Se você estiver usando uma versão anterior, verifique se ele é Matlab Release 2007b ou superior. Além do pacote Matlab principal, são utilizadas quatro caixas de ferramentas: Estatísticas, Processamento de Sinal, Identificação do Sistema e Spline (Matlab Release 2010a ou anterior) ou Curve Fitting (Matlab Release 2010b ou posterior) Disponibilidade O curso é oferecido no Semestre de Primavera Todos os anos (2015, 2017, etc.). É aberto a estudantes de pós-graduação e também pode ser tomado por idosos de graduação com permissão do instrutor. A matrícula de estudantes UA residentes é limitada em 18 para o semestre de primavera de 2017. Um pequeno número de estudantes on-line também tem sido geralmente acomodados, oferecendo o curso de várias maneiras. O caminho agora é o local da iCourse descrito acima. Back to Top of Page Resumo do Curso (Aulas) O cronograma geralmente permite cerca de duas semanas para a coleta de dados e familiarização com o Matlab. Em seguida, uma semana (dois períodos de aula) são dedicados a cada uma das 12 lições ou tópicos. Classe se reúne na terça-feira e quinta-feira. Um tópico novo é introduzido em terça-feira, e é continuado na quinta-feira seguinte. As aulas da quinta-feira terminam com uma atribuição e uma demonstração de execução do script em meus dados de amostra. A atribuição é devido (deve ser carregado por você para D2L) antes da aula na terça-feira seguinte. As primeiras 12 horas dessa classe de terças-feiras são usadas para auto-avaliação guiada e classificação da atribuição e upload de atribuições avaliadas (graduadas) para D2L. Os restantes 45 minutos são utilizados para introduzir o próximo tópico. Você deve trazer seu laptop para a classe às terças-feiras. As 12 lições ou tópicos abordados no curso estão listados no esboço da classe. Espera-se que os estudantes on-line sigam o mesmo cronograma de submissão de trabalhos como os estudantes residentes, mas não têm acesso às palestras. Submissão de trabalhos de alunos on-line não são auto-avaliados, mas são classificados por mim. Os estudantes on-line devem ter acesso ao D2L para submeter trabalhos. Primavera 2017 semestre. A turma se reúne duas vezes por semana para sessões de 75 minutos, 9: 00-10: 15 AM TTh, no quarto 424 (Sala de Conferências) do Bryant Bannister Tree-Ring Building (prédio 45B). O primeiro dia de aula é 12 de janeiro (quinta-feira). O último dia da aula é 2 de maio (terça). Não há classe durante a semana de Spring Break (11 a 19 de março). Você analisa os dados de sua escolha nas atribuições da turma. Conforme indicado na visão geral do curso. Há muita flexibilidade na escolha de séries temporais. Farei um catálogo de séries temporais adequadas disponíveis, mas é melhor focar o curso em seu próprio conjunto de dados. A primeira atribuição envolve a execução de um script que armazena os dados e metadados que você reuniu no arquivo mat, o formato nativo do Matlab. As atribuições subseqüentes extraem os dados do arquivo mat para a análise de séries temporais. Atribuições Os 12 tópicos são abordados sequencialmente durante o semestre, que abrange aproximadamente 15 semanas. Sobre as duas primeiras semanas (4-5 reuniões de classe) são usados ​​para algum material introdutório, decidir e recolher a sua série de tempo, e preparando Matlab em seu laptop. Cada semana depois disso é dedicado a um dos 12 tópicos do curso. Cada atribuição consiste em ler um capítulo de notas, executando um script Matlab associado que aplica métodos selecionados de análise de séries temporais aos seus dados e redigir sua interpretação dos resultados. Atribuições exigem compreensão dos temas da palestra, bem como a capacidade de usar o computador e software. Você envia atribuições enviando-os para D2L antes da classe de terça-feira quando o próximo tópico é introduzido. A primeira meia hora dessa classe de terça-feira é usada para auto-avaliação guiada da tarefa, incluindo o upload de pdfs auto-classificados para D2L. Eu verificar uma ou mais das atribuições auto-classificados cada semana (por seleção aleatória), e pode mudar a nota. Para saber como acessar as atribuições, clique em arquivos de atribuição. As leituras consistem em notas de aula. Há doze conjuntos de arquivos de notas. pdf. Um para cada um dos tópicos do curso. Esses arquivos. pdf podem ser acessados ​​pela Web. Mais informações sobre os vários tópicos abordados no curso podem ser encontradas através de referências listadas no final de cada capítulo de notas de aula. Graus são baseados inteiramente no desempenho nas atribuições, cada um dos quais vale 10 pontos. Não há exames. O número total de pontos possíveis para os 12 tópicos é 12 x 10 120. Um grau de A exigido 90-100 por cento dos pontos possíveis. Um grau de B requer 80-90 por cento. Um grau de C requer 70-80 por cento, e assim por diante. As notas são atribuídas por auto-avaliação guiada por uma rubrica apresentada na aula. O número de pontos ganhos deve ser marcado no topo de cada atribuição graduada. Sua marcação da atribuição deve incluir a anotação de quaisquer descontos por referência a um ponto de rubrica ilustrado na classe (por exemplo, -0.5, rp3 indica dedução de -0.5 por causa de um erro relacionado ao ponto 3 da rubrica) As atribuições, dadas na classe na quinta-feira, serão (Enviado para o D2L por você) antes do início da aula na terça-feira seguinte. A primeira meia hora do período de reunião das terças-feiras será dedicada à apresentação de uma rubrica de classificação, auto-avaliação de tarefas concluídas e upload de atribuições auto-classificadas para D2L. Esta programação dá-lhe 4 dias para terminar e transferir arquivos pela rede a atribuição a D2L antes das 9:00 am terça-feira. O D2L mantém o controle do tempo em que a atribuição foi carregada e nenhuma penalidade é avaliada desde que seja carregada antes das 9:00 da manhã na terça-feira da data de vencimento. Se você tiver alguma necessidade programada de estar longe da aula (por exemplo, comparecimento a uma conferência), você é responsável por fazer o upload de sua tarefa antes das 9:00 da terça-feira, e para fazer o upload da versão auto-avaliada até às 10:15. o mesmo dia. Em outras palavras, o cronograma é o mesmo que para os alunos que estão na sala de aula. Se surgir uma emergência (por exemplo, você receber a gripe) e não pode fazer a atribuição ou avaliação no cronograma, por favor, envie-me um e-mail e vamos chegar algum alojamento. Caso contrário, será avaliada uma penalidade de 5 pontos (metade do total de pontos disponíveis para o exercício). Introdução à organização de séries temporais de dados para análise Uma série de tempo é amplamente definida como qualquer série de medições tomadas em momentos diferentes. Algumas categorias descritivas básicas de séries temporais são 1) longas vs curtas, 2) mesmo tempo-passo vs desigual tempo-passo, 3) discreto vs contínuo, 4) periódico vs aperiódico, 5) estacionário vs não-estacionário e 6) univariada versus multivariada . Essas propriedades, bem como a sobreposição temporal de séries múltiplas, devem ser consideradas na seleção de um conjunto de dados para análise neste curso. Você vai analisar sua própria série de tempo no curso. Os primeiros passos são selecionar essas séries e armazená-las em estruturas em um arquivo mat. A uniformidade no armazenamento no início é conveniente para esta classe de modo que a atenção pode então ser focada na compreensão dos métodos da série temporal, em vez de depuração do código do computador para preparar os dados para análise. Uma estrutura é uma variável Matlab semelhante a um banco de dados em que o conteúdo é acessado por designadores de campo textual. Uma estrutura pode armazenar dados de formulários diferentes. Por exemplo, um campo pode ser uma matriz de séries temporais numéricas, outro pode ser texto descrevendo a fonte de dados, etc. Na primeira atribuição você executará um script Matlab que lê suas séries de tempo e metadados de arquivos de texto ascii que você prepara de antemão e Armazena os dados em estruturas Matlab em um único arquivo mat. Em atribuições subseqüentes, você aplicará métodos de séries temporais aos dados executando scripts Matlab e funções que carregam o arquivo mat e operam nessas estruturas. Selecione os dados de amostra a serem usados ​​para atribuições durante o curso. Leia: (1) Notes1.pdf, (2) Primeiros passos, acessível a partir do menu de ajuda do MATLAB Resposta: Execute o script geosa1.m e responda às perguntas listadas no arquivo em a1.pdf Como distinguir as categorias de séries temporais Como iniciar e sair do MATLAB Como digitar comandos MATLAB no prompt de comando Como criar figuras na janela de figuras Como exportar figuras para o processador de texto Diferença entre scripts MATLAB e funções Como executar scripts e funções O Forma de uma variável de estrutura MATLAB Como aplicar o script geosa1.m para obter um conjunto de séries de tempo e metadados em estruturas MATLAB A distribuição de probabilidade de uma série de tempo descreve a probabilidade de que uma observação caia em um intervalo especificado de valores. Uma distribuição de probabilidade empírica para uma série temporal pode ser obtida classificando e classificando os valores da série. Quantiles e percentis são estatísticas úteis que podem ser tomadas diretamente da distribuição de probabilidade empírica. Muitos testes estatísticos paramétricos pressupõem que a série temporal é uma amostra de uma população com uma distribuição de probabilidade populacional específica. Muitas vezes a população é considerada normal. Este capítulo apresenta algumas definições básicas, estatísticas e gráficos relacionados à distribuição de probabilidade. Além disso, é introduzido um teste (teste de Lilliefors) para testar se uma amostra provém de uma distribuição normal com médias e variâncias não especificadas. Definição de termos: séries temporais, estacionaridade, densidade de probabilidade, função de distribição, quantile, spread, localização, média, desvio padrão e desvio Como interpretar o algoritmo Gráfico mais valioso na análise de séries temporais - o gráfico de séries cronológicas Como interpretar o gráfico de caixa, histograma e gráfico de probabilidade normal Parâmetros e forma da distribuição normal Teste de Lilliefors para a normalidade: descrição gráfica, hipóteses, hipóteses nulas e alternativas Níveis de significância de testes estatísticos quando séries temporais não aleatórias no tempo Como aplicar geosa2.m para verificar as propriedades de distribuição de uma série temporal e testar a série para normalidade Autocorrelação refere-se à correlação de uma série temporal com seus próprios valores passados ​​e futuros. Autocorrelação é também às vezes chamado de correlação retardada ou correlação serial. Que se refere à correlação entre membros de uma série de números dispostos no tempo. A autocorrelação positiva pode ser considerada uma forma específica de persistência. Uma tendência para um sistema para permanecer no mesmo estado de uma observação para a próxima. Por exemplo, a probabilidade de o amanhã ser chuvoso é maior se hoje é chuvoso do que se hoje está seco. As séries de tempo geofísicas são freqüentemente autocorrelacionadas por causa de inércia ou processos de transição no sistema físico. Por exemplo, os sistemas de baixa pressão que se desenvolvem lentamente e se movem na atmosfera podem conferir persistência às chuvas diárias. Ou a drenagem lenta das reservas de água subterrânea pode transmitir correlação aos fluxos anuais sucessivos de um rio. Ou os fotossíntatos armazenados podem transmitir correlação aos valores anuais sucessivos dos índices dos anéis das árvores. A autocorrelação complica a aplicação de testes estatísticos reduzindo o número de observações independentes. A autocorrelação pode também complicar a identificação de covariância significativa ou correlação entre séries temporais (por exemplo, precipitação com uma série de anéis de árvore). A autocorrelação pode ser explorada para previsões: uma série temporal autocorrelacionada é previsível, probabilisticamente, porque os valores futuros dependem dos valores atuais e passados. Três ferramentas para avaliar a autocorrelação de uma série temporal são (1) o gráfico da série temporal, (2) o diagrama de dispersão retardado e (3) a função de autocorrelação. Resposta: Execute o script geosa3.m e responda às perguntas listadas no arquivo em a3.pdf Definições: autocorrelação, persistência, correlação serial, função de autocorrelação (acf), função de autocovariância (acvf), tamanho efetivo da amostra Como reconhecer a autocorrelação na série temporal Trama Como usar gráficos de dispersão retardados para avaliar a autocorrelação Como interpretar o acf plotado Como ajustar o tamanho da amostra para a autocorrelação Definição matemática da função de autocorrelação Termos que afetam a largura da banda de confiança calculada do acf A diferença entre um e um Teste de autocorrelação lag-1 significativa Como aplicar geos3.m para estudar a autocorrelação de uma série de tempo O espectro de uma série de tempo é a distribuição da variância da série em função da freqüência. O objetivo da análise espectral é estimar e estudar o espectro. O espectro não contém novas informações além da função de autocovariância (acvf), e de fato o espectro pode ser computado matematicamente por transformação do acvf. Mas o espectro e a acf apresentam as informações sobre a variância das séries temporais a partir de pontos de vista complementares. O acf resume informação no domínio do tempo e no espectro no domínio da frequência. Resposta: Execute o script geosa4.m e responda às perguntas listadas no arquivo em a4.pdf Definições: freqüência, período, comprimento de onda, espectro, freqüência de Nyquist, freqüências de Fourier, largura de banda Razões para analisar um espectro Como interpretar um espectro plotado em termos de distribuição De variância A diferença entre um espectro e um espectro normalizado Definição da janela de atraso como usado na estimativa do espectro pelo método de Blackman-Tukey Como a escolha da janela de atraso afeta a largura de banda ea variância do espectro estimado Como definir um espectro de ruído branco E auto-regressivo Como esboçar algumas formas espectrais típicas: ruído branco, autoregressivo, quase-periódico, de baixa freqüência, de alta freqüência Como aplicar geosa4.m para analisar o espectro de uma série de tempo pelo método de Blackman-Tukey Autoregressive-Moving Modelagem ARMA (Average ARMA) Os modelos ARRE (Autorregressive-moving-average) são modelos matemáticos da persistência, ou autocorrelação, em séries temporais. ARMA modelos são amplamente utilizados em hidrologia, dendrocronologia, econometria e outros campos. Existem várias razões possíveis para ajustar os modelos ARMA aos dados. Modelagem pode contribuir para a compreensão do sistema físico, revelando algo sobre o processo físico que constrói persistência na série. Por exemplo, pode-se mostrar que um modelo simples de balanço hídrico físico consistindo de termos para entrada de precipitação, evaporação, infiltração e armazenamento de água subterrânea produz uma série de fluxo que segue uma forma particular do modelo ARMA. Os modelos ARMA também podem ser usados ​​para prever o comportamento de uma série temporal de valores passados ​​sozinhos. Tal previsão pode ser usada como uma linha de base para avaliar a possível importância de outras variáveis ​​para o sistema. ARMA modelos são amplamente utilizados para previsão de séries econômicas e industriais. Os modelos ARMA também podem ser usados ​​para remover a persistência. Em dendrocronologia, por exemplo, a modelagem ARMA é aplicada rotineiramente para gerar cronologias residuais séries temporais de índice de largura de anel sem dependência de valores passados. Esta operação, denominada pré-branqueamento, pretende remover a persistência biológica da série de modo que o resíduo possa ser mais adequado para estudar a influência do clima e de outros factores ambientais externos no crescimento da árvore. Resposta: Execute o script geosa5.m e responda às perguntas listadas no arquivo em a5.pdf A forma funcional dos modelos AR e ARMA mais simples Por que tais modelos são chamados de média autorregressiva ou móvel Os três passos na modelagem ARMA Os padrões diagnósticos do Autocorrelação e funções de autocorrelação parcial para uma série temporal AR (1) Definição do erro final de predição (FPE) e como o FPE é usado para selecionar um melhor modelo ARMA Definição da estatística de Portmanteau e como ele e o acf dos resíduos podem ser Utilizado para avaliar se um modelo ARMA modela efetivamente a persistência em uma série Como o princípio de parcimônia é aplicado na modelagem ARMA Definição de prewhitening Como prewhitening afeta (1) o aparecimento de uma série temporal, e (2) o espectro de uma série temporal Como aplicar geosa5.m ao modelo ARMA uma série de tempo Análise espectral - método de periodograma suavizado Existem muitos métodos disponíveis para estimar o espectro de uma série de tempo. Na lição 4 examinamos o método de Blackman-Tukey, que é baseado na transformação de Fourier da função de autocovariância truncada e suavizada. O método de periodograma suavizado evita a transformação do acf pela transformação de Fourier direta das séries temporais eo cálculo do periodograma bruto, uma função introduzida pela primeira vez na década de 1800 para o estudo de séries temporais. O periodograma em bruto é suavizado pela aplicação de combinações ou intervalos de um ou mais filtros para produzir o espectro estimado. A suavidade, resolução e variação das estimativas espectrais é controlada pela escolha dos filtros. Um alisamento mais acentuado do periodograma em bruto produz um espectro subjacente suavemente variável, ou contínuo nulo, contra o qual os picos espectrais podem ser testados quanto à significância. Esta abordagem é uma alternativa à especificação de uma forma funcional do continuo nulo (por exemplo, espectro AR). Resposta: Execute o script geosa6.m e responda às perguntas listadas no arquivo em a6.pdf Definições: periodograma bruto, filtro Daniell, span do filtro, lisura nula do continuum, estabilidade e resolução do espectro afilando, preenchimento, vazamento As quatro etapas principais na estimativa O espectro pelo periodograma suavizado Como o efeito da escolha do filtro se estende pela suavidade, estabilidade e resolução do espectro Como o continuum nulo é usado no teste de significância de picos espectrais Como aplicar geosa6.m para estimar o espectro de um tempo Série pelo método do periodograma suavizado e teste para periodicidade em uma freqüência especificada A tendência em uma série de tempo é uma mudança lenta e gradual em alguma propriedade da série ao longo de todo o intervalo sob investigação. Por vezes, a tendência é definida como uma mudança de longo prazo na média (Figura 7.1), mas também pode se referir à mudança em outras propriedades estatísticas. Por exemplo, a série de anéis de anel de largura de anel medida freqüentemente tem uma tendência na variância assim como na média (Figura 7.2). Na análise tradicional de séries temporais, uma série temporal foi decomposta em componentes tendência, sazonais ou periódicas, e flutuações irregulares, e as várias partes foram estudadas separadamente. As técnicas de análise modernas freqüentemente tratam a série sem tal decomposição rotineira, mas a consideração separada da tendência ainda é frequentemente necessária. Detrending é a operação estatística ou matemática de remover a tendência da série. O desvio é muitas vezes aplicado para remover uma característica pensada para distorcer ou obscurecer as relações de interesse. Na climatologia, por exemplo, uma tendência de temperatura devido ao aquecimento urbano pode obscurecer uma relação entre a nebulosidade ea temperatura do ar. A destruição é também por vezes utilizada como um passo de pré-processamento para preparar séries temporais para análise por métodos que assumem a estacionaridade. Muitos métodos alternativos estão disponíveis para detrending. A tendência linear simples na média pode ser removida subtraindo uma linha reta de mínimos quadrados. Tendências mais complicadas podem exigir procedimentos diferentes. Por exemplo, a spline de suavização cúbica é comumente usada em dendrocronologia para ajustar e remover a tendência de largura de anel que pode não ser linear, ou mesmo não monotonicamente aumentar ou diminuir ao longo do tempo. Ao estudar e remover a tendência, é importante compreender o efeito da detrending sobre as propriedades espectrais das séries temporais. Este efeito pode ser resumido pela resposta de freqüência da função detrending. Resposta: Execute o script geosa7.m e responda às perguntas listadas no arquivo em a7.pdf Definições: resposta de freqüência, spline, spline cúbico spline Prós e contras de relação vs diferença detrending Interpretação de termos na equação para o parâmetro spline Como escolher um Spline interativamente de resposta de freqüência desejada Como o espectro é afetado por detrending Como medir a importância do componente de tendência em uma série de tempo Como aplicar geosa7.m para escolher interativamente uma splin detrending função e detrend uma série de tempo O espectro estimado de um tempo Série fornece a distribuição da variância em função da freqüência. Dependendo da finalidade da análise, algumas freqüências podem ser de maior interesse do que outras, e pode ser útil reduzir a amplitude das variações em outras freqüências, filtrando-as estatisticamente antes de visualizar e analisar a série. Por exemplo, as variações de alta freqüência (ano a ano) em um registro de descarga medido de uma bacia hidrográfica podem ser relativamente sem importância para o suprimento de água em uma bacia com grandes reservatórios que podem armazenar vários anos de escoamento anual médio. Quando as variações de baixa freqüência são de interesse principal, é desejável suavizar o registro de descarga para eliminar ou reduzir as flutuações de curto período antes de usar o registro de descarga para estudar a importância das variações climáticas para o suprimento de água. A suavização é uma forma de filtragem que produz uma série temporal em que a importância das componentes espectrais nas altas frequências é reduzida. Engenheiros elétricos chamam este tipo de filtro de filtro passa-baixa, porque as variações de baixa freqüência são permitidos para passar através do filtro. Em um filtro passa-baixa, as ondas de baixa freqüência (período longo) são pouco afetadas pela suavização. É também possível filtrar uma série de modo que as variações de baixa frequência sejam reduzidas e as variações de alta frequência não sejam afectadas. Este tipo de filtro é chamado de filtro passa-alta. A destruição é uma forma de filtragem passa-alta: a linha de tendência ajustada segue as freqüências mais baixas e os resíduos da linha de tendência tiveram essas freqüências baixas removidas. Um terceiro tipo de filtragem, chamado de filtragem de banda passada, reduz ou filtra as frequências altas e baixas e deixa relativamente inalterada alguma banda de frequência intermédia. Nesta lição, abordamos vários métodos de suavização ou filtragem de passagem baixa. Já discutimos como a spline de suavização cúbica pode ser útil para essa finalidade. Quatro outros tipos de filtros são discutidos aqui: 1) média móvel simples, 2) binomial, 3) gaussiano, e 4) janela (método de Hamming). Considerações na escolha de um tipo de filtro passa-baixo são a resposta de freqüência desejada eo span, ou largura, do filtro. Resposta: Execute o script geosa8.m e responda às perguntas listadas no arquivo em a8.pdf Definições: filtro, filtro de pesos, intervalo de filtro, filtro passa-baixa, filtro passa-alto, filtro passa banda Resposta de freqüência de um filtro Como o Gaussiano Filtro é relacionado com a distribuição gaussiana Como construir um filtro binomial simples manualmente (sem o computador) Como descrever a função de resposta em frequência em termos de um sistema com entrada e saída sinusoidais Como aplicar geosa8.m para interativamente projetar um binômio gaussiano Ou filtro de passagem baixa Hamming-window para uma série de tempo O coeficiente de correlação produto-momento de Pearson é provavelmente a única estatística mais utilizada para resumir a relação entre duas variáveis. Significado estatístico e ressalvas de interpretação do coeficiente de correlação aplicado às séries temporais são tópicos desta lição. Sob certas suposições, a significância estatística de um coeficiente de correlação depende apenas do tamanho da amostra, definido como o número de observações independentes. Se as séries temporais forem autocorrelacionadas, um tamanho efetivo da amostra, menor do que o tamanho real da amostra, deve ser usado ao avaliar o significado. Relações transitórias ou espúrias podem produzir correlação significativa para alguns períodos e não para outros. A variação temporal da força da correlação linear pode ser examinada com gráficos de correlação calculados para uma janela deslizante. Mas se muitos coeficientes de correlação forem avaliados simultaneamente, os intervalos de confiança devem ser ajustados (ajuste de Bonferroni) para compensar a maior probabilidade de observar algumas correlações altas onde não existe relação. A interpretação das correlações de deslizamento também pode ser complicada pelas variações temporais da média e da variância da série, uma vez que a correlação deslizante reflete a covariância em termos de desvios padronizados das médias na janela de tempo de interesse, que podem diferir dos meios de longo prazo. Finalmente, deve-se enfatizar que o coeficiente de correlação de Pearson mede a força da relação linear. Os diagramas de dispersão são úteis para verificar se a relação é linear. Resposta: Execute o script geosa9.m ​​e responda às perguntas listadas no arquivo em a9.pdf Definição matemática do coeficiente de correlação Hipóteses e hipóteses para o teste de significância do coeficiente de correlação Como calcular o nível de significância do coeficiente de correlação e ajustar o nível de significância para a autocorrelação em As séries temporais individuais Atenção à interpretação do coeficiente de correlação Ajuste de Bonferroni ao nível de signficância de correlação sob comparações múltiplas Inflação de variância do coeficiente de correlação estimado quando séries temporais autocorrelacionadas Possíveis efeitos da transformação de dados na correlação Como interpretar gráficos de correlações deslizantes Como aplicar geosa9. M para analisar correlações e correlações de deslizamento entre pares de séries temporais As relações retardadas são características de muitos sistemas físicos naturais. A correlação retardada refere-se à correlação entre duas séries temporais deslocadas no tempo em relação uma à outra. A correlação retardada é importante no estudo da relação entre as séries temporais por duas razões. Primeiro, uma série pode ter uma resposta retardada para as outras séries, ou talvez uma resposta atrasada a um estímulo comum que afeta ambas as séries. Segundo, a resposta de uma série à outra série ou um estímulo externo pode ser manchada no tempo, de tal forma que um estímulo restrito a uma observação provoca uma resposta em múltiplas observações. Por exemplo, devido à armazenagem em reservatórios, geleiras, etc., a descarga de volume de um rio num ano pode depender da precipitação nos vários anos anteriores. Ou devido a mudanças na densidade da copa e armazenamento de fotosíntese, a largura de um anel de árvore em um ano pode depender do clima de vários anos anteriores. O coeficiente de correlação simples entre as duas séries adequadamente alinhadas no tempo é inadequado para caracterizar a relação em tais situações. Funções úteis que examinaremos como alternativa ao coeficiente de correlação simples são a função de correlação cruzada e a função de resposta ao impulso. A função de correlação cruzada é a correlação entre as séries deslocadas uma contra a outra em função do número de observações do deslocamento. Se as séries individuais são autocorrelacionadas, a função de correlação cruzada estimada pode ser distorcida e enganosa como uma medida da relação retardada. Examinaremos duas abordagens para esclarecer o padrão de correlações cruzadas. Uma delas consiste em remover individualmente a persistência da série antes da estimativa de correlação cruzada ou prewhiten. Nesta abordagem, as duas séries são essencialmente consideradas em pé de igualdade. Uma alternativa é a abordagem de sistemas: ver a série como um sistema linear dinâmico - uma série, a entrada e outra a saída - e estimar a função de resposta ao impulso. A função de resposta de impulso é a resposta da saída em tempos atuais e futuros a um impulso hipotético de entrada restrito ao tempo atual. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script. Autocorrelation Function Note that 0 is the variance of the stochastic process. A função de autocovariância no intervalo k. Para k 0, da série temporal é definida pela função de autocorrelação (ACF) no intervalo k. Para k 0, da série temporal é definida por A variância da série temporal é r 0. Um gráfico de rk contra k é conhecido como um correlograma. Observação. A definição de autocovariância dada acima é um pouco diferente da definição usual de covariância entre 1. , Y n-k e k 1. , Y n em dois aspectos: (1) dividir por n em vez de nk e subtrair a média global em vez da média de 1. , Y n-k e k 1. , Y n respectivamente. Para valores de n que são grandes em relação a k. A diferença será pequena. Exemplo 1 . Calcular s 2 e r 2 para os dados no intervalo B4: B19 da Figura 1. Figura 1 ACF no intervalo 2 As fórmulas para calcular s 2 e r 2 usando as funções COVARIANCE. S e CORREL usuais são mostradas nas células G4 e G5. As fórmulas para s 0. S 2 e r 2 da Definição 2 são mostrados nas células G8, G11 e G12 (juntamente com uma fórmula alternativa em G13). Observe que os valores para s 2 nas células E4 e E11 não são muito diferentes, assim como os valores de r 2 mostrados nas células E5 e E12 quanto maior a amostra, mais provavelmente esses valores serão semelhantes. O Real Statistics Resource Pack fornece as seguintes funções: ACF (R1, k) o valor de ACF no retardo k para a série de tempo no intervalo R1 ACVF (R1, k) a autovariância no retardo k para a série de tempo no intervalo R1 Note que ACF (R1, k) é equivalente a SUMPRODUCT (OFFSET (R1,0,0, COUNT (R1) - K) - AVERAGE (R1), OFFSET (R1, k, 0, COUNT )) DEVSQ (R1) Observação. Existem vantagens teóricas para usar a divisão por n em vez de nk na definição de s k. A saber, que as matrizes de covariância e de correlação serão sempre não-negativas definidas (ver Matrizes Definidas Positivas). Observação. Mesmo que a definição de autocorrelação seja ligeiramente diferente da correlação, k (ou r k) ainda toma um valor entre -1 e 1, como vemos na propriedade 2. Exemplo 2. Determine o ACF para o intervalo 1 a 10 para as médias de fechamento do Dow Jones para o mês de outubro de 2015, conforme mostrado nas colunas A e B da Figura 2 e construa o correlograma correspondente. Os resultados são mostrados na Figura 2. Os valores na coluna E são calculados colocando a fórmula ACF (B4: B25, D5) na célula E5, realçando a gama E5: E14 e pressionando Ctrl-D. Figura 2 ACF e Correlograma Como pode ser visto a partir dos valores na coluna E ou no gráfico, os valores de ACF descem lentamente para zero. Isso é típico de um processo autorregressivo. Observação. Uma regra de ouro é levar a cabo o processo acima para atraso 1 a n 3 ou n 4, que para os dados acima é 224 6 ou 223 7. Nosso objetivo é ver se neste momento o ACF é significativo (isto é, estatisticamente diferente A partir de zero). Podemos fazer isso usando a seguinte propriedade. Propriedade 3 (Bartlett): Em amostras grandes, se uma série de tempo de tamanho n é puramente aleatória então para todo o Exemplo 3. Determine se o ACF no intervalo 7 é significativo para os dados do Exemplo 2. Como se pode ver na Figura 3, o valor crítico para o teste na Propriedade 3 é .417866. Desde r 7 .303809 lt .417866, concluímos que não é significativamente diferente de zero. Figura 3 Teste de Bartletts Observe que valores de k até 5 são significativos e aqueles maiores de 5 não são significativos. Uma versão mais estatisticamente poderosa da propriedade 4, especialmente para amostras menores, é dada pela propriedade seguinte. Exemplo 4. Use as estatísticas Box-Pierce e Ljung-Box para determinar se os valores de ACF no Exemplo 2 são estatisticamente iguais a zero para todos os retornos menores ou iguais a 5 (a hipótese nula). Os resultados são mostrados na Figura 4. Figura 4 Testes Box-Pierce e Ljung-Box Nós vemos a partir destes testes que ACF (k) é significativamente diferente de zero para pelo menos um k 5, o que é consistente com o correlograma na Figura 2. Funções de estatísticas reais. O Real Statistics Resource Pack fornece as seguintes funções para executar os testes descritos pelas propriedades acima. BARTEST (r, n, lag) Valor p do teste de Bartletts para o coeficiente de correlação r baseado em uma série temporal de tamanho n para o retardo especificado. BARTEST (R1, atraso) BARTEST (r, n, lag) onde n o número de elementos na faixa R1 e r ACF (R1, atraso) PIERCE (R1, lag) Box-Pierce estatística Q para a faixa R1 e o atraso especificado BPTEST (R1, atraso) valor de p para o teste Box-Pierce para o intervalo R1 e o atraso especificado LJUNG (R1, atraso) Ljung-Box estatística Q para intervalo R1 e o atraso especificado LBTEST (R1 ,, lag) p - valor para o teste Ljung-Box para o intervalo R1 e o retardo especificado. Nas funções acima onde o segundo argumento está faltando, o teste é executado usando o coeficiente de autocorrelação (ACF). Se o valor atribuído for 1 ou pacf, então o teste é executado usando o coeficiente de autocorrelação parcial (PACF) como descrito na próxima seção. Na verdade, se o segundo argumento assume qualquer valor exceto 1 ou pacf, então o valor ACF é usado. Por exemplo. BARTEST(.303809,22,7) .07708 for Example 3 and LBTEST(B4:B25,acf,5) 1.81E-06 for Example 4.

No comments:

Post a Comment