Eu tenho um conjunto de dados, e x . Eu gostaria de testar a seguinte hipótese: Há um pico em y ; isto é, x aumenta, y primeiro aumenta e depois diminui.
Minha primeira ideia foi encaixar e x 2 em uma SLR. Ou seja, se eu achar que o coeficiente antes de x é significativamente positivo e o coeficiente antes de x 2 é significativamente negativo, então tenho suporte para a hipótese. No entanto, isso verifica apenas um tipo de relacionamento (quadrático) e pode não necessariamente capturar a existência do pico.
Então pensei em encontrar , uma região de (valores classificados de) x , que b esteja entre a e c , duas outras regiões de x que contenham pelo menos tantos pontos quanto b , e que ¯ y b > ¯ y a e ¯ y b > ¯ y c significativamente. Se a hipótese for verdadeira, devemos esperar muitas dessas regiões b . Assim, se o número de b for suficientemente grande, deve haver suporte para a hipótese.
Você acha que estou no caminho certo para encontrar um teste adequado para minha hipótese? Ou estou inventando a roda e existe um método estabelecido para esse problema? Eu aprecio muito a sua opinião.
ATUALIZAR. Minha variável dependente é count (número inteiro não negativo).
fonte
Respostas:
Eu estava pensando na ideia de suavização também. Mas existe uma área inteira chamada metodologia de superfície de resposta que procura picos em dados barulhentos (envolve principalmente o uso de ajustes quadráticos locais nos dados) e houve um artigo famoso que me lembro com "Bump hunting" no título. Aqui estão alguns links para livros sobre a metodologia da superfície de resposta. Os livros de Ray Myer são particularmente bem escritos. Vou tentar encontrar o papel de caça inchaço.
Metodologia da superfície de resposta: otimização de processos e produtos usando experimentos projetados
Metodologia da superfície de resposta e tópicos relacionados
Metodologia da superfície de resposta
Construção empírica de modelos e superfícies de resposta
Embora não seja o artigo que eu estava procurando, aqui está um artigo muito relevante de Jerry Friedman e Nick Fisher que lida com essas idéias aplicadas a dados de alta dimensão.
Aqui está um artigo com alguns comentários online.
Então, espero que você pelo menos aprecie minha resposta. Acho que suas idéias são boas e no caminho certo, mas sim, acho que você pode estar reinventando a roda e espero que você e outras pessoas vejam essas excelentes referências.
fonte
Mesmo que você não tenha respondido à minha pergunta, se meu palpite estiver certo, você está procurando um teste de ruído branco, que equivale ao domínio da frequência para mostrar que o espectro é plano. Assim, o teste do periodograma de Fisher, que nesta referência é chamado Kappa de Fisher, poderia ser usado. Veja o link.
http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf
O teste de Bartlett também é mencionado na referência. Agora, rejeitar a hipótese nula equivale a encontrar um pico significativo no periodograma. Isso significaria que existe um componente periódico na série temporal.
Como o teste está no domínio da frequência e envolve ordenadas de periodogramas, as ordenadas têm uma distribuição de qui-quadrado 2 sob a hipótese nula e são independentes. Essa distribuição especial ocorre apenas devido à transformação no domínio da frequência. Se x fosse tempo, isso não funcionaria no domínio do tempo ou, em geral, a distribuição para os ys não seria qui-quadrado independente.
Mas pegue o modelo y = constante independente de x. Use y mm , a média de ys como estimativa para a constante. Então, testar a existência de um pico equivaleria a rejeitar que os resíduos formam uma sequência de ruído branco.
fonte