Verificando um pico estatisticamente significativo

14

Eu tenho um conjunto de dados, e x . Eu gostaria de testar a seguinte hipótese: Há um pico em y ; isto é, x aumenta, y primeiro aumenta e depois diminui.yxyxy

Minha primeira ideia foi encaixar e x 2 em uma SLR. Ou seja, se eu achar que o coeficiente antes de x é significativamente positivo e o coeficiente antes de x 2 é significativamente negativo, então tenho suporte para a hipótese. No entanto, isso verifica apenas um tipo de relacionamento (quadrático) e pode não necessariamente capturar a existência do pico.xx2xx2

Então pensei em encontrar , uma região de (valores classificados de) x , que b esteja entre a e c , duas outras regiões de x que contenham pelo menos tantos pontos quanto b , e que ¯ y b > ¯ y a e ¯ y b > ¯ y c significativamente. Se a hipótese for verdadeira, devemos esperar muitas dessas regiões b . Assim, se o número de b for suficientemente grande, deve haver suporte para a hipótese.bxbacxbyb¯>ya¯yb¯>yc¯bb

Você acha que estou no caminho certo para encontrar um teste adequado para minha hipótese? Ou estou inventando a roda e existe um método estabelecido para esse problema? Eu aprecio muito a sua opinião.

ATUALIZAR. Minha variável dependente y é count (número inteiro não negativo).

Nikita Samoylov
fonte
Faz variam suavemente com x ? Nesse caso, você pode tentar ajustar um modelo, incluindo um mais suave (por exemplo, um GAM) e depois calcular as primeiras derivadas do mais suave e seu intervalo de confiança. Se a derivada estiver aumentando significativamente, então diminuindo, você terá uma resposta. yx
Reintegrar Monica - G. Simpson

Respostas:

6

Eu estava pensando na ideia de suavização também. Mas existe uma área inteira chamada metodologia de superfície de resposta que procura picos em dados barulhentos (envolve principalmente o uso de ajustes quadráticos locais nos dados) e houve um artigo famoso que me lembro com "Bump hunting" no título. Aqui estão alguns links para livros sobre a metodologia da superfície de resposta. Os livros de Ray Myer são particularmente bem escritos. Vou tentar encontrar o papel de caça inchaço.

Metodologia da superfície de resposta: otimização de processos e produtos usando experimentos projetados

Metodologia da superfície de resposta e tópicos relacionados

Metodologia da superfície de resposta

Construção empírica de modelos e superfícies de resposta

Embora não seja o artigo que eu estava procurando, aqui está um artigo muito relevante de Jerry Friedman e Nick Fisher que lida com essas idéias aplicadas a dados de alta dimensão.

Aqui está um artigo com alguns comentários online.

Então, espero que você pelo menos aprecie minha resposta. Acho que suas idéias são boas e no caminho certo, mas sim, acho que você pode estar reinventando a roda e espero que você e outras pessoas vejam essas excelentes referências.

Michael R. Chernick
fonte
3
Eu não estava entre os que recusaram, mas espera-se que as respostas nos sites do SE sejam mais do que um link para o conteúdo. Resumir o conteúdo ou fornecer uma resposta resumida, em seguida, vincular ao conteúdo para obter mais detalhes seria melhor.
Reintegrar Monica - G. Simpson
2
Estou votando positivamente neste porque (1) apresenta uma boa ideia; (2) tem algum comentário; e (3) é suportado com alguns links cuidadosamente escolhidos, incluindo material disponível gratuitamente. Sim, parece tipograficamente ruim, porque os links podem ser mais bem formatados: mas espero que as pessoas não estejam pesando muito esse aspecto das respostas em suas decisões de votação!
whuber
1
@whuber Concordo depois de poder lê-lo claramente devido à boa formatação do Procastinator. +1 também. Eu acho que há resumo suficiente aqui e alguns tópicos são quase complexos demais para algo além da idéia fundamental e uma referência para futuras leituras.
Erik
5
@MichaelChernick Note-se que não era uma crítica de mim, apenas oferecendo uma razão pela qual as pessoas poderiam ter baixo votado. Eu discordaria deles se esse fosse o motivo, porque acho que sua resposta está correta, especialmente no PRIM; Eu estava apenas consultando Hastie et al (2009) sobre o que dizia no PRIM. Você pode adicionar esse link à resposta, pois há duas seções no PRIM e o PDF está disponível gratuitamente.
Reintegrar Monica - G. Simpson
1
@ Nikita Qual é a hipótese estatística formal que você deseja testar? Primeiro você tem que encontrar os picos que são uma grande parte disso. Você está testando que o pico não é apenas resultado de ruído? Não sei ao certo qual literatura existe para resolver esse problema, mas meu pensamento seria que você poderia ajustar uma regressão polinomial aos dados (talvez quadrática localmente). A partir disso, você teria uma estimativa da variação residual. A significância estatística do termo quadrático seria um teste para a significância do pico.
Michael R. Chernick
1

Mesmo que você não tenha respondido à minha pergunta, se meu palpite estiver certo, você está procurando um teste de ruído branco, que equivale ao domínio da frequência para mostrar que o espectro é plano. Assim, o teste do periodograma de Fisher, que nesta referência é chamado Kappa de Fisher, poderia ser usado. Veja o link.

http://www4.stat.ncsu.edu/~dickey/Spain/pdf_Notes/Spectral2.pdf

O teste de Bartlett também é mencionado na referência. Agora, rejeitar a hipótese nula equivale a encontrar um pico significativo no periodograma. Isso significaria que existe um componente periódico na série temporal.

Como o teste está no domínio da frequência e envolve ordenadas de periodogramas, as ordenadas têm uma distribuição de qui-quadrado 2 sob a hipótese nula e são independentes. Essa distribuição especial ocorre apenas devido à transformação no domínio da frequência. Se x fosse tempo, isso não funcionaria no domínio do tempo ou, em geral, a distribuição para os ys não seria qui-quadrado independente.

Mas pegue o modelo y = constante independente de x. Use y mm , a média de ys como estimativa para a constante. Então, testar a existência de um pico equivaleria a rejeitar que os resíduos formam uma sequência de ruído branco.

Michael R. Chernick
fonte
y
Então y são dados de contagem e qual é xa variável explicativa contínua? Minhas sugestões anteriores provavelmente não são nesse caso, mas há muita literatura recente sobre modelos de contagem. Então, se você puder ser um pouco mais específico sobre os dados e o problema, talvez eu possa apontar para uma solução.
Michael R. Chernick
yx
Não tenho certeza se isso ajudará ou não, mas Cameron e Trivedi publicaram um livro sobre modelos de regressão de contagem e uma segunda edição será lançada em 2013. Aqui está um link com algumas informações: cameron.econ.ucdavis.edu/racd/count .html
Michael R. Chernick