Eu já vi vários artigos que analisam relações em forma de U ou inversas em forma de U entre variáveis (em uma estrutura de regressão). O entendimento geral que tenho a partir daí é que é um tipo específico de relacionamento não linear que todos podemos visualizar facilmente.
No entanto, estou um pouco confuso sobre como exatamente as pessoas definem matematicamente as funções de regressão em forma de U. Suponha que, por simplicidade, exista apenas o regressor .
Ter uma função de regressão em forma de U significa que a função de regressão é convexa e diminui em até algum ponto e depois que é convexa e aumenta em ?
Ou significa simplesmente que a função de regressão está diminuindo em até algum ponto e depois que está aumentando em ?
Respostas:
A resposta curta para sua pergunta (como declarado em outro lugar) é que não existe uma definição matemática única de uma forma de U. O comentário de @whuber é a melhor definição geral que eu já vi.
Pesquiso testes de formas em U e, para a minha apresentação, tenho um slide com o título "O que um U significa para você?", O que significa que é subjetivo o que as pessoas querem dizer com o termo "U-shape". O mais importante é que, quando você usa o termo "formato de U", define exatamente o que quer dizer com isso, sem assumir que outros saberão o que você quer dizer.
Como você especificou o caso de apenas um regressor, vou me concentrar nisso. Vi as seguintes definições usadas em vários artigos:
Uma complicação que surge é: e se o ponto de virada estiver próximo do final do intervalo da variável x? Ainda devemos considerar essa função em forma de U? Na minha opinião, essa discussão deve ser realizada quando você define o que um formato em U significa para você em sua aplicação e quando especifica sua hipótese nula.
A definição que utilizo no meu artigo, Teste não paramétrico de relacionamentos em forma de U , é a seguinte:
Deixeim(x) ser a função de regressão e deixe S(X) ser o apoio de X . Para um conjunto especificadoA0⊂S(X) , estamos interessados em testar o seguinte:
Por exemplo, em um aplicativo, testei a satisfação em vida em forma de U na faixa etária de 20 a 70 anos, onde o ponto de virada é entre 30 e 60 anos. Decisões arbitrárias são necessárias com essa estrutura proposta. O importante é ser aberto sobre eles e verificar a sensibilidade dos resultados às mudanças (e desafiar outras pessoas a fazer o mesmo).
Além de declarar a hipótese nula, como sempre, você deve indicar as suposições em que se baseia. Por exemplo, uma suposição comum é que a função de regressão seja em forma de U em monotonia. Veja, por exemplo, 2009 "Com ou sem U? O teste apropriado para um relacionamento em forma de U", de Lind e Mehlum, onde eles propõem uma melhoria no teste quadrático de baunilha OLS, testando se a derivada de uma forma funcional especificada é negativa em o início do intervalo e positivo no final.
Um ponto adicional a ser considerado é: você deseja um teste que rejeite a hipótese nula devido a uma pequena violação da forma de U? Se sim, considere o pacote R qmutest , que implementa testes não paramétricos com base em splines das hipóteses nulas de que a função de regressão é quase-convexa e, separadamente, é monótona. Se você não deseja um teste que inferência contra uma forma de U por causa de uma pequena violação, o teste de duas linhas de Uri pode ser melhor se você quiser testar se uma função de regressão está diminuindo e depois aumentando.
Como sua pergunta era sobre o uso do termo "forma de U" e da definição, acho relevante listar aqui alguns termos que são usados com frequência para se referir à mesma coisa que "forma de U" e "forma de U invertida" "são usados para se referir a:" em forma de vale "," em forma de vale "," em forma de colina "," unimodal "," de pico único "e" em forma de sino ". Não existe uma razão inerente para "formato em U" ser um termo melhor que os outros, mas seu uso parece ter se popularizado.
Estou trabalhando em um pacote R geral que será apenas uma interface para pacotes R específicos (como o qmutest) que testam relacionamentos em forma de U, mas eles escolhem defini-los. O objetivo será ajudar os usuários a comparar testes diferentes e pensar bem sobre a hipótese nula exata que eles querem testar e quais suposições estão preparadas para fazer.
fonte
"Relação em forma de U" não é um termo matematicamente preciso e não há definição universalmente aceita. Isso geralmente significa que o relacionamento está diminuindo primeiro e depois aumentando, ou vice-versa.
Em outras palavras, significa que o relacionamento não é monotônico (não monotônico), mas possui exatamente um extremo (máximo ou mínimo). Na ciência da computação, isso às vezes é chamado de "bitônico" .
Uri Simonsohn escreveu recentemente um artigo interessante sobre o teste de relacionamentos em forma de U. Veja sua pré - impressão Duas linhas: uma alternativa válida para o teste inválido de relacionamentos em forma de U com regressões quadráticas, que é muito legível e divertido. Aqui está como o artigo começa:
Isso suporta a definição que dei acima.
Por um breve resumo do artigo de Uri, pode-se ler seus DataColada pós Duas linhas: a primeira prova válida de Relações U-Shaped . O ponto principal é que o uso da regressão quadrática para testar a presença de um relacionamento em forma de U está muito errado. Aparentemente, ajustes quadráticos são freqüentemente usados em alguns campos para argumentar a favor de um relacionamento em forma de U (ou seja, o teste t para o termo quadrático é considerado o teste da forma em U); isso é preocupante.
Aqui está o índice:
Atualização: Há algumas críticas ao artigo de Uri nos comentários. Eu gostaria de enfatizar que ele nunca sugere que ajustes descontínuos em duas linhas devem modelar bem os dados (ou que o salto na descontinuidade tenha algum significado físico). Não. Esse ajuste é usado com o único objetivo de fornecer um teste estatístico de forma de U.
É claro que concordo com @FrankHarrell que faz muito mais sentido usar um modelo de spline para se ajustar a tais relacionamentos não lineares. Mas splines não fornecem um teste de forma de U, enquanto o ajuste de duas linhas de Uri fornece.
fonte