Eu tenho uma amostra de 1.449 pontos de dados que não estão correlacionados (r ao quadrado 0,006).
Ao analisar os dados, descobri que, dividindo os valores das variáveis independentes em grupos positivo e negativo, parece haver uma diferença significativa na média da variável dependente para cada grupo.
Dividindo os pontos em 10 posições (deciles) usando os valores variáveis independentes, parece haver uma correlação mais forte entre o número de deciles e os valores variáveis dependentes médios (r-quadrado 0,27).
Eu não sei muito sobre estatísticas, então aqui estão algumas perguntas:
- Esta é uma abordagem estatística válida?
- Existe um método para encontrar o melhor número de posições?
- Qual é o termo adequado para essa abordagem para que eu possa pesquisar no Google?
- Quais são alguns recursos introdutórios para aprender sobre essa abordagem?
- Quais são algumas outras abordagens que posso usar para encontrar relacionamentos nesses dados?
Aqui estão os dados do decil para referência: https://gist.github.com/georgeu2000/81a907dc5e3b7952bc90
EDIT: Aqui está uma imagem dos dados:
Momento da indústria é a variável independente, a qualidade do ponto de entrada depende
fonte
Respostas:
0. A correlação (0.0775) é pequena, mas (estatisticamente) significativamente diferente de 0. Ou seja, parece que realmente existe correlação, é muito pequena / fraca (equivalente a isso, há muito barulho no relacionamento).
1. O que a média dentro dos compartimentos faz é reduzir a variação nos dados (o efeito n para erro padrão de média), o que significa que você aumenta artificialmente a correlação fraca. Veja tambémeste (um pouco) problema relacionado.σ/ n--√
3. sim Possivelmente, comece com essa pesquisa e talvez tente sinônimos.
4. Este é um bom lugar para começar; é um livro muito popular voltado para não estatísticos.
5. (mais seriamente :) Eu sugeriria a suavização (como por meio de regressão polinomial local / suavização do kernel, por exemplo) como uma maneira de investigar relacionamentos. Depende exatamente do que você deseja, mas essa pode ser uma abordagem válida quando você não conhece a forma de um relacionamento, desde que evite o problema de dragagem de dados.
Há uma citação popular, cujo criador parece ser Ronald Coase :
fonte
Talvez você se beneficie de uma ferramenta exploratória. A divisão dos dados em deciles da coordenada x parece ter sido realizada com esse espírito. Com as modificações descritas abaixo, é uma abordagem perfeitamente correta.
Muitos métodos exploratórios bivariados foram inventados. Um exemplo simples proposto por John Tukey ( EDA , Addison-Wesley 1977) é seu "enredo esquemático errante". Você divide a coordenada x em caixas, erige um gráfico de caixa vertical dos dados y correspondentes na mediana de cada bandeja e conecta as partes principais dos gráficos de caixa (medianas, dobradiças etc.) nas curvas (suavizando-as opcionalmente). Esses "traços errantes" fornecem uma imagem da distribuição bivariada dos dados e permitem uma avaliação visual imediata da correlação, linearidade do relacionamento, outliers e distribuições marginais, além de uma estimativa robusta e avaliação da qualidade do ajuste de qualquer função de regressão não linear .
Para exibir as diferentes populações de posições, podemos tornar a largura de cada gráfico de caixa proporcional à quantidade de dados que ele representa.
A trama esquemática errante resultante seria algo parecido com isto. Os dados, conforme desenvolvidos a partir do resumo dos dados, são mostrados como pontos cinza em segundo plano. Sobre isso, foi traçada a trama esquemática errante, com os cinco traços em cores e os gráficos de caixa (incluindo os valores extremos mostrados) em preto e branco.
Ferramentas exploratórias alternativas com propósitos semelhantes incluem suavizações robustas de quantis em janela dos dados e ajustes de regressões quantílicas usando uma variedade de quantis. Com a disponibilidade imediata do software para executar esses cálculos, eles talvez se tornem mais fáceis de executar do que um traço esquemático errante, mas eles não desfrutam da mesma simplicidade de construção, facilidade de interpretação e ampla aplicabilidade.
O
R
código a seguir produziu a figura e pode ser aplicado aos dados originais com pouca ou nenhuma alteração. (Ignore os avisos produzidos porbplt
(chamados porbxp
): reclama quando não possui discrepâncias para desenhar.)fonte
c(0,.03,-.6,.5,-.1,.6,1.2,.7,1.4,.1,.6)
, isso está sendo gerado e depende dos dados (x
)? Você mencionou o,2^*(-k)
mas isso não está relacionado.k <- 1:11; ifelse(quantile(g, seq(0,1,1/10))>0, 2^(-k), 1-2^(-k))
Não acredito que o binning seja uma abordagem científica do problema. É informação perdida e arbitrária. Os métodos de classificação (ordinal; semiparamétrico) são muito melhores e não perdem informações. Mesmo se alguém se contentar com o descarte de decil, o método ainda é arbitrário e não reproduzível por outros, simplesmente por causa do grande número de definições usadas para quantis no caso de vínculos nos dados. E, como mencionado no bom comentário sobre tortura de dados acima, Howard Wainer tem um bom artigo mostrando como encontrar posições que podem produzir uma associação positiva e posições que podem produzir uma associação negativa, a partir do mesmo conjunto de dados:
fonte
Dividir os dados em decis com base no X observado ("Qualidade do ponto de entrada") parece ser uma generalização de um método antigo proposto inicialmente por Wald e depois por outros para situações em que X e Y estão sujeitos a erro. (Wald dividiu os dados em dois grupos. Nair & Shrivastava e Bartlett os dividiram em três.) É descrito na seção 5C de Entendendo a análise de dados robusta e exploratória , editada por Hoaglin, Mosteller e Tukey (Wiley, 1983). No entanto, muito trabalho nesse "Erro de medição" ou "Erro nos modelos de variáveis" foi realizado desde então. Os livros que eu observei são : Erro de medição: modelos, métodos e aplicativos de John Buonaccorsi (CRC Press,
Sua situação pode ser um pouco diferente, porque seu gráfico de dispersão me leva a suspeitar que ambas as observações são variáveis aleatórias e não sei se cada uma delas contém erro de medição. O que as variáveis representam?
fonte
Achei o pacote localgauss muito útil para isso. https://cran.r-project.org/web/packages/localgauss/index.html
O pacote contém
Exemplo:
Resultado:
fonte