Abaixo está um gráfico de dispersão (limitado a US $ 10.000) representando a doação média que um projeto recebe versus a contagem de palavras do ensaio de solicitação de financiamento para todos os projetos representados nos dados de escolha de doadores abertos .
Há um padrão perceptível, que tentei caracterizar ajustando a curva
através da manipulação manual de parâmetros. No entanto, eu gostaria de conhecer outras maneiras de abordar a modelagem ou encontrar padrões / relacionamentos em dados com essa aparência.
Aqui está a disparidade que motiva minha busca por outros métodos:
No exemplo canônico de regressão linear, os pontos dispersos são desvios de uma curva. Neste exemplo, isso claramente não é o caso, pois parece que os pontos estão agrupados em alguma área.
fonte
Respostas:
Apenas para elaborar meu comentário, aqui está um exemplo de como seu padrão aparente pode ser um artefato causado pela distribuição de dados ao longo do eixo x. Eu gerei 100.000 pontos de dados. Eles são normalmente distribuídos no eixo x (μ = 2500 , σ= 600 ) e distribuído exponencialmente no eixo y (λ = 1 )
Seguindo o "envelope visual" do gráfico de dispersão, existe um padrão claro, embora ilusório: y parece máximo no intervalo de 1000 <x <4000. No entanto, esse padrão aparente, visualmente muito convincente, é apenas um artefato causado pela distribuição dos valores x. Ou seja, há apenas mais dados no intervalo 1000 <x <4000. Você pode ver isso no histograma x na parte inferior.
Para provar isso, calculei o valor médio de y nas posições de x (linha preta). Isso é aproximadamente constante para todos os x. Se os dados foram distribuídos de acordo com a nossa intuição a partir do gráfico de dispersão, a média no intervalo 1000 <x <4000 deve ser maior que o restante - mas não é. Portanto, realmente não há padrão.
Não estou dizendo que esta é a história completa com seus dados. Mas aposto que é uma explicação parcial.
Adendo com doadores reais Escolha os dados.
Gráfico de dispersão original com marcadores impressionantes:
Mesmo gráfico de dispersão com opacidade reduzida:
Aparecem padrões diferentes, mas, com 800 mil pontos de dados, ainda há muitos detalhes perdidos para o overstriking.
Aplique zoom, reduza a opacidade novamente e adicione mais suavidade:
fonte
col="#00000001"
emR
. Com quase um milhão de pontos, a suavização é essencial. É uma boa idéia diminuir o alcance do que normalmente é usado para nuvens de pontos menores, para obter mais detalhes locais.Eu acho que sua variável no eixo Y é exponencialmente distribuída (p ( y) = λe- λ y ), mas parece que o parâmetro rate λ está variando de acordo com a probabilidade de densidade normal da sua variável no eixo X.
Gerei dados aleatórios com o MatLab usando distribuição normal para X e distribuição exponencial para Y, comλ = p ( x ) e obtive um resultado semelhante com seus dados:
Você pode tentar o aprendizado de máquina para ajustar os parâmetros, alterando sua função de custo para comparar a densidade de probabilidade e o parâmetro de taxa de cada compartimento no seu 'histograma'. Nesse caso, não se esqueça de executar o gerador aleatório algumas vezes em cada iteração para minimizar o custo.
Aqui está o código que eu usei para o enredo:
fonte
A pergunta menciona regressão, que normalmente aborda a expectativa condicional:
De um modo mais geral, a questão da independência entrex e y é interessante. E sex e y são independentes então p ( y| x)=p(y) e, é claro, a expectativa condicional também é independente. Masy pode depender de x de maneira interessante, mesmo que a expectativa condicional seja independente da x .
Com tantos dados, eu olhava para histogramas dey que todos têm quase o mesmo valor de x e veja como o histograma muda conforme o valor escolhido de x alterar. Somente após essa investigação eu pensaria em como proceder de maneira mais formal.
fonte