Digamos que eu esteja estudando como os narcisos respondem a várias condições do solo. Eu coletei dados sobre o pH do solo versus a altura madura do narciso. Estou esperando um relacionamento linear, então continuo executando uma regressão linear.
No entanto, quando eu comecei meu estudo, eu não percebi que a população realmente contém duas variedades de narciso, cada uma das quais responde de maneira muito diferente ao pH do solo. Portanto, o gráfico contém dois relacionamentos lineares distintos:
Eu posso olhá-lo e separá-lo manualmente, é claro. Mas me pergunto se existe uma abordagem mais rigorosa.
Questões:
Existe um teste estatístico para determinar se um conjunto de dados seria melhor ajustado por uma única linha ou por N linhas?
Como eu executaria uma regressão linear para ajustar as N linhas? Em outras palavras, como separar os dados combinados?
Posso pensar em algumas abordagens combinatórias, mas elas parecem computacionalmente caras.
Esclarecimentos:
A existência de duas variedades era desconhecida no momento da coleta de dados. A variedade de cada narciso não foi observada, nem notada nem registrada.
É impossível recuperar esta informação. Os narcisos morreram desde o momento da coleta de dados.
Tenho a impressão de que esse problema é semelhante à aplicação de algoritmos de cluster, pois você quase precisa saber o número de clusters antes de iniciar. Acredito que, com QUALQUER conjunto de dados, aumentar o número de linhas diminuirá o erro rms total. No extremo, você pode dividir seu conjunto de dados em pares arbitrários e simplesmente desenhar uma linha através de cada par. (Por exemplo, se você tivesse 1000 pontos de dados, poderia dividi-los em 500 pares arbitrários e desenhar uma linha através de cada par.) O ajuste seria exato e o erro rms seria exatamente zero. Mas não é isso que queremos. Queremos o número "certo" de linhas.
fonte
Respostas:
Acho que a resposta de Demetri é ótima se considerarmos que você tem os rótulos das diferentes variedades. Quando li sua pergunta, isso não me pareceu o caso. Podemos usar uma abordagem baseada no algoritmo EM para ajustar basicamente o modelo sugerido por Demetri, mas sem conhecer os rótulos para a variedade. Felizmente, o pacote mixtools no R fornece essa funcionalidade para nós. Como seus dados são bastante separados e você parece ter bastante, eles devem ser bem-sucedidos.
Podemos examinar os resultados
Assim, foram ajustadas duas regressões e estimou que 49,7% das observações caíram na regressão para o componente 1 e 50,2% caíram na regressão para o componente 2. A maneira como simulei os dados foi uma divisão de 50 a 50, então isso é bom.
Os valores 'true' que usei para a simulação devem fornecer as linhas:
y = 41,55 + 5,185 * ph e y = 65,14 + 1,48148 * ph
(que eu estimei 'manualmente' do seu gráfico para que os dados que eu crio pareçam com os seus) e as linhas que o algoritmo EM forneceu nesse caso foram:
y = 41,514 + 5,19 * ph e y = 64,655 + 1,55 * ph
Muito perto dos valores reais.
Podemos traçar as linhas ajustadas junto com os dados
fonte
Edição: Eu originalmente pensei que OP sabia quais observações vieram de quais espécies. A edição do OP deixa claro que minha abordagem original não é viável. Vou deixar para a posteridade, mas a outra resposta é muito melhor. Como consolo, eu codifiquei um modelo de mistura em Stan. Não estou dizendo que uma abordagem bayesiana seja particularmente boa nesse caso, mas é apenas algo interessante que posso contribuir.
Código Stan
Executar o modelo Stan a partir de R
Resultados
Linhas tracejadas são verdadeiras, linhas sólidas são estimadas.
Resposta original
Se você souber qual amostra provém de qual variedade de narciso, é possível estimar uma interação entre variedade e PH do solo.
Seu modelo será semelhante
Aqui está um exemplo em R. Eu gerei alguns dados parecidos com este:
Claramente duas linhas diferentes, e as linhas correspondem a duas espécies. Aqui está como estimar as linhas usando regressão linear.
E o resultado é
Para espécies rotuladas 0, a linha é aproximadamente
Para espécies rotuladas 1, a linha é aproximadamente
fonte
A abordagem estatística é muito semelhante a duas das respostas acima, mas trata um pouco mais de como escolher o número de classes latentes se você não tiver conhecimento prévio. Você pode usar critérios de informação ou parcimônia como um guia na escolha do número de classes latentes.
Aqui está um exemplo de Stata usando uma sequência de modelos de mistura finita (FMMs) com 2-4 classes / componentes latentes. A primeira tabela é os coeficientes para a associação à classe latente. Eles são um pouco difíceis de interpretar, mas podem ser convertidos em probabilidades posteriormente com
estat lcprob
. Para cada classe, você também obtém um parâmetro de interceptação e um declive ph, seguido pelas probabilidades marginais da classe latente e dois ICs dentro da amostra. Essas estimativas de coeficientes são interpretadas exatamente como os coeficientes de um modelo de regressão linear. Aqui, o menor BIC da amostra diz para você escolher o modelo de dois componentes como o melhor. AIC estranhamente seleciona o modelo de 3 componentes. Você também pode usar ICs fora da amostra para selecionar ou usar a validação cruzada.A abordagem FMM nem sempre funcionará tão bem na prática se as aulas forem menos severas. Você pode ter dificuldades computacionais com muitas classes latentes, especialmente se você não tiver dados suficientes, ou se a função de probabilidade tiver vários máximos locais.
fonte
Vou me concentrar na questão da significância estatística, já que o Dason já cobriu a parte da modelagem.
Eu não estou familiarizado com nenhum teste formal para isso (que eu tenho certeza que existe), então vou lançar algumas idéias por aí (e provavelmente adicionarei código R e detalhes técnicos mais tarde).
Primeiro, é conveniente inferir as classes. Presumindo que você tenha duas linhas ajustadas aos dados, é possível reconstruir aproximadamente as duas classes atribuindo cada ponto à classe da linha mais próxima. Para pontos próximos à interseção, você terá problemas, mas por enquanto apenas os ignore (pode haver uma maneira de contornar isso, mas por enquanto apenas espero que isso não mude muito).
Existem duas maneiras naturais de fazer isso.
A maneira menos divertida é executar apenas o conjunto de dados original combinado com os rótulos de classe inferidos por meio de uma regressão linear, como na resposta de Demetri.
Uma maneira mais interessante de fazer isso seria através de uma versão modificada do ANOVA. O objetivo é criar um conjunto de dados artificial que represente as duas linhas (com propagação semelhante entre elas) e aplicar a ANOVA. Tecnicamente, você precisa fazer isso uma vez para o lado esquerdo e outra para a direita (ou seja, você terá dois conjuntos de dados artificiais).
fonte
É possível que incluir os dois no mesmo gráfico seja um erro? Dado que as variedades se comportam completamente diferentes, existe algum valor em se sobrepor os dados? Parece-me que você está procurando impactos em uma espécie de narciso, não os impactos de ambientes semelhantes em diferentes narcisos. Se você perdeu os dados que ajudam a determinar as espécies "A" da espécie "B", basta agrupar o comportamento "A" e o comportamento "B" e incluir a descoberta de duas espécies em sua narrativa. Ou, se você realmente deseja um gráfico, basta usar dois conjuntos de dados no mesmo eixo. Não tenho nem um pouco do conhecimento que vejo nas outras respostas dadas, por isso tenho que encontrar métodos menos "qualificados". Eu executaria uma análise de dados em um ambiente de planilha em que as equações são mais fáceis de desenvolver. Então, Depois que os agrupamentos se tornarem óbvios, crie as duas tabelas de dados separadas e depois as converta em tabelas / gráficos. Eu trabalho com uma grande quantidade de dados e muitas vezes acho que minhas suposições de correlações diferentes resultam erradas; é isso que os dados devem nos ajudar a descobrir. Depois de aprender que minhas suposições estão erradas, exibo os dados com base nos comportamentos descobertos e discuto esses comportamentos e as análises estatísticas resultantes como parte da narrativa.
fonte