Regressão baseada, por exemplo, em dias da semana

11

Preciso de uma ajudinha para seguir na direção certa. Faz muito tempo que não estudei nenhuma estatística e o jargão parece ter mudado.

Imagine que eu tenho um conjunto de dados relacionados a carros, como

  • Tempo de viagem da cidade A para a cidade B
  • Distância da cidade A à cidade B
  • Tamanho do motor
  • Tamanho do sapato do motorista
  • Marca e modelo do carro
  • Dia da semana

Eu quero prever o tempo da viagem.

Imagino que exista uma forte correlação entre tempo e distância e provavelmente uma mais fraca com o tamanho do motor (e nenhuma com o tamanho do sapato). Presumivelmente, a análise de regressão múltipla / ANOVA é a ferramenta a ser usada. Mas como faço para incluir o dia da semana, já que apenas codificá-lo como domingo = 1, segunda-feira = 2 etc. parece muito errado?

Tendo usado a ferramenta de regressão do Excel, por exemplo, como interpreto os resultados? Presumivelmente, se R estiver próximo de 1, isso é bom (embora, se houver muitos itens de dados, pareça que ele pode ser pequeno e ainda assim significativo). Mas algumas fontes se referem ao quadrado ao r que parece ser o SD, portanto um valor próximo a zero é bom. Também mostra t Stat, valor-P, F e significância F, quaisquer que sejam. Alguém pode recomendar uma boa fonte de referência?

Uma terra
fonte
2
Para constar, essas perguntas (sobre a interpretação da saída de regressão) foram feitas em outro tópico aqui , mas a pergunta foi tão mal formulada que não obteve boas respostas. Essa é uma pergunta fundamental que merece uma resposta "canônica" que é elementar, mas completa, clara e bem explicada.
whuber

Respostas:

26

O que você precisa é de uma sólida revisão da metodologia de regressão. No entanto, essas perguntas são suficientemente básicas (não leve a mal) que mesmo uma boa visão geral das estatísticas básicas provavelmente o beneficiaria. Howell escreveu um livro muito popular que fornece uma ampla base conceitual sem exigir matemática densa. Pode valer a pena ler. Não é possível cobrir todo esse material aqui. No entanto, posso tentar ajudá-lo a iniciar algumas de suas perguntas específicas.

Primeiro, os dias da semana são incluídos por meio de um esquema de codificação. O mais popular é a codificação de 'categoria de referência' (normalmente chamada de codificação fictícia). Vamos imaginar que seus dados sejam representados em uma matriz, com seus casos em linhas e suas variáveis ​​em colunas. Nesse esquema, se você tivesse 7 variáveis ​​categóricas (por exemplo, nos dias da semana), adicionaria 6 novas colunas. Você escolheria um dia como categoria de referência, geralmente aquela que é considerada padrão. Muitas vezes, isso é informado pela teoria, contexto ou questão de pesquisa. Não tenho idéia do que seria melhor para os dias da semana, mas também não importa muito, você pode escolher qualquer um antigo. Depois de ter a categoria de referência, você poderá atribuir os outros às suas novas 6 variáveis ​​e simplesmente indicar se essa variável será obtida para cada caso. Por exemplo, digamos que você escolha domingo como a categoria de referência, suas novas colunas / variáveis ​​seriam de segunda a sábado. Toda observação realizada na segunda-feira seria indicada com um0 1 01 na coluna Segunda-feira e outro lugar. O mesmo aconteceria com as observações às terças-feiras e assim por diante. Observe que nenhum caso pode obter colunas em 2 ou mais e que as observações que ocorreram no domingo (a categoria de referência) teriam em todas as suas novas variáveis. Existem muitos outros esquemas de codificação possíveis, e o link faz um bom trabalho ao introduzi-los. Você pode testar para ver se o dia da semana é importante testando o modelo aninhado com todas as novas 6 variáveis ​​descartadas versus o modelo completo com todas as 6 incluídas. Observe que você não deve usar os testes relatados com saída padrão, pois eles não são independentes e têm problemas intrínsecos de comparação múltipla. 010

Faz muito tempo desde que eu analisei como o Excel faz estatísticas, e não me lembro muito claramente, para que outras pessoas possam ajudá-lo mais lá. Esta página parece ter algumas informações sobre as especificidades da regressão no Excel. Posso contar um pouco mais sobre as estatísticas normalmente relatadas na saída de regressão:

  • Um score próximo a indica que a variável de resposta do valor pode ser quase completamente determinada pelos valores das variáveis ​​preditoras. Claramente, esse seria um grande efeito , mas não é claro a priori que isso seja "bom" - essa é uma questão inteiramente diferente e filosoficamente espinhosa. 1r1
  • Não está claro o que eles querem dizer com ' ', já que você está fazendo uma regressão múltipla (onde normalmente não é relatado). ' ' é uma medida de associação linear e bivariada , ou seja, aplica-se a relacionamentos lineares entre (apenas) 2 variáveis. É possível obter um score entre os valores previstos do seu modelo e os valores de resposta , no entanto. Nesse caso, você está usando 2 variáveis ​​(e se seu modelo for especificado adequadamente, o relacionamento deverá ser linear). Essa versão é chamada de 'múltiplo score', mas raramente é discutida ou relatada pelo software. r r r rrrrrr
  • R-quadrado é simplesmente o quadrado de (isto é, ); é não o desvio padrão. Também tenderá a , à medida que o relacionamento se tornar mais determinante, não a . Assim, se você acha que perto de é 'bom', você deve pensar que um próximo de é 'bom'. No entanto, você deve saber que os múltiplos (e múltiplosr × r 1 0 r 1 R 2 1 r R 2rr×r10r1R21rR2) é altamente tendencioso na regressão múltipla. Ou seja, quanto mais preditores você adicionar ao seu modelo, maiores serão essas estatísticas, independentemente de haver algum relacionamento ou não. Portanto, você deve ser cauteloso ao interpretá-los.
  • Às vezes, a saída listará estatísticas para os preditores individuais e estatística para o modelo como um todo, a fim de determinar 'significância'. Essas são variáveis ​​aleatórias que são computáveis ​​por testes estatísticos e que possuem uma distribuição conhecida quando os graus de liberdade são especificados. tF
  • Ao comparar o valor realizado (ou seja, o valor que você encontrou) com a distribuição conhecida, é possível determinar a probabilidade de encontrar um valor tão extremo ou mais extremo que o seu se a hipótese nula for verdadeira . Essa probabilidade é o valor . p
  • O valor é usado quando você está testando apenas um parâmetro, enquanto o valor pode ser usado no teste de vários parâmetros (por exemplo, como discutido acima em relação aos dias da semana). O valor associado ao é a probabilidade de que pelo menos parâmetro seja 'significativo'. Outra maneira de pensar sobre isso é: 'o modelo com todos os parâmetros testados pelo incluídos faz um trabalho melhor em prever a resposta do que o modelo nulo'?F p F 1 FtFpF1F
  • Estou supondo que o que você chama de 'significado ' é o valor que precisaria ser correspondido ou excedido para que um teste fosse 'significativo', presumivelmente no nível 0,05.FFF

Um último ponto que vale a pena enfatizar é que esse processo não pode ser separado do seu contexto. Para fazer um bom trabalho de análise de dados, lembre-se do seu conhecimento de base e da pergunta de pesquisa. Eu aludi a isso acima com relação à escolha da categoria de referência. Por exemplo, você observa que o tamanho do sapato não deve ser relevante, mas para os Flintstones provavelmente era! Eu só quero incluir esse fato, porque muitas vezes parece ser esquecido.

Repor a Monica
fonte
5
(+1) O Excel realmente pode fazer regressão múltipla e possui um comando capaz de produzir uma tabela de resumo padrão. Dada sua tendência histórica de ser (muito) desleixada com os valores distributivos de computação, a capacidade deve ser vista como o cachorro de Samuel Johnson : "... um cachorro está andando sobre as patas traseiras. Não é bem feito; mas você fica surpreso ao descobrir feito de todo. "
whuber
3

Você termina com muitas perguntas que requerem regressão "de ensino". Deixe-me dizer que R ^ 2 maior é melhor, mas há advertências. R ^ 2 sempre sobe à medida que você adiciona variáveis ​​para que você possa inflá-lo artificialmente. Observe os testes de significância, os diagnósticos residuais, etc. Com relação ao dia da semana, segunda-feira = 1, terça-feira = 2, etc. não seria o caminho a seguir. O que você deseja são variáveis ​​indicadoras sazonais: 0/1 se segunda-feira, 0/1 se terça-feira etc.

Badgerman
fonte