Preciso de uma ajudinha para seguir na direção certa. Faz muito tempo que não estudei nenhuma estatística e o jargão parece ter mudado.
Imagine que eu tenho um conjunto de dados relacionados a carros, como
- Tempo de viagem da cidade A para a cidade B
- Distância da cidade A à cidade B
- Tamanho do motor
- Tamanho do sapato do motorista
- Marca e modelo do carro
- Dia da semana
Eu quero prever o tempo da viagem.
Imagino que exista uma forte correlação entre tempo e distância e provavelmente uma mais fraca com o tamanho do motor (e nenhuma com o tamanho do sapato). Presumivelmente, a análise de regressão múltipla / ANOVA é a ferramenta a ser usada. Mas como faço para incluir o dia da semana, já que apenas codificá-lo como domingo = 1, segunda-feira = 2 etc. parece muito errado?
Tendo usado a ferramenta de regressão do Excel, por exemplo, como interpreto os resultados? Presumivelmente, se R estiver próximo de 1, isso é bom (embora, se houver muitos itens de dados, pareça que ele pode ser pequeno e ainda assim significativo). Mas algumas fontes se referem ao quadrado ao r que parece ser o SD, portanto um valor próximo a zero é bom. Também mostra t Stat, valor-P, F e significância F, quaisquer que sejam. Alguém pode recomendar uma boa fonte de referência?
fonte
Respostas:
O que você precisa é de uma sólida revisão da metodologia de regressão. No entanto, essas perguntas são suficientemente básicas (não leve a mal) que mesmo uma boa visão geral das estatísticas básicas provavelmente o beneficiaria. Howell escreveu um livro muito popular que fornece uma ampla base conceitual sem exigir matemática densa. Pode valer a pena ler. Não é possível cobrir todo esse material aqui. No entanto, posso tentar ajudá-lo a iniciar algumas de suas perguntas específicas.
Primeiro, os dias da semana são incluídos por meio de um esquema de codificação. O mais popular é a codificação de 'categoria de referência' (normalmente chamada de codificação fictícia). Vamos imaginar que seus dados sejam representados em uma matriz, com seus casos em linhas e suas variáveis em colunas. Nesse esquema, se você tivesse 7 variáveis categóricas (por exemplo, nos dias da semana), adicionaria 6 novas colunas. Você escolheria um dia como categoria de referência, geralmente aquela que é considerada padrão. Muitas vezes, isso é informado pela teoria, contexto ou questão de pesquisa. Não tenho idéia do que seria melhor para os dias da semana, mas também não importa muito, você pode escolher qualquer um antigo. Depois de ter a categoria de referência, você poderá atribuir os outros às suas novas 6 variáveis e simplesmente indicar se essa variável será obtida para cada caso. Por exemplo, digamos que você escolha domingo como a categoria de referência, suas novas colunas / variáveis seriam de segunda a sábado. Toda observação realizada na segunda-feira seria indicada com um0 1 01 na coluna Segunda-feira e outro lugar. O mesmo aconteceria com as observações às terças-feiras e assim por diante. Observe que nenhum caso pode obter colunas em 2 ou mais e que as observações que ocorreram no domingo (a categoria de referência) teriam em todas as suas novas variáveis. Existem muitos outros esquemas de codificação possíveis, e o link faz um bom trabalho ao introduzi-los. Você pode testar para ver se o dia da semana é importante testando o modelo aninhado com todas as novas 6 variáveis descartadas versus o modelo completo com todas as 6 incluídas. Observe que você não deve usar os testes relatados com saída padrão, pois eles não são independentes e têm problemas intrínsecos de comparação múltipla. 0 0 1 0 0
Faz muito tempo desde que eu analisei como o Excel faz estatísticas, e não me lembro muito claramente, para que outras pessoas possam ajudá-lo mais lá. Esta página parece ter algumas informações sobre as especificidades da regressão no Excel. Posso contar um pouco mais sobre as estatísticas normalmente relatadas na saída de regressão:
Um último ponto que vale a pena enfatizar é que esse processo não pode ser separado do seu contexto. Para fazer um bom trabalho de análise de dados, lembre-se do seu conhecimento de base e da pergunta de pesquisa. Eu aludi a isso acima com relação à escolha da categoria de referência. Por exemplo, você observa que o tamanho do sapato não deve ser relevante, mas para os Flintstones provavelmente era! Eu só quero incluir esse fato, porque muitas vezes parece ser esquecido.
fonte
Você termina com muitas perguntas que requerem regressão "de ensino". Deixe-me dizer que R ^ 2 maior é melhor, mas há advertências. R ^ 2 sempre sobe à medida que você adiciona variáveis para que você possa inflá-lo artificialmente. Observe os testes de significância, os diagnósticos residuais, etc. Com relação ao dia da semana, segunda-feira = 1, terça-feira = 2, etc. não seria o caminho a seguir. O que você deseja são variáveis indicadoras sazonais: 0/1 se segunda-feira, 0/1 se terça-feira etc.
fonte