Perguntas com a marcação «mean»

30

O modo mean = implica uma distribuição simétrica?

Sei que essa pergunta foi feita com o caso mean = median, mas não encontrei nada relacionado ao mean = mode. Se o modo for igual à média, posso sempre concluir que esta é uma distribuição simétrica? Serei obrigado a conhecer também a mediana dessa

29

Como lidar com dados hierárquicos / aninhados no aprendizado de máquina

Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

29

Regressão à falácia média versus jogador

Por um lado, tenho a regressão à média e, por outro, tenho a falácia do jogador . A falácia de Gambler é definida por Miller e Sanjurjo (2019) como “a crença equivocada de que sequências aleatórias têm uma tendência sistemática à reversão, ou seja, que faixas de resultados semelhantes têm mais...

regression mean fallacy gambling

29

Como calculo um desvio padrão ponderado? No Excel?

Então, eu tenho um conjunto de dados de porcentagens assim: 100 / 10000 = 1% (0.01) 2 / 5 = 40% (0.4) 4 / 3 = 133% (1.3) 1000 / 2000 = 50% (0.5) Quero encontrar o desvio padrão das porcentagens, mas ponderado pelo volume de dados. ou seja, o primeiro e o último ponto de dados devem dominar o...

standard-deviation excel weighted-mean

27

Os graus de liberdade podem ser um número não inteiro?

Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...

r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

26

Como calcular o intervalo de confiança da razão de duas médias normais

Eu quero derivar os limites para o intervalo de confiança de para a razão de duas médias. Suponha que e sejam independentes, a razão média . Tentei resolver: mas essa equação não pôde ser resolvida em muitos casos (sem raízes). Estou fazendo algo errado? Existe uma abordagem melhor? obrigadoX 1...

normal-distribution mean

26

Qual a diferença entre encontrar o centróide e encontrar a média?

Ao executar o cluster hierárquico, é possível usar muitas métricas para medir a distância entre os clusters. Duas dessas métricas implicam o cálculo dos centróides e meios de pontos de dados nos clusters. Qual é a diferença entre a média e o centróide? Estes não são o mesmo ponto no...

clustering mean

24

O que se pode concluir sobre os dados quando a média aritmética está muito próxima da média geométrica?

Existe algo significativo sobre uma média geométrica e aritmética que caem muito próximas umas das outras, digamos ~ 0,1%? Que conjecturas podem ser feitas sobre esse conjunto de dados? Eu tenho trabalhado na análise de um conjunto de dados e percebo que, ironicamente, os valores são muito, muito...

descriptive-statistics mean geometric-mean

23

Como saber se minha distribuição de dados é simétrica?

Sei que se a mediana e a média são aproximadamente iguais, isso significa que há uma distribuição simétrica, mas neste caso em particular não tenho certeza. A média e a mediana estão bem próximas (apenas 0,487 m / gal de diferença), o que me levaria a dizer que há uma distribuição simétrica, mas...

distributions mean skewness median qq-plot

22

Correção de viés na variância ponderada

Para variação não ponderada , existe a variação da amostra corrigida por viés, quando a média foi estimada a partir dos mesmos dados: Var(X):=1Var ( X) : = 1n∑Eu( xEu- μ )2Var(X): =1n∑Eu(xEu-μ)2\text{Var}(X):=\frac{1}{n}\sum_i(x_i - \mu)^2Var ( X) : = 1n - 1∑Eu( xEu- E[ X] )2Var(X):...

variance unbiased-estimator weighted-mean weighted-data bias-correction

22

Por que a média tende a ser mais estável em amostras diferentes do que a mediana?

A Seção 1.7.2 de Descobrindo estatísticas usando R por Andy Fields, et all, ao listar virtudes de média versus mediana, declara: ... a média tende a ser estável em diferentes amostras. Depois de explicar as muitas virtudes da mediana, por exemplo, ... A mediana não é afetada por pontuações...

mean median

21

O que torna indefinida a média de algumas distribuições?

Muitos PDFs variam de menos a infinito positivo, mas alguns meios são definidos e outros não. Que característica comum torna

distributions mean

21

Como projetar um novo vetor no espaço PCA?

Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA....

r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

21

Como calculo intervalos de confiança para uma distribuição não normal?

Eu tenho 383 amostras que têm um viés pesado para alguns valores comuns, como eu calcularia o IC95% para a média? O IC que calculei parece muito distante, o que suponho é que meus dados não parecem uma curva quando eu faço um histograma. Então, acho que preciso usar algo como bootstrapping, que não...

confidence-interval mean

20

Calcular média da variável ordinal

Eu li em vários lugares que o cálculo da média de uma variável ordinal é inadequado. Estou tentando entender por que isso pode ser inapropriado. Eu acho que é porque, em geral, uma variável ordinal não é normalmente distribuída e, portanto, calcular a média dará uma representação imprecisa. Alguém...

mean ordinal-data

20

A mediana é um tipo de média, para alguma generalização de "média"?

O conceito de "média" percorre muito mais do que a média aritmética tradicional; estende até o ponto de incluir a mediana? Por analogia, dados brutos ⟶identidadedados brutos ⟶significarmédia bruta ⟶identidade- 1média aritméticadados brutos ⟶destinatáriorecíprocos ⟶significarrecíproco médio...

mean average median

20

Como podemos simular a partir de uma mistura geométrica?

Se f1,…,fkf1,…,fkf_1,\ldots,f_k são densidades conhecidas das quais posso simular, ou seja, para as quais um algoritmo está disponível. e se o produto ∏i=1kfi(x)αiα1,…,αk>0∏i=1kfi(x)αiα1,…,αk>0\prod_{i=1}^k f_i(x)^{\alpha_i}\qquad \alpha_1,\ldots,\alpha_k>0 é integrável, existe uma abordagem...

simulation monte-carlo geometric-mean scalability finite-mixture-model

20

Valores médios de correlação

Digamos que eu teste como a variável Ydepende da variável Xsob diferentes condições experimentais e obtenho o seguinte gráfico: As linhas de traço no gráfico acima representam regressão linear para cada série de dados (configuração experimental) e os números na legenda indicam a correlação de...

regression correlation mean average

20

Quais são os valores corretos para precisão e rechamada em casos extremos?

Precisão é definida como: p = true positives / (true positives + false positives) É verdade que, como true positivese false positivesabordagem 0, a precisão se aproxima de 1? Mesma pergunta para recall: r = true positives / (true positives + false negatives) No momento, estou implementando...

precision-recall data-visualization logarithm references r networks data-visualization standard-deviation probability binomial negative-binomial r categorical-data aggregation plyr survival python regression r t-test bayesian logistic data-transformation confidence-interval t-test interpretation distributions data-visualization pca genetics r finance maximum probability standard-deviation probability r information-theory references computational-statistics computing references engineering-statistics t-test hypothesis-testing independence definition r censoring negative-binomial poisson-distribution variance mixed-model correlation intraclass-correlation aggregation interpretation effect-size hypothesis-testing goodness-of-fit normality-assumption small-sample distributions regression normality-assumption t-test anova confidence-interval z-statistic finance hypothesis-testing mean model-selection information-geometry bayesian frequentist terminology type-i-and-ii-errors cross-validation smoothing splines data-transformation normality-assumption variance-stabilizing r spss stata python correlation logistic logit link-function regression predictor pca factor-analysis r bayesian maximum-likelihood mcmc conditional-probability statistical-significance chi-squared proportion estimation error shrinkage application steins-phenomenon

19

Exemplo de distribuição onde um tamanho grande de amostra é necessário para o teorema do limite central

Alguns livros afirmam que um tamanho de amostra de tamanho 30 ou superior é necessário para que o teorema do limite central forneça uma boa aproximação para . X¯X¯\bar{X} Eu sei que isso não é suficiente para todas as distribuições. Desejo ver alguns exemplos de distribuições em que, mesmo com...

mean sample-size normality-assumption central-limit-theorem