Eu li diferentes descrições de dados censurados:
A) Conforme explicado neste tópico, dados não quantificados abaixo ou acima de um determinado limite são censurados. Não quantificado significa que os dados estão acima ou abaixo de um determinado limite, mas não sabemos o valor exato. Os dados são marcados no valor limite baixo ou alto no modelo de regressão. Ele corresponde à descrição desta apresentação , que eu achei muito clara (segundo slide na primeira página). Em outras palavras, é limitado a um valor mínimo, máximo ou ambos, porque não sabemos o valor real fora desse intervalo.
B) Um amigo me disse que eu posso aplicar um modelo de dados censurados a parcialmente desconhecidos observações, desde que tenhamos pelo menos alguma informação limite sobre o desconhecido resultados. Por exemplo, queremos estimar o preço final de uma combinação de leilões abertos e silenciosos com base em alguns critérios qualitativos (tipo de mercadoria, país, riqueza dos licitantes, etc.). Enquanto nos leilões abertos conhecemos todos os preços finais , nos leilões silenciosos conhecemos apenas o primeiro lance (por exemplo, US $ 1.000), mas não o preço final. Disseram-me que, neste caso, os dados são censurados de cima e um modelo de regressão censurado deve ser aplicado.
C) Finalmente, há a definição dada pela Wikipedia, onde está ausente, mas os preditores estão disponíveis. Não tenho certeza de como este exemplo é diferente dos dados truncados.
Então, o que exatamente são dados censurados?
fonte
Respostas:
Considere os seguintes dados sobre um resultado e um x covariável :y x
Para o usuário 1, temos os dados completos. Para todos os outros, temos dados incompletos. Os usuários 2, 3 e 4 são todos censurados: o resultado correspondente aos valores conhecidos da covariável não é observado ou não é observado exatamente (censurado à esquerda, à direita e com intervalo). Às vezes, esse é um artefato de considerações de privacidade no design da pesquisa. Em outros momentos, isso acontece por outros motivos. Por exemplo, não observamos salários abaixo do salário mínimo ou a demanda real de ingressos para shows acima da capacidade da arena.
O usuário 5 está truncado: o resultado e a covariável estão ausentes. Isso geralmente acontece porque só coletamos dados de pessoas que fizeram alguma coisa. Por exemplo, pesquisamos apenas pessoas que compraram algo ( ); portanto, excluímos qualquer pessoa com y = 0 junto com seus x s. Talvez nem tenhamos uma linha para esse tipo de usuário na saída de dados, embora saibamos que eles existem porque sabemos a regra que foi usada para gerar nossa amostra. Outro exemplo é o truncamento incidental : só observamos ofertas salariais para pessoas que estão na força de trabalho, porque assumimos que a oferta salarial é o salário quando você está trabalhando. O truncamento é incidental, pois não depende de yy>0 y=0 x y , mas em outra variável.
Em resumo, o truncamento implica uma perda maior de informações do que a censura (pontos A e B). Ambos os tipos de "falta" são sistemáticos.
Trabalhar com esse tipo de dados geralmente envolve fazer uma forte suposição de distribuição sobre o erro e modificar a probabilidade de levar isso em consideração. Abordagens semi-paramétricas mais flexíveis também são possíveis. Isso está implícito no seu ponto B.
fonte
Descritivamente, eu ofereceria "uma amostra de dados é censurada se algumas observações nela assumirem, ou constituírem, os valores extremos da amostra, mas seu verdadeiro valor estiver fora do intervalo de amostra observado". Mas isso é enganosamente direto.
Então, vamos discutir primeiro como podemos concluir que um conjunto de dados é censurado, o que naturalmente nos levará a discutir os casos apresentados na pergunta.
Suponha que recebamos o seguinte conjunto de dados de uma variável aleatória discreta , para a qual a única coisa que sabemos é que ela não é negativa:X
Podemos dizer que o conjunto de dados é censurado? Bem, temos o direito de pensar que pode ser, mas não é necessariamente assim:
1) pode ter o intervalo { 0 , 1 , 2 } e uma distribuição de probabilidade { 0,1 , 0,1 , 0,8 } . Se esse for realmente o caso, parece que não há censura aqui, apenas uma amostra "antecipada" de uma variável tão aleatória, com suporte limitado e distribuição altamente assimétrica.X {0,1,2} {0.1,0.1,0.8}
2) Mas pode ser o caso que tem a faixa { 0 , 1 , . . . , 9 } com distribuição de probabilidade uniforme { 0,1 , 0,1 , . . .0 .1 } , caso em que nossa amostra de dados provavelmente é censurada.X {0,1,...,9} {0.1,0.1,...0.1}
Como podemos saber? Não podemos, exceto se possuirmos conhecimento ou informação prévia , que nos permita argumentar a favor de um ou outro caso. Os três casos apresentados na pergunta representam conhecimento prévio para o efeito de censurar? Vamos ver:
O caso A) descreve uma situação em que, para algumas observações, temos apenas informações qualitativas como "muito grande", "muito pequeno" etc., o que nos leva a atribuir à observação um valor extremo. Observe que apenas o desconhecimento do valor real realizado não justifica atribuir um valor extremo. Portanto, precisamos ter algumas informações para que, para essas observações, seu valor exceda ou esteja abaixo de todos os observados. Nesse caso, o alcance real da variável aleatória é desconhecido, mas nossas informações qualitativas nos permitem criar uma amostra censurada (é outra discussão sobre por que não descartamos apenas as observações para as quais não possuímos o valor real realizado )
O caso B) não é um caso de censura, se bem entendi, mas um caso de amostra contaminada: nossas informações a priori nos dizem que o valor máximo da variável aleatória não pode exceder (devido a uma lei física ou direito social - suponha que sejam dados de notas de um sistema de classificação que use apenas os valores 1 , 2 , 3 ). Mas também observamos o valor 4 e o valor 5 . Como isso pode ser? Erro na gravação dos dados. Mas, nesse caso, não sabemos ao certo que os 4 e 5 devem ser todos os 33 1,2,3 4 5 4 5 3 (na verdade, olhando para o teclado lateral de um computador, é mais provável que os sejam 1 e os 5 sejam 2 !). "Corrigindo" de qualquer maneira a amostra, não a tornamos censurada, porque a variável aleatória não deve variar no intervalo registrado em primeiro lugar (portanto, não há probabilidades verdadeiras atribuídas aos valores 4 e 5 ) 4 1 5 2 4 5
O caso C) refere-se a uma amostra conjunta, na qual temos uma variável dependente e preditores. Aqui, podemos ter uma amostra em que os valores da variável dependente estão concentrados em um ou nos dois extremos, devido à estrutura do fenômeno em estudo: No exemplo usual das "horas trabalhadas", os desempregados não trabalham, mas teriam funcionou (pense com cuidado: este caso realmente se enquadra na "definição" descritiva no início desta resposta?). Portanto, incluí-los na regressão com horas gravadas "zero" cria viés. No outro extremo, pode-se argumentar que o número máximo de horas trabalhadas seja capaz de atingir, digamos16 / dia, e pode haver funcionários que estariam dispostos a trabalhar tantos por um determinado salário. Mas o quadro jurídico não o permite e, portanto, não observamos essas "horas trabalhadas". Aqui, estamos tentando estimar a " função de oferta de trabalho pretendida " - e é com relação a essa variável que a amostra é caracterizada como censurada.
Mas se declarássemos que o que queremos fazer é estimar "a função da oferta de trabalho, dado o fenômeno do desemprego e a estrutura legal", a amostra não seria censurada, pois refletiria o efeito desses dois aspectos, algo que queremos fazer.
Então, vemos que caracterizar uma amostra de dados como censurada
a) pode vir de diferentes situações
eb) requer algum cuidado,
apenas o fato de poder ser confundido com o caso de truncamento .
fonte
Para mim, censurar significa que observamos informações parciais sobre uma observação . O que quer dizer com isto é que, em vez de observar Z i = z i observamos Z i ∈ um i onde um i é a realização de um i , que é cerca de engrossamento aleatória do espaço de amostragem. Podemos imaginar que primeiro selecionamos uma partição A i do espaço de amostra Z , depois Z i é gerado e relatamos o A i ∈ A i de modo queZi Zi=zi Zi∈ai ai Ai Ai Z Zi Ai∈Ai i . (equivalentemente, relatamos I ( Z i ∈ A ) para todos os A ∈ A i ). A censura não informativa de Z i , por exemplo, significa que A i é independente de Z iZi∈Ai I(Zi∈A) A∈Ai Zi Ai Zi
fonte
É importante distinguir censurado contra truncado , bem como falta de dados.
A censura se aplica especificamente à questão da análise de sobrevivência e aos resultados de tempo para evento, em que se supõe que o evento em questão ocorreu em algum momento após o ponto em que você parou de observar esse indivíduo . Um exemplo é homens que fazem sexo com homens (HSH) e o risco de ocorrência de HIV em um estudo prospectivo que move e deixa de entrar em contato com os coordenadores do estudo.
O truncamento se aplica a uma variável contínua que é avaliada para um ponto específico no qual se sabe que o valor real é maior ou menor que esse ponto. Um exemplo é o monitoramento de indivíduos com HIV e o desenvolvimento de AIDS total, as contagens de células CD4 abaixo de 300 são avaliadas até o limite inferior de detecção 300.
Por fim, dados ausentes são dados que possuem valores reais que não são observados em nenhum sentido. Os dados censurados não estão perdendo dados de tempo para evento nem são truncados.
fonte
fonte