Sunday 16 July 2017

How To Deal With Missing Data In Stata Forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal dando um presente FAQ de Stata: Como posso ver o número de valores e padrões faltantes de valores perdidos no meu arquivo de dados Às vezes, um conjunto de dados pode ter quothassesquot, Isto é, valores faltantes. Alguns procedimentos estatísticos, como a análise de regressão, também não funcionam, ou em tudo, em um conjunto de dados com valores faltantes. As observações com valores em falta devem ser excluídas ou os valores em falta devem ser substituídos para que um procedimento estatístico produza resultados significativos. A maioria dos programas estatísticos (incluindo SAS, SPSS e Stata) removerá automaticamente esses casos de qualquer análise que você executar (sem excluir os casos do conjunto de dados). É por isso que o quotnquot muitas vezes varia de análise para análise, mesmo que o conjunto de dados seja o mesmo. Diferentes variáveis ​​têm quantidades diferentes de dados ausentes e, portanto, alterar as variáveis ​​em um modelo altera o número de casos com dados completos em todas as variáveis ​​do modelo. Como o software deixa cair casos com valores faltantes para nós, é muito fácil abordar completamente os dados faltantes. No entanto, a presença de dados perdidos pode influenciar nossos resultados, especialmente quando um conjunto de dados ou mesmo uma única variável, está faltando uma grande porcentagem de valores. Assim, é sempre uma boa idéia verificar um conjunto de dados para dados em falta e pensar sobre como os dados em falta podem influenciar nossas análises. Esta página mostra alguns métodos para analisar os valores em falta em um conjunto de dados, esta informação pode ser usada para tomar decisões mais bem informadas sobre como lidar com os valores em falta. Antes de começar, precisamos de alguns dados com valores em falta, o código abaixo insere um pequeno conjunto de dados no Stata e, em seguida, exibe esses dados. Em um pequeno conjunto de dados, como o abaixo, é muito fácil ver os dados em bruto e ver onde os valores estão faltando. No entanto, quando os conjuntos de dados são amplos, precisamos de uma maneira mais sistemática de examinar nosso conjunto de dados para os valores em falta. Abaixo, mostramos algumas maneiras de fazer isso, usando os dados abaixo como exemplo. 1. Número de valores faltantes em relação ao número de valores não faltantes A primeira coisa que vamos fazer é determinar quais variáveis ​​têm muitos valores faltantes. Criamos um pequeno programa Stata chamado mdesc que conta o número de valores faltantes nas variáveis ​​numéricas e de caracteres. Você pode baixar o mdesc dentro do Stata, digitando findit mdesc (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso de finidit). Então você pode executar o mdesc para uma ou mais variáveis, conforme ilustrado abaixo. Agora, conhecemos o número de valores em falta em cada variável. Por exemplo, o salespric variável tem quatro valores faltantes e saltoapr tem dois valores faltantes. 2. Obter o número de valores faltantes por observação. Também podemos observar a distribuição dos valores perdidos nas observações. O código abaixo cria uma variável chamada nmis que fornece o número de valores faltantes para cada observação. A função rmiss2 () usada aqui é uma extensão para a função egen rmiss (). Ele conta o número de valores em falta na varlist. Rmiss2 () aceita as variáveis ​​de string e numéricas. (Stata rmiss () apenas aceita variáveis ​​numéricas.) Você pode baixar o rmiss2 () pela Internet a partir do Stata digitando findit rmiss2 (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit ). Abaixo, nós tabulamos a variável que acabamos de criar. Olhando para a tabela de frequências, sabemos que existem quatro observações sem valores ausentes, nove observações com valores faltantes, uma observação com dois valores faltantes e uma observação com três valores faltantes. 3. Padrões de valores em falta Também podemos observar os padrões de valores em falta. Você pode baixar mvpatterns pela internet a partir do Stata digitando findit mvpatterns (consulte Como posso usar o comando findit para pesquisar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). O mvpatterns de comando produz saída para todas as variáveis ​​no conjunto de dados, para os padrões de dados ausentes em um subconjunto de variáveis, uma lista de variáveis ​​pode ser incluída, por exemplo, o totval improvável landval de mvpatterns. A saída produzida por mvpatterns é mostrada abaixo. A primeira tabela lista as variáveis, o tipo de armazenamento (tipo), o número de observações (obs), o número de valores ausentes (mv) e o rótulo variável se as variáveis ​​tiverem um. A segunda tabela contém as informações sobre o padrão de valores em falta. O primeiro bloco de colunas na saída mostra os padrões de dados ausentes. Dentro do bloco, cada variável é representada por uma coluna, uma quotquot indica que os valores dessa variável estão presentes em um dado padrão de dados faltando, um quot. quot indica que eles estão faltando. As colunas seguem a mesma ordem que a lista de variáveis ​​na primeira tabela, de modo que a primeira coluna na saída abaixo representa landval. A segunda melhorada. e assim por diante. Os padrões de dados ausentes estão listados em freqüência decrescente, aqui o padrão de dados faltando mais comum é a informação completa (quotquot). A tabela também mostra o número de valores ausentes nesse padrão (mv) e o número de casos com o padrão de dados ausente (freq). Com base nas informações da segunda tabela, sabemos que existem quatro observações sem valores faltantes, faltando dois casos apenas na variável salepric. E uma observação com valores perdidos na melhoria. Salepric e saltoapr. 4. Quando todas as variáveis ​​de interesse são numéricas. Os exemplos acima de tudo funcionam, independentemente de as variáveis ​​de interesse (ou seja, as variáveis ​​cujos padrões de dados perdidos você deseja examinar) sejam numéricas ou de cadeia. Quando todas as variáveis ​​que você deseja verificar por valores em falta são numéricas, podemos usar um programa chamado misschk para simplificar as etapas de examinar os dados que faltam em nosso conjunto de dados. (Nota: as variáveis ​​numéricas incluem aquelas com rótulos de valores que são strings, desde que os valores reais das variáveis ​​sejam armazenados como números.) Você pode fazer o download do misschk dentro do Stata digitando findit misschk (consulte Como posso usar o comando findit para Procure programas e obtenha ajuda adicional para obter mais informações sobre o uso do findit). Abaixo está o comando para misschk. Nós incluímos as cinco variáveis ​​em nosso conjunto de dados na lista de variáveis ​​após o comando misschk. No entanto, poderíamos ter deixado a lista de variáveis ​​em branco (ou seja, usamos apenas misschk. Gen (miss)), se tivéssemos, a misschk teria executado usando todas as variáveis ​​em nosso conjunto de dados. A lista de variáveis ​​só é necessária se quisermos executar o misschk em apenas algumas das variáveis ​​em nosso conjunto de dados. A opção gen (miss) diz ao misschk que queremos que ele crie duas novas variáveis, ambas começando com quotmissquot. Essas duas variáveis ​​serão denominadas misspattern e missnumber. A variável misspattern indica qual dos padrões de dados ausentes cada caso segue. A variável número de falta indica o número de valores em falta para cada caso. A saída para misschk consiste em três tabelas. A primeira tabela lista o número de valores em falta, bem como a percentagem em falta para cada variável, isto é semelhante à tabela produzida pelo mdesc na parte 1 acima. Esta tabela também contém uma coluna rotulada que atribui a cada variável um número que é usado para identificar a variável mais tarde na saída. A segunda tabela mostra a distribuição dos valores em falta. O padrão de falta é descrito usando os números variáveis ​​da primeira tabela e sublinhados (). Os números indicam quais variáveis ​​estão faltando nesse padrão, os sublinhados representam observações não faltantes. Por exemplo, a partir da segunda tabela vemos que dois casos têm valores faltantes na variável 1 (landval), mas dados completos em todas as outras variáveis ​​e que um caso está faltando dados nas variáveis ​​2, 4 e 5. A linha inferior mostra Que quatro casos não estão faltando nenhum valor (todos os sublinhados). Esta tabela mostra a mesma informação gerada na terceira parte acima, mas em um formato ligeiramente diferente. O padrão de dados ausentes para cada caso é descrito na variável misspattern. Finalmente, a terceira tabela mostra a distribuição do número de valores faltantes por caso. Esta é a mesma informação discutida acima na parte 2. O número de variáveis ​​que cada caso está faltando também está contido na variável número de falta. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia. Dealing with Missing Data From PsychWiki - A Collaborative Psychology Wiki Como faço para lidar com valores perdidos que você possui Três opções básicas quando se trata de valores em falta. A opção 1 é não fazer nada. Deixe os dados como está, com os valores em falta no lugar. Esta é a abordagem mais frequente, por algumas razões. Primeiro, o número de valores em falta é geralmente pequeno. Segundo, os valores em falta são tipicamente não aleatórios. Em terceiro lugar, mesmo que haja alguns valores faltantes em itens individuais, você normalmente cria compósitos dos itens, em média, juntos em uma nova variável, e essa variável composta não terá valores faltantes porque é uma média dos dados existentes. No entanto, se você escolheu esta opção, você deve ter em mente como SPSS tratará os valores faltantes. O SPSS usará a eliminação da lista ou a exclusão emparelhada dos valores em falta. Você pode escolher qualquer um ao realizar cada teste no SPSS. A eliminação em série do SPSS não incluirá casos (assuntos) que tenham valores em falta na (s) variável (s) em análise. Se você estiver apenas analisando uma variável, a exclusão da lista simplesmente está analisando os dados existentes. Se você estiver analisando variáveis ​​múltiplas, a exclusão listwise remove casos (assuntos) se houver um valor faltando em qualquer uma das variáveis. A desvantagem é uma perda de dados porque você está removendo todos os dados de assuntos que podem ter respondido algumas das perguntas, mas não outras (por exemplo, os dados faltantes). O SPSS de exclusão em pares incluirá todos os dados disponíveis. Ao contrário da eliminação da lista que remove os casos (assuntos) que têm valores faltantes em qualquer uma das variáveis ​​em análise, a exclusão em pares apenas remove os valores faltantes específicos da análise (não o caso inteiro). Em outras palavras, todos os dados disponíveis estão incluídos. - Se você está realizando uma correlação em variáveis ​​múltiplas, o SPSS conduzirá a correlação bivariada entre todos os pontos de dados disponíveis e ignorará apenas os valores faltantes se existirem em algumas variáveis. Neste caso, a exclusão em pares resultará em diferentes tamanhos de amostra para cada correlação. A eliminação de paridade é útil quando o tamanho da amostra é pequeno ou os valores em falta são grandes, porque não há muitos valores para começar, então por que omitir ainda mais com eliminação de lista. Para entender melhor a eliminação da lista versus a exclusão em pares influencia seus resultados, tente realizar o mesmo teste usando os dois métodos de exclusão. A mudança de resultado também é importante ter em mente que, para cada tipo de teste que você conduz, você precisa identificar se o SPSS está usando eliminação em lista ou em pares. A maioria dos testes permite que você escolha sua preferência, mas você sempre deve verificar sua saída para o número de casos usados ​​em cada análise para identificar se a eliminação em dois ou em lista foi usada. A opção 2 é excluir casos com valores em falta. - Para cada valor faltando no conjunto de dados, você pode excluir os assuntos com esses valores perdidos. Assim, você fica com dados completos para todos os assuntos. A desvantagem dessa abordagem é que você reduz o tamanho da amostra de seus dados. Se você tiver um grande conjunto de dados, pode não ser uma grande desvantagem porque você tem assuntos suficientes mesmo depois de excluir os casos com valores perdidos. Outra desvantagem para esta abordagem é que os sujeitos com valores faltantes podem ser diferentes dos sujeitos sem valores ausentes (por exemplo, valores faltantes não aleatórios), de modo que você tenha uma amostra não representativa depois de remover os casos com valores ausentes. Uma vez que a situação em que uso a Opção 2 é quando assuntos específicos não responderam a uma escala completa ou a uma página do estudo. A opção 3 é substituir os valores em falta, chamados de imputação. Existe pouco acordo quanto à realização ou não de imputação. Há algum acordo, no entanto, em que tipo de imputação para conduzir. - Normalmente NÃO conduz a substituição de média ou a substituição de regressão. A substituição média está substituindo o valor faltante pela média da variável. A substituição de regressão usa análise de regressão para substituir o valor faltante. A análise de regressão é projetada para prever uma variável com base em outra variável, portanto, pode ser usada para prever o valor faltante com base na resposta dos assuntos a outra variável. O tipo de imputação favorecido é a substituição dos valores perdidos usando diferentes métodos de estimação. O módulo add-on Missing Values ​​Analysis no SPSS contém os métodos de estimativa.

No comments:

Post a Comment