Friday 22 September 2017

How to run tobit regression in stata forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal, dando um presente. Dados da Stata Exemplos Tobit Analysis Versão info: O código para esta página foi testado em Stata 12. O modelo de cofragem, também chamado de modelo de regressão censurada, é projetado Para estimar relações lineares entre variáveis ​​quando há censura esquerda ou direita na variável dependente (também conhecida como censura de abaixo e acima, respectivamente). Censar de cima ocorre em casos com um valor igual ou superior a um limite, assumindo o valor desse limite, de modo que o valor real possa ser igual ao limiar, mas também pode ser maior. No caso de censura a partir de baixo, os valores que caem em ou abaixo de algum limite são censurados. Nota: O objetivo desta página é mostrar como usar vários comandos de análise de dados. Não abrange todos os aspectos do processo de pesquisa que os pesquisadores devem fazer. Em particular, não abrange a limpeza e verificação de dados, verificação de pressupostos, diagnósticos de modelos e possíveis análises de acompanhamento. Exemplos de regressão do cofre Exemplo 1. Na década de 1980, havia uma lei federal que restringia as leituras do velocímetro a não mais de 85 mph. Então, se você quisesse tentar prever uma velocidade máxima de veículos de uma combinação de potência de cavalo e tamanho do motor, você obteria uma leitura não superior a 85, independentemente de quão rápido o veículo realmente viajasse. Este é um caso clássico de censura à direita (censura de cima) dos dados. A única coisa a que estamos certos é que esses veículos estavam viajando pelo menos 85 mph. Exemplo 2. Um projeto de pesquisa está estudando o nível de liderança na água potável doméstica em função da idade de uma renda doméstica e familiar. O kit de teste de água não pode detectar concentrações de chumbo abaixo de 5 partes por bilhão (ppb). A EPA considera que níveis acima de 15 ppb são perigosos. Esses dados são um exemplo de censura à esquerda (censura a partir de baixo). Exemplo 3. Considere a situação em que temos uma medida de aptidão acadêmica (escalada 200-800) que queremos modelar usando pontuação de leitura e de teste de matemática, bem como, o tipo de programa no qual o aluno está matriculado (acadêmico, geral , Ou vocacional). O problema aqui é que os alunos que respondem todas as perguntas no teste de aptidão acadêmica recebem corretamente uma pontuação de 800, embora seja provável que esses alunos não sejam verdadeiramente iguais em aptidão. O mesmo se aplica aos alunos que respondem incorretamente a todas as perguntas. Todos esses estudantes teriam uma pontuação de 200, embora eles não sejam todos de igual capacidade. Descrição dos dados Leve o Exemplo 3 acima. Temos um arquivo de dados hipotético, tobit. dta com 200 observações. A variável de aptidão acadêmica é apt, os índices de leitura e matemática são lidos e matemática, respectivamente. O prog de variável é o tipo de programa no qual o aluno está, é uma variável categórica (nominal) que assume três valores, acadêmico (prog 1), geral (prog 2) e vocacional (prog 3). Vamos ver os dados. Note-se que neste conjunto de dados, o valor mais baixo de apt é 352. Nenhum aluno recebeu uma pontuação de 200 (ou seja, a menor pontuação possível), o que significa que mesmo que a censura a partir de baixo seja possível, ela não ocorre no conjunto de dados. Olhando para o histograma acima, mostrando a distribuição do apt. Podemos ver a censura nos dados, ou seja, há muito mais casos com pontuações de 750 a 800 do que se esperaria olhar para o resto da distribuição. Abaixo está um histograma alternativo que destaca o excesso de casos em que 800 apt. No histograma abaixo, a opção discreta produz um histograma onde cada valor exclusivo de apt possui sua própria barra. A opção freq faz com que o eixo y seja marcado com a frequência para cada valor, em vez da densidade. Como a apt é contínua, a maioria dos valores de apt são únicos no conjunto de dados, embora próximo ao centro da distribuição existam alguns valores de apt que tenham dois ou três casos. O pico na extrema direita do histograma é a barra para casos em que 800, a altura desta barra em relação a todos os outros mostra claramente o excesso de casos com esse valor. Em seguida, explore os relacionamentos bivariados em nosso conjunto de dados. Na última linha da matriz de dispersão mostrada acima, vemos os diagramas de dispersão mostrando leitura e apt. Bem como matemática e apt. Observe a coleta de casos no topo de cada diagrama de dispersão devido à censura na distribuição do apt. Métodos de análise que você pode considerar Abaixo está uma lista de alguns métodos de análise que você pode ter encontrado. Alguns dos métodos listados são bastante razoáveis, enquanto outros já caíram fora de favor ou têm limitações. Regressão de Tobit, o foco desta página. OLS Regression - Você poderia analisar esses dados usando a regressão OLS. A regressão OLS tratará os 800 como os valores reais e não como o limite superior da aptidão acadêmica superior. Uma limitação desta abordagem é que quando a variável é censurada, o OLS fornece estimativas inconsistentes dos parâmetros, o que significa que os coeficientes da análise não abordarão necessariamente os parâmetros da população quottruequot à medida que o tamanho da amostra aumenta. Veja Long (1997, capítulo 7) para uma discussão mais detalhada dos problemas de utilização da regressão OLS com dados censurados. Regressão Truncada - Às vezes, há confusão sobre a diferença entre dados truncados e dados censurados. Com variáveis ​​censuradas, todas as observações estão no conjunto de dados, mas não conhecemos os valores quottruequot de alguns deles. Com o truncamento, algumas das observações não estão incluídas na análise por causa do valor da variável. Quando uma variável é censurada, os modelos de regressão para dados truncados fornecem estimativas inconsistentes dos parâmetros. Veja Long (1997, capítulo 7) para uma discussão mais detalhada dos problemas de usar modelos de regressão para dados truncados para analisar dados censurados. Regressão de Tobit Abaixo, executamos o modelo de toca, usando a leitura. Matemática. E prog para prever o apt. A opção ul () no comando tobita indica o valor no qual a censura direita começa (ou seja, o limite superior). Há também uma opção ll () para indicar o valor da censura à esquerda (o limite inferior) que não era necessário neste exemplo. O i. Antes de prog indicar que prog é uma variável de fator (ou seja, variável categórica), e que deve ser incluída no modelo como uma série de variáveis ​​falsas. Note que esta sintaxe foi introduzida no Stata 11. A probabilidade de log final (-1041.0629) é mostrada na parte superior da saída, ela pode ser usada em comparações de modelos aninhados, mas não vamos mostrar um exemplo disso aqui. Também no topo da saída, vemos que todas as 200 observações em nosso conjunto de dados foram usadas na análise (menos observações teriam sido usadas se qualquer uma de nossas variáveis ​​tivesse valores faltantes). A razão de verossimilhança do qui-quadrado de 188.97 (df4) com um valor p de 0.0001 nos diz que nosso modelo como um todo se encaixa significativamente melhor do que um modelo vazio (ou seja, um modelo sem preditores). Na tabela, vemos os coeficientes, seus erros padrão, a estatística t, os valores p associados e o intervalo de confiança 95 dos coeficientes. Os coeficientes de leitura e matemática são estatisticamente significativos, como é o coeficiente de prog. 3. Os coeficientes de regressão de Tobit são interpretados de maneira semelhante aos coeficientes de regressão OLS no entanto, o efeito linear é na variável latente não censurada e não no resultado observado. Veja McDonald e Moffitt (1980) para mais detalhes. Para um aumento de uma unidade em leitura. Há um aumento de 2,7 pontos no valor previsto de apt. Um aumento de uma unidade em matemática está associado a um aumento de unidade de 5,91 no valor previsto de apt. Os termos para prog têm uma interpretação ligeiramente diferente. O valor previsto do apt é 46.14 pontos menor para estudantes em um programa vocacional (prog 3) do que para estudantes em um programa acadêmico (prog 1). O sigma estatístico auxiliar é análogo à raiz quadrada da variância residual na regressão OLS. O valor de 65,67 pode ser comparado com o desvio padrão da aptidão acadêmica, que foi de 99,21, uma redução substancial. A saída também contém uma estimativa do erro padrão de sigma, bem como o intervalo de confiança 95. Finalmente, a saída fornece um resumo do número de valores censurados à esquerda, não censurados e censurados à direita. Podemos testar um efeito geral de prog usando o comando de teste. Abaixo, vemos que o efeito geral do prog é estatisticamente significativo. Também podemos testar hipóteses adicionais sobre as diferenças nos coeficientes para diferentes níveis de prog. Abaixo, nós testamos que o coeficiente para prog 2 é igual ao coeficiente para prog 3. Na saída abaixo, vemos que o coeficiente para prog 2 é significativamente diferente do coeficiente para prog 3. Podemos também querer ver medidas de quão bem Nosso modelo se encaixa. Isso pode ser particularmente útil ao comparar modelos concorrentes. Um método para fazer isso é comparar os valores previstos com base no modelo tobito para os valores observados no conjunto de dados. Abaixo, usamos prever para gerar valores preditos de apt com base no modelo. Em seguida, correlacionamos os valores observados de apt com os valores previstos (yhat). A correlação entre os valores preditos e observados de apt é 0.7825. Se calcularmos esse valor, obtemos a correlação quadrática múltipla, isso indica que os valores previstos comparam cerca de 61 (0.78252 0.6123) de sua variação com o apt. Além disso, podemos usar o comando de comando escrito pelo usuário para produzir uma variedade de estatísticas de ajuste. Você pode encontrar mais informações sobre fitstat digitando findit fitstat (consulte Como posso usar o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar findit). O Manual de Stata Online toca os Comandos de Stata relacionados cnreg - censura normal censurada, na qual os valores de censura podem mudar de observação para observação. Regressão intra-intervalo, em que as observações podem ser dados pontuais, dados de intervalo, dados censurados à esquerda ou dados censurados à direita. Referências longas, J. S. (1997). Modelos de regressão para variáveis ​​categóricas e dependentes limitadas. Thousand Oaks, CA: Sage Publications. McDonald, J. F. e Moffitt, R. A. 1980. Os Usos da Análise Tobit. The Review of Economics and Statistics Vol. 62 (2): 318-321. Tobin, J. (1958). Estimativa de relacionamentos para variáveis ​​dependentes limitadas. Econometrica 26: 24-36. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal, dando um presente Regressão Tobita de saída anotada da Stata Esta página mostra um exemplo de análise de regressão de toca com notas de rodapé explicando o resultado. Os dados neste exemplo foram reunidos em estudantes de graduação que se candidataram a uma escola de pós-graduação e inclui GPA de graduação, a reputação da escola de graduação (um indicador topnotch), o escore GRE dos alunos e se o aluno foi ou não admitido na escola de pós-graduação. A faixa de possíveis pontuações de GRE é de 200 a 800. Isso significa que nossa variável de resultados é deixada censurada e censurada à direita. Em outras palavras, se dois alunos obtiverem 800, eles são iguais de acordo com a nossa escala, mas podem não ser iguais em aptidão. (Em outras palavras, temos um efeito de teto.) O mesmo é verdade para dois alunos com 200 (um efeito de piso). A regressão de Tobit gera um modelo que prediz que a variável de resultado esteja dentro do intervalo especificado. Se estamos interessados ​​em prever um escore GRE de estudantes usando seu GPA de graduação e a reputação de sua instituição de graduação, primeiro devemos considerar o GRE como uma variável de resultado. Para gerar um modelo de tobas em Stata, liste a variável de resultado seguida pelos preditores e, em seguida, especifique o limite inferior e o limite superior da variável de resultado. O limite inferior é especificado em parênteses após 11 e o limite superior é especificado em parênteses após ul. Um modelo de tocão pode ser usado para prever um resultado censurado de cima, de baixo, ou ambos. Saída de regressão de Tobit a. Probabilidade de log - Esta é a probabilidade do log do modelo ajustado. Ele é usado no teste Qui-Quadrado Ratio de Probabilidade de se todos os coeficientes de regressão preditores no modelo são simultaneamente zero. B. Número de obs - Este é o número de observações no conjunto de dados para o qual todas as variáveis ​​de resposta e preditor não estão faltando. C. LR chi2 (2) - Este é o teste Qui-Quadrado da Razão de Probabilidade (LR) que pelo menos um dos coeficientes de regressão dos preditores não é igual a zero. O número entre parênteses indica os graus de liberdade da distribuição Qui-Quadrado usado para testar a estatística do quadrado Qui-LR e é definido pelo número de preditores no modelo (2). D. Prob gt chi2 - Esta é a probabilidade de obter uma estatística de teste LR tão extrema como, ou mais, do que a estatística observada sob a hipótese nula, a hipótese nula é que todos os coeficientes de regressão são simultaneamente iguais a zero. Em outras palavras, esta é a probabilidade de obter essa estatística do qui-quadrado (70,93) ou outra mais se não houver efeito das variáveis ​​preditoras. Este valor de p é comparado a um nível alfa especificado, nossa disposição para aceitar um erro de tipo I, que normalmente é definido como 0,05 ou 0,01. O pequeno valor p do teste LR, lt0.0001, nos levaria a concluir que pelo menos um dos coeficientes de regressão no modelo não é igual a zero. O parâmetro da distribuição do qui-quadrado usado para testar a hipótese nula é definido pelos graus de liberdade na linha anterior, chi2 (2) e. Pseudo R2 - Este é McFaddens pseudo R-squared. A regressão de Tobit não tem um equivalente ao R-quadrado que é encontrado na regressão OLS no entanto, muitas pessoas tentaram chegar a um. Há uma grande variedade de estatísticas pseudo-R-square. Como esta estatística não significa o que o R-quadrado significa na regressão OLS (a proporção de variância da variável de resposta explicada pelos preditores), sugerimos interpretar esta estatística com grande cautela. Para mais informações sobre pseudo R-squareds, veja o que são Pseudo R-Squared. F. Gre - Esta é a variável de resposta prevista pelo modelo. Estamos usando um modelo de toca porque esta variável de resposta é censurada: os escores do GRE são dimensionados de 200 para 800 e não podem ficar fora desse intervalo. G. Coef. - Estes são os coeficientes de regressão. Os coeficientes de regressão de Tobit são interpretados de forma semelhante aos coeficientes de regressão OLS no entanto, o efeito linear é na variável latente não censurada, e não no resultado observado. O escore GRE esperado muda por Coef. Para cada aumento de unidade no preditor correspondente. Gpa - Se um sujeito aumentasse sua gpa em um ponto, seu escore GRE esperado aumentaria em 111.3085 pontos, mantendo todas as outras variáveis ​​constantes no modelo. Assim, quanto maior a gpa estudantil. Quanto maior o pontuação GRE prevista. Topnotch - Se um sujeito frequentasse uma instituição topnotch para sua educação de graduação, seu score GRE esperado seria 46.65774 pontos maior do que um sujeito com a mesma média de grau que frequentava uma instituição não superior. Assim, os sujeitos das instituições de graduação topnotch têm maiores pontuações GRE esperadas do que os indivíduos de instituições de graduação não topnotch se as médias de pontos de classificação forem mantidas constantes. Contras - Se todas as variáveis ​​preditoras no modelo forem avaliadas em zero, o escore GRE previsto seria o contras 205.8515. Para sujeitos de instituições de graduação não topnotch (topnotch avaliado em zero) com zero gpa. O escore GRE previsto seria 205,85515. Isso pode parecer muito baixo, considerando o escore GRE médio é 587,7, mas note que a avaliação de gpa em zero está fora do intervalo de valores plausíveis para gpa. H. Std. Errar. - Estes são os erros padrão dos coeficientes de regressão individuais. Eles são usados ​​tanto no cálculo da estatística do teste t, no sobrescrito i quanto no intervalo de confiança do coeficiente de regressão, superíndice k. Eu. T - A estatística de teste t é a proporção do Coef. Para o Std. Errar. Do respectivo preditor. O valor t é usado para testar uma hipótese alternativa de dois lados que o Coef. Não é igual a zero. J. Pgtt - Esta é a probabilidade de a estatística de teste t (ou uma estatística de teste mais extrema) ser observada sob a hipótese nula de que um coeficiente de regressão de preditores particular é zero, dado que o resto dos preditores estão no modelo. Para um determinado nível alfa, Pgtt determina se a hipótese nula pode ou não ser rejeitada. Se Pgtt for menor que o alfa, então a hipótese nula pode ser rejeitada e a estimativa do parâmetro é considerada estatisticamente significativa nesse nível alfa. Gpa - A estatística do teste t para o preditor gpa é (111.308515.19665) 7.32 com um valor p associado de l0.001. Se definimos o nosso nível alfa para 0,05, rejeitaremos a hipótese nula e concluiremos que o coeficiente de regressão para gpa foi encontrado para ser estatisticamente diferente de zero dado topnotch está no modelo. Topnotch - A estatística de teste t para a topnotch do preditor é (46.6577415.75356) 2.96 com um p-valor associado de 0.003. Se configuramos o nosso nível alfa para 0,05, rejeitaremos a hipótese nula e concluiremos que o coeficiente de regressão para topnotch foi encontrado para ser estatisticamente diferente de zero dado gpa está no modelo. Contras - A estatística de teste t para a interceptação, contras, é (205.851551.24073) 4.02 com um valor de p associado de l 0,001. Se configurarmos o nosso nível alfa em 0,05, rejeitaremos a hipótese nula e concluiremos que os contras foram encontrados de forma estatisticamente diferente do zero dado gpa e topnotch estão no modelo e avaliados em zero. K. 95 Conf. Intervalo - Este é o Intervalo de Confiança (CI) para um coeficiente individual dado que os outros preditores estão no modelo. Para um determinado preditor com um nível de confiança 95, wed diz que temos confiança de que o coeficiente quottruequot se situa entre os limites inferior e superior do intervalo. O CI é equivalente à estatística do teste t: se o IC inclui zero, não pode rejeitar a hipótese nula de que um coeficiente de regressão particular é zero dado que os outros preditores estão no modelo com o nível alfa de zero. A vantagem de um CI é que é ilustrativo que fornece um intervalo em que o parâmetro quottruequot pode ser encontrado. eu. Sigma - Este é o erro padrão estimado da regressão. Esse valor, 111.4882, é comparável ao erro quadrático médio quadrático que seria obtido em uma regressão OLS. M. Obs. Resumo - Isso indica quantas observações no conjunto de dados são censuradas. Aqui, vemos que nenhum dos registros é censurado (todos são maiores que 200) e 25 dos registros são censurados à direita (maior ou igual a 800). O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software específico da Universidade da Califórnia.

No comments:

Post a Comment