Diferença entre os modelos logit e probit

Um modelo linear padrão (por exemplo, um modelo de regressão simples) pode ser pensado como tendo dois ' partes'. Estes são chamados o componente estrutural e o componente derandom. Por exemplo: $$ Y=\beta_0+\beta_1X+\varepsilon \ \texto (onde) \VAREPSILONSIMATcal (N)(0,^2) $$ Os dois primeiros termos (isto é, $\beta_0+\beta_1X$) constituem o componente estrutural, e o $\varepsilon$ (que indica um termo de erro normalmente distribuído) é o componente aleatório. Quando a variável de resposta não é normalmente distribuída (por exemplo, se a sua variável de resposta for binária), esta abordagem pode já não ser válida. O modelo linear generalizado (GLiM) foi desenvolvido para abordar tais casos, e os modelos logit e probit são casos especiais de GLiMs que são apropriados para variáveis binárias (ou variáveis de resposta multicategorias com algumas adaptações ao processo). Uma GLiM tem três partes, uma componente estrutural, uma função de ligação, e uma distribuição de resposta. Por exemplo: $$ g(\mu)=\beta_0+\beta_1X $$ Aqui $\beta_0+\beta_1X$ é novamente o componente estrutural, $g()$ é a função de ligação, e $\mu$ é o meio de uma distribuição de resposta condicional num dado ponto do espaço covariável. A forma como pensamos sobre o componente estrutural aqui não'não difere realmente da forma como pensamos sobre ele com modelos lineares padrão; de facto, isso'é uma das grandes vantagens das GLiMs. Porque para muitas distribuições a variância é uma função da média, tendo cabido uma média condicional (e dado que estipulou uma distribuição de resposta), contabilizou-se automaticamente o análogo do componente aleatório num modelo linear (N.B.: isto pode ser mais complicado na prática).
A função link é a chave para as GLiMs: uma vez que a distribuição da variável resposta é não-normal, it's o que nos permite ligar o componente estrutural à resposta--it 'links' eles (daí o nome). It's também a chave da sua pergunta, uma vez que o logit e probit são links (como @vinux explicou), e a compreensão das funções de link permitir-nos-á escolher inteligentemente quando utilizar qual deles. Embora possam existir muitas funções de ligação que possam ser aceitáveis, muitas vezes existe uma que é especial. Sem querer ir demasiado longe nas ervas daninhas (isto pode tornar-se muito técnico) a média prevista, $\mu$, não será necessariamente a mesma matemática que a distribuição de resposta's parâmetro de localização canónica; a função de ligação que as iguala é a função de ligação canónica. A vantagem deste "é que existe uma estatística mínima suficiente para $\beta$" (Rodriguez alemão). A ligação canónica para os dados de resposta binomial (mais especificamente, a distribuição binomial) é o logit. Contudo, há muitas funções que podem mapear o componente estrutural no intervalo $(0,1)$, e assim ser aceitável; a probit também é popular, mas há ainda outras opções que são por vezes utilizadas (tais como o log complementar, $\ln(-\ln(1-\mu))$, frequentemente chamado ' cloglog'). Assim, há muitas funções de ligação possíveis e a escolha da função de ligação pode ser muito importante. A escolha deve ser feita com base em alguma combinação de:

Conhecimento da distribuição da resposta,
Considerações teóricas, e
Adaptação empírica aos dados.
Tendo coberto um pouco dos antecedentes conceptuais necessários para compreender mais claramente estas ideias (perdoem-me), explicarei como estas considerações podem ser utilizadas para orientar a vossa escolha de ligação. (Deixe-me notar que penso que @David's comentário capta com precisão a razão pela qual diferentes ligações são escolhidas na prática). Para começar, se a sua variável de resposta for o resultado de um julgamento Bernoulli (isto é, $0$ ou $1$), a sua distribuição de resposta será binomial, e o que está realmente a modelar é a probabilidade de uma observação ser um $1$ (isto é, $\pi(Y=1)$). Como resultado, qualquer função que mapeia a linha de número real, $(-\i,+\i)$, para o intervalo $(0,1)$ irá funcionar.
Do ponto de vista da sua teoria substantiva, se estiver a pensar nos seus covariáveis como directamente ligados à probabilidade de sucesso, então tipicamente escolheria a regressão logística porque é a ligação canónica. Contudo, considere o seguinte exemplo: É-lhe pedido que modele high_Blood_Pressure como uma função de alguns covariáveis. A própria pressão arterial é normalmente distribuída na população (não sei isso, mas parece razoável à primeira vista), no entanto, os clínicos dicotomizaram-na durante o estudo (ou seja, apenas gravaram ' high-BP' ou ' normal'). Neste caso, a probit seria preferível a-priori, por razões teóricas. Isto é o que @Elvis quis dizer com " o seu resultado binário depende de uma variável gaussiana escondida". Outra consideração é que tanto logit como probit são simétricos, se acreditar que a probabilidade de sucesso aumenta lentamente a partir de zero, mas depois afunila mais rapidamente à medida que se aproxima de um, o entupimento é necessário, etc.
Finalmente, notar que a adequação empírica do modelo aos dados dificilmente poderá ser útil na selecção de uma ligação, a menos que as formas das funções da ligação em questão sejam substancialmente diferentes (das quais, o logit e o probit não o são). Por exemplo, considere a seguinte simulação:

set.seed(1)
probLower = vector(length=1000)

for(i in 1:1000){      
    x = rnorm(1000)
    y = rbinom(n=1000, size=1, prob=pnorm(x))

    logitModel  = glm(y~x, family=binomial(link="logit"))
    probitModel = glm(y~x, family=binomial(link="probit"))

    probLower[i] = deviance(probitModel)<deviance(logitModel)
}

sum(probLower)/1000
[1] 0.695

Mesmo quando sabemos que os dados foram gerados por um modelo probit, e temos 1000 pontos de dados, o modelo probit só produz um melhor ajuste 70% do tempo, e mesmo assim, muitas vezes apenas por uma quantidade trivial. Consideremos a última iteração:

deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806

A razão para isto é simplesmente que as funções de ligação logit e probit produzem resultados muito semelhantes quando dadas as mesmas entradas.
Introduza aqui a descrição da imagem As funções logit e probit são praticamente idênticas, excepto que o logit está ligeiramente mais longe dos limites quando ' vire a esquina', como @vinux afirmou. (Note que para conseguir que o logit e a probit se alinhem optimamente, o logit's $\beta_1$ deve ser $\aproximadamente 1,7$ vezes o valor da inclinação correspondente para a probit. Além disso, poderia ter deslocado ligeiramente o entupimento de modo a que se colocassem mais um em cima do outro, mas deixei-o ao lado para manter a figura mais legível). Note-se que o entupimento é assimétrico enquanto que os outros não o são; começa a afastar-se do 0 mais cedo, mas mais lentamente, e aproxima-se perto de 1 e depois vira-se acentuadamente.
Mais algumas coisas podem ser ditas sobre as funções de ligação. Primeiro, considerando a função identidade ($g(\eta)=\eta$) como função link permite-nos compreender o modelo linear padrão como um caso especial do modelo linear generalizado (ou seja, a distribuição da resposta é normal, e o link é a função identidade). É também importante reconhecer que qualquer que seja a transformação que a ligação instata, é devidamente aplicada ao parâmetro que rege a distribuição da resposta (ou seja, $\mu$), e não a resposta real dados. Finalmente, porque na prática nunca temos o parâmetro subjacente para transformar, nas discussões sobre estes modelos, muitas vezes o que é considerado como sendo a ligação real é deixado implícito e o modelo é representado pelo inverso da função de ligação aplicada à componente estrutural em vez disso. Ou seja, o modelo é representado pelo inverso da função de ligação aplicada ao componente estrutural:
$$ \mu=g^{-1}(\beta_0+\beta_1X) $$ Por exemplo, a regressão logística é normalmente representada: $$ \pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)} $$ em vez de: $$ \ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X $$ Para uma visão geral rápida e clara, mas sólida, do modelo linear generalizado, ver capítulo 10 de Fitzmaurice, Laird, & Ware (2004), (sobre o qual me apoiei em partes desta resposta, embora uma vez que esta é a minha própria adaptação daquele - e de outros - material, quaisquer erros seriam meus). Para saber como encaixar estes modelos em R, consulte a documentação para a função ?glm no pacote base.
(Uma nota final acrescentada mais tarde:) Ouço ocasionalmente as pessoas dizerem que não se deve't usar a sonda, porque pode't ser interpretada. Isto não é verdade, embora a interpretação dos betas seja menos intuitiva. Com a regressão logística, uma mudança de uma unidade em $X_1$ está associada a uma mudança de $\beta_1$ nas probabilidades de 'sucesso' (em alternativa, uma mudança de $\beta_1)$-dobra nas probabilidades), sendo tudo o resto igual. Com uma probit, isto seria uma mudança de $\beta_1{ }text{ }z$'s. (Pense em duas observações num conjunto de dados com $z$-scores de 1 e 2, por exemplo). Para as converter em previsões probabilidades, pode passá-las através do normal CDF, ou consultá-las numa tabela de $z$.
(+1 para ambos @vinux e @Elvis. Aqui tentei fornecer um quadro mais amplo dentro do qual pensar sobre estas coisas e depois usá-lo para abordar a escolha entre logit e probit).

Community

Resposta editada :em

446

0

Solution / Answer

Adicionar pergunta

Categorias

Todos

Tecnologia

Cultura / Recreação

Vida / Artes

Ciência

Profissional

Negócios

Utilizadores

Todos

Novo

Popular

1

Ксения Комарова

Registrado há 3 semanas

2

Артур «Апер»

Registrado há 2 meses

3

Viktor Malyutin

Registrado há 2 meses

4

Viktor Malyutin

Registrado há 2 meses

5

Syahputra Zhedenk

Registrado há 2 meses

Tem uma pergunta? Adicione-a no sítio e obtenha uma resposta instantânea

pt.kzen.dev

vinux · Accepted Answer · 2012-01-03T09:06:10+00:00

Diferem principalmente na função de ligação.

Em Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1} $

Em Probit: $\Pr(Y=1 \mid X) = \Phi(X'\beta)$ (pdf normal acumulado)

Por outro lado, a logística tem caudas ligeiramente mais planas. ou seja, a curva probit aproxima-se dos eixos mais rapidamente do que a curva logit.

Logit tem uma interpretação mais fácil do que probit. A regressão logística pode ser interpretada como modelação das probabilidades de log (ou seja, aqueles que fumam >25 cigarros por dia têm 6 vezes mais probabilidade de morrer antes dos 65 anos de idade). Normalmente, as pessoas começam a modelação com logit. Poderia usar o valor de probabilidade de cada modelo para decidir para logit vs probit.