Qual é a diferença entre Logit e modelo Probit?
I'estou mais interessado aqui em saber quando utilizar a regressão logística, e quando utilizar Probit.
Se houver alguma literatura que a defina usando R, isso também seria útil.
Um modelo linear padrão (por exemplo, um modelo de regressão simples) pode ser pensado como tendo dois ' partes'. Estes são chamados o componente estrutural e o componente derandom. Por exemplo:
$$
Y=\beta_0+\beta_1X+\varepsilon \
\texto (onde) \VAREPSILONSIMATcal (N)(0,^2)
$$
Os dois primeiros termos (isto é, $\beta_0+\beta_1X$) constituem o componente estrutural, e o $\varepsilon$ (que indica um termo de erro normalmente distribuído) é o componente aleatório. Quando a variável de resposta não é normalmente distribuída (por exemplo, se a sua variável de resposta for binária), esta abordagem pode já não ser válida. O modelo linear generalizado (GLiM) foi desenvolvido para abordar tais casos, e os modelos logit e probit são casos especiais de GLiMs que são apropriados para variáveis binárias (ou variáveis de resposta multicategorias com algumas adaptações ao processo). Uma GLiM tem três partes, uma componente estrutural, uma função de ligação, e uma distribuição de resposta. Por exemplo:
$$
g(\mu)=\beta_0+\beta_1X
$$
Aqui $\beta_0+\beta_1X$ é novamente o componente estrutural, $g()$ é a função de ligação, e $\mu$ é o meio de uma distribuição de resposta condicional num dado ponto do espaço covariável. A forma como pensamos sobre o componente estrutural aqui não'não difere realmente da forma como pensamos sobre ele com modelos lineares padrão; de facto, isso'é uma das grandes vantagens das GLiMs. Porque para muitas distribuições a variância é uma função da média, tendo cabido uma média condicional (e dado que estipulou uma distribuição de resposta), contabilizou-se automaticamente o análogo do componente aleatório num modelo linear (N.B.: isto pode ser mais complicado na prática).
A função link é a chave para as GLiMs: uma vez que a distribuição da variável resposta é não-normal, it's o que nos permite ligar o componente estrutural à resposta--it 'links' eles (daí o nome). It's também a chave da sua pergunta, uma vez que o logit e probit são links (como @vinux explicou), e a compreensão das funções de link permitir-nos-á escolher inteligentemente quando utilizar qual deles. Embora possam existir muitas funções de ligação que possam ser aceitáveis, muitas vezes existe uma que é especial. Sem querer ir demasiado longe nas ervas daninhas (isto pode tornar-se muito técnico) a média prevista, $\mu$, não será necessariamente a mesma matemática que a distribuição de resposta's parâmetro de localização canónica; a função de ligação que as iguala é a função de ligação canónica. A vantagem deste "é que existe uma estatística mínima suficiente para $\beta$" (Rodriguez alemão). A ligação canónica para os dados de resposta binomial (mais especificamente, a distribuição binomial) é o logit. Contudo, há muitas funções que podem mapear o componente estrutural no intervalo $(0,1)$, e assim ser aceitável; a probit também é popular, mas há ainda outras opções que são por vezes utilizadas (tais como o log complementar, $\ln(-\ln(1-\mu))$, frequentemente chamado ' cloglog'). Assim, há muitas funções de ligação possíveis e a escolha da função de ligação pode ser muito importante. A escolha deve ser feita com base em alguma combinação de:
high_Blood_Pressure
como uma função de alguns covariáveis. A própria pressão arterial é normalmente distribuída na população (não sei isso, mas parece razoável à primeira vista), no entanto, os clínicos dicotomizaram-na durante o estudo (ou seja, apenas gravaram ' high-BP' ou ' normal'). Neste caso, a probit seria preferível a-priori, por razões teóricas. Isto é o que @Elvis quis dizer com " o seu resultado binário depende de uma variável gaussiana escondida". Outra consideração é que tanto logit como probit são simétricos, se acreditar que a probabilidade de sucesso aumenta lentamente a partir de zero, mas depois afunila mais rapidamente à medida que se aproxima de um, o entupimento é necessário, etc.set.seed(1)
probLower = vector(length=1000)
for(i in 1:1000){
x = rnorm(1000)
y = rbinom(n=1000, size=1, prob=pnorm(x))
logitModel = glm(y~x, family=binomial(link="logit"))
probitModel = glm(y~x, family=binomial(link="probit"))
probLower[i] = deviance(probitModel)<deviance(logitModel)
}
sum(probLower)/1000
[1] 0.695
Mesmo quando sabemos que os dados foram gerados por um modelo probit, e temos 1000 pontos de dados, o modelo probit só produz um melhor ajuste 70% do tempo, e mesmo assim, muitas vezes apenas por uma quantidade trivial. Consideremos a última iteração:
deviance(probitModel)
[1] 1025.759
deviance(logitModel)
[1] 1026.366
deviance(logitModel)-deviance(probitModel)
[1] 0.6076806
A razão para isto é simplesmente que as funções de ligação logit e probit produzem resultados muito semelhantes quando dadas as mesmas entradas.
As funções logit e probit são praticamente idênticas, excepto que o logit está ligeiramente mais longe dos limites quando ' vire a esquina', como @vinux afirmou. (Note que para conseguir que o logit e a probit se alinhem optimamente, o logit's $\beta_1$ deve ser $\aproximadamente 1,7$ vezes o valor da inclinação correspondente para a probit. Além disso, poderia ter deslocado ligeiramente o entupimento de modo a que se colocassem mais um em cima do outro, mas deixei-o ao lado para manter a figura mais legível). Note-se que o entupimento é assimétrico enquanto que os outros não o são; começa a afastar-se do 0 mais cedo, mas mais lentamente, e aproxima-se perto de 1 e depois vira-se acentuadamente.
Mais algumas coisas podem ser ditas sobre as funções de ligação. Primeiro, considerando a função identidade ($g(\eta)=\eta$) como função link permite-nos compreender o modelo linear padrão como um caso especial do modelo linear generalizado (ou seja, a distribuição da resposta é normal, e o link é a função identidade). É também importante reconhecer que qualquer que seja a transformação que a ligação instata, é devidamente aplicada ao parâmetro que rege a distribuição da resposta (ou seja, $\mu$), e não a resposta real dados. Finalmente, porque na prática nunca temos o parâmetro subjacente para transformar, nas discussões sobre estes modelos, muitas vezes o que é considerado como sendo a ligação real é deixado implícito e o modelo é representado pelo inverso da função de ligação aplicada à componente estrutural em vez disso. Ou seja, o modelo é representado pelo inverso da função de ligação aplicada ao componente estrutural:
$$
\mu=g^{-1}(\beta_0+\beta_1X)
$$
Por exemplo, a regressão logística é normalmente representada:
$$
\pi(Y)=\frac{\exp(\beta_0+\beta_1X)}{1+\exp(\beta_0+\beta_1X)}
$$
em vez de:
$$
\ln\left(\frac{\pi(Y)}{1-\pi(Y)}\right)=\beta_0+\beta_1X
$$
Para uma visão geral rápida e clara, mas sólida, do modelo linear generalizado, ver capítulo 10 de Fitzmaurice, Laird, & Ware (2004), (sobre o qual me apoiei em partes desta resposta, embora uma vez que esta é a minha própria adaptação daquele - e de outros - material, quaisquer erros seriam meus). Para saber como encaixar estes modelos em R, consulte a documentação para a função ?glm no pacote base.
(Uma nota final acrescentada mais tarde:) Ouço ocasionalmente as pessoas dizerem que não se deve't usar a sonda, porque pode't ser interpretada. Isto não é verdade, embora a interpretação dos betas seja menos intuitiva. Com a regressão logística, uma mudança de uma unidade em $X_1$ está associada a uma mudança de $\beta_1$ nas probabilidades de 'sucesso' (em alternativa, uma mudança de $\beta_1)$-dobra nas probabilidades), sendo tudo o resto igual. Com uma probit, isto seria uma mudança de $\beta_1{ }text{ }z$'s. (Pense em duas observações num conjunto de dados com $z$-scores de 1 e 2, por exemplo). Para as converter em previsões probabilidades, pode passá-las através do normal CDF, ou consultá-las numa tabela de $z$.
(+1 para ambos @vinux e @Elvis. Aqui tentei fornecer um quadro mais amplo dentro do qual pensar sobre estas coisas e depois usá-lo para abordar a escolha entre logit e probit).
Diferem principalmente na função de ligação.
Em Logit: $\Pr(Y=1 \mid X) = [1 + e^{-X'\beta}]^{-1} $
Em Probit: $\Pr(Y=1 \mid X) = \Phi(X'\beta)$ (pdf normal acumulado)
Por outro lado, a logística tem caudas ligeiramente mais planas. ou seja, a curva probit aproxima-se dos eixos mais rapidamente do que a curva logit.
Logit tem uma interpretação mais fácil do que probit. A regressão logística pode ser interpretada como modelação das probabilidades de log (ou seja, aqueles que fumam >25 cigarros por dia têm 6 vezes mais probabilidade de morrer antes dos 65 anos de idade). Normalmente, as pessoas começam a modelação com logit. Poderia usar o valor de probabilidade de cada modelo para decidir para logit vs probit.
Para além da resposta da vinux, que já diz o mais importante:
os coeficientes $\beta$ na regressão logit têm interpretações naturais em termos de odds ratio;
a regressão probística é o modelo natural quando se pensa que o resultado binário depende de uma variável gaussiana escondida $Z = X' \beta + \epsilon $ [eq. 1] com $epsilon \sim N(0,1)$ de uma forma determinística: $Y = 1$ exactamente quando $Z > 0$.
Mais geralmente, e mais naturalmente, a regressão probística é o modelo mais natural se pensarmos que o resultado é $1$ exactamente quando cerca de $Z_0 = X' \beta_0 + \epsilon_0$ ultrapassa um limiar $c$, com $\silon \silon N(0,\sigma^2)$. É fácil de ver que isto pode ser reduzido ao caso acima mencionado: basta anular $Z_0$ como $Z = {1}(Z_0-c)$; é fácil de verificar que a equação [eq. 1] ainda se mantém (anular os coeficientes e traduzir a intercepção). Estes modelos têm sido defendidos, por exemplo, em contextos médicos, onde $Z_0$ seria uma variável contínua não observada, e $Y$, por exemplo, uma doença que aparece quando $Z_0$ excede alguns "limiar patológico".
Tanto os modelos logit como probit são apenas modelos. " todos os modelos estão errados, alguns são úteis", como o Box disse uma vez! Ambos os modelos permitirão detectar a existência de um efeito de $X$ sobre o resultado $Y$; excepto em alguns casos muito especiais, nenhum deles será "realmente verdadeiro" e a sua interpretação deve ser feita com cautela.