Esplora gli esempi di stima della massima verosimiglianza

Supponiamo di avere un campione casuale da una popolazione di interesse. Potremmo avere un modello teorico per il modo in cui la popolazione è distribuita. Tuttavia, potrebbero esserci diversi parametri di popolazione di cui non conosciamo i valori. La stima della massima verosimiglianza è un modo per determinare questi parametri sconosciuti. 

L'idea alla base della stima della massima verosimiglianza è che determiniamo i valori di questi parametri sconosciuti. Lo facciamo in modo tale da massimizzare una funzione di densità di probabilità congiunta associata o una funzione di massa di probabilità. Lo vedremo più in dettaglio in quanto segue. Quindi calcoleremo alcuni esempi di stima della massima verosimiglianza.

Passaggi per la stima della massima verosimiglianza

La discussione di cui sopra può essere sintetizzata nei seguenti passaggi:

  1. Inizia con un campione di variabili casuali indipendenti X1, X2,… Xn da una distribuzione comune ciascuna con funzione di densità di probabilità f (x; θ1,... θK). I thetas sono parametri sconosciuti.
  2. Poiché il nostro campione è indipendente, la probabilità di ottenere il campione specifico che osserviamo si trova moltiplicando le nostre probabilità insieme. Questo ci dà una funzione di verosimiglianza L (θ1,... θK) = F (x1 ; θ1,... θK) f (x2 ; θ1,... θK)… F (xn ; θ1,... θK) = Π f (xio ; θ1,... θK).
  3. Successivamente, utilizziamo Calculus per trovare i valori di theta che massimizzano la nostra funzione di probabilità L. 
  4. Più specificamente, differenziamo la funzione di probabilità L rispetto a θ se esiste un singolo parametro. Se ci sono più parametri calcoliamo derivate parziali di L rispetto a ciascuno dei parametri theta.
  5. Per continuare il processo di massimizzazione, impostare la derivata di L (o derivati ​​parziali) uguale a zero e risolvere per theta.
  6. Possiamo quindi utilizzare altre tecniche (come un secondo test derivativo) per verificare che abbiamo trovato il massimo per la nostra funzione di probabilità.

Esempio

Supponiamo di avere un pacchetto di semi, ognuno dei quali ha una probabilità costante p di successo della germinazione. Piantiamo n di questi e conta il numero di quelli che spuntano. Supponiamo che ogni seme germogli indipendentemente dagli altri. Come determinare lo stimatore della massima verosimiglianza del parametro p?

Iniziamo osservando che ogni seme è modellato da una distribuzione di Bernoulli con successo di p. Lasciamo X essere 0 o 1 e la funzione di massa di probabilità per un singolo seme è f( X ; p ) = pX (1 - p)1 - x

Il nostro campione è costituito da n  diverso Xio, ognuno con una distribuzione di Bernoulli. I semi che spuntano hanno Xio = 1 e i semi che non spuntano hanno Xio = 0. 

La funzione di probabilità è data da:

L ( p ) = Π pXio (1 - p)1 - Xio

Vediamo che è possibile riscrivere la funzione di verosimiglianza usando le leggi degli esponenti. 

L ( p ) = pΣ xio (1 - p)n - Σ xio

Successivamente differenziamo questa funzione rispetto a p. Partiamo dal presupposto che i valori per tutto il Xio sono noti e quindi sono costanti. Per differenziare la funzione di probabilità dobbiamo usare la regola del prodotto insieme alla regola del potere:

L '( p ) = Σ xiop-1 + Σ xio (1 - p)n - Σ xio - (n - Σ xio ) pΣ xio (1 - p)n-1 - Σ xio

Riscriviamo alcuni degli esponenti negativi e abbiamo:

L '( p ) = (1 /p) Σ xiopΣ xio (1 - p)n - Σ xio - 1 / (1 - p) (n - Σ xio ) pΣ xio (1 - p)n - Σ xio

= [(1 /p) Σ xio - 1 / (1 - p) (n - Σ xio)]iopΣ xio (1 - p)n - Σ xio

Ora, al fine di continuare il processo di massimizzazione, impostiamo questa derivata uguale a zero e risolviamo p:

0 = [(1 /p) Σ xio - 1 / (1 - p) (n - Σ xio)]iopΣ xio (1 - p)n - Σ xio

Da p e (1- p) siamo diversi da zero

0 = (1 /p) Σ xio - 1 / (1 - p) (n - Σ xio).

Moltiplicando entrambi i lati dell'equazione per p(1- p) ci da:

0 = (1 - p) Σ xio - p (n - Σ xio).

Espandiamo il lato destro e vediamo:

0 = Σ xio - p Σ xio - p n + pΣ xio = Σ xio - p n.

Quindi Σ xio = p n e (1 / n) Σ xio = p. Ciò significa che lo stimatore della massima probabilità di p è una media campionaria. Più specificamente questa è la proporzione campionaria dei semi germinati. Ciò è perfettamente in linea con ciò che l'intuizione ci direbbe. Al fine di determinare la proporzione di semi che germineranno, innanzitutto prendere in considerazione un campione dalla popolazione di interesse.

Modifiche ai passaggi

Ci sono alcune modifiche all'elenco di passaggi sopra. Ad esempio, come abbiamo visto sopra, in genere vale la pena dedicare un po 'di tempo all'utilizzo di algebra per semplificare l'espressione della funzione di probabilità. La ragione di ciò è di facilitare la differenziazione.

Un'altra modifica all'elenco di passaggi sopra è considerare i logaritmi naturali. Il massimo per la funzione L si verificherà nello stesso punto in cui si verifica per il logaritmo naturale di L. Pertanto massimizzare ln L equivale a massimizzare la funzione L.

Molte volte, a causa della presenza di funzioni esponenziali in L, prendere il logaritmo naturale di L semplifica notevolmente parte del nostro lavoro.

Esempio

Vediamo come usare il logaritmo naturale rivisitando l'esempio dall'alto. Iniziamo con la funzione di verosimiglianza:

L ( p ) = pΣ xio (1 - p)n - Σ xio .

Quindi utilizziamo le nostre leggi sul logaritmo e vediamo che:

R ( p ) = ln L ( p ) = Σ xio ln p + (n - Σ xio) ln (1 - p).

Vediamo già che la derivata è molto più facile da calcolare:

R '( p ) = (1 /p) Σ xio - 1 / (1 - p) (n - Σ xio) .

Ora, come prima, impostiamo questa derivata uguale a zero e moltiplichiamo entrambi i lati per p (1 - p):

0 = (1- p ) Σ xio p(n - Σ xio) .

Risolviamo per p e trova lo stesso risultato di prima.

L'uso del logaritmo naturale di L (p) è utile in un altro modo. È molto più facile calcolare una seconda derivata di R (p) per verificare che abbiamo davvero un massimo nel punto (1 / n) Σ xio = p.

Esempio

Per un altro esempio, supponiamo di avere un campione casuale X1, X2,… Xn da una popolazione che stiamo modellando con una distribuzione esponenziale. La funzione di densità di probabilità per una variabile casuale è della forma f( X ) = θ-1 e -X/ θ

La funzione di probabilità è data dalla funzione di densità di probabilità congiunta. Questo è un prodotto di molte di queste funzioni di densità:

L (θ) = Π θ-1 e -Xio/ θ = θ-n e Xio/ θ

Ancora una volta è utile considerare il logaritmo naturale della funzione di verosimiglianza. Differenziare ciò richiederà meno lavoro che differenziare la funzione di probabilità:

R (θ) = ln L (θ) = ln [θ-n e Xio/ θ]

Usiamo le nostre leggi sui logaritmi e otteniamo:

R (θ) = ln L (θ) = - n ln θ + -ΣXio/ θ

Differenziamo rispetto a θ e abbiamo:

R '(θ) = - n / θ + ΣXio/ θ2

Imposta questa derivata uguale a zero e vediamo che:

0 = - n / θ + ΣXio/ θ2.

Moltiplica entrambi i lati per θ2 e il risultato è:

0 = - n θ + ΣXio.

Ora usa l'algebra per risolvere θ:

θ = (1 / n) ΣXio.

Vediamo da ciò che la media del campione è ciò che massimizza la funzione di probabilità. Il parametro θ per adattarsi al nostro modello dovrebbe essere semplicemente la media di tutte le nostre osservazioni.

Connessioni

Esistono altri tipi di stimatori. Un tipo alternativo di stima è chiamato stimatore imparziale. Per questo tipo, dobbiamo calcolare il valore atteso della nostra statistica e determinare se corrisponde a un parametro corrispondente.