Supponiamo di avere un campione casuale da una popolazione di interesse. Potremmo avere un modello teorico per il modo in cui la popolazione è distribuita. Tuttavia, potrebbero esserci diversi parametri di popolazione di cui non conosciamo i valori. La stima della massima verosimiglianza è un modo per determinare questi parametri sconosciuti.
L'idea alla base della stima della massima verosimiglianza è che determiniamo i valori di questi parametri sconosciuti. Lo facciamo in modo tale da massimizzare una funzione di densità di probabilità congiunta associata o una funzione di massa di probabilità. Lo vedremo più in dettaglio in quanto segue. Quindi calcoleremo alcuni esempi di stima della massima verosimiglianza.
La discussione di cui sopra può essere sintetizzata nei seguenti passaggi:
Supponiamo di avere un pacchetto di semi, ognuno dei quali ha una probabilità costante p di successo della germinazione. Piantiamo n di questi e conta il numero di quelli che spuntano. Supponiamo che ogni seme germogli indipendentemente dagli altri. Come determinare lo stimatore della massima verosimiglianza del parametro p?
Iniziamo osservando che ogni seme è modellato da una distribuzione di Bernoulli con successo di p. Lasciamo X essere 0 o 1 e la funzione di massa di probabilità per un singolo seme è f( X ; p ) = pX (1 - p)1 - x.
Il nostro campione è costituito da n diverso Xio, ognuno con una distribuzione di Bernoulli. I semi che spuntano hanno Xio = 1 e i semi che non spuntano hanno Xio = 0.
La funzione di probabilità è data da:
L ( p ) = Π pXio (1 - p)1 - Xio
Vediamo che è possibile riscrivere la funzione di verosimiglianza usando le leggi degli esponenti.
L ( p ) = pΣ xio (1 - p)n - Σ xio
Successivamente differenziamo questa funzione rispetto a p. Partiamo dal presupposto che i valori per tutto il Xio sono noti e quindi sono costanti. Per differenziare la funzione di probabilità dobbiamo usare la regola del prodotto insieme alla regola del potere:
L '( p ) = Σ xiop-1 + Σ xio (1 - p)n - Σ xio - (n - Σ xio ) pΣ xio (1 - p)n-1 - Σ xio
Riscriviamo alcuni degli esponenti negativi e abbiamo:
L '( p ) = (1 /p) Σ xiopΣ xio (1 - p)n - Σ xio - 1 / (1 - p) (n - Σ xio ) pΣ xio (1 - p)n - Σ xio
= [(1 /p) Σ xio - 1 / (1 - p) (n - Σ xio)]iopΣ xio (1 - p)n - Σ xio
Ora, al fine di continuare il processo di massimizzazione, impostiamo questa derivata uguale a zero e risolviamo p:
0 = [(1 /p) Σ xio - 1 / (1 - p) (n - Σ xio)]iopΣ xio (1 - p)n - Σ xio
Da p e (1- p) siamo diversi da zero
0 = (1 /p) Σ xio - 1 / (1 - p) (n - Σ xio).
Moltiplicando entrambi i lati dell'equazione per p(1- p) ci da:
0 = (1 - p) Σ xio - p (n - Σ xio).
Espandiamo il lato destro e vediamo:
0 = Σ xio - p Σ xio - p n + pΣ xio = Σ xio - p n.
Quindi Σ xio = p n e (1 / n) Σ xio = p. Ciò significa che lo stimatore della massima probabilità di p è una media campionaria. Più specificamente questa è la proporzione campionaria dei semi germinati. Ciò è perfettamente in linea con ciò che l'intuizione ci direbbe. Al fine di determinare la proporzione di semi che germineranno, innanzitutto prendere in considerazione un campione dalla popolazione di interesse.
Ci sono alcune modifiche all'elenco di passaggi sopra. Ad esempio, come abbiamo visto sopra, in genere vale la pena dedicare un po 'di tempo all'utilizzo di algebra per semplificare l'espressione della funzione di probabilità. La ragione di ciò è di facilitare la differenziazione.
Un'altra modifica all'elenco di passaggi sopra è considerare i logaritmi naturali. Il massimo per la funzione L si verificherà nello stesso punto in cui si verifica per il logaritmo naturale di L. Pertanto massimizzare ln L equivale a massimizzare la funzione L.
Molte volte, a causa della presenza di funzioni esponenziali in L, prendere il logaritmo naturale di L semplifica notevolmente parte del nostro lavoro.
Vediamo come usare il logaritmo naturale rivisitando l'esempio dall'alto. Iniziamo con la funzione di verosimiglianza:
L ( p ) = pΣ xio (1 - p)n - Σ xio .
Quindi utilizziamo le nostre leggi sul logaritmo e vediamo che:
R ( p ) = ln L ( p ) = Σ xio ln p + (n - Σ xio) ln (1 - p).
Vediamo già che la derivata è molto più facile da calcolare:
R '( p ) = (1 /p) Σ xio - 1 / (1 - p) (n - Σ xio) .
Ora, come prima, impostiamo questa derivata uguale a zero e moltiplichiamo entrambi i lati per p (1 - p):
0 = (1- p ) Σ xio - p(n - Σ xio) .
Risolviamo per p e trova lo stesso risultato di prima.
L'uso del logaritmo naturale di L (p) è utile in un altro modo. È molto più facile calcolare una seconda derivata di R (p) per verificare che abbiamo davvero un massimo nel punto (1 / n) Σ xio = p.
Per un altro esempio, supponiamo di avere un campione casuale X1, X2,… Xn da una popolazione che stiamo modellando con una distribuzione esponenziale. La funzione di densità di probabilità per una variabile casuale è della forma f( X ) = θ-1 e -X/ θ
La funzione di probabilità è data dalla funzione di densità di probabilità congiunta. Questo è un prodotto di molte di queste funzioni di densità:
L (θ) = Π θ-1 e -Xio/ θ = θ-n e -Σ Xio/ θ
Ancora una volta è utile considerare il logaritmo naturale della funzione di verosimiglianza. Differenziare ciò richiederà meno lavoro che differenziare la funzione di probabilità:
R (θ) = ln L (θ) = ln [θ-n e -Σ Xio/ θ]
Usiamo le nostre leggi sui logaritmi e otteniamo:
R (θ) = ln L (θ) = - n ln θ + -ΣXio/ θ
Differenziamo rispetto a θ e abbiamo:
R '(θ) = - n / θ + ΣXio/ θ2
Imposta questa derivata uguale a zero e vediamo che:
0 = - n / θ + ΣXio/ θ2.
Moltiplica entrambi i lati per θ2 e il risultato è:
0 = - n θ + ΣXio.
Ora usa l'algebra per risolvere θ:
θ = (1 / n) ΣXio.
Vediamo da ciò che la media del campione è ciò che massimizza la funzione di probabilità. Il parametro θ per adattarsi al nostro modello dovrebbe essere semplicemente la media di tutte le nostre osservazioni.
Connessioni
Esistono altri tipi di stimatori. Un tipo alternativo di stima è chiamato stimatore imparziale. Per questo tipo, dobbiamo calcolare il valore atteso della nostra statistica e determinare se corrisponde a un parametro corrispondente.