Il bootstrap è una tecnica statistica che rientra nella più ampia rubrica del ricampionamento. Questa tecnica prevede una procedura relativamente semplice, ma ripetuta così tante volte da dipendere fortemente dai calcoli del computer. Il bootstrap fornisce un metodo diverso dagli intervalli di confidenza per stimare un parametro di popolazione. Il bootstrap sembra funzionare come per magia. Continua a leggere per vedere come ottiene il suo nome interessante.
Un obiettivo delle statistiche inferenziali è determinare il valore di un parametro di una popolazione. In genere è troppo costoso o addirittura impossibile misurarlo direttamente. Quindi usiamo il campionamento statistico. Campioniamo una popolazione, misuriamo una statistica di questo campione e quindi usiamo questa statistica per dire qualcosa sul parametro corrispondente della popolazione.
Ad esempio, in una fabbrica di cioccolato, potremmo voler garantire che le barrette di cioccolato abbiano un peso medio particolare. Non è possibile pesare ogni barretta prodotta, quindi utilizziamo tecniche di campionamento per scegliere casualmente 100 barrette. Calcoliamo la media di queste 100 barrette di cioccolato e diciamo che la media della popolazione rientra in un margine di errore da quale sia la media del nostro campione.
Supponiamo che pochi mesi dopo desideriamo sapere con maggiore precisione - o meno un margine di errore - quale fosse il peso medio della barretta di zucchero nel giorno in cui abbiamo campionato la linea di produzione. Non possiamo usare le barrette di cioccolato di oggi, poiché troppe variabili sono entrate in scena (diversi lotti di latte, zucchero e fave di cacao, diverse condizioni atmosferiche, diversi impiegati sulla linea, ecc.). Tutto ciò che abbiamo dal giorno in cui siamo curiosi sono i 100 pesi. Senza una macchina del tempo fino a quel giorno, sembrerebbe che il margine di errore iniziale sia il migliore che possiamo sperare.
Fortunatamente, possiamo usare la tecnica del bootstrap. In questa situazione, campioniamo casualmente con la sostituzione dai 100 pesi noti. Quindi lo chiamiamo un esempio bootstrap. Poiché consentiamo la sostituzione, molto probabilmente questo campione bootstrap non è identico al nostro campione iniziale. Alcuni punti dati possono essere duplicati e altri punti dati dai 100 iniziali possono essere omessi in un campione bootstrap. Con l'aiuto di un computer, è possibile creare migliaia di campioni bootstrap in un tempo relativamente breve.
Come accennato, per usare veramente le tecniche bootstrap dobbiamo usare un computer. Il seguente esempio numerico aiuterà a dimostrare come funziona il processo. Se iniziamo con l'esempio 2, 4, 5, 6, 6, sono possibili tutti i seguenti esempi di bootstrap:
Le tecniche Bootstrap sono relativamente nuove nel campo della statistica. Il primo utilizzo è stato pubblicato in un articolo del 1979 di Bradley Efron. Poiché la potenza di calcolo è aumentata e diventa meno costosa, le tecniche di bootstrap sono diventate più diffuse.
Il nome "bootstrap" deriva dalla frase "Per sollevarsi dai suoi bootstrap". Questo si riferisce a qualcosa di assurdo e impossibile. Prova il più forte possibile, non puoi sollevarti in aria tirando i pezzi di pelle sugli stivali.
Esiste una teoria matematica che giustifica le tecniche di bootstrap. Tuttavia, l'uso del bootstrap sembra che tu stia facendo l'impossibile. Sebbene non sembri in grado di migliorare la stima di una statistica della popolazione riutilizzando più volte lo stesso campione, il bootstrap può, in effetti, fare questo.