La funzione di distribuzione cumulativa nei dati distribuiti normalmente
17 ore fa p Robert Keim Se ti stai unendo a noi in questa discussione sulle statistiche e l'ingegneria elettrica, potrebbe essere utile prima rivedere gli articoli precedenti della serie: Ecco cosa sappiamo dagli articoli precedenti: Se l'integrazione di parti della funzione di densità di probabilità è la chiave per estrarre le probabilità dai dati misurati, ci si potrebbe chiedere circa la possibilità di integrare semplicemente l'intera funzione e quindi produrre una nuova funzione che ci dia accesso diretto alle informazioni di probabilità. A quanto pare, questa è una tecnica standard nell'analisi statistica e questa nuova funzione che otteniamo integrando l'intera funzione di densità di probabilità è chiamata funzione di distribuzione cumulativa. L'utilizzo di una funzione di distribuzione cumulativa (CDF) è un'idea particolarmente buona quando lavoriamo con dati distribuiti normalmente perché l'integrazione della curva gaussiana non è particolarmente facile.
Infatti, per creare la CDF della curva gaussiana, anche i matematici devono ricorrere all'integrazione numerica: la funzione \ (e ^ {- x ^ 2} \) non ha una antiderivativa che possa essere espressa in forma elementare. Ciò significa che il CDF gaussiano è in realtà una sequenza di valori discreti generati da numerosi campioni individuali presi lungo la curva gaussiana. Nell'era dei computer, possiamo facilmente elaborare un numero immenso di campioni e, di conseguenza, il CDF discreto prodotto dall'integrazione numerica può essere un sostituto perfettamente adeguato per una funzione continua ottenuta tramite l'integrazione simbolica.
Se tracciamo un numero elevato di valori nella CDF gaussiana, la curva avrà questo aspetto: Il grafico seguente mostra sia la funzione di densità di probabilità gaussiana originale che il suo CDF, in modo da poter avere un'idea di come l'integrazione trasforma l'una nell'altra. Una breve nota prima di andare avanti: potresti vedere il simbolo Φ (la lettera greca maiuscola phi) nelle discussioni statistiche. Quando una distribuzione normale ha una media di 0 e una deviazione standard di 1, viene chiamata distribuzione normale standard.
La CDF della distribuzione normale standard è indicata con; in tal modo, Quando integriamo una funzione di densità di probabilità dall'infinito negativo a un valore indicato con z, stiamo calcolando la probabilità che una misurazione selezionata casualmente, o una nuova misurazione, cada all'interno dell'intervallo numerico che si estende dall'infinito negativo a z. In altre parole, stiamo calcolando la probabilità che il valore misurato sia inferiore a z. Questa è esattamente l'informazione che otteniamo dalla CDF e senza bisogno di integrazione.
Se guardiamo la CDF e troviamo il valore verticale corrispondente a un numero z sull'asse orizzontale, conosciamo la probabilità che un valore misurato sarà minore di z. Il CDF ha un valore di 0,5 in z = 0.
Questo ci dice che una misurazione selezionata casualmente ha una probabilità del 50% di essere inferiore a zero. Questo risultato ha un senso intuitivo: la distribuzione normale è simmetrica rispetto alla media, e poiché la media è zero in questo caso, ogni singola misurazione ha la stessa probabilità di essere minore o maggiore di zero. Il CDF fornisce anche un modo semplice per determinare la probabilità che una misurazione ricada in un intervallo specifico.
Se l'intervallo è definito dai due valori z1 e z2, tutto ciò che dobbiamo fare è sottrarre il valore del CDF a z2 dal valore del CDF a z1 (e quindi prendi il valore assoluto se necessario). La probabilità che una misurazione selezionata casualmente sia compresa tra –5 e +5 è di circa 0,84 - 0.
16 = 0,68 (o 68%). Il valore più preciso è 68.
27%. Avrai notato che l'intervallo scelto nell'esempio precedente era uguale a una deviazione standard sopra e sotto la media. Quando discutiamo le probabilità con riferimento agli intervalli riportati in unità di deviazione standard, le informazioni si applicano a tutti i set di dati che seguono la distribuzione normale.
Pertanto, possiamo specificare le caratteristiche di probabilità utilizzando il CDF della distribuzione normale standard e quindi estendere queste tendenze ad altri set di dati semplicemente cambiando la deviazione standard (o pensando in termini di deviazioni standard). Abbiamo visto sopra che nei dati distribuiti normalmente, un valore misurato ha una probabilità del 68,27% di rientrare in una deviazione standard della media.
Possiamo continuare a riepilogare i dati distribuiti normalmente come segue: Queste tre probabilità forniscono una semplice panoramica di come si comporteranno le misurazioni normalmente distribuite. Una versione più approssimativa di questo riepilogo è nota come regola 68-95-99.7: se un set di dati mostra una distribuzione normale, circa il 68% dei valori sarà entro una deviazione standard della media, circa il 95% sarà entro due deviazioni standard e circa 99.
Il 7% sarà entro tre deviazioni standard. Abbiamo trattato del materiale importante e spero che ti stia divertendo a esplorare la distribuzione normale e gli argomenti statistici correlati. Nel prossimo articolo esamineremo due misure statistiche descrittive non molto conosciute: asimmetria e curtosi.
.
Yorumlar
Yorum Gönder