Trovare relazioni statistiche: correlazione, causalità e covarianza
10 ore fa p Robert Keim In questa serie sulle statistiche nell'ingegneria elettrica, Robert Keim, direttore tecnico di All About Circuits, suddivide le definizioni di alto livello e gli esempi di concetti statistici che possono essere applicati nel processo di progettazione. Puoi recuperare il ritardo sugli articoli fino ad ora nel seguente elenco o passare alla sezione "Correlazione e causa" di seguito. Supponiamo di avere un sistema di comunicazione wireless che ci sta dando problemi.
Il tasso di errore in bit (BER) cambia drasticamente da un test sul campo all'altro e non c'è una causa ovvia per questo comportamento instabile. A peggiorare le cose, i test sul campo non sono nemmeno vicini a esperimenti controllati e ci sono parecchi fattori - condizioni termiche e atmosferiche, vibrazioni, interferenze RF, EMI da apparecchiature vicine, orientamento, velocità relativa - che potrebbero influenzare il sistema prestazione. Un modo per affrontare questa situazione è scegliere i fattori che hanno maggiori probabilità di influenzare pesantemente il BER, raccogliere alcuni dati e cercare relazioni causali.
Poiché è spesso molto difficile dimostrare la causalità, la nostra analisi quantifica effettivamente la correlazione e quindi possiamo presumere che la correlazione indichi la causalità (che è rischiosa) o tentare di dimostrare la causalità raccogliendo nuovi dati da un esperimento progettato con cura. Pertanto, la ricerca della causalità inizia con la ricerca della correlazione e la correlazione inizia con la covarianza. La misura statistica descrittiva chiamata varianza è discussa in un precedente articolo che copre anche la deviazione standard.
La varianza (indicata con σ2) è la potenza media, espressa in unità di potenza, delle deviazioni casuali in un insieme di dati. Calcoliamo la varianza come segue: dove N è il numero di valori nel set di dati (cioè
, la dimensione del campione) e μ è la media. Supponiamo di iniziare la nostra indagine portando il sistema fuori per diversi test sul campo e archiviando numerose coppie ordinate costituite da temperatura ambiente e BER. Ad esempio, potremmo calcolare il BER medio durante cinque minuti di funzionamento e quindi accoppiare tale dato con la temperatura media durante lo stesso intervallo.
Quindi ripetiamo la procedura di misurazione durante il successivo intervallo di cinque minuti e i successivi cinque- intervallo di un minuto e così via. I dati di temperatura e BER avranno la loro varianza separata, ovvero
, la tendenza dei valori in un dato insieme di dati a deviare dalla media dello stesso insieme di dati. Ma possiamo anche calcolare la covarianza, che cattura la tendenza dei valori nei due set di dati a variare linearmente insieme (o, più concisamente, a co-variare linearmente, da cui il nome "covarianza"). I tre grafici seguenti forniscono una spiegazione visiva di cosa significa per variabili covariare.
La seguente relazione matematica è definita come la covarianza di due variabili X e Y: \ [\ operatorname {cov} (X, Y) = \ operatorname {E} {{\ big [} (X- \ operatorname {E} [X]) (Y- \ operatorname {E} [Y]) {\ grande]}} \] Per dati discreti con dimensione del campione N, abbiamo \ [\ operatorname {cov} (X, Y) = \ frac {1} {N-1} \ sum_ {i = 1} ^ {N} (X_i- \ operatorname {E} [X]) (Y_i- \ nome operatore {E} [Y]) \] Potresti non avere familiarità con la notazione E [X]. "E" sta per "valore atteso", che è uguale alla media aritmetica. (C'è una sottile distinzione concettuale tra valore atteso e media, ma questo è un argomento per un altro articolo.
) Volevo introdurre questa notazione perché il concetto di valore atteso ci offre un altro modo di pensare alla media di un dato set: è il valore che ci aspettiamo che sia la misurazione successiva, nel senso che questo valore atteso ha la più alta probabilità di accadimento. La formula di covarianza ha un senso intuitivo, se ci pensi per un minuto o due: La covarianza quantifica la correlazione lineare esibita da due variabili casuali. Tuttavia, i valori di covarianza sono alquanto difficili da interpretare e nel prossimo articolo discuteremo di due versioni modificate della covarianza che rendono più conveniente l'analisi della correlazione.
.
Yorumlar
Yorum Gönder