Trovare relazioni statistiche con i coefficienti di correlazione



16 ore fa p Robert Keim\n\nQuesta serie, scritta dal direttore dell'ingegneria di AAC Robert Keim, esplora come gli ingegneri elettrici utilizzano le statistiche. Se stai solo partecipando alla discussione, potresti voler rivedere gli articoli precedenti della serie.\n\nNell'articolo precedente abbiamo discusso di covarianza, correlazione e causalità. \u003cbr\u003e\n\nPer due set di dati con dimensione del campione N, calcoliamo la covarianza come segue:\n\n\\ [\\ operatorname {cov} (X, Y) \u003d \\ frac {1} {N-1} \\ sum_ {i \u003d 1} ^ {N} (X_i- \\ operatorname {E} [X]) (Y_i- \\ nome operatore {E} [Y]) \\]\n\n(L'articolo precedente fornisce una spiegazione di questa formula, se la trovi un po 'confusa.) Pensiamo per un momento a cosa accadrebbe se calcolassimo la covarianza tra un set di dati e se stesso:\n\n\\ [\\ operatorname {cov} (X, X) \u003d \\ frac {1} {N-1} \\ sum_ {i \u003d 1} ^ {N} (X_i- \\ operatorname {E} [X]) (E_i- \\ nome operatore {E} [X]) \u003d \\ frac {1} {N-1} \\ sum_ {i \u003d 1} ^ {N} (X_i- \\ nome operatore {E} [X]) ^ 2 \\]\n\nLa formula per la covarianza è diventata la formula per la varianza. Poiché un set di dati è perfettamente correlato con se stesso, vediamo che esiste una connessione tra la varianza e il valore massimo possibile di covarianza. \u003cbr\u003e\n\nQuesta connessione si estende alla deviazione standard perché la varianza è uguale alla deviazione standard al quadrato. Pertanto, la covarianza tra un insieme di dati e se stesso è uguale alla deviazione standard al quadrato, ovvero \u003cbr\u003e, SD (X) SD (X).\n\nSe estendiamo questo al caso generale in cui stiamo calcolando la covarianza di due diversi insiemi di dati, possiamo dire che la correlazione lineare perfetta (e quindi la covarianza massima) corrisponde a un valore di covarianza che è uguale alla deviazione standard del primo set di dati moltiplicato per la deviazione standard del secondo set di dati:\n\n\\ [\\ operatorname {cov} (X, Y) _ {MAX} \u003d \\ operatorname {SD} (X) \\ operatorname {SD} (Y) \\]\n\nLa stessa logica si applica a due set di dati che mostrano una correlazione inversa perfetta. Quindi,\n\n\\ [\\ operatorname {cov} (X, Y) _ {MIN} \u003d - \\ operatorname {SD} (X) \\ operatorname {SD} (Y) \\]\n\nOra abbiamo le informazioni necessarie per interpretare i valori di covarianza. \u003cbr\u003e L'intervallo di covarianza si estende da –SD (X) SD (Y), che indica una correlazione lineare inversa perfetta, a + SD (X) SD (Y), che indica perfetta correlazione lineare. Al centro di questo intervallo c'è zero, che indica una completa assenza di correlazione lineare.\n\nOra possiamo vedere perché la covarianza è, da un punto di vista pratico, molto scomoda. \u003cbr\u003e Un dato grado di correlazione può corrispondere a valori di covarianza molto diversi, perché l'intervallo di covarianza è determinato dalle deviazioni standard dei due set di dati.\n\nPertanto, non possiamo semplicemente segnalare la covarianza e aspettarci che i nostri colleghi comprendano il significato della nostra analisi. Dobbiamo segnalare la covarianza e le deviazioni standard, e il modo più sensato per farlo è incorporare le deviazioni standard nell'analisi di correlazione. \u003cbr\u003e Questo è ciò che chiamiamo coefficiente di correlazione di Pearson:\n\ndove ρX, Y è il coefficiente di correlazione di Pearson per le variabili X e Y (ρ è il greco rho minuscolo). Come puoi vedere, abbiamo semplicemente applicato l'antica tecnica della normalizzazione.\n\nQuando dividiamo la covarianza per il prodotto delle due deviazioni standard, normalizziamo la covarianza in modo tale che ogni coppia di set di dati produrrà un valore nell'intervallo [–1, +1]. \u003cbr\u003e Il risultato è una misura di correlazione lineare che è facilmente interpretabile e che consente confronti diretti.\n\nCome spesso accade nelle statistiche, dobbiamo fare una distinzione tra una popolazione e un campione. Il simbolo ρ indica il coefficiente di correlazione di Pearson di una popolazione. \u003cbr\u003e Quando calcoliamo la correlazione di Pearson di un campione, utilizziamo la lettera r:\n\n\\ [r_ {xy} \u003d {\\ frac {\\ sum _ {i \u003d 1} ^ {N} (x_ {i} - {\\ bar {x}}) (y_ {i} - {\\ bar {y}} )} {{\\ sqrt {\\ sum _ {i \u003d 1} ^ {N} (x_ {i} - {\\ bar {x}}) ^ {2}}} {\\ sqrt {\\ sum _ {i \u003d 1 } ^ {N} (y_ {i} - {\\ bar {y}}) ^ {2}}}}} \\]\n\nNotare che i termini 1 / (N-1) si annullano. Inoltre, potresti non avere familiarità con la barra orizzontale su X e Y: questo è ancora un altro metodo per denotare una media, ed è usato specificamente per la media di un campione piuttosto che per una popolazione. Il simbolo μ indica la media della popolazione. \u003cbr\u003e\n\nCome avrete letto in un precedente articolo, alcuni test statistici, chiamati test parametrici, possono essere applicati solo a dati che presentano una distribuzione sufficientemente normale. Il coefficiente di correlazione di Pearson è un test parametrico e, di conseguenza, se i tuoi dati non sono sufficientemente normali, devi considerare un'alternativa non parametrica.\n\nLa versione non parametrica del coefficiente di correlazione di Pearson è chiamata coefficiente di correlazione del rango di Spearman. \u003cbr\u003e La formula è la stessa, ma viene applicata per classificare le variabili e quantifica la correlazione monotona anziché la correlazione lineare.\n\nIl coefficiente di correlazione di Pearson è una misura statistica preziosa e ampiamente utilizzata che aiuta a rivelare relazioni significative e potenzialmente causali tra le variabili. È essenziale per la ricerca empirica e potrebbe persino tornare utile un giorno durante la risoluzione dei problemi di un sistema elettronico. \u003cbr\u003e.

Yorumlar

Bu blogdaki popüler yayınlar

Classici protocolli CAN vs CAN FD: le differenze che contano per i progettisti

Che cos'è DrMOS, l'IC che alimenta i processori di nuova generazione?

Il modello Elmore Delay nel design VLSI