Skip navigation

Maths e-book

Statistica descrittiva

Lezioni del prof. Lucio Miani

La statistica descrittiva cerca di sintetizzare una quantità di dati sperimentali riassumendo le caratteristiche salienti con pochi indici o grafici significativi. Se si vuole, per esempio, trarre determinate informazioni sulla crescita dei pini di un bosco, si può anche pensare di entrare nel bosco e misurare, una per una, le altezze di tutte gli alberi, certamente però questo sistema avrebbe costi elevati. Pertanto si effetueranno le misure su un numero ridotto di pini, scelti a caso tra quelli presenti nel bosco. Dalle misurazioni fatte su un certo numero di alberi, estratto a campione, si cercherà di risalire alle caratteristiche di tutti gli alberi del bosco. Questo tipo di procedura prende il nome di inferenza statistica. La statistica inferenziale, quindi, estraendo ed esaminanando un campione di una certa popolazione, ne elabora e sintetizza i dati con i metodi della statistica descrittiva, per poi fare previsioni di tipo probabilistico per valutare le caratteristiche principali della massa totale della popolazione.

Variabili qualitative e quantitative

Le variabili statistiche possono essere qualitative, se esprimono una qualità dell’individuo, (ad esempio sesso, colore capelli, razza). Una variabile qualitativa non viene misurata, ma classificata in categorie sulla base delle modalità con cui essa si presenta (maschio femmina, castano biondo, ). D’altra parte esistono le variabili quantitative, che possono essere misurate su una scala discreta (numero di persone) o su una scala continua (statura delle persone).

Distribuzioni di frequenza

Avendo a che fare con un numero elevato di dati, è conveniente considerare le frequenze delle unità sperimentali: la frequenza assoluta non è altro che il numero degli individui che presentano una certa misura (per un carattere quantitativo) o una certa modalità (per un carattere qualitativo). Ad esempio se su 100 persone 20 sono di razza caucasica, 35 sono di razza asiatica e 45 sono di razza subsahariana, si può dedurre che la frequenza assoluta degli asiatici è pari a 45. Se si ha a che fare con variabili quantitative su scala continua, prima di calcolare le frequenze è conveniente suddividere l’intervallo delle misure in una serie di classi di frequenza. Ad esempio, se abbiamo considerato 3000 persone ed abbiamo osservato che 115 hanno altezze comprese tra 180 e 185 cm, possiamo conclude che la frequenza degli individui della classe 180-185 cm è pari a 115. Oltre alle frequenze assolute, possiamo considerare anche le frequenze relative, che si calcolano dividendo le frequenze assolute per il numero totale degli individui del collettivo. Nei casi prima accennati, la frequenza relativa dei caucasici è pari a 20/100, cioè 0.2, mentre la frequenza relativa degli individui nella classe 180-185 è pari a 115/3000, cioè 0.038. Se si ha una variabile quantitativa o comunque una variabile nella quale le modalità o le classi di frequenza possono essere logicamente ordinate, oltre alle frequenze assolute e relative si possno prendere in considerazione le cosiddette frequenze cumulate, che si ottengono cumulando i valori di tutte le classi di frequenza precedenti a quella considerata. Ad esempio se tra le 3000 persone anzidette 224 hanno altezze comprese tra 185 e 190 cm, la frequenza cumulata della classe è pari a 224+115 = 339, che si ottiene sommando alla frequenza assoluta di classe la frequenza assoluta delle classi precedenti.

Gli indici di posizione costituiscono un modo semplice ed immediato per sintetizzare in un solo valore una raccolta di dati eterogenei.

 


Medie ferme

Si definiscono medie ferme quelle che utilizzano tutti i valori della distribuzione di frequenza, per individuare una particolare modalità che ha una collocazione centrale rispetto a tutte le altre.

Media aritmetica e ponderata


Definizione: la media aritmetica di una serie di dati sperimentali x1, x2, ... xn viene calcolata sommando i valori, dividendoli poi per il loro numero complessivo.


La media aritmetica è l'indice statistico più utilizzato al quale si fa riferimento anche nel parlare comune, rappresenta e riassume in se un insieme di dati presi su un fenomeno misurabile.



Media armonica

La media armonica di n termini x1, x2 ... xn, è data dal reciproco della media aritmetica dei reciproci.


La media armonica è utilizzata per la determinazione di valori medi di certi dati che sono espressi in funzione del reciproco di altri dati. Trova applicazione per il calcolo del prezzo medio di un bene allo scopo di determinare il potere di acquisto della moneta nel tempo, oppure per calcolare la velocità media di un veicolo che percorre spazi uguali a velocità differenti.


Media geometrica


La media geometrica di n termini x1, x2 ... xn, è la radice n-esima del prodotto degli n valori.


La media geometrica è utilizzata per la determinazione di valori medi quando i dati sono legati l'uno l'altro a variazioni legate nel tempo, ad esempio per determinare il tasso medio di interesse di un capitale.


Media quadratica


La media quadratica di n termini x1, x2 ... xn, e' data dalla radice quadrata della media aritmetica dei quadrati dei numeri.


La media quadratica è utilizzata per la determinazione di valori medi quando si deve eliminare l’influenza dei segni e quando si deve evidenziare l’esistenza nella distribuzione di valori molto grandi o molto piccoli. La media quadratica trova applicazione nell’analisi di superfici.


Esiste la seguente relazione d'ordine tra i vari tipi di media: A<G<M<Q. Dove si è indicato con la lettera A la media armonica, con la G la media geometrica, con M la media aritmetica, e con Q la media quadratica.

 


Medie lasche

Si definiscono medie lasche quelle che utilizzano solo alcuni valori particolari della distribuzione di frequenza, per individuare una particolare modalità che ha una collocazione central e rispetto a tutte le altre.

Tra le medie lasche, sono riconducibili:

Moda

La Moda o valore normale è la modalità del carattere cui corrisponde la massima frequenza.

E’ data dalla modalità con la massima frequenza E’ l’unica media che si può applicare indifferentemente a serie e a seriazioni ed appunto questa la sua maggiore utilità La Moda di una distribuzione di frequenza è la modalità cui corrisponde la massima frequenza, assoluta o relativa. Per distribuzioni che presentano due o più modalità con massima frequenza si parla di distribuzioni bimodali o plurimodali. La moda può essere calcolata per qualunque carattere statistico, sia esso qualitativo che quantitativo. Nella realtà, essa trova però scarsa applicazione nel caso di variabili continue (distribuzione in classi) in quanto: appare irreale immaginare che vi sia un unico valore moda della distribuzione affermare che per una classe modale (classe con maggior frequenza) il valore centrale sia rappresentativo della stessa è una semplificazione non facilmente accettabile.

Mediana

La mediana è particolarmente utile nella sintesi di distribuzioni asimmetriche; in questo caso infatti la media aritmetica, considerando anche i valori estremi anomali, finirebbe col sovrastimare il fenomeno

Per distribuzioni in classi, la mediana si calcola in due passi. Innanzi tutto si perviene alla identificazione della classe mediana come quella classe la cui funzione di ripartizione F è pari a ½. Successivamente si identifica, attraverso un calcolo proporzionale, il valore mediano all’interno della classe mediana.

La mediana di una serie di dati sperimentali x1, x2, ... xn è il valore centrale, se n è dispari, la media aritmetica dei due valori centrali, se n è pari

Quartili

Come già affermato, la mediana è un indice che bipartisce egualmente la distribuzione ordinata. Estendendo questo concetto a più ripartizioni è possibile definire i quartili. Dividendo egualmente la distribuzione in quattro parti, si identificano: il primo quartile Q1. Rappresenta quella modalità tale che il 25% delle osservazioni assumono valori inferiori ad essa mentre il restante 75% hanno valori superiori. il secondo quartile Q2 che equivale alla mediana. il terzo quartile Q3. Rappresenta quella modalità tale che il 75% delle osservazioni assumono valori inferiori ad essa mentre il restante 25% hanno valori superiori. Analogamente, ripartendo la distribuzione in dieci o cento parti, si possono definire i decili così come i percentili. La mediana corrisponderà al quinto decile e al cinquantesimo percentile.

Gli indici si distinguono in:

1. Indici di dispersione assoluta, che sono espressi nella stessa unità di misura del fenomeno osservato.

2. Indici di dispersione relativa, che prescindono dall’unità di misura e possono presentarsi sotto forma di percentuale.

 


Indici assoluti di dispersione

Campo di variazione

Se i dati sperimentali della distribuzione sono di carattere quantitativo, le diverse modalità rilevate possono essere ordinate dalla più piccola alla più grande: x1, x2, x3...xn

Definizione: il campo di variazione è la differenza tra il valore massimo ed il valore minimo C.V.=xn-x1.

Scarto semplice medio

Definizione: lo scarto medio semplice di una serie di valori sperimentali x1, x2,...xn è dato dalla sommatoria delle differenze in valore assoluto tra i dati sperimentali xi e la media aritmetica M dei valori diviso il numero dei dati n.

Scarto quadratico medio

Definizione: lo scarto quadratico medio di una serie di valori sperimentali x1, x2, ... xn è dato dalla radice quadrata della media aritmetica dei quadrati degli scarti dalla loro media aritmetica.

La distribuzione Gaussiana e lo scarto quadratico medio

La distribuzione Gaussiana è la più importante distribuzione statistica, si chiama anche distribuzione normale in quanto molti fenomeni complessi, ma collegati a situazioni reali possono essere descritti da una curva gaussiana. La particolarità di questa curva è che le frequenze più elevate si hanno nei valori centrali e con frequenze progressivamente minori verso gli estremi della variabile a disporsi secondo curva detta a campana. E' chiamata anche curva degli errori accidentali, in quanto, nella misurazione ripetute di una certa grandezza fisica si possono commettere degli errori, ma le varie misure tendono a concentrarsi attorno a un singolo valor medio. La distribuzione Gaussiana è caratterizzata dalla seguente funzione di densità di probabilità, cui spesso si fa riferimento con la dizione di curva di Gauss o gaussiana:

dove con M si è indicata la media aritmetica, con σ lo scarto quadratico medio, e rappresenta il numero di Nepero, x rappresenta i valori presi in esame. Il calcolo dello scarto quadratico medio è molto importante nelle distribuzioni gaussiane. In una distribuzione Gaussiana infatti, lo scarto quadratico medio σ, permetta di conoscere l'intervallo, centrato sulla media, attorno a cui si concentra un determinato numero di dati.

intervallo valori
in
percentuale
inf sup
x m - σ x m + σ 68,27
x m - 2σ x m + 2σ 95,45
x m - 3σ x m + 3σ 99,73

Si può dimostrare che se x m è la media aritmetica della distribuzione, negli intervalli:

[xm - σ , xm + σ] cade il 68,27% dei dati.

[x m-2σ , x m+2σ] cade il 95,45% dei dati.

[x m-3σ, x m+3σ] cade il 99,73% dei dati.

Nella tabella a sinistra un riepilogo della situazione.


Varianza

Definizione: la varianza è la media degli scarti quadratici medi.

La varianza, si indica con σ2 poichè corrisponde al quadrato dello scarto quadratico medio.


Differenza media semplice

  2 4 6 7 8 10  
2 0 2 4 5 6 8 25
4   0 2 3 4 6 15
6     0 1 2 4 7
7       0 1 3 4
8         0 2 2
10           0 0
semitotale 54
totale 108

Gli indici di variabilità come campo di variazione, scarto semplice medio, scarto quadratico medio, varianza, si ottengono determinando gli scarti tra le modalità del carattere e la sua media.

La differenza media semplice, invece, si ottiene sommando le differenze in valore assoluto delle modalità del carattere prese a due a due. In tabella, per esempio, si sono calcolate le differenze medie in valore assoluto di sei numeri: 2, 4, 6, 7, 8, 10.

Sono stati ordinati in ordine crescente e in ogni cella è stata calcolata la differenza in valore assoluto tra il numero della stessa colonna e nella prima riga ed il numero della stessa riga e prima colonna. La parte della tabella che stà al di sotto della diagonale non è stata compilata per semplificare il calcolo del totale in quanto la tabella è simmestrica rispetto alla diagonale stessa. Nell'ultima riga infine sono state calcolate le somme di ogni riga e, sommando tutti questi valori, si è ottenuto 54 che rappresenta la semisomma di tutti i valori. La somma è quindi il doppio appunto perchè metà della tabella non è stata completata,ovvero 108. Dividendo questo numero per 30 che rappresenta il numero dei valori, presenti in tabella, diversi da zero, otteniamo la differenza media che è 3,6.

Più in genere, se il numero dei valori è n, il numero delle celle presenti in tabella sarà n2 però in una diagonale ci saranno n valori uguali a zero. I valori diversi da zero saranno quindi n2-n=n(n-1). La differenza media Δ, sarà calcolata sui n(n-1) dati diversi da zero.


 


Indici relativi di dispersione

Il coefficiente di variazione

Definizione: il coefficiente di variazione, di un dato campione, è il rapporto tra lo scarto quadratico medio σ e il valore assoluto della sua media aritmetica.


E' un indice di dispersione che permette di confrontare misure di fenomeni riferite a unità di misura differenti, in quanto si tratta di un numero puro. Si può esprimere anche in termini di percentuale moltiplicando il valore ottenuto per cento. Si noti che ha senso calcolarlo solo per campioni aventi la media aritmetica non nulla.

Esempio 1

mediaσC.V.
Milano10,503,150,3
Roma9,202,980,32

Supponiamo di voler confrontare i prezzi di un bene di consumo in due città, Roma e Milano. Dopo aver raccolto i dati supponiamo di aver ottenendo i risultati in tabella. Confrontando gli scarti quadratici, saremo portati a dire che i prezzi a Milano abbiano una variabilità maggiore. Però, dobbiamo calcolare la variabilità rispetto al valore medio ovvero va confrontato il coefficiente di variazione, dal quale si deduce che a Roma i prezzi hanno una variabilità più elevata che a Milano.

Esempio 2

mediaσC.V.
stipendi €1250€3200,25
età 43 15 0,34

Se l'uso del coefficiente di variazione è utile per confrontare fenomeni della stessa natura, a maggior ragione è ancora più importante quando si confrontano fenomeni che hanno caratteristiche ed unità di misura diverse. In una ditta si sono rilevati gli stipendi e l'età degli impiegati. Dopo aver calcolato media e scarto quadratico medio si sono ottenuti i valori dei coefficienti di variazine riportati in tabella. Si sono così confrontati dati con caratteristiche estremamente diverse.


La concentrazione


La concentrazione è un aspetto della variabilità di un fenomeno. Per esemplificare, tra gli abitanti di un paese dell'europa occidentale non ci sono grandi disparità di ricchezza perchè non ci sono grandi differenze di reddito, in Russia, invece, la ricchezza è concentrata in poche persone. L'analisi della concentrazione serve ad indicare quanto un fenomeno è uniformemente distribuito oppure è concentrato in poche unità.

Uno strumento che permette di valutare il grado di concentrazione è la curva di Lorenz chiamata anche spezzata di concentrazione. Questa curva è una funzione, il cui grafico è ottenuto unendo con dei segmenti i punti che hanno per ascissa e ordinata rispettivamente le frequenze relative cumulate e le intensità relative cumulate del fenomeno. Viene definita area di concentrazione la regione di piano che è delimitata dalla bisettrice y=x, e dalla spezzata di concentrazione. Maggiore è quest'area, maggiore è la concentrazione.

Se le frequenze cumulate fossero uguali alle intensità cumulate si avrebbe una equidistribuzione del reddito, ovvero tutti avrebbero lo stesso reddito e quindi stessa ricchezza. In tal caso, la spezzata di concentrazione corrisponderebbe ad un tratto della retta y=x. Si osservi che tanto più la spezzata si avvicina alla retta di equidistribuzione, ovvero tanto minore è l'area di concentrazione, più la ricchezza è distribuita equamente. Il caso estremo si verifica nel caso in cui nessuno possiede ricchezza, tranne gli appartenenti all'ultima classe. In questo caso la spezzata di concentrazione è costituita dal triangolo rettangolo isoscele, che ha per ipotenusa un tratto della retta bisettrice il primo e terzo quadrante e che ha un'area pari a 0,5. Questo triangolo costituisce l'area di massima concentrazione.

Il rapporto di concentrazione è dato dal rapporto tra l'area di concentrazione e l'area di massima concentazione.

Attraverso un esempio vediamo come si possa calcolare questo indice che si può anche esprimere in termini di percentuale.

Esempio 1

In una ditta lavorano 30 persone, inquadrate in sei classi stipendiali, ciò significa che gli stipendi non sono tutti uguali, quindi, come si può notare nella tabella, la somma totale a disposizione dei 30 lavoratori, non è egualmente distribuita. Innanzitutto valutiamo a quanto ammontano le somme di danaro a disposizione dei lavoratori di ogni classe stipendiale, moltiplicando il valore centrale della classe per la frequenza, ossia per il numero dei lavoratori della classe stipendiale. In presenza di una distribuzione di frequenza in classi, nel calcolo della media è necessario individuare, per ogni classe un valore rappresentativo della stessa. Si introduce il concetto di valore centrale della classe. Esso è ottenuto come semi-somma degli estremi di ogni classe. La media è calcolata come media ponderata dei valori centrali per le rispettive frequenze delle classi. Il valore ottenuto rappresenta l'intensità della classe. La frequenza cumulata si calcola sommando ai valori della classe, quelli delle classi precedenti. L'intensità cumulata si calcola sommando ai valori della classe, quelli delle classi precedenti. Addizionando i valori di tutte le classi otteniamo 33150 che è l'intensità globale del fenomeno.

Analizzando le colonne della frequenza cumulata e della intensità cumulata, notiamo che:

2 lavoratori hanno a disposizione 1300 euro dei 33150 euro complessivi,

9 lavoratori hanno a disposizione 7600 euro dei 33150 euro complessivi,

19 lavoratori hanno a disposizione 18600 euro dei 33150 euro complessivi,

27 lavoratori hanno a disposizione 28600 euro dei 33150 euro complessivi,

29 lavoratori hanno a disposizione 31400 euro dei 33150 euro complessivi, in termini percentuali quindi,

il 6,6% dei lavoratori riceve il 3,9% dell'ammontare complessivo,

il 30% dei lavoratori riceve il 22,9% dell'ammontare complessivo,

il 63,3% dei lavoratori riceve il 56% dell'ammontare complessivo,

il 90% dei lavoratori riceve il 86,2% dell'ammontare complessivo,

il 96,6% dei lavoratori riceve il 94,7% dell'ammontare complessivo.


stipendio valore centrale frequenza intensità frequenza cumumulata intensità cumulata frequenza relativa cumulata intensità relativa cumulata calcolo area trapezi (B+b)h/2 area trapezi
min max
I 500 800 650 2 1300 2 1300 0,066 0,0392 (0,0392+0)(0,066)/2 0,0013
II 800 1000 900 7 6300 9 7600 0,3 0,2292 (0,2292+0,0392)(0,3-0,066)/2 0,0313
III 1000 1200 1100 10 11000 19 18600 0,633 0,560 (0,560+0,2292)(0,633-0,3)/2 0,1317
IV 1200 1300 1250 8 10000 27 28600 0,9 0,8627 (0,8627+5,60)(0,9-0,633)/2 0,1898
V 1300 1500 1400 2 2800 29 31400 0,966 0,9472 (0,9472+0,8627)(0,966-0,9)/2 0,0603
VI 1500 2000 1750 1 1750 30 33150 1 1 (1+0,9472)(1-0,966)/2 0,0324
somma aree trapezi0,4469

Inseriamo in un diagramma cartesiano i punti che hanno per ascissa le frequenze relative cumulate e per ordinata le rispettive intensità relative cumulate. Questi punti, che sono contenuti in un quadrato di lato unitario, costituiscono gli estremi di segmenti che vanno a costituire la spezzata di concentrazione.



Ora si deve determinare l'area di concentrazione che è compresa tra la retta di equidistribuzione e la spezzata di concentrazione. Quest'area è data dalla differenza tra 0,5 che è l'area del triangolo rettangolo isoscele che ha per ipotenusa la retta di equidistribuzione e l'area che stà al di sotto della retta di concentrazione. Quest'ultima area si ottiene sommando le aree dei trapezi rettangoli, in nero, che stanno al di sotto della spezzata di concentrazione e che hanno per altezza la differenza tra le frequenze relative cumulate e per base maggiore e base minore due intensità relative cumulate contigue. Si noti che il primo "trapezio" di fatto è un triangolo.


area di massima concentrazione = 1•1/2 0,5
area concentrazione = area di massima concentrazione-somma aree trapezi 0,0530
indice concentrazione = area concentrazione/area di massima concentrazione 0,1060
percentuale dell'area di massima concentrazione occupata dall'area di concentrazione 10,6 %

Calcolo automatico dell'indice di concentrazione


Inserendo valore centrale e frequenza, il sistema completerà la tabella, calcolando automaticamente l'indice di concentrazione


valore
centrale
frequenza intensità frequenza
cumulata
intensità
cumulata
frequenza
relativa
cumulata
intensità
relativa
cumulata
area
trapezi
somma aree trapezi
area concentrazione=area di massima concentrazione-somma aree trapezi
indice di concentrazione=area di concentrazione/area di massima concentrazione
percentuale dell'area di massima concentrazione occupata dall'area di concentrazione
Sito realizzato da Lucio Miani