Cum să detectați valorile aberante: 10 pași (cu imagini)

Cuprins:

Cum să detectați valorile aberante: 10 pași (cu imagini)
Cum să detectați valorile aberante: 10 pași (cu imagini)

Video: Cum să detectați valorile aberante: 10 pași (cu imagini)

Video: Cum să detectați valorile aberante: 10 pași (cu imagini)
Video: HOW TO BE A FOOTWEAR DESIGNER 2024, Mai
Anonim

În statistici, un outlier sau „outlier” este o datum care se abate foarte departe de orice altă datum dintr-un eșantion sau un set de date (setul de date se numește date). Adesea, un outlier dintr-un set de date poate servi ca avertisment pentru statistician cu privire la o anomalie sau eroare experimentală în măsurătorile luate, ceea ce ar putea duce statisticianul să elimine outlierul din setul de date. Dacă statisticianul elimină valorile aberante din setul de date, concluziile trase din studiu pot fi foarte diferite. Prin urmare, cunoașterea calculării și analizei valorilor aberante este foarte importantă pentru a asigura înțelegerea corectă a unui set de date statistice.

Etapa

Calculați valorile aberante Pasul 1
Calculați valorile aberante Pasul 1

Pasul 1. Aflați cum să identificați date potențial mai periculoase

Înainte de a decide dacă eliminăm sau nu date externe din setul de date, desigur, trebuie să identificăm care date pot avea potențialul de a deveni valori anormale. În general, un outlier este un datum care se abate foarte departe de celelalte date dintr-un set de date - cu alte cuvinte, un outlier este „în afara” celorlalte date. De obicei, este ușor să detectați valori aberante într-un tabel de date sau (în special) într-un grafic. Dacă un set de date este descris vizual cu un grafic, datele anterioare vor apărea ca fiind „foarte departe” de celelalte date. Dacă, de exemplu, majoritatea datum-urilor dintr-un set de date formează o linie dreaptă, originea anterioară nu va fi interpretată în mod rezonabil ca formând acea linie.

Să ne uităm la un set de date care reprezintă temperaturile a 12 obiecte diferite dintr-o cameră. Dacă 11 obiecte au o temperatură de aproximativ 70 Fahrenheit (21 grade Celsius), dar al 12-lea obiect, un cuptor, are o temperatură de 300 Fahrenheit (150 grade Celsius), se poate vedea imediat că temperatura cuptorului este foarte probabil să fie un outlier

Calculați valorile aberante Pasul 2
Calculați valorile aberante Pasul 2

Pasul 2. Aranjați datele dintr-un set de date de la cel mai mic la cel mai mare

Primul pas pentru calcularea valorilor aberante dintr-un set de date este găsirea medianei (valoarea medie) a acelui set de date. Această sarcină devine foarte simplă dacă datele dintr-un set de date sunt aranjate de la cel mai mic la cel mai mare. Deci, înainte de a continua, aranjați datele într-un astfel de set de date.

Să continuăm exemplul de mai sus. Acesta este setul nostru de date care reprezintă temperaturile mai multor obiecte dintr-o cameră: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. Dacă aranjăm datele de la cel mai mic la cel mai mare, ordinea datumelor devine: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}

Calculați valorile aberante Pasul 3
Calculați valorile aberante Pasul 3

Pasul 3. Calculați mediana setului de date

Mediana unui set de date este o dată în care cealaltă jumătate a datei este deasupra acelei date, iar jumătatea rămasă este sub aceasta - practic, acea dată este cea care se află în „mijlocul” setului de date. Dacă numărul de date dintr-un set de date este impar, este foarte ușor de găsit - mediana este baza de date care are același număr deasupra și dedesubt. Cu toate acestea, dacă numărul de date din setul de date este egal, atunci, pentru că nu se încadrează o dată în mijloc, cele două date din mijloc sunt calculate pentru a găsi mediana. Trebuie remarcat faptul că, la calcularea valorilor aberante, medianei i se atribuie de obicei variabila Q2-ni deoarece Q2 este între Q1 și Q3, quartila inferioară și superioară, despre care vom discuta mai târziu.

  • Nu trebuie confundat cu un set de date în care numărul de date este egal - media celor 2 date de mijloc va returna adesea un număr care nu se află în setul de date în sine - acest lucru este în regulă. Cu toate acestea, dacă cele 2 date de mijloc sunt același număr, media, desigur, va fi, de asemenea, același număr, ceea ce este, de asemenea, bine.
  • În exemplul de mai sus, avem 12 date. Cele 2 date de mijloc sunt cele de-a 6-a și a 7-a, respectiv 70 și 71. Deci, mediana setului nostru de date este media acestor 2 numere: ((70 + 71) / 2), = 70.5.
Calculați valorile aberante Pasul 4
Calculați valorile aberante Pasul 4

Pasul 4. Calculați quartila inferioară

Această valoare, pe care o dăm variabilei Q1, este baza de date care reprezintă 25% (sau un sfert) din datele de bază. Cu alte cuvinte, datumul este bisectat datumele care se află sub mediana. Dacă numărul de date sub mediana este egal, trebuie să mediați din nou cele 2 date din mijloc pentru a găsi Q1, la fel cum ați face pentru a găsi mediana în sine.

În exemplul nostru, există 6 date care se află deasupra medianei și 6 date care se află sub mediana. Aceasta înseamnă că, pentru a găsi quartila inferioară, va trebui să mediați cele 2 date în mijlocul celor 6 date sub mediană. Al treilea și al patrulea datum de 6 date sub mediana sunt ambele 70. Deci, media este ((70 + 70) / 2), = 70. 70 devine Q1-ul nostru.

Calculați valorile aberante Pasul 5
Calculați valorile aberante Pasul 5

Pasul 5. Calculați quartila superioară

Această valoare, pe care o dăm variabilei Q3, este baza de date pe care există 25 la sută din datele din setul de date. Găsirea Q3 este aproape la fel ca G1, cu excepția faptului că, în acest caz, ne uităm la datele de deasupra medianei, nu sub mediană.

Continuând exemplul nostru de mai sus, cele 2 date din mijlocul celor 6 date de deasupra medianei sunt 71 și 72. Media acestor 2 date este ((71 + 72) / 2), = 71, 5. 71, 5 fiind Q3-ul nostru.

Calculați valorile aberante Pasul 6
Calculați valorile aberante Pasul 6

Pasul 6. Găsiți distanța intercuartilă

Acum că am găsit Q1 și Q3, trebuie să calculăm distanța dintre aceste două variabile. Distanța de la Q1 la Q3 se găsește scăzând Q1 din Q3. Valorile pe care le obțineți pentru distanțele interquartile sunt foarte importante pentru definirea limitelor de date non-outlier din setul dvs. de date.

  • În exemplul nostru, valorile noastre pentru Q1 și Q3 sunt 70 și 71, 5. Pentru a găsi distanța interquartilă, scădem Q3 - Q1 = 71,5 - 70 = 1, 5.
  • Trebuie remarcat faptul că acest lucru este valabil și dacă Q1, Q3 sau ambele sunt numere negative. De exemplu, dacă valoarea Q1 a fost -70, distanța interquartilă corectă ar fi 71,5 - (-70) = 141, 5.
Calculați valorile aberante Pasul 7
Calculați valorile aberante Pasul 7

Pasul 7. Găsiți „gardul interior” în setul de date

Valorile aberante se găsesc verificând dacă baza de date se încadrează în limitele numerice numite „gard interior” și „gard exterior”. O datum care se încadrează în afara gardului interior al setului de date este denumită „outlier minor”, în timp ce o datum care se află în afara gardului exterior este denumită „outlier major”. Pentru a găsi gardul interior în setul de date, înmulțiți mai întâi distanța intercuartilă cu 1, 5. Apoi, adăugați rezultatul cu Q3 și, de asemenea, scădeți-l din Q1. Cele două valori pe care le obțineți sunt limitele gardului interior al setului de date.

  • În exemplul nostru, distanța intercuartilă este (71,5 - 70), sau 1,5. Înmulțiți 1,5 cu 1,5 ceea ce rezultă în 2,25. Adăugăm acest număr la Q3 și scădem Q1 cu acest număr pentru a găsi limitele gardului interior după cum urmează:

    • 71, 5 + 2, 25 = 73, 75
    • 70 - 2, 25 = 67, 75
    • Deci, limitele gardului nostru interior sunt 67, 75 și 73, 75.
  • În setul nostru de date, doar temperatura cuptorului, 300 Fahrenheit - se află în afara acestor limite și, prin urmare, această dată este o valoare anormală minoră. Cu toate acestea, încă nu am calculat dacă această temperatură este o valoare anterioară majoră, așa că nu treceți la concluzii până nu vom face calculele noastre.

    Calculați valorile aberante Pasul 7 Bullet2
    Calculați valorile aberante Pasul 7 Bullet2
Calculați valorile aberante Pasul 8
Calculați valorile aberante Pasul 8

Pasul 8. Găsiți „gardul exterior” în setul de date

Acest lucru se face în același mod ca și găsirea gardului interior, cu excepția faptului că distanța intercuartilă este înmulțită cu 3 în loc de 1,5. Rezultatul este apoi adăugat la Q3 și scăzut din Q1 pentru a găsi limitele superioare și inferioare ale gardului exterior.

  • În exemplul nostru, înmulțirea distanței interquartile cu 3 dă (1, 5 x 3) sau 4, 5. Găsim limitele gardului exterior în același mod ca înainte:

    • 71, 5 + 4, 5 = 76
    • 70 - 4, 5 = 65, 5
    • Limitele gardului exterior sunt 65.5 și 76.
  • Datele care se află în afara graniței gardului exterior sunt denumite valori aberante majore. În acest exemplu, temperatura cuptorului, 300 Fahrenheit, este în mod clar în afara gardului exterior, astfel încât această dată este „cu siguranță” o valoare anterioară majoră.

    Calculați valorile aberante Pasul 8 Bullet2
    Calculați valorile aberante Pasul 8 Bullet2
Calculați valorile aberante Pasul 9
Calculați valorile aberante Pasul 9

Pasul 9. Folosiți judecata calitativă pentru a determina dacă să „aruncați” sau nu datele anterioare

Folosind metoda descrisă mai sus, se poate determina dacă o bază de date este o bază minoră, o bază majoră sau nu este deloc o valoare anterioară. Totuși, nu faceți nicio greșeală - găsirea unei date ca valoare anterioară marchează doar acea dată ca „candidat” care trebuie eliminat din setul de date, nu ca o dată care „ar trebui” aruncată. „Motivul” care determină devierea unei date anterioare să se abată de la alte date dintr-un set de date este foarte important pentru a determina dacă trebuie aruncat sau nu. În general, o valoare anterioară cauzată de o eroare în măsurare, înregistrare sau planificare experimentală, de exemplu, poate fi aruncată. Pe de altă parte, valorile aberante care nu sunt cauzate de erori și care indică informații noi sau tendințe care nu au fost prevăzute anterior sunt de obicei „nu” aruncate.

  • Un alt criteriu de luat în considerare este dacă valoarea anterioară are un efect mare asupra mediei unui set de date, adică dacă anormalul îl confundă sau îl face să pară greșit. Acest lucru este foarte important de luat în considerare dacă intenționați să trageți concluzii din media setului de date.
  • Să studiem exemplul nostru. În acest exemplu, din moment ce pare „extrem de” improbabil ca cuptorul să fi atins 300 Fahrenheit prin forțe naturale imprevizibile, putem concluziona cu aproape certitudinea că cuptorul a fost lăsat accidental pornit, rezultând o anomalie de referință a temperaturii ridicate. De asemenea, dacă nu eliminăm valorile aberante, media setului nostru de date este (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 Fahrenheit (32 grade Celsius), în timp ce media dacă eliminăm valorile aberante este (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55 Fahrenheit (21 grade Celsius).

    Deoarece aceste valori aberante au fost cauzate de erori umane și pentru că ar fi incorect să spunem că temperatura medie a camerei ajunge la aproape 90 Fahrenheit (32 grade Celsius), este mai bine să alegem să „aruncăm” valorile aberante

Calculați valorile aberante Pasul 10
Calculați valorile aberante Pasul 10

Pasul 10. Cunoașteți importanța (uneori) a menținerii valorilor aberante

Deși unele valori aberante ar trebui eliminate din setul de date deoarece cauzează erori și / sau fac rezultatele inexacte sau eronate, unele valori aberante ar trebui menținute. Dacă, de exemplu, un outlier pare a fi dobândit în mod natural (adică nu rezultatul unei erori) și / sau oferă o nouă perspectivă asupra fenomenului studiat, outlierul nu trebuie eliminat din setul de date. Cercetarea științifică este de obicei o situație foarte sensibilă atunci când vine vorba de valori aberante - eliminarea incorectă a valorilor aberante poate însemna aruncarea informațiilor care indică o nouă tendință sau descoperire.

De exemplu, să presupunem că proiectăm un medicament nou pentru a crește dimensiunea peștilor dintr-un iaz de pește. Vom folosi vechiul nostru set de date ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), cu excepția faptului că, de data aceasta, fiecare dat va reprezenta greutatea unui pește (în grame) după administrarea unui medicament experimental diferit de la naștere. Cu alte cuvinte, primul medicament determină un pește să cântărească 71 de grame, al doilea medicament determină un alt pește să cântărească 70 de grame și așa mai departe. În acest caz, 300 este „încă” un mare atu, dar nu ar trebui să aruncăm această dată deoarece, presupunând că a fost obținută fără nicio eroare, reprezintă un succes în studiu. Medicamentul care poate face peștele să cântărească 300 de grame funcționează mai bine decât toate celelalte medicamente, astfel încât această dată este de fapt „cea mai importantă” din setul nostru de date, nu „cea mai puțin importantă”

Recomandat: