איך מחשבים חריגים?
כדי לחשב חריגים של מערך הנתונים, ראשית יהיה עליך למצוא את החציון. לאחר מכן, קבל את הרבעון התחתון, או Q1, על ידי מציאת החציון של המחצית התחתונה של הנתונים שלך. בצע את אותו הדבר במחצית הגבוהה יותר של הנתונים שלך וקרא לזה Q3. מצא את הטווח הבין-רביעי על ידי מציאת ההבדל בין 2 הרביעיות. לאחר מכן, חישבו את הגדרות הפנימיות של הנתונים על ידי הכפלת הטווח ב -1,5, גרעו אותו מ- Q1 והוסיפו אותו ל- Q3. כל מה שמחוץ למספרים אלה הוא חריגה מינורית. כדי למצוא חריגים עיקריים, הכפל את הטווח ב -3 ועשה את אותו הדבר. לקבלת דוגמאות וטיפים מה לעשות עם חריגים, המשך לקרוא!
בסטטיסטיקה, חריגה היא נקודת נתונים השונה באופן משמעותי מנקודות הנתונים האחרות במדגם. לעיתים קרובות, חריגים במערכת נתונים יכולים להתריע בפני סטטיסטיקאים על חריגות ניסיוניות או שגיאות במדידות שבוצעו, מה שעלול לגרום להם להשמיט את החריגים ממערכת הנתונים. אם הם אכן משמיטים חריגים ממערכת הנתונים שלהם, עשויים לחול שינויים משמעותיים במסקנות שהוסקו מהמחקר. מסיבה זו, לדעת כיצד לחשב ולהעריך חריגים חשוב להבטיח הבנה נכונה של נתונים סטטיסטיים.
- 1למד כיצד לזהות חריגים פוטנציאליים. לפני שנחליט אם להשמיט ערכים חיצוניים ממערך נתונים נתון או לא, ראשית, מן הסתם, עלינו לזהות את החריגים הפוטנציאליים של מערך הנתונים. באופן כללי, חריגים הם נקודות נתונים הנבדלות מאוד מהמגמה שבאה לידי ביטוי הערכים האחרים במערך הנתונים - במילים אחרות, הם נמצאים מחוץ לערכים האחרים. בדרך כלל קל לזהות זאת בטבלאות נתונים או (במיוחד) בגרפים. אם מערך הנתונים בא לידי ביטוי חזותית בגרף, נקודות המרוחקות יהיו "רחוקות" מהערכים האחרים. אם, למשל, מרבית הנקודות בערכת נתונים מהוות קו ישר, הערכים המרוחקים לא יוכלו להתפרש בצורה סבירה להתאים לקו.
- בואו ניקח בחשבון מערך נתונים המייצג את הטמפרטורות של 12 אובייקטים שונים בחדר. אם ל -11 מהאובייקטים יש טמפרטורות בטווח של כמה מעלות של 21 מעלות צלזיוס (21 מעלות צלזיוס), אך האובייקט השתים עשרה, תנור, טמפרטורה של 149 מעלות צלזיוס (150 מעלות צלזיוס), בדיקה חטופה יכולה לומר לך תנור הוא יוצא מן הכלל..
- 2סדר את כל נקודות הנתונים מהנמוך לגבוה ביותר. השלב הראשון בחישוב חריגים במערכת נתונים הוא למצוא את הערך החציוני (האמצעי) של מערך הנתונים. משימה זו פשוטה מאוד אם הערכים בערכת הנתונים מסודרים לפי הסדר לפחות לגדול ביותר. לכן, לפני שתמשיך, מיין את הערכים בערכת הנתונים שלך באופן זה.
- בואו נמשיך בדוגמה שלמעלה. הנה מערך הנתונים שלנו המייצג את הטמפרטורות של כמה אובייקטים בחדר: {71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}. אם אנו מזמינים את הערכים בערכת הנתונים מהנמוך לגבוה ביותר, קבוצת הערכים החדשה שלנו היא: {69, 69, 70, 70, 70, 70, 71, 71, 71, 72, 73, 300}.
- 3חשב את החציון של מערך הנתונים. החציון של מערך נתונים הוא נקודת הנתונים שמעליה מחצית מהנתונים ומתחתיה מחצית מהנתונים - למעשה, זו הנקודה "האמצעית" בערכת נתונים. אם מערך הנתונים מכיל מספר אי זוגי של נקודות, קל למצוא את זה - החציון הוא הנקודה שמספר הנקודות זהה למטה כמו שמתחתיה. עם זאת, אם יש מספר זוגי של נקודות, מכיוון שאין נקודת אמצע אחת, יש לממוצע על שתי נקודות האמצע כדי למצוא את החציון. שים לב שכאשר מחשבים חריגים, לחציון מקבלים בדרך כלל את המשתנה Q2 - הסיבה לכך היא שהוא נמצא בין Q1 ל- Q3, הרביעיות התחתונות והעליונות, אותם נגדיר בהמשך.
- אל תתבלבלו בין ערכות נתונים למספר נקודות שווה - הממוצע של שתי הנקודות האמצעיות יהיה לרוב מספר שלא מופיע בערכת הנתונים עצמה - זה בסדר. עם זאת, אם שתי נקודות האמצע הן אותו מספר, הממוצע, כמובן, יהיה גם המספר הזה, וזה גם בסדר.
- בדוגמה שלנו, יש לנו 12 נקודות. המונחים 2 האמצעיים הם נקודות 6 ו -7 - 70 ו -71 בהתאמה. לכן, החציון של קבוצת הנתונים שלנו הוא הממוצע של שתי הנקודות הללו: ((70 + 71) / 2), = 70,5.
- 4חשב את הרבעון התחתון. נקודה זו, אליה נקצה את המשתנה Q1, היא נקודת הנתונים שמתחתיה 25 אחוז (או רבע) מהתצפיות שנקבעו. במילים אחרות, זוהי נקודת האמצע של הנקודות בערכת הנתונים שלך מתחת לחציון. אם יש מספר זוגי של ערכים מתחת לחציון, עליך שוב לממוצע שני הערכים האמצעיים כדי למצוא את Q1, ממש כמו שהיית צריך לעשות כדי למצוא את החציון עצמו.
- בדוגמה שלנו, 6 נקודות מונחות מעל החציון ו 6 נקודות מונחות מתחתיו. משמעות הדבר היא שכדי למצוא את הרבעון התחתון, נצטרך לממוצע את שתי הנקודות האמצעיות של שש הנקודות התחתונות. נקודות 3 ו -4 של 6 התחתונות שוות ל 70. לפיכך, הממוצע שלהן הוא ((70 + 70) / 2), = 70. 70 יהיה הערך שלנו לרבעון הראשון
- 5חשב את הרבעון העליון. נקודה זו, שמוקצה למשתנה Q3, היא נקודת הנתונים שמעליה 25 אחוז מהנתונים. מציאת Q3 כמעט זהה למציאת Q1, אלא שבמקרה זה הנקודות מעל החציון ולא מתחתיה נלקחות בחשבון.
- בהמשך לדוגמה לעיל, שתי הנקודות האמצעיות של 6 הנקודות מעל החציון הן 71 ו -72. ממוצע של 2 נקודות אלו נותן ((71 + 72) / 2), = 71,5. 71,5 יהיה הערך שלנו ברבעון השלישי.
- 6מצא את הטווח הבין-רבעוני. כעת, לאחר שהגדרנו את Q1 ו- Q3, עלינו לחשב את המרחק בין שני המשתנים הללו. המרחק בין Q1 ל- Q3 נמצא על ידי חיסור Q1 מ- Q3. הערך שתשיג עבור הטווח הבין-רבעוני הוא חיוני לקביעת הגבולות לנקודות שאינן יוצאות דופן במערכת הנתונים שלך.
- בדוגמה שלנו, הערכים שלנו עבור Q1 ו- Q3 הם 70 ו- 71,5, בהתאמה. כדי למצוא את הטווח הבין-רבעוני, אנו מפחיתים את Q3 - Q1: 71,5 - 70 = 1,5.
- שים לב שזה עובד גם אם Q1, Q3 או שניהם הם מספרים שליליים. לדוגמא, אם ערך ה- Q1 שלנו היה -70, הטווח הבין-רבעוני שלנו יהיה 71,5 - (-70) = 141,5, וזה נכון.
- 7מצא את "הגדרות הפנימיות" עבור מערך הנתונים. מחריצים מזוהים על ידי הערכה האם הם נופלים בתוך קבוצת גבולות מספריים הנקראים "גדרות פנימיות" ו"גדרות חיצוניות ". נקודה שנופלת מחוץ לגדרות הפנימיות של מערך הנתונים מסווגת כמייצג מינורי, ואילו נקודה שנופלת מחוץ לגדרות החיצוניות מסווגת כמייצרית גדולה. כדי למצוא את הגדרות הפנימיות של מערך הנתונים שלך, ראשית, הכפל את הטווח הבין-רבעוני ב -1,5. לאחר מכן, הוסף את התוצאה ל- Q3 והחסר אותה מ- Q1. שני הערכים המתקבלים הם גבולות הגדרות הפנימיות של מערך הנתונים שלך.
- בדוגמה שלנו, הטווח הבין-רבעוני הוא (71,5 - 70), או 1,5. הכפלת זה עם 1,5 תשואות 2,25. אנו מוסיפים את המספר הזה ל- Q3 ומחסירים אותו מ- Q1 כדי למצוא את גבולות הגדרות הפנימיות באופן הבא:
- 71,5 + 2,25 = 73,75
- 70 - 2,25 = 67,75
- לפיכך גבולות הגדר הפנימית שלנו הם 67,75 ו- 73,75.
- במערכת הנתונים שלנו, רק הטמפרטורה של התנור - 300 מעלות - נמצאת מחוץ לטווח זה ולכן עשויה להיות חריגה קלה. עם זאת, טרם קבענו אם טמפרטורה זו היא חריגה עיקרית, לכן אל לנו להסיק מסקנות עד שנעשה זאת.
- בדוגמה שלנו, הטווח הבין-רבעוני הוא (71,5 - 70), או 1,5. הכפלת זה עם 1,5 תשואות 2,25. אנו מוסיפים את המספר הזה ל- Q3 ומחסירים אותו מ- Q1 כדי למצוא את גבולות הגדרות הפנימיות באופן הבא:
- 8מצא את "הגדרות החיצוניות" עבור מערך הנתונים. זה נעשה באותו אופן כמו הגדרות הפנימיות, אלא שהטווח הבין-רבעוני מוכפל ב- 3 במקום ב- 1,5. התוצאה מתווספת ל- Q3 ומופחתת מ- Q1 כדי למצוא את הגבולות העליונים והתחתונים של הגדר החיצונית.
- בדוגמה שלנו, הכפלת הטווח הבין-רביעי לעיל ב -3 תשואות (1,5 * 3), או 4,5. אנו מוצאים את גבולות הגדר החיצונית באופן זהה לקודם:
- 71,5 + 4,5 = 76
- 70 - 4,5 = 65,5
- גבולות הגדר החיצונית שלנו הם 65,5 ו -76.
- כל נקודות נתונים שנמצאות מחוץ לגדרות החיצוניות נחשבות לחריגות גדולות. בדוגמה זו, טמפרטורת התנור, 300 מעלות, שוכנת הרבה מחוץ לגדרות החיצוניות, כך שהיא בהחלט חריגה גדולה.
- בדוגמה שלנו, הכפלת הטווח הבין-רביעי לעיל ב -3 תשואות (1,5 * 3), או 4,5. אנו מוצאים את גבולות הגדר החיצונית באופן זהה לקודם:
- 9השתמש בהערכה איכותית כדי לקבוע אם "לזרוק" חריגים. באמצעות המתודולוגיה שתוארה לעיל, ניתן לקבוע אם נקודות מסוימות הן חריגות קלות, חריגות גדולות או לא חריגות כלל. עם זאת, אין לטעות - זיהוי נקודה כמו נתון חריג רק סימנים בו בתור מועמד עבור השמטה ממערך הנתונים, לא כנקודה כי חייב להיות מושמטת. סיבה שחריגה שונה משאר הנקודות בערכת הנתונים היא מכריעה בקביעה אם להשמיט את החריגה או לא. באופן כללי, חריגים שניתן לייחס לשגיאה כלשהי - למשל שגיאה במדידה, הקלטה או תכנון ניסיוני. מצד שני, חריגים שאינם מיוחסים לשגיאה וחושפים מידע חדש או מגמות שלא נחזו בדרך כלל אינם מושמטים.
- קריטריון נוסף שיש לקחת בחשבון הוא האם חריגים משפיעים באופן משמעותי על הממוצע (ממוצע) של מערך הנתונים באופן שמטה אותו או גורם לו להיראות מטעה. חשוב במיוחד לקחת בחשבון אם אתה מתכוון להסיק מסקנות מממוצע מערך הנתונים שלך.
- בואו נעריך את הדוגמה שלנו. בדוגמה שלנו, מכיוון שזה מאוד לא סביר שהתנור הגיע לטמפרטורה של 300 מעלות באמצעות כוח טבעי בלתי צפוי כלשהו, אנו יכולים להסיק כמעט בוודאות שהתנור הושאר בטעות, וכתוצאה מכך קריאה חריגה בטמפרטורה גבוהה. כמו כן, אם לא נשמיט את החריג, ממוצע מערך הנתונים שלנו הוא (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73 + 300) / 12 = 89,67 מעלות, בעוד הממוצע אם אנחנו עושים להשמיט את קיצון הוא (69 + 69 + 70 + 70 + 70 + 70 + 71 + 71 + 71 + 72 + 73) / 11 = 70,55.
- מכיוון שניתן לייחס את החריגה לטעות אנוש ומכיוון שלא מדויק לומר שהטמפרטורה הממוצעת של החדר הזה הייתה כמעט 90 מעלות, עלינו לבחור להשמיט את החריגה שלנו.
- 10להבין את החשיבות של שמירה (לפעמים) על חריגים. אמנם יש להשמיט כמה חריגים ממערכות הנתונים מכיוון שהם נובעים מטעות ו / או תוצאות מוטות בדרכים שאינן מדויקות או מטעות, אך יש לשמור על חריגים מסוימים. אם, למשל, נראה כי חריגה מתקבלת באמת (כלומר, לא תוצאה של טעות) ו / או נותנת תובנה חדשה כלשהי לגבי התופעה הנמדדת, אין להשמיטם על הסף. ניסויים מדעיים הם מצבים רגישים במיוחד כאשר מתמודדים עם חריגים - השמטת חריג בטעות יכולה להיות השמטת מידע המסמל מגמה או גילוי חדשים כלשהם.
- למשל, בואו נגיד שאנחנו מתכננים תרופה חדשה להגדלת גודל הדגים בחוות דגים. נשתמש בערכת הנתונים הישנה שלנו ({71, 70, 73, 70, 70, 69, 70, 72, 71, 300, 71, 69}), אלא שהפעם כל נקודה תייצג את מסת הדג (בגרמים) לאחר שטופלו בתרופה ניסיונית אחרת מאז הלידה. בשנת אחרים מילים, התרופה הראשונה נתן דג אחד מסה של 71 גרם, התרופה השנייה מסרה דג שונה מסה של 70 גרם, וכן הלאה. במצב זה, 300 עדיין מהווה חריגה גדולה, אך אסור לנו להשמיט זאת מכיוון שבהנחה שזה לא נובע משגיאה, זה מהווה הצלחה משמעותית בניסוי שלנו. התרופה שהניבה דג של 300 גרם עבדה טוב יותר מכל שאר התרופות, כך שהנקודה הזו היא למעשה הכי הרבהחשוב במערכת הנתונים שלנו, ולא בפחות.
- כאשר נמצאים חריגים, נסה להסביר את נוכחותם לפני שזורק אותם ממערכת הנתונים; הם יכולים להצביע על שגיאות מדידה או חריגות בהתפלגות.
- מחשבון
שאלות ותשובות
- איזה מדד לנטייה מרכזית אינו מושפע מחריגים?כל מדדי הנטייה המרכזית מושפעים מחריגים, אך החציון מושפע לפחות. לדוגמא, אם החציון הוא 5 והמספר שמעליו הוא 6, לא משנה אם יש לך מספר נוסף שהוא 7 או שהמספר הזה הוא 300. מכיוון שחציון הוא בעיקר על מספר מספרים בכל צד, חריגה לא תשפיע על זה יותר מכל מספר אחר.
- האם ייתכן שמחצית מערך הנתונים שלי יהיו חריגים אם אני מתמודד עם מערך נתונים גדול?כנראה שלא. נניח שקבוצת הנתונים שלך היא 4000 מדידות לחץ דם סיסטולי. ברוב המחקרים, רק כדי למנוע את הבעיה עם שגיאות מדידה בבני אדם, לחץ הדם ידווח כממוצע של שתי דגימות. זה מקטין מאוד את הטעות האנושית. לחצים סיסטוליים מסוימים יהיו יותר מ 200 מ"מ כספית, בעוד שאחרים נמוכים מ 100 מ"מ כספית. סמכו על הסטטיסטיקה הסיכומית שלכם ואז עשו קצת גרפיקה.
- במציאת הגדר הפנימית, האם אני תמיד צריך להכפיל את טווח הרבעונים ב -1,5?ערך חיצוני הוא ערך X כזה או שהוא, X> הרביעייה העליונה + 1,5x (הרבעון העליון-הרבעון התחתון), הרבעון Xupper + 3,0x (הרבעון העליון-הרבעון התחתון) או X
- האם יכול להיות יותר מחריגה אחת?עם כמויות גדולות של נתונים, ייתכן שיהיו מספר חריגים מרובים, אך זה יכול להיות די קשה לזהות אותם מכיוון שהם נוטים יותר ליפול במרכז הרבעונים.
- אנא ספר לי מדוע 1,5 ו- 3 שימשו להכפלת ה- IQR בעת קביעת הגדרות הפנימיות והחיצוניות. איך הם נוצרו? האם הם דמות קבועה?1.5 משמש תמיד להכפלת ה- IQR כדי למצוא את הגדרות. הסיבה לכך היא שההגדרה של יוצא מהכלל היא כל נקודת נתונים הנמצאת ביותר מ -1,5 IQR מתחת לרבעון הראשון או מעל לרבע השלישי. ו -3 הוא רק כפול 1,5.
- כיצד אוכל לחשב טווח בין רביעי?מצא את החציון של הנתונים (אם זהו מספר יחיד, אל תכלול אותו בשני הצדדים) והפריד לשתי קבוצות. לאחר מכן, מצא את החציון של כל קבוצה. החציון הראשון הוא רביע 1 (Q1) והשני הוא רביעית שלוש (Q3). השתמש בנוסחה הכללית (Q3 - Q1) כדי למצוא את הטווח הבין-רבעוני.
- האם ניתן להשתמש בטכניקה זו עם מידות מדגם קטנות?כן, זה יכול (תלוי כמה קטן גודל המדגם). אם גודל המדגם הוא 4+, אז כן.
- מה עלי לעשות אם הטווח הבין-רבעוני הוא שלילי?הטווח לעולם לא יכול להיות שלילי באמת. אם הטווח הבין-רביעי שלך שלילי, גרעת את הרבעון העליון מהרביע התחתון. כדי לתקן זאת, הפחת את הרבעון התחתון מהרבעון העליון או הכפל את התשובה הנוכחית שלך ב -1.
- כיצד אוכל לחשב זאת כאשר החיצוני התחתון שלי הוא שלילי?זה בסדר שיהיה החיצוני התחתון שלך כשלילי, פשוט תחשב אותו באותה צורה.
- אתה משתמש ב -1,5 כדי לבצע את החישוב, אבל יש מדענים שאומרים להשתמש ב -2,2. מה אתה חושב על זה?בסטטיסטיקה אתה משתמש ב -1,5.
- אם מספר מונח בדיוק על גבולות הגדר הפנימית, האם הוא עדיין נחשב כזר חורג?
- האם יש הערכה כמותית לגבי מידת הערך החריג?
- האם ניתן להשתמש בטכניקה זו עבור מערכי נתונים שאינם פרמטריים?