איך לשקר עם סטטיסטיקה?
כדי לשקר עם סטטיסטיקה, נסה להשתמש במספרים גבוהים או נמוכים באופן חריג כאשר אתה מחשב את הממוצע של משהו שיניף את התוצאות. לדוגמה, אם ל -9 אנשים יש 750 אירו דולר, ואתה גורם לאדם עשירי שיש לו רק 0,70 אירו, הסכום הממוצע שיש לכל אחד בקבוצה הוא 670 אירו, למרות שכמעט לכולם יש יותר מזה. אתה יכול גם לשכב עם סטטיסטיקה באמצעות ערכת נתונים קטנה. לדוגמא, אם אתה סוקר 10000 איש, סביר להניח שהתוצאות שלך יהיו מדויקות, אך אם אתה סוקר רק 5 אנשים, סביר להניח שהתוצאות שלך יהיו כבויות. כדי ללמוד לשקר באמצעות גרפיקה סטטיסטית, גלול מטה!
כידוע לכל מי שעין עין לפרטים, הסטטיסטיקה יכולה להיות חלקלקה מאוד מבלי שיהיה להם רקע לדעת לפרש אותם. קרא את השלבים הבאים כדי ללמוד כיצד לתפוס נתונים סטטיסטיים מסובכים ומטעים ולהשתמש בידע זה לטובתך.
שיטה 1 מתוך 3: שוכב עם ממוצעים
- 1להבין את המינוח. המילה "ממוצע" זורקת הרבה מאוד כשמדברים על נתונים סטטיסטיים. במבט ראשון המונח נשמע די פשוט: הממוצע הוא הכמות שנופלת בערך באמצע. עם זאת, ישנם למעשה כמה סוגים שונים של ממוצעים, אשר כולם עלולים להטעות אם אינם מובנים כראוי.
- הממוצע הממוצע יושג על ידי סיכום כל מספרי ערכת נתונים וחלקו אותם במספר ערכי הסט. במילים אחרות, אם יש לך את המספרים 3, 3, 5, 4 ו- 7, ניתן להגיע לממוצע הממוצע על ידי הוספתם יחד (כדי לקבל 22) ואז חלקי הסכום ב 5 (מכיוון שיש 5 מספרים בספר מערכת).
- בדוגמה זו הממוצע הממוצע הוא 4,4.
- הממוצע החציוני הוא מספר על סט נתונים שנופל באמצע הדרך בין המספרים נמוכים המספרים הגבוהים. תוך שימוש באותם נתונים כמו בעבר (3, 3, 5, 4, ו -7), הממוצע החציוני הוא 4, מכיוון ש -2 מהמספרים נמוכים יותר ו -2 גדולים יותר.
- ממוצע המצב הוא ייצוג של המספר הנפוץ ביותר בקבוצת הנתונים. בעזרת ערכת הדוגמאות שלנו, ממוצע המצב הוא 3, מכיוון שהוא מופיע פעמיים.
- הממוצע הממוצע יושג על ידי סיכום כל מספרי ערכת נתונים וחלקו אותם במספר ערכי הסט. במילים אחרות, אם יש לך את המספרים 3, 3, 5, 4 ו- 7, ניתן להגיע לממוצע הממוצע על ידי הוספתם יחד (כדי לקבל 22) ואז חלקי הסכום ב 5 (מכיוון שיש 5 מספרים בספר מערכת).
- 2שכב עם ממוצעים ממוצעים. הממוצע הממוצע אולי נראה הכי חסין תקלות מכל השיטות שתוארו לעיל, אבל זה למעשה לא המקרה. הסיבה לכך היא שמספרים גבוהים או נמוכים באופן חריג בערכת הנתונים יכולים להניף את הממוצע באופן משמעותי. כדי לשקר עם ממוצע ממוצע, אסוף נתונים רחוקים והשתמש בהם במשוואה שלך.
- לדוגמא, דמיין שאתה סוקר 50 משקי בית בשכונה על הכנסותיהם. מרבית משקי הבית מרוויחים בין 29900 € ל 44800 € בשנה, אך משק בית אחד מרוויח 3,70 מיליון € בשנה. כאשר מחשבים את הממוצע הממוצע, המספר יהיה גבוה משמעותית מההכנסה הממוצעת "האמיתית" באזור זה, מכיוון שמספרם של 3,70 מיליון יורו גדול בהרבה מהאחרים.
- באופן דומה, אם היו לך נתונים המראים כי 9 אנשים כל אחד היו בחשבונות הבנק שלהם 750 €, אך לאדם העשירי יש רק 0,70 €, הממוצע החציוני יסתכם ב -670 € - כמעט 10% פחות כמות משותפת.
- סקרים נחשבים זורקים לעיתים קרובות את המספרים הגבוהים והנמוכים ביותר לפני חישוב הממוצע הממוצע. עם זאת, לא כל סקר שאתה רואה בחדשות מכובד. אלא אם כן יש לך גישה לכל מערך הנתונים בעצמך, או אם אתה רואה הבטחה בכתב כי החריגים הוסרו, זה בטוח יותר להניח שלא.
- 3שכב עם ממוצעים חציוניים. הממוצע החציוני הוא למעשה המספר הכי קשה "לשקר", כי הוא לעולם לא יכול להיות גבוה או נמוך מדי בהשוואה לרוב מערכי הנתונים. הוא חייב להיות במרכז בכורח. עם זאת, ניתן להשתמש בממוצע החציוני כדי להסתיר מספר גדול מאוד או קטן. למשל, אם קבוצת הנתונים שלך היא 1, 1, 2, 3, 4, 5, 3000, הממוצע החציוני הוא 3.
- כאשר יש לך כמות שווה של רשומות, אתה יכול להגיע לממוצע החציוני על ידי מציאת הממוצע של שני הערכים באמצע. זה עדיין לא מתחשב בחריגים.
- היזהר מממוצעים חציוניים המשמשים לתיאור שינויים לאורך זמן. חברה שמעלה את מחיר השירותים שלה ב -3% בכל שנה יכולה להעלות אותם השנה ב -20% ולהסתיר אותה על ידי הצגת ממוצע חציוני של 3% ב -9 השנים האחרונות.
- 4שכב עם ממוצעי מצב. בחלק מהדברים, כמעט ולא ניתן לשכב ממוצעי מצב - מספר הכרטיסים הממוצע שנרכש לאדם למשחק כדור, למשל, כמעט תמיד ישתקף בצורה מדויקת על ידי המצב. עם זאת, גם ממוצעי מצב יכולים לכלול נתונים חשובים, במיוחד בערכות נתונים קטנות יותר.
- למשל, אם יש לך קבוצת נתונים של כל המספרים שנעים בין 1 ל 100, אך המספר 1 נכלל 3 פעמים, 1 יהיה ממוצע המצב של הסט, למרות הממוצע (ובמקרה זה, הגיוני יותר) הממוצע קרוב הרבה יותר ל -50.
- ניתן לתפעל כל סקר שיעורי בקנה מידה רחב כדי להדגיש את המצב. אם אתה סוקר 100 אנשים בסולם של 1 עד 10 בנוגע לתחושותיהם בנושא, ויותר אנשים מעריכים את זה "10" מכל מספר אחר, אז גם אם רק אדם אחד נוסף יתן דירוג 10 מאשר נתן דירוג 1, 10 הוא ממוצע המצב.
- 5שכב עם מספרים מייצגים. אם יש לך סט נתונים שמוגדר על ידי מופשטים, ולא מספרים קונקרטיים (למשל, סקר שביעות רצון לקוחות), קל להפחיד לשכב עם הסט הזה. אם תבקש מאנשים לדרג את שביעות רצונם בסולם שבין 1 ל -3, זה לא בהכרח מוכיח שלקוחות שבחרו 3 שמחים פי שלושה מאלה שבחרו 1. עובדה זו משמשת להטיית ממוצעים ממוצעים במיוחד, אך יכול להיות מיושם גם על ממוצעים חציוניים ולעיתים, אפילו.
שיטה 2 מתוך 3: שוכב עם מערכי נתונים
- 1השתמש בסט קטן. כל סטטיסטיקאי טוב יודע שהדרך היחידה להתקרב לממוצע שימושי או לאתר מגמה אמיתית היא לאסוף נתונים ממערך רחב ככל האפשר. אם אתה יכול לקבל מידע ממאה אנשים, זה טוב; 10000 זה אפילו טוב יותר. ככל שאתה מכניס יותר פריטי מידע למערכת הנתונים שלך, כך יש סיכוי גבוה יותר לקבל ממוצעים מדויקים. באמצעות קבוצה של, למשל, 3 או 5 נתונים, אתה יכול לייצר תוצאות שאינן משקפות במדויק את מצב העניינים.
- למשל, אם אתה מוצא שני אנשים שנפצעו לאחרונה ממשהו מטופש - כמו כרית - ומשתמש בהם בכל מערך הנתונים שלך, אתה יכול לטעון כי כריות מסוכנות באופן מוחלט לכולם. לא משנה באילו ממוצעים תבחרו להציג, כל עוד אינכם חושפים את גודל המדגם של 2 אנשים בלבד, אין דרך ברורה להפריך את טענתכם.
- 2השתמש בערכה מבוקרת. מערכי הנתונים המדויקים ביותר אינם רק גדולים, אלא גם רחבים. לגאולוג הסוקר את סוגי המינרלים במדבר תהיה רשימה מדויקת יותר אם היא אוספת דגימות רבות מכל חלק במדבר, במקום לאסוף 1000 דגימות מאותה נקודה. על ידי הגבלת היקף מערך הנתונים שלך, תוכל להשפיע באופן משמעותי על התוצאות.
- לפעמים זה שימושי ונעשה בכוונה. אנשים שחוקרים שימוש בנתונים דמוגרפיים, למשל, עשויים לרצות לברר באופן ספציפי את סוגי המשרות שגברים נוטים לעסוק בהם, ולכן יסקרו רק גברים. כל עוד זה נאמר בבירור בנתונים, אין בזה שום דבר מוצל.
- נתונים מתוך פרויקטים מחקריים במכללה קטנה בפרט נוטים לקבל לרעה כדי להשוות סט נתונים מבוקר עם תוצאה כללית. הסיבה לכך היא שלפרויקטים רבים של מחקר ברמת המכללה אין את הזמן או את המשאבים להשתמש במדגם רחב ואקראי של אזרחים ממוצעים, והם מסתמכים רק על סטודנטים במכללה. שוב, זה בסדר כל עוד מידע זה נאמר בבירור, אך ארגוני חדשות המחפשים כותרות מרעישות הסתירו לעיתים קרובות את הפרטים של מחקר קטן במכללה כדי לגרום לו להיראות הרבה יותר גורף.
- 3השתמש בסט לא מאוזן. טכניקה זו ערמומית במיוחד, מכיוון שהיא יכולה לשקר אפילו עם הרבה פרטים המסופקים לצופה. הטריק כאן הוא להשתמש בנתונים שלא ניתן להשוות בצורה הוגנת, ולהתייחס אליהם כאילו הם עומדים על בסיס שווה. לדוגמא, אם יש לך עיר של 100000 שצברה 10000 תושבים תוך 10 שנים, ואתה משווה אותה לעיירה של 10 שצברה 10 תושבים נוספים במהלך 10 השנים האחרונות, נראה כי האחוזים עבור כל רווח מראים שהקטנים העיר צמחה הרבה יותר מהר.
- לעתים משתמשים בכך אנשים המנתחים את נתוני השוק כדי להציג תמונה מטעה של נתוני המכירות. נניח שאתה עוקב אחר מכירות של תפוחים ותפוזים, אבל באמצע המחקר לא נותרו תפוזים מכיוון שיש מחסור. אם תמשיך להשוות נתונים להמשך המחקר, יהיה גידול עצום במכירות התפוחים ביחס למכירות התפוזים, למרות שהתפוחים כנראה לא הפכו לפופולריים יותר לפתע.
שיטה 3 מתוך 3: שוכב עם גרפיקה
- 1השאירו את ציר ה- Y ריק. שום דבר לא נותן תמונה ברורה יותר של נתונים מאשר גרף או תרשים, אך אפילו אלה ניתנים למניפולציה עדינה כדי לתת אפקטים שונים. הסיבה לכך היא שאנשים נוטים להסתכל על הצורות והגדלים שבגרפים לפני שהם טורחים לבדוק את הפרטים המספריים המצורפים אליהם. הדרך הפשוטה ביותר לתפעל את ציר ה- y היא פשוט לא לתייג אותו.
- אם יש לך קבוצה של 5 פסים על ציר ה- x, אך אין אינדיקטור לגובהם ביחס זה לזה, אין שום דרך לבדוק אם יש הבדל משמעותי ממשי ביניהם או לא.
- 2השתמש במספרים גדולים מאוד או קטנים על ציר ה- y. נניח שמערכת הנתונים שלך נעה בין 1 ל -50. כדי להסתיר את ההבדלים, למדוד את ציר ה- y שלך במרווחים של 100; כדי להדגיש אותם בצורה לא הוגנת, מדוד את ציר ה- y במרווחים של העשירית. ההבדל בין 3 ל -10 נראה עצום כאשר הוא נמדד בעשיריות (זה 70 יחידות זה מזה!), אבל בקושי מורגש אפילו בגרף שבו 100 הם התוספת הראשונה (זה הרבה, הרבה פחות מיחידה אחת!).
- 3התחל את ציר ה- y דרך הטווח. אם הנתונים שלך נעים בין 11 ל -51, אתה יכול לגרום למספר הנמוך ביותר להיראות נמוך עוד יותר, והמספר הגבוה ביותר נראה אפילו גבוה יותר, על ידי סימון ציר ה- y שלך כך שהוא מתחיל ב- 10. זה הופך את הסרגל שמייצג 11 לקושי גבוה יותר מ ציר ה- X. זה יופיע כמעט כלום אלא אם כן מישהו מתמצא מספיק כדי להסתכל מקרוב ולראות שהגרף התחיל מ -10 במקום 0.
- הפס המייצג 51 הופך גבוה פי 50 מהסרגל המייצג 11 בגרף כזה, מכיוון שהסרגל הקטן יותר הוא בגובה יחידה אחת בלבד. אם הגרף היה מתחיל ב 0, הסרגל המייצג 51 היה פחות מפי 5 מגובה הסרגל המייצג 11.
- 4השתמש בקנה מידה לא תקין. בכל פעם שאתה רואה את המילים "לא להתאמה" באותיות הקטנות, רוב הסיכויים שנתקלת בדוגמה לכך. זה לא תמיד נעשה בזדון; לפעמים המספרים המעורבים שונים כל כך עד שאין דרך לייצג אותם במדויק באותו דף. עם זאת, ניתן להשתמש בו בקלות למטרות לא נעימות.
- לדוגמא, ייצוג חזותי של גודל יכול להימשך לסולם גובה אך לא לסולם רוחב, מה שגורם לאובייקט גבוה יותר (כגון בניין) להיראות דליל או רחב יותר ממה שהוא באמת.
- 5השתמש בגרפיקה כדי להשמיט נתונים. זה נראה בדרך כלל בסקרים רחבים המחלקים תוצאות לפי קטגוריות מסוימות, כגון התרשים המפורסם המראה איזה מונח למשקה מוגז הוא הפופולרי ביותר באיזה מחוז ברחבי אירופה. במבט ראשון, מידע כזה נראה מאוד מפורט, אך עד מהרה מתעוררות שאלות: עד כמה נתוני הסקר רחבים? מה הסף לקביעת התוצאה? האם משתמשים בממוצע ממוצע, חציון או מצב?
- אם היית משתמש בתוצאה אחת בלבד מכל אזור שנסקר, והשליך את כל השאר, תוכל לשלוט בקלות בתוצאות לפי אזור מבלי לגלות כי גודל המדגם שלך לאזור היה זעיר. שוב, זה היעדר מידע קונקרטי שהופך את התוצאות לקשות לכימות כל כך.
- אם יש ספק, בדוק זאת. אם אינך יכול לקבל מידע יסודי ומלא על גודל, היקף ושיטות הדגימה מאחורי נתון, אל תסמוך עליו.
- קל למדי לשקר עם סטטיסטיקה ברגע שאתה יודע איך, אבל זה לא בדיוק אתי. היזהר כיצד אתה משתמש בידע שצברת. אל תשתמש בו בכדי לפגוע, לרמות או להרחיק מישהו.