משחקים במספרים

מבחירת טעם הגלידה למסיבה, דרך ציוני המבחנים שלכם ועד לתוצאות הבחירות. בואו ללמוד כמה עובדות מעניינות על סטטיסטיקה

  • פורסם 03/12/12
תגיות:
הסטטיסטיקה מאפשרת לארגן כמויות גדולות של ידע
הסטטיסטיקה מאפשרת לארגן כמויות גדולות של ידע
צילום: אילוסטרציה: Ingimage

תארו לעצמכם שאתם עורכים מסיבה וּמִתְלַבְּטִים איזה טעם של גלידה הכי כדאי לקנות. אתם לוקחים דף ועט, מטלפנים אל הַמּוּזְמָנִים ושואלים אותם מה הם מעדיפים. לאחר הַמִּשְׁאָל הזריז אתם בוחנים את הדף, מגלים שהמילה "שוקולד" מופיעה הכי הרבה פעמים ובלי היסוס קונים גלידה בטעם שוקולד – ואכן רוב המוזמנים מְרוּצִּים.

אך מה אם יש לכם 1,000 חברים - האם תתקשרו לכולם או רק לחלק? ואולי תרצו בכלל לדעת איזה טעם מעדיפים כל תושבי ישראל? או כל תּוֹשָׁבֵי העולם? יתכן גם שתחשבו לבדוק אם יש הֶבְדֵּל בהעדפה בין בנים לבנות, מבוגרים לילדים, רזים לשמנים ונמוכים לגבוהים, ומה אז?

למה לי סטטיסטיקה עכשיו?

כדי לענות על השאלות האלה, ועל רבות נוספות, באה לעזרתנו הַסְּטָטִיסְטִיקָה. מקור השם בְּלָטִינִית מודרנית: המילה סטטיסטיקום, שפירושה ענייני מדינה. במאה ה-18 הסטטיסטיקה אכן נועדה לאסוף ולהציג מידע על אודות המדינה, אך בימינו משתמשים בה למטרות רבות נוספות.

בעבר נחשבה הסטטיסטיקה לענף במתמטיקה וכיום נחשבת לענף מדעי עַצְמָאִי, משמשת בתחומים רבים ושונים ומשפיעה על החלטות של הממשלה, הכנסת והבנקים, ואפילו על החלטות של הָאֶזְרָח הפשוט.

למה בכלל משתמשים בסטטיסטיקה? כדי לאסוף וּלְאַרְגֵּן כמויות גדולות של מידע. הַנְּתוּנִים נאספים ומנותחים, ואז מסוכמים בדוחות, במסמכים ואפילו בעיתונים. לעתים נופלות טעויות בניתוח הסטטיסטי, ולעתים נוהגים אנשים בעלי כוונה נִסְתֶּרֶת להציג רק חלק מהנתונים. לכן אנחנו מציגים בפניכם את הטעויות וְהַהַטְעָיוֹת הנפוצות ביותר בסטטיסטיקה וכך תדעו איך אפשר להימנע מהן בקלות.


סטטיסטיקה מאפשרת לארגן כמויות גדולות של ידע. איור: ענת אלזם

מה הקשר?

"מחקר שנערך בקרב ילדים בגילאי 12-6 הוכיח שקיים קשר מוּבְהָק בין מידת הנעליים של הילד לבין רמת הידע שלו בְּמָתֶמָטִיקָה". לפני שאתם חוֹלְצִים את הנעליים ומשווים את המידה שלכם עם זו של חבריכם לכיתה, כדאי לבחון פעם נוספת את המשפט המפתיע. אם אתם קוראים מחקר שעושה שימוש בסטטיסטיקה וּמַצְהִיר על קשרים יוצאי דופן, חשוב שתשאלו את עצמכם שתי שאלות: האם הקשר הזה יכול להיות הֶגְיוֹנִי? האם אפשר למצוא הסבר אחר וטוב יותר לקשר המפתיע?

ננסה לענות על השאלה הראשונה: במה יכולה לְהוֹעִיל כף רגל גדולה לפתרון שברים מדומים או מכנה משותף? הרי אפילו אם משתמשים גם באצבעות הרגליים כדי לחשב, אצבע ארוכה יותר לא מועילה בשום דבר! כלומר, אנחנו עונים לשאלה הראשונה בִּשְׁלִילָה. אם כך, האם אפשר למצוא הסבר טוב יותר לקשר?

כדי למצוא הסבר כזה צריך להבין כיצד מוצאים קשר סטטיסטי. אם רוצים לבדוק קשר בין שני מִשְׁתַּנִּים, צריך לְבוֹדֵד אותם - כלומר לקחת נִבְדָּקִים שדומים בכול, מלבד המשתנים שרוצים לבדוק. לצורך בדיקת הקשר בין מידת הנעליים של ילדים לבין רמתם במתמטיקה כדאי לקחת ילדים שלומדים באותה מַעֲרֶכֶת חינוך, חיים בִּתְנָאִים דומים והכי חשוב - בני אותו גיל.

אם לוקחים ילדים בני 6 עד 12 וּבוֹחֲנִים את רמתם במתמטיקה בהתאם למידת הנעליים שלהם, מגלים שאכן ככל שמידת הנעליים גדולה יותר, רמתו של הילד במתמטיקה גבוהה יותר, פשוט כי הוא מבוגר יותר ולמד יותר שנים!

לתופעה הסטטיסטית הזו קוראים מִתְאָם מְדוּמֶּה. סטטיסטיקאים רבים (חוֹבְבָנִים ומקצועיים) נופלים פעמים רבות בפח הזה: לפעמים הקשר בין שני המשתנים שמצאתם נראה לכם הגיוני לְהַפְלִיא, ורק אחרי עִיבּוּד נוסף וִיסוֹדִי הרבה יותר אתם מגלים שהקשר שלכם בנוי על גורם אחר.

לייצג את כ-ו-ל-ם

  הידעת?
 

הרעיון של הַמְּמוּצָּע החשבוני היה ידוע כבר ליוונים בעת הָעַתִּיקָה, אך עד המאה ה-16 חישבו ממוצע של שני מספרים בלבד.

הַסְּטָטִיסְטִיקָה חשובה מאוד לְפִעְנוּחַ צְפָנִים. תְּדִירוּת השימוש באותיות האל"ף-בי"ת (או ה-ABC) אינה זהה עבור כל אות, ועל פי חישוב תדירות ההופעה של סמל-מוצפן מסוים אפשר לנחש בדיוק מסוים את האות שהוא מסמל

אתם מכירים את זה היטב - בְּעִיצּוּמָהּ של כל מערכת בחירות מופיעים בעיתונים סקרים שמנסים לְנַבֵּא את שמו של הזוכה המאושר בבחירות. יש כמה שיטות לעשות את זה: האחת היא מִפְקָד – לשאול כל אדם במדינה במי הוא מתכוון לבחור, כמו מפקד אוּכְלוּסִים שעושה הַלִּשְׁכָּה המרכזית לסטטיסטיקה מדי כמה שנים ובו נבחנים הנתונים של כל אזרחי המדינה (כמה ילדים בכל משפחה, הכנסה, הוצאות חודשיות ועוד).

שיטה נוספת היא סֶקֶר, שבמהלכו שואלים רק חלק מהאנשים את אותה השאלה – האנשים האלה מכונים מִדְגָּם - ומהתשובות מַסִּיקִים מסקנות לגבי שאר הָאוּכְלוּסִיָּיה. המדגם אמור לייצג בצורה מספיק טובה את התוצאות – בישראל צריכים לְהִיכָּלֵל בו נשים וגברים בגילים שונים, שעוסקים בְּמִגְוַון מקצועות ומרוויחים מַשְׂכּוֹרוֹת גבוהות וגם נמוכות, יהודים וערבים, תושבי ערים ואזורי סְפָר, דתיים וחילוניים, ועוד. זהו כלי נוח מאוד ופשוט להפעלה.

הבעיה היחידה שלו היא שכדי שלמסקנה הסטטיסטית תהיה משמעות, בחירת המשתתפים חייבת להיות אַקְרָאִית. עד כמה האקראיות חשובה? תוכלו להפנות את השאלה הזו אל אָלְפְרֶד מ' לֶנְדּוֹן, שהתמודד על תפקיד נשיא ארצות הברית בשנת 1936 מול הנשיא הַמְּכַהֵן פְרַנְקְלִין רוּזְוֶלְט.

מבחן האקראיות

המגזין לִיטֶרֶרִי דַּיְיגֶ'סְט היה ידוע בסקרי הבחירות המדויקים שערך בְּעִקְבִיּוּת עוד משנת 1920. הפעם השתתפו בסקר שלו לא פחות מ-2.4 מִילְיוֹן תושבים, מתוך 10 מיליון אזרחים שאליהם נשלח השאלון – והוא נִיבֵּא שהמנצח יהיה בוודאות לנדון. המציאות הייתה שונה בְּתַכְלִית: רוזוולט ניצח ברוב המדינות המרכיבות את ארצות הברית והמשיך בכהונתו השנייה כנשיא, כשהוא זוכה באחד הניצחונות הַמּוֹחֲצִים ביותר בארצות הברית מאז ומעולם.

הִתְבָּרֵר שבסקר הייתה טעות חשובה: המשתתפים נבחרו בִּזְכוּת שלוש סיבות – הם היו מְנוּיִים על כתב העת, שמותיהם וכתובותיהם הופיעו בספר הטלפונים, והם היו בעלי מכוניות. היום לכל אחד כמעט יש מכשיר טלפון בבית וכמעט לכל משפחה יש מכונית, אך כמה שנים אחרי הַשֵּׁפֶל הגדול בארצות הברית היו בה יותר מתשעה מיליון מוּבְטָלִים שלרובם לא היו טלפון או מכונית.

בעיה נוספת הייתה שהסקר הִתְבַּסֵּס על אלה שהסכימו לענות עליו, כלומר על אנשים בעלי מוּדָעוּת פּוֹלִיטִית גבוהה. כל הגורמים האלו היטו את התוצאות לכיוונו של המועמד שֶׁיִּיצֵּג את העשירים – לנדון, ואילו תּוֹמְכֵי רוזוולט זכו לייצוג נמוך יותר. המדגם לא היה אקראי באמת: ציבור שלם הוּשְׁמַט מתוכו, והשפעתו על תוצאות הסקר הושמטה יחד איתו.


מסקנה סטטיסטית מחייבת בחירת משתתפים אקראית. אילוסטרציה: Ingimage

מקום טוב באמצע

מְמוּצָּע הוא אחד מהפחים המזמינים ביותר שֶׁטּוֹמֶנֶת הסטטיסטיקה. עִיקָּרוֹן השימוש בו פשוט: כל פרט בקבוצה תּוֹרֵם את חלקו לסכום הכללי, ולבסוף מחלקים את הסכום שהתקבל שווה בשווה בין כולם. נַנִּיחַ שאנו אוספים סוכריות בכיתה ומחלקים אותן כך שכל ילד מקבל את ממוצע הסוכריות. אם ילד אחד תרם 100 סוכריות וילד אחר רק שלוש, שניהם יקבלו בסופו של דבר 51.5 סוכריות – המספר הממוצע.

משתמשים בממוצע כדי לקבל מוּשָּׂג מסוים לגבי גודל כלשהו בתוך קבוצה: ממוצע ציונים, ממוצע גובה וממוצע ילדים במשפחה. הממוצע בִּמְקוֹרוֹ הוא כלי חשבוני ולכן הוא יכול להפיק תוצאות משונות, כמו קבוצת משפחות שממוצע הילדים בהן הוא 1.74 – מחלקים את מספר הילדים במדינה למספר המשפחות, ומקבלים תוצאה שאומרת שבממוצע יש בכל משפחה כמעט שני ילדים.

מה שצריך באמת להיזהר ממנו הוא ההשפעה של נתונים קִיצוֹנִיִּים. רוצים דוגמה? בבקשה: רבים יודעים לספר שֶׁתּוֹחֶלֶת החיים (ממוצע אורך החיים) בימי הביניים לא הייתה גבוהה במיוחד, ועמדה על 36 שנים בלבד. האם ייתכן שאדם בן 50 נחשב לנס רפואי?

נְבִירָה קצת יותר עמוקה בְּתוֹלְדוֹת ימי הביניים מגלה שאנשים בני יותר מ-36 לא היו תופעה נְדִירָה בכלל, ורבים אף הגיעו לגילים המופלגים של 50, 60 ואפילו 70. במקרה הזה הממוצע טמן לנו פח: תנאי החיים וְהַתַּבְרוּאָה באותה התקופה היו גרועים, וּתְמוּתַת התינוקות הייתה גבוהה מאוד. כשמכניסים לחישוב את התינוקות הרבים שחיו כמה ימים או שבועות בלבד, גילם הצעיר מושך את התוצאה הממוצעת כלפי מטה. התוצאה מוטה על ידי הערכים הקיצוניים, והממוצע הופך לחסר משמעות.

מה הקשר בין אכילת מרשמלו לגודל המוח?

אז מה למדנו כאן? למדנו שבחיי היומיום שלנו אנחנו נתקלים במגוון רחב של אִזְכּוּרִים סטטיסטיים - החל בַּמַּאֲמָרִים בעיתון וכלה בממוצע ציונים של הכיתה. הסטטיסטיקה יכולה גם לשקר ולהטעות בקלות רבה, לכן חשוב מאוד להישאר עֵרָנִיִּים מול כל קְבִיעָה.

אם כותרות העיתון זוֹעֲקוֹת שקיים קשר בין אכילת מרשמלו לגודל המוח, כדאי לחשוב פעמיים ואפילו שלוש לפני שרצים לקנות ארגז מלא בְּמַרְשְׁמֶלוֹ. כי אחרי הכול, ייתכן שיש מתאם מדומה, מדגם לא אקראי או אפילו ממוצע לא אמין שמסתתרים להם אי שם בדרך.

+ הוסף תגובה
תגובות ( תגובות ב- דיונים)