Download Report

‫סטטיסטיקה ומדעי השיווק‬
‫סקירה‬
‫הסתברות משותפת )‪Pr (B,M‬‬
‫‪m‬‬
‫‪f‬‬
‫‪b‬‬
‫‪nb‬‬
‫ד"ר חיים מ‪ .‬אהרמן‬
‫סטטיסטיקה ומדעי השיווק‬
‫סקירה‬
‫הסתברות משותפת )‪Pr (B,M‬‬
‫‪m‬‬
‫‪f‬‬
‫‪b‬‬
‫‪nb‬‬
‫ד"ר חיים מ‪ .‬אהרמן‬
‫סטטיסטיקה ומדעי השיווק‬
‫סקירה‬
‫ד"ר חיים מ‪ .‬אהרמן‬
‫מרצה בכיר בשיווק וסטטיסטיקה למעלה מארבעים שנה‬
‫מ ה דורה מ ח ודש ת בעב ר ית ‪2 016 -‬‬
1st printing – Dame Publishing, Houston, TX, 1994
2nd printing – Loyola University Chicago, Chicago, IL, 1999
3rd printing – Loyola University Chicago, Chicago, IL, 2011
4th printing – Hebrew- Michigan Jewish Institute, West Bloomfield, MI, 2016
Copyright © by Chaim M. Ehrman
All Rights Reserved. No part of this publication may be reproduced, stored in
a retrieval system, or transmitted in any form or by any means, without prior
written permission of the author.
‫הק ד ש ה‬
‫ספר זה מוקדש לשני משווקים דגולים‪:‬‬
‫אבי‪ ,‬מר גרשון אהרמן‪ ,‬שניצל בהצלחה את מומחיותו ואת הבנתו המעמיקה בתחום‬
‫היהלומים לליטוש יהלומים ולשיווקם; חמי‪ ,‬ד"ר הארולד ריימונד שייר‪ ,‬עורך דין‪ ,‬מורה‬
‫וחוקר משכמו ומעלה‪ ,‬שעשה שימוש בידע ובמומחיות שצבר בתחום השיווק ויישם אותם‬
‫בהצלחה גדולה בהמצאותיו בתחום האווירונאוטיקה‪.‬‬
‫ת וד ו ת‬
‫הכותב מבקש להודות לפרופסור אבא מ‪ .‬ש‪ .‬קריגר ופרופסור אמריטוס מוריס המבורג‬
‫מן המחלקה לסטטיסטיקה בבית הספר וורטון‪ ,‬אוניברסיטת פנסילבניה‪ ,‬על עזרתם‪,‬‬
‫עידודם והכוונתם במאמץ להעביר לי את ההבנה לעומק בנושאים בסטטיסטיקה‪ ,‬ולהוקרת‬
‫הנושאים‪.‬‬
‫הכותב מודה גם לפרופסור ג'רלד פונק‪ ,‬המחלקה למדעי המתמטיקה‪ ,‬אוניברסיטת לויולה‬
‫בשיקגו‪ ,‬על עידודו‪ ,‬סיועו והכוונתו בנבכי הסטטיסטיקה‪.‬‬
‫כמו כן אני רוצה להודות מאוד לד"ר צבי סקאר על עזרתו ועידודו בהבנה ותרגום ספר‬
‫זה מאנגלית לעברית‪.‬‬
‫אחרון אחרון חביב‪ ,‬יש לי הכרת הטוב לאשתי יוכבד דבשה תחי'‪ .‬ספר זה בפרט‪ ,‬וכל‬
‫השגותי בכלל‪ ,‬וכן תואר שלישי מוורטון‪ ,‬היו בלתי אפשריים ללא עידודה ועזרתה‪.‬‬
‫היא קיימה את דברי חז"ל "גדול המעשה יותר מן העושה"‪.‬‬
‫ה ק דמ ה‬
‫חיבור זה אינו בא במקומו של ספר לימוד‪ .‬הוא מיועד לאנשי המקצוע העוסקים בתחום‬
‫ולתלמידים שלמדו סטטיסטיקה בעבר ומעוניינים לחזור על עקרונות היסוד‪ .‬הצורך לחזור‬
‫על החומר הוא תופעה רווחת‪ .‬תלמידי תואר ראשון במדעי השיווק‪ ,‬לדוגמה‪ ,‬עשויים‬
‫ללמוד קורס בחקר השיווק בשנה השלישית או הרביעית ללימודיהם‪ ,‬בשעה שייתכן‬
‫כבר שכחו את מרבית הידע שרכשו בקורס יסודות הסטטיסטיקה שלמדו שנתיים או‬
‫שלוש לפני כן‪ ,‬ואשר מניח את היסודות לקורסים מחקריים‪ .‬לפיכך‪ ,‬יש צורך ללמוד‬
‫את היסודות שנית במתכונת יעילה ותמציתית‪ .‬הדבר נכון גם לגבי אנשי מקצוע שלמדו‬
‫סטטיסטיקה לפני כמה שנים ורוצים לרענן את ידיעותיהם‪.‬‬
‫כדי ליצור דרך פשוטה ומועילה לחזור על היסודות‪ ,‬השתדלנו לפשט את הכתיבה‬
‫המתמטית במידת האפשר‪ .‬נוסחת הסכום‪ ,‬לדוגמה‪ ,‬כאשר היא נכתבת כך‪:‬‬
‫(נתונים‪ - ‬ממוצע) ‪ 2‬עשויה היות קלה יותר לקריאה מאשר כך‪:‬‬
‫כאן יש לציין שאת כל הנוסחאות שתכתבנה במילים עבריות בלבד יש לקרוא מימין‬
‫לשמאל‪ ,‬בכיוון הקריאה הרגיל ולא בכיוון הכתיבה המתמטית‪ ,‬לדוגמה‪ :‬נתונים פחות‬
‫ממוצע בריבוע‪ .‬נוסחאות המערבות עברית ולועזית תקראנה לרוב משמאל לימין‪.‬‬
‫ריבויים של המחשבים האישיים ועמם התוכנות לניתוח נתונים עלול לגרור עמו שימוש‬
‫שגוי בתוכנות אלו‪ .‬לכל כלי לניתוח נתונים ישנן הוראות שימוש מתאימות‪ ,‬כמו למשל‬
‫שימוש בנתונים רציפים ולא סודרים‪ .‬אנשי מקצוע המשתמשים בתוכנות אלו ואינם‬
‫מודעים לאופן השימוש הנכון בהן עשויים פשוט ללחוץ על פקודת ניתוח רגרסיה ולקבל‬
‫רגרסיה נכונה מבחינה חישובית אך מטעה ושגויה מבחינה מציאותית‪ ,‬משום שלא עשתה‬
‫שימוש בנתונים הנכונים‪ .‬אחת ממטרותיה העיקריות של חוברת זו היא למנוע ככל‬
‫האפשר שימוש שגוי בכלי ניתוח נתונים‪.‬‬
‫תוכן עניינים‬
‫פרק‬
‫ראשון ‪2....................................................................................................................‬‬
‫הסתברות וניתוח בייסיאני ‪2...................................................................................................‬‬
‫תוצאות‪ ,‬מרחב מדגם ומאורעות ‪2...........................................................................................‬‬
‫הגדרת השכיחות היחסית של הסתברות‪2...............................................................................‬‬
‫מאורעות בלתי תלויים ‪3..........................................................................................................‬‬
‫הסתברות משותפת‪4...............................................................................................................‬‬
‫הסתברות שולית ‪4...................................................................................................................‬‬
‫הסתברות מותנית ‪5.................................................................................................................‬‬
‫תרגיל מתחום השיווק ‪9...........................................................................................................‬‬
‫קבלת החלטות תוך שימוש בכלים הסתברותיים‪12...................................................................‬‬
‫ערך צפוי של החזאי ‪15.............................................................................................................‬‬
‫הערך הצפוי של מידע מושלם (‪16................................................................................ )EVPI‬‬
‫תרשים ‪ :1‬ייצוג חזותי של חוק בייס ‪18.....................................................................................‬‬
‫כיצד לעדכן הסתברות אפריורית בעזרת חוק בייס ‪19...............................................................‬‬
‫פרק‬
‫שני ‪21..........................................................................................................................‬‬
‫מאפייני מידע ‪21.......................................................................................................................‬‬
‫מדע השיווק ‪ -‬סקירה כללית ‪21............................................................................................‬‬
‫מידע נומינלי ‪21.........................................................................................................................‬‬
‫מידע סדור ‪22............................................................................................................................‬‬
‫מידע קטגוריאלי ‪23....................................................................................................................‬‬
‫מידע אינטרוולי ‪23.....................................................................................................................‬‬
‫מידע יחסי‪24.............................................................................................................................‬‬
‫המשכיות לעומת אי‪-‬רציפות‪24.................................................................................................‬‬
‫הטיות‪25....................................................................................................................................‬‬
‫תקפות ‪26..................................................................................................................................‬‬
‫מהימנות‪26................................................................................................................................‬‬
‫פרק‬
‫שלישי ‪28...................................................................................................................‬‬
‫מדידות סיכום ומדדי פיזור‪28..................................................................................................‬‬
‫אמצעי‪28...................................................................................................................................‬‬
‫תיכון ‪29.....................................................................................................................................‬‬
‫שכיח‪29.....................................................................................................................................‬‬
‫מדדי פיזור‪ :‬שונות וסטיית‪-‬תקן ‪29............................................................................................‬‬
‫מדדי פיזור‪ :‬סטיית ממוצע‪-‬חציון מוחלט (‪31................................................................)M.A.D‬‬
‫נתונים מקובצים‪32....................................................................................................................‬‬
‫פרק‬
‫רביעי ‪33.....................................................................................................................‬‬
‫בחינת השערות ‪33....................................................................................................................‬‬
‫שגיאות מסוג ‪ I‬ומסוג ‪34....................................................................................................... II‬‬
‫מדידת שגיאות מסוג ‪35.......................................................................................................... I‬‬
‫בחינת ערך ממוצע בעזרת הסטטיסטי ‪35.............................................................................. Z‬‬
‫בחינת ההפרש בין ממוצעים בעזרת הסטטיסטי ‪36............................................................... Z‬‬
‫בחינת ההפרש בין ממוצעים באמצעות התפלגות ‪37.............................................................T‬‬
‫(כי בריבוע)‪37..............................................‬‬
‫בחינת קשר בין משתנים שמיים בעזרת מבחן ‪ִ χ2‬‬
‫ל'כי' בריבוע ‪41...................................................................................................‬‬
‫תוצאה נוספת ִ‬
‫פרק‬
‫חמישי ‪43...................................................................................................................‬‬
‫ניתוח רגרסיה ‪43.......................................................................................................................‬‬
‫בדיקת הנחות (היפותיזות) ‪43....................................................................................................‬‬
‫גובה ממוצע ‪44..........................................................................................................................‬‬
‫הנחות בסיסיות בניתוח רגרסיה ‪44............................................................................................‬‬
‫נקודות חשובות בהתאמת נתונים לקו ישר ‪45...........................................................................‬‬
‫שיטת הריבועים הפחותים‪47.....................................................................................................‬‬
‫משוואות נורמליות ‪47................................................................................................................‬‬
‫ניתוח מתאם ‪48.........................................................................................................................‬‬
‫התאמת המודל ‪50.....................................................................................................................‬‬
‫מבחן ‪51................................................................................................................................. F‬‬
‫דוגמאות ‪51..............................................................................................................................‬‬
‫ניתוח רגרסיה מרובה ‪55............................................................................................................‬‬
‫רגרסיה קדימה‪ ,‬רגרסיה לאחור ורגרסיה בצעדים‪57..................................................................‬‬
‫פרק‬
‫שישי ‪58......................................................................................................................‬‬
‫ניתוח שונות ‪58...................................................................................................... ANOVA -‬‬
‫ניתוח שונות חד גורמי ‪58..........................................................................................................‬‬
‫מבחן ‪60..................................................................................................................................f‬‬
‫ניתוח שונות דו‪-‬גורמי ‪61...........................................................................................................‬‬
‫אפקט האינטראקציה‪64.............................................................................................................‬‬
‫פרק‬
‫שביעי ‪67....................................................................................................................‬‬
‫נושאים מתקדמים ‪67...............................................................................................................‬‬
‫המרת נתונים סידוריים לנתונים רציפים‪67................................................................................‬‬
‫ניתוח מפלה‪70..........................................................................................................................‬‬
‫גורמים בלתי‪-‬תלויים ‪72.............................................................................................................‬‬
‫איך להעניק שם לגורמים‪ :‬ניתוח טעינות גורמים ‪73..................................................................‬‬
‫סיבוב (רוטציה) ‪74.....................................................................................................................‬‬
‫ניתוח אשכולות ‪79.....................................................................................................................‬‬
‫ניתוח קבוצות (אשכולות) ‪80......................................................................................................‬‬
‫תפעול ניתוח אשכולות ‪81.........................................................................................................‬‬
‫שימוש בניתוח אשכולות ‪82.......................................................................................................‬‬
‫ניתוח מבחין‪83..........................................................................................................................‬‬
‫ניתוח העדפות (‪88.................................................................................. )Conjoint Analysis‬‬
‫פרק‬
‫שמיני ‪92....................................................................................................................‬‬
‫הערכה ‪92..................................................................................................................................‬‬
‫טעות תקן ‪93.............................................................................................................................‬‬
‫טעות תקן ‪93.............................................................................................................................‬‬
‫גודל המדגם הנדרש לניבוי ממוצע‪97........................................................................................‬‬
‫מודלים של מרקוב ‪97................................................................................................................‬‬
‫טבלאות ‪101................................................................................................................................‬‬
‫תשובות לתרגילים ‪109...............................................................................................................‬‬
‫פרק ראשון‬
‫ה סת ב רות ונ ית ו ח ביי סיאני‬
‫חקר השיווק הוא חלק מהותי מהפעילות השיווקית של חברות‪ .‬הוא מסווג כתת‪ -‬תחום בשיווק‪,‬‬
‫כמו גם פרסום‪ ,‬אסטרטגית שיווק‪ ,‬התנהגות הצרכן‪ ,‬קידום וניהול מכירות‪ .‬אחת משאלות המפתח‬
‫העומדות בפני המשווקים היא “כמה כסף משתלם להשקיע במחקר?” כאן נענה על שאלה זו‬
‫בעזרת הסטטיסטיקה הבייסיאנית‪ .‬כדי להבין כיצד ליישם סטטיסטיקה בייסיאנית יש לשלוט‬
‫בהסתברות בסיסית‪.‬‬
‫מוש גים חשובים‬
‫ת ו צ א ו ת ‪ ,‬מר ח ב מ ד ג ם ו מ א ור ע ו ת‬
‫תוצאה היא דבר מה שמתרחש‪ .‬המונח “מרחב מדגם” משמעו כל התוצאות האפשריות העשויות‬
‫להתרחש‪ .‬לדוגמה‪ ,‬כאשר מטילים קובייה‪ ,‬אחת התוצאות האפשריות היא ‪ .1‬ישנן בסך הכל ‪6‬‬
‫תוצאות אפשריות‪ 5 ,4 ,3 ,2 ,1 :‬ו‪ 6 .6-‬תוצאות אלו יחד יוצרות את מרחב המדגם‪.‬‬
‫המונח “מאורע” הגדרתו אוסף או מצבור תוצאות‪ .‬לדוגמה‪ ,‬בעת הטלת קובייה נוכל להגדיר‬
‫כמאורע רק תוצאות הקטנות מ‪ .3-‬המונח “משתנה אקראי” משמעו הפריט המסוים הנתון ביד‬
‫המקרה‪ .‬אנו מניחים שכל התוצאות האפשריות עבור המשתנה ידועות מראש‪ .‬לדוגמה‪ ,‬מספר‬
‫הנקודות השחורות המופיעות על פני הקובייה לאחר הטלתה הוא משתנה אקראי‪ .‬אנו עשויים‬
‫לרצות לחשב את הסתברותה של תוצאה או את הסתברותו של מאורע‪ .‬כדי לפשט‪ ,‬נדון כאן‬
‫תמיד בהסתברותם של מאורעות‪ ,‬מכיוון שתמיד אפשר להגדיר מאורע כתוצאה בודדת‪.‬‬
‫ה ג דר ת ה ש כ י ח ו ת ה י ח ס י ת ש ל ה סתב רות‬
‫הגדרת השכיחות היחסית של הסתברות אומרת שהסתברותו של מאורע מסוים נמדדת כשכיחות‬
‫היחסית של המאורע בטווח הארוך‪ .‬נניח שאתם חזאי מזג אוויר ואתם מתבקשים להעריך את‬
‫הסיכויים שכמות המשקעים ביולי ‪ 1991‬תהיה גדולה מן הממוצע‪ .‬שיטה אחת למדידת ההסתברות‬
‫של מאורע זה היא לחשב את השכיחות היחסית של חודשי יולי שכמות המשקעים בהם הייתה‬
‫גדולה מן הממוצע במהלך מאה השנים האחרות‪ .‬בשיטה זו‪ ,‬אם ב‪ 10-‬שנים מתוך מאה הייתה‬
‫כמות המשקעים בחודש יולי גדולה מן הממוצע‪ ,‬ההסתברות לכמות משקעים גדולה מן הממוצע‬
‫‪2‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ן ושא ר קרפ‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫בחודש יולי ‪ 1991‬היא ‪ 10%‬או ‪ .0.1‬כך מחשבים שכיחות יחסית של הסתברות‪ .‬נציב את ‪X‬‬
‫=‪ X‬משמעו שביולי ‪ 1991‬הייתה כמות המשקעים‬
‫כמשתנה האקראי “כמות משקעים ביולי ‪5 ;”1991‬‬
‫ממוצעת‪ X = 1 .‬משמעו שביולי ‪ 1991‬הייתה כמות המשקעים קטנה מהממוצע; ‪ X = 10‬משמעו‬
‫שביולי ‪ 1991‬הייתה כמות המשקעים גדולה מן הממוצע‪ X .‬יכול לקבל שלושה ערכים‪:‬‬
‫הגדרת השכיחות היחסית של הסתברות אומרת שאם (‪ )X = 10‬מייצג את המאורע של כמות‬
‫משקעים גדולה מהממוצע‪ ,‬ההסתברות של ‪ ,X = 10‬שנכתבת כך‪Pr(X = 10), :‬‬
‫שווה לשכיחות‬
‫היחסית של התרחשות מאורע זה לאורך זמן‪.‬‬
‫כך ננסח את ההסתברות של מאורע ‪X = 10‬‬
‫הנה דוגמה נוספת‪ :‬נניח שאתם עומדים להטיל קובייה‪ .‬המשתנה האקראי ‪X‬‬
‫מייצג את מספר‬
‫הנקודות השחורות על פני הקובייה‪ .‬את הסיכוי‪ ,‬או במילים אחרות ההסתברות‪ ,‬שהקובייה תראה‬
‫את המספר ‪ 1‬אפשר לחשב באמצעות חישוב השכיחות היחסית לאורך זמן של התרחשות‬
‫מאורע זה במהלך סדרה של הטלות קובייה‪ .‬יהי ‪ X‬התוצאות האפשריות של הטלה‪X = :‬‬
‫}‪.{1,2,3,4,5,6‬‬
‫יהי ‪ A‬תוצאה שבה הקובייה מראה ‪ ,1‬ולשם נוחות נכתוב )‪ Pr(A‬ולא )‪Pr(X = A‬‬
‫‪:.‬‬
‫אם נטיל קובייה הוגנת מאות פעמים ונתעד את התוצאות‪ ,‬השבר שיתקבל ימשיך להיות קרוב‬
‫ל‪ 1/6-‬או ‪ .0.167‬זאת אומרת‪ ,‬אנו יכולים לצפות לתוצאה ‪ 1‬ב‪ 16.7%-‬מהפעמים‪.‬‬
‫מ א ור ע ו ת ב ל ת י ת ל ו י י ם‬
‫כאשר מטילים קובייה‪ ,‬ההסתברות לקבל ‪ 1‬נשארת זהה עבור כל הטלה‪ .‬קבלת התוצאה ‪ 1‬בהטלה‬
‫אחת אינה משפיעה על הסיכוי לקבל ‪ 1‬בהטלה הבאה‪ .‬המאורעות‪ ,‬כלומר מספר הנקודות המופיע‬
‫על פני הקובייה לאחר כל הטלה‪ ,‬אינם תלויים זה בזה‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪3‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫ה ס ת בר ו ת מ ש ו תפ ת‬
‫הסתברות משותפת משמעה הסיכויים ששני מאורעות מסוימים של שני משתנים אקראיים‬
‫יתרחשו בעת ובעונה אחת‪ .‬נניח שאנו מגדירים שני משתנים אקראיים‪X :‬‬
‫שהסטודנט לומד בו ו‪ Y -‬הוא המגדר‪ .‬נגדיר עבור ‪ X‬את המאורעות האפשריים‪ :‬לומד‪/‬ת מנהל‬
‫עסקים כחוג ראשי )‪ (B‬או לומד‪/‬ת מנהל עסקים כחוג משני )‪ .(NB‬המאורעות האפשריים עבור‬
‫‪ Y‬הם גבר )‪ (M‬ואשה )‪.(F‬‬
‫הוא החוג הראשי‬
‫לדוגמה‪ :‬נניח שאנו נכנסים לכיתה מלאה סטודנטים וסטודנטיות בעיניים מכוסות ובוחרים אחד‬
‫‪ .Pr(X‬לשם נוחות נכתוב‬
‫מהם באקראי‪ .‬אנו רוצים לדעת מה ההסתברות ש‪= B, Y = M) :‬‬
‫)‪ .Pr(B,M‬כאשר מאורעות אינם תלויים זה בזה אנו יכולים לבטא את ההסתברות המשותפת‬
‫שלהם כסכום המכפלה של הסתברות שני האירועים‪:‬‬
‫)‪Pr(B,M) = Pr(B) x Pr(M‬‬
‫ה ס ת בר ו ת ש ו ל י ת‬
‫נניח שמשרדי האוניברסיטה העבירו לכם רשימה של סטודנטים‪ ,‬הן נשים והן גברים‪ ,‬המתחילים‬
‫את לימודי התואר הראשון‪ .‬חלקם ילמדו מנהל עסקים כחוג ראשי וחלקם ילמדו מנהל עסקים‬
‫כחוג משני‪ .‬נוכל להמיר את טבלה ‪ 1.1‬לטבלת הסתברות באמצעות חלקות כל תא במספר‬
‫הסטודנטים‪ .250 ,‬זוהי טבלת הסתברות משותפת משום שהיא מראה את ההסתברות שסטודנט‬
‫יהיה גבר או אשה ואת ההסתברות שילמד מנהל עסקים כחוג ראשי או כחוג משני‪.‬‬
‫טב לה ‪:1 .1‬‬
‫סיכום נתוני סטודנטים על פי מגדר וחוג ראשי‬
‫חוג ראשי מנהל עסקים‬
‫חוג ראשי אחר‬
‫סך הכל‬
‫גבר‬
‫‪50‬‬
‫‪100‬‬
‫‪150‬‬
‫אישה‬
‫‪50‬‬
‫‪50‬‬
‫‪100‬‬
‫סך הכל‬
‫‪100‬‬
‫‪150‬‬
‫‪250‬‬
‫טבלה ‪ :1.1‬אנו יכולים להמיר את הטבלה לטבלת הסתברות בכך שנחלק את הסכום בכל‬
‫תא בסך הכולל של התלמידים‪ .250 ,‬זוהי טבלת הסתברות משותפת משום שהיא מראה את‬
‫ההסתברות שתלמיד יהיה גבר או אשה ושהחוג הראשי שלו יהיה מנהל עסקים או חוג אחר‪.‬‬
‫‪4‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ן ושא ר קרפ‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫נניח שאנו רוצים לדעת מה ההסתברות שכל הסטודנטים יבחרו במנהל עסקים כחוג ראשי‪,‬‬
‫יהיה המגדר אשר יהיה‪ .‬הדבר מכונה הסתברות שולית‪ .‬כדי למצוא את ההסתברות‪ ,‬פשוט נחבר‬
‫את ההסתברויות עבור שני המינים בעמודת מנהל העסקים ‪(B) 0.4 + 0.2 = 0.6‬‬
‫מתמטי‪ . Pr(B) = Pr(M,B) + Pr(F,B) :‬הסתברויות שוליות נוספות אפשר לחשב באופן‬
‫זהה‪ .‬ההסתברות השולית של ‪ M‬היא ‪ ,0.6‬וההסתברות השולית של ‪ F‬היא ‪ .0.4‬ראו טבלה ‪.1.2‬‬
‫ובכתיב‬
‫טב לה ‪:1 .2‬‬
‫הסתברות משותפת עבור ‪ M, F, B, NB‬עבור תלמידי שנה א’‬
‫אחר‬
‫מנהל עסקים‬
‫שולית‬
‫גבר‬
‫‪0.2‬‬
‫‪0.4‬‬
‫‪0.6‬‬
‫אישה‬
‫‪0.2‬‬
‫‪0.2‬‬
‫‪0.4‬‬
‫שולית‬
‫‪0.4‬‬
‫‪0.6‬‬
‫ה ס ת בר ו ת מ ו תנ י ת‬
‫)‪ Pr(X|Y‬הוא ההסתברות של ‪ X‬בהינתן התרחשותו של ‪ .Y‬הפריט שמשמאל לקו )|(‬
‫המשתנה האקראי‪ .‬אם כך‪ ,‬במקרה זה ‪ X‬הוא המשתנה האקראי‪ .‬הפריט שלימין הקו האנכי הוא‬
‫הוא‬
‫הנתון‪ ,‬הוא הפריט שהסתברות הפריט השני מותנה בהתרחשותו קודם‪ .‬כלומר‪ ,‬מה ההסתברות‬
‫שיקרה ‪ X‬בתנאי שקרה קודם ‪ .Y‬ההסתברות לבחור תלמיד גבר הלומד מנהל עסקים כמקצוע‬
‫‪ .Pr(X‬לשם נוחות נכתוב פשוט )‪ ,Pr(B|M‬שמשמעו‬
‫ראשי נכתבת כך‪= B | Y = M) :‬‬
‫ההסתברות של ‪ B‬בהינתן ‪ .M‬הדבר קרוי הסתברות מותנית‪ .‬הסתברות מותנית אפשר להדגים‬
‫באמצעות דיאגרמת ‪.Venn‬‬
‫תרשים א’ מדגים את ההסתברות המשותפת שהסטודנט יהיה גבר הלומד מנהל עסקים כמקצוע‬
‫ראשי‪ .‬המשתנים האקראיים שלנו הם חוג ראשי ומגדר‪ .‬המאורעות האפשריים למגדר הם גבר‬
‫(השטח שבתוך המעגל הימני) ואישה (השטח שמחוץ למעגל הימני)‪ .‬המאורעות האפשריים‬
‫למשתנה האקראי ‘חוג לימודים ראשי’ הם מנהל עסקים (בתוך המעגל השמאלי) או אחר (מחוץ‬
‫למעגל השמאלי)‪ .‬השטח הכולל של התיבה מסמל את היקום‪ ,‬או את מרחב המדגם‪ .‬הוא מכיל‬
‫את כל המאורעות האפשריים‪ .(NB,F) ,(NB,M) ,(B,F) ,(B,M) ,‬ההסתברות המשותפת‬
‫שהסטודנט יהיה גבר הלומד מנהל עסקים כחוג ראשי היא השטח המוכהה ביחס לשטח מרחב‬
‫המדגם‪ ,‬כלומר‪ ,‬שטח התיבה הכולל‪ ,‬השווה ‪.1‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪5‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫תרשים א‪:‬‬
‫‪M‬‬
‫‪F‬‬
‫‪B‬‬
‫‪NB‬‬
‫תרשים א’‪ :‬ממחיש את ההסתברות‬
‫המשותפת שתלמיד הוא גבר‬
‫והוא לומד מנהל עסקים כמקצוע‬
‫ראשי‪ .‬המשתנים האקראיים הם‬
‫מגדר ומקצוע ראשי‪ .‬המאורעות‬
‫האפשריים במגדר הם גבר (השטח‬
‫שבתוך המעגל הימני) ואישה‬
‫(השטח שמחוץ למעגל הימני)‪,‬‬
‫והמאורעות האפשריים במקצוע‬
‫ראשי הוא מנהל עסקים כמקצוע‬
‫ראשי (השטח שבתוך המעגל‬
‫השמאלי) ומקצוע ראשי אחר‬
‫(השטח שמחוץ למעגל השמאלי)‪.‬‬
‫תרשים ב ממחיש את ההסתברות המותנית שתלמיד ילמד מנהל עסקים כמקצוע ראשי בהינתן‬
‫שהוא גבר‪ .‬כמו בתרשים א’‪ ,‬שני המשתנים האקראיים הם מקצוע ראשי ומגדר‪ ,‬והמאורעות הם‬
‫מנהל עסקים כמקצוע ראשי‪ ,‬מקצוע ראשי אחר‪ ,‬גבר ואישה‪ ,‬אך במקרה זה אנו מגבילים את עצמנו‬
‫לאחד מהמאורעות האפשריים במגדר‪ :‬גבר‪ .‬האזור המוכהה בשטח החפיפה של שני המעגלים‬
‫ממיצג את ההסתברות המותנית שסטודנט ילמד מנהל עסקים כמקצוע ראשי בהינתן שהוא גבר‪.‬‬
‫תרשים ב‬
‫תרשים ב’‪ :‬ממחיש את ההסתברות‬
‫המותנית שסטודנט ילמד מנהל‬
‫עסקים כמקצוע ראשי בהינתן‬
‫שהוא גבר‪ .Pr(B|M) ,‬במקרה‬
‫זה אנו מגבילים את עצמנו‬
‫לאחד מן המאורעות האפשריים‬
‫‪B‬‬
‫‪M‬‬
‫בקטגוריה ‘מגדר’‪ :‬גבר‪ .‬האזור‬
‫המוכהה שבו חופפים המעגלים‬
‫זה לזה מייצג את ההסתברות‬
‫המותנית שסטודנט ילמד מנהל‬
‫‪NB‬‬
‫‪F‬‬
‫עסקים כחוג ראשי בהינתן שהוא‬
‫גבר‪ .‬מרחב המדגם שלנו מוגבל‬
‫למאורע אפשרי אחד עבור המשתנה ‘מגדר’‪ .‬אפשר לחשב את ההסתברות המותנית של )‪(B|M‬‬
‫כחיתוך בין המשתנים )‪(B,M‬חלקי ההסתברות השולית‪.‬‬
‫שטח האזור המוכהה זהה לשטח המוכהה בדוגמה העוסקת בהסתברות משותפת‪ .‬אך במקרה‬
‫זה השטח איננו נמדד ביחס לתיבה כולה אלא ביחס למעגל המייצג את ההסתברות שסטודנט‬
‫יהיה גבר‪ .‬אנו מגבילים את מרחב המדגם שלנו עבור המשתנה ‘מגדר’ למאורע אפשרי אחד‪.‬‬
‫בצורה מתמטית נחשב את ההסתברות המותנית של )‪(B|M‬‬
‫)‪ (B,M‬חלקי ההסתברות השולית )‪.(M‬‬
‫‪6‬‬
‫כחיתוך של ההסתברות המשותפת‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ן ושא ר קרפ‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫בכתיב מתמטי‪:‬‬
‫לדוגמה‪ :‬אנו רוצים לדעת מה ההסתברות שסטודנט ילמד מנהל עסקים כמקצוע ראשי בהינתן‬
‫שהוא גבר‪ .‬אנו מבקשים לדעת את )‪ .Pr(B|M‬אך המידע שיש בידינו ממשרדי מנהל הסטודנטים‬
‫(טבלה ‪ )1.2‬נותן לנו רק את ההסתברות המשותפת שתלמיד יהיה גבר ושילמד מנהל עסקים‬
‫כמקצוע ראשי‪ .‬אם כך‪ ,‬הבעיה שעומדת בפנינו היא המרת )‪Pr(B,M‬‬
‫ל‪ .Pr(B|M) -‬נמיר את‬
‫ההסתברות באמצעות חלוקת ההסתברות המשותפת בהסתברות השולית ששאבנו מטבלה ‪.1.2‬‬
‫התהליך מודגם בטבלה ‪.1.3‬‬
‫טב לה ‪:1 .3‬‬
‫(מקצוע ראשי | מגדר) הסתברות מותנית ‪P r‬‬
‫מגדר‬
‫=‬
‫מקצוע ראשי‬
‫מקצוע ראשי‬
‫מנהל עסקים‬
‫אחר‬
‫=‬
‫מנהל עסקים‬
‫אחר‬
‫גבר‬
‫‪0.4/0.6‬‬
‫‪0.2/0.6‬‬
‫=‬
‫‪2/3‬‬
‫‪1/3‬‬
‫אישה‬
‫‪0.2/0.4‬‬
‫‪0.2/0.4‬‬
‫=‬
‫‪1/2‬‬
‫‪1/2‬‬
‫משפט בייס מעניק לנו מנגנון המאפשר להפוך את כיוון ההסתברות המותנית‪ ,‬כלומר‪ ,‬להחליף‬
‫בין המשתנה הנתון למשתנה האקראי‪ .‬כך נראית הנוסחה‪:‬‬
‫)‪Pr(X|Y)=(Pr(Y|X) Pr(X))/Pr(Y‬‬
‫תרשים ‪( 1‬בעמוד ‪ )18‬מראה בצורה גרפית מה יכול משפט בייס לעשות‪.‬‬
‫הבה נניח שאנו רוצים לדעת מהי ההסתברות )‪ ,Pr(F|B‬ההסתברות לבחור סטודנטית אישה דווקא‬
‫מבין הסטודנטים הלומדים מנהל עסקים כחוג ראשי‪ .‬נניח גם שיש בידינו רק הנתונים מטבלה‬
‫‪ .1.3‬מטבלה זו אנו יודעים שההסתברות ‪( .Pr(B|F) = 1/2‬ראו התא השמאלי למטה בטבלה‬
‫‪ .)1.3‬אם כן‪ ,‬בהנחה שאנו בוחרים רק סטודנטים הלומדים מנהל עסקים כמקצוע ראשי‪ ,‬מהם‬
‫הסיכויים לבחור תלמידה אישה דווקא מתוך הקבוצה? החישוב נעשה בארבעה צעדים פשוטים‪:‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪7‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫טב לה ‪:1 .4‬‬
‫משפט בייס‪ :‬כיצד לחשב הסתברות מותנית (מגדר מקצוע ראשי)‬
‫מגדר‬
‫גבר‬
‫)‪(M‬‬
‫אישה‬
‫)‪(F‬‬
‫הסתברות‬
‫מגדרית לפני‬
‫קבלת מידע‬
‫נוסף‬
‫(אפריורית)‬
‫‪X‬‬
‫הסתברות‬
‫מותנית‬
‫(מקצוע ראשי |‬
‫מגדר)‬
‫=‬
‫הסתברות‬
‫משותפת‬
‫(מקצוע ראשי‪,‬‬
‫מגדר)‬
‫(משותפת‬
‫÷‬
‫שולית)‬
‫הסתברות‬
‫מותנית‬
‫(מגדר | מקצוע‬
‫ראשי)‬
‫‪NB‬‬
‫‪B‬‬
‫‪NB‬‬
‫‪B‬‬
‫‪NB‬‬
‫‪B‬‬
‫‪0.6‬‬
‫‪1/3‬‬
‫‪1/2‬‬
‫‪0.2‬‬
‫‪0.4‬‬
‫‪1/2‬‬
‫‪2/3‬‬
‫‪0.4‬‬
‫‪1/2‬‬
‫‪1/2‬‬
‫‪0.2‬‬
‫‪0.2‬‬
‫‪1/2‬‬
‫‪1/3‬‬
‫‪0.4‬‬
‫‪0.6‬‬
‫שולית‬
‫שלב ‪2‬‬
‫שלב ‪1‬‬
‫שלב ‪3‬‬
‫שלב ‪4‬‬
‫טבלה ‪ :1.4‬נניח שאנו רוצים למצוא את )‪ ,Pr(F|B‬ההסתברות לבחור סטודנטית‪-‬אישה מבין‬
‫הסטודנטים למנהל עסקים כמקצוע ראשי‪ .‬נניח גם שרק הנתונים מטבלה ‪ 1.3‬נמצאים בידינו‪ .‬לפי‬
‫טבלה ‪( .Pr(B|F) = 1/2 ,1.3‬ראו התא השמאלי התחתון בטבלה ‪ .)1.3‬אם כך‪ ,‬בהנחה שבחרנו‬
‫את כל הסטודנטים הלומדים מנהל עסקים כמקצוע ראשי‪ ,‬מהם הסיכויים לבחור דווקא סטודנטית‬
‫מביניהם? ארבעה צעדים פשוטים יביאו אותנו אל התשובה‪.‬‬
‫שלב ‪ :1‬תחילה עלינו למצוא את ההסתברות השולית של ‪ M‬ושל ‪ ,F‬המכונה הסתברות אפריורית‬
‫‪ M,F.‬לפי נתוני מנהל הסטודנטים ההסתברות היא כזו‪Pr(M) = 0.6, Pr(F) = :‬‬
‫‪ .0.4‬אנו זקוקים גם להסתברות המותנית לבחירת סטודנט הלומד מנהל עסקים כמקצוע‬
‫ראשי בהינתן מגדר מסוים‪.‬‬
‫שלב ‪ :2‬לאחר מכן נכפול את ההסתברויות השוליות בהסתברויות המותנות‪ .‬כך נקבל טבלת‬
‫הסתברות משותפת‪.‬‬
‫שלב ‪ :3‬כעת נסכום את עמודות ההסתברות המשותפת ונקבל את ההסתברות השולית של מנהל‬
‫עסקים כמקצוע ראשי‪= 0.6 ,Pr(NB) = 0.4 ,‬‬
‫)‪.Pr(B‬‬
‫שלב ‪ :4‬לבסוף‪ ,‬נחלק את ההסתברויות המשותפות בהסתברויות השוליות בכל עמודה‪ ,‬וכך‬
‫נשלים את המרת ההסתברות )‪ Pr(B|F‬להסתברות )‪ .Pr(F|B‬ההסתברות שקיבלנו מכונה‬
‫הסתברות אפוסטריורית‪.‬‬
‫‪8‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ן ושא ר קרפ‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫תרג י ל מ ת ח ו ם ה ש י ו ו ק‬
‫ניקח בעיה מן המציאות‪ ,‬שכורים בה קבלת החלטות וניתוח בייסיאני‪ .‬נניח ש‪ = S-‬מכירות ו‪E-‬‬
‫= המצב הכלכלי בארה”ב‪ .‬נגדיר את ‪ Eg‬כתקופה של צמיחה כלכלית‪ ,‬את ‪ Es‬כקיפאון ואת ‪Er‬‬
‫כמיתון‪ .‬נגדיר את ‪ S a‬כמכירות שמתלווה אליהן מסע פרסום‪ ,‬ואת ‪ S n‬כמכירות שאין בצידן מסע‬
‫פרסום‪ Pr(S|E) .‬משמעו ההסתברות למכירות בהינתן מצב כלכלי‪ ,‬כאשר }‪,E = {E g, E s, E r‬‬
‫}‪.S = {S a, S n‬‬
‫טב לה ‪:1 .5‬‬
‫טבלת הכנסות (באלפי דולרים)‬
‫‪Sn‬‬
‫‪Sa‬‬
‫‪Eg‬‬
‫‪50‬‬
‫‪200‬‬
‫‪Es‬‬
‫‪20‬‬
‫‪50‬‬
‫‪Er‬‬
‫‪0‬‬
‫‪100-‬‬
‫טבלה ‪ :1.5‬נניח ש‪ = S -‬מכירות ו‪ = E -‬המצב הכלכלי בארה”ב‪ .‬נגדיר את ‪ Eg‬כתקופה של‬
‫צמיחה כלכלית‪ ,‬את ‪ Es‬כקיפאון ואת ‪ Er‬כמיתון‪ .‬נגדיר את ‪ Sa‬כמכירות שמתלווה אליהן מסע‬
‫פרסום‪ ,‬ואת ‪ Sn‬כמכירות שאין בצידן מסע פרסום‪ Pr(S|E) .‬משמעו ההסתברות למכירות‬
‫בהינתן מצב כלכלי‪ ,‬כאשר‪:‬‬
‫}‪E = {Eg, Es, Er} S = {Sa, Sn‬‬
‫טבלה ‪ 1.5‬היא טבלת הכנסות (באלפי דולרים)‪ ,‬והיא מראה ש‪ :‬אם נצא למסע פרסום )‪(Sa‬‬
‫של צמיחה כלכלית )‪ ,(E g‬נרוויח ‪ .$200‬אם נצא למסע פרסום בזמן קיפאון )‪ (E s‬נרוויח ‪,$50‬‬
‫אך אם נפרסם בזמן מיתון )‪ (Er‬נפסיד ‪ .$100‬אם נחליט שלא לפרסם )‪ (Sn‬בזמן צמיחה )‪(Eg‬‬
‫נרוויח ‪ ,$50‬אם נמנע מפרסום )‪ (S n‬בזמן קיפאון כלכלי )‪ (E s‬נרוויח ‪ ,$20‬ואם נמנע מפרסום‬
‫בזמן מיתון )‪ ,(E r‬לא נרוויח דבר‪ .‬אם נפרסם אפוא אנו עשויים להרוויח עד ‪ $200‬אך אנו גם‬
‫בזמן‬
‫עלולים להפסיד ‪ .$100‬אם לא נפרסם‪ ,‬לא נפסיד כסף בשום מצב אך נוכל להרוויח לכל היותר‬
‫‪( .$50‬אם ההפסד עבור )‪ (Er‬ו‪ (Sn)-‬היה ‪ ,-$100‬אז היה )‪(Sn‬‬
‫קטנות מ‪ (S a) -‬בכל המצבים האפשריים)‪.‬‬
‫הפתרון הנשלט‪ ,‬מכיוון שההכנסות‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪9‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫שלושה עקרונות לקבלת החלטות ללא שימוש בהסתברות‪:‬‬
‫‪.1‬‬
‫‪1‬מקסימקס‬
‫‪.2‬‬
‫‪2‬מקסימין‬
‫‪.3‬‬
‫‪3‬מינימקס חרטה‬
‫לפני שנשתמש בסטטיסטיקה בייסיאנית נחזור על שלושת העקרונות לקבלת החלטות במצבי‬
‫אי‪-‬וודאות ללא שימוש בהסתברות‪ .‬לפי חוק המקסימקס‪ ,‬אנו מניחים את הטוב ביותר וממקסמים‬
‫את המקסימום‪ ,‬כלומר‪ ,‬בוחרים בפעולה שהמקסימום שלה הוא הגבוה ביותר‪ .‬אנו מוסיפים שורה‬
‫לטבלה ושואלים‪“ ,‬בהנחה שהתנאים הם הטובים ביותר‪ ,‬מה המקסימום שנוכל להרוויח בכל‬
‫מקרה?” אם נפרסם‪ ,‬המקסימום שנוכל להרוויח הוא ‪ 200,000‬דולר‪ .‬אם לא נפרסם‪ ,‬המקסימום‬
‫שנוכל להרוויח הוא ‪ 50,000‬דולר‪ .‬לפי עקרון המקסימקס עלינו לבחור לפרסם‪ ,‬מכיוון ש‪200,000-‬‬
‫הוא סכום גדול יותר מ‪.50,000-‬‬
‫טב לה ‪:1 .6‬‬
‫טבלת הכנסות (באלפי דולרים)‬
‫‪Sn‬‬
‫‪Sa‬‬
‫‪Eg‬‬
‫‪50‬‬
‫‪200‬‬
‫‪Es‬‬
‫‪20‬‬
‫‪50‬‬
‫‪Er‬‬
‫‪0‬‬
‫‪100-‬‬
‫מקסימום הכנסה‬
‫‪50‬‬
‫‪200‬‬
‫טבלה ‪ :1.6‬ממחישה את עקרון המקסימקס‪ .‬אנו מניחים את הטוב ביותר וממקסמים‬
‫את המקסימום‪ .‬לפי עקרון המקסימקס עלינו לפרסם‪ ,‬משום ש‪ 200,000-‬הוא סכום גדול‬
‫יותר מ‪.50,000-‬‬
‫לפי עקרון המקסימין‪ ,‬אנו מניחים שהגרוע ביותר יקרה וממזערים את ההפסדים‪ .‬נוסיף לטבלה‬
‫שורה הבודקת מהן ההכנסות הקטנות ביותר בתרחיש הגרוע ביותר‪ .‬לפי עקרון המקסימין נבחר‬
‫שלא לפרסם משום שהחלטה זו תמזער את ההפסדים‪.‬‬
‫‪10‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ן ושא ר קרפ‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫טב לה ‪:1 .7‬‬
‫טבלת הכנסות (באלפי דולרים)‬
‫‪Sn‬‬
‫‪Sa‬‬
‫‪Eg‬‬
‫‪50‬‬
‫‪200‬‬
‫‪Es‬‬
‫‪20‬‬
‫‪50‬‬
‫‪Er‬‬
‫‪0‬‬
‫‪100-‬‬
‫מינימום הכנסה‬
‫‪0‬‬
‫‪100-‬‬
‫טבלה ‪ :1.7‬לפי עקרון המקסימין אנו מניחים שהגרוע מכל יקרה וממזערים את ההפסדים‪ .‬כאן‬
‫נבחר שלא לפרסם מכיוון שההחלטה הזו תמזער את ההפסדים‪.‬‬
‫בעזרת עקרון המינימקס חרטה אנו ממזערים את אובדן ההזדמנויות‪ .‬לשם כך נבנה מטריצת‬
‫חרטה‪ .‬כדי לבנות את המטריצה נחשב את ההכנסה המרבית לכל מצב כלכלי וכמה רחוקה כל‬
‫הכנסה מההכנסה המרבית של אותו מצב‪ .‬בדוגמה שלנו‪ ,‬אם ישנה צמיחה כלכלית )‪(Eg‬‬
‫מפרסמים )‪ ,(S n‬נהיה במרחק ‪ 150,000‬דולר מההכנסה הגדולה ביותר (‪ .)200-50‬אם אכן נפרסם‪,‬‬
‫ואיננו‬
‫נהיה במרחק ‪ 0‬דולר מההכנסה המרבית‪ .‬לפי עקרון המינימקס ומטריצת המינימקס שלנו נבחר‬
‫לפרסם )‪ ,(S a‬מכיוון שהחרטה הגדולה ביותר שנגיע אליה אם לא נפרסם היא ‪ 150,000‬דולר‪,‬‬
‫והחרטה הגדולה ביותר נגיע אליה אם נפרסם היא ‪ 100,000‬דולר‪ .‬כדי למזער את החרטות‪ ,‬כלומר‪,‬‬
‫את ההזדמנויות האבודות‪ ,‬אנו בוחרים בקטן מבין הסכומים ובוחרים לפרסם‪.(S a) ,‬‬
‫טב לה ‪:1 .8‬‬
‫מטריצת חרטה (באלפי דולרים)‬
‫טבלת הכנסות (באלפי דולרים)‬
‫‪Sn‬‬
‫‪Sa‬‬
‫מקסימום‬
‫‪Eg‬‬
‫‪50‬‬
‫‪200‬‬
‫‪200‬‬
‫‪Eg‬‬
‫‪Es‬‬
‫‪20‬‬
‫‪50‬‬
‫‪50‬‬
‫‪Es‬‬
‫‪30‬‬
‫‪Er‬‬
‫‪0‬‬
‫‪-100‬‬
‫‪0‬‬
‫‪Er‬‬
‫‪0‬‬
‫‪100‬‬
‫מקסימום חרטה‬
‫‪150‬‬
‫‪100‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪Sn‬‬
‫‪Sa‬‬
‫‪150‬‬
‫‪0‬‬
‫‪0‬‬
‫‪11‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫ק ב ל ת ה ח ל ט ו ת ת ו ך ש י מ ו ש ב כ ל ים ה סתב רותיי ם‬
‫שלושת עקרונות קבלת ההחלטות הללו‪ ,‬מקסימקס‪ ,‬מקסימין ומינימקס חרטה אינם מביאים‬
‫ו‪ .(E r) -‬אם נחזור לטבלת ההכנסות המקורית‬
‫בחשבון מדדים הסתברותיים עבור )‪(Es) ,(Eg‬‬
‫שלנו‪ ,‬מה שנרצה לדעת הוא האם )‪ (Es) ,(Eg‬ו‪ (Er)-‬עומדים להתרחש‪ .‬אם נחשוב ש‪(Eg)-‬‬
‫או )‪ (E s‬עומדים להתרחש‪ ,‬נפרסם‪ .‬אם נחשוב ש‪ (E r) -‬עומד להתרחש‪ ,‬נמנע מלפרסם‪ .‬במקרה‬
‫זה נשתמש בהסתברות כדי לחשב את הסיכוי לכל מצב‪.‬‬
‫טב לה ‪:1 .9‬‬
‫טבלת הכנסות (באלפי דולרים)‬
‫‪Sn‬‬
‫‪Sa‬‬
‫‪0.2‬‬
‫‪Eg‬‬
‫‪50‬‬
‫‪200‬‬
‫‪0.7‬‬
‫‪Es‬‬
‫‪20‬‬
‫‪50‬‬
‫‪0.1‬‬
‫‪Er‬‬
‫‪0‬‬
‫‪-100‬‬
‫הסתברות )‪(Pr‬‬
‫טבלה ‪ :1.9‬זהו מקרה שבו אפשר להשתמש בהסתברות‪ ,‬וכאן בא לידי ביטוי העיקרון הרביעי‪:‬‬
‫ערך צפוי‪ .‬לפי עקרון הערך הצפוי‪ ,‬אנו מכפילים את ההכנסה עבור כל מצב בהסתברות של‬
‫המצב ואז סוכמים עבור כל ההחלטות‪ .‬במילים אחרות‪ ,‬בעזרת שימוש בעקרון הערך הצפוי אנו‬
‫יכולים להביא בחשבון את ההסתברות להתרחשות של כל מצב כלכלי ואז לחשב את ההכנסה‬
‫הכוללת הצפויה בכל החלטה‪.‬‬
‫כאן בא לידי שימוש העיקרון הרביעי‪ :‬עקרון הערך הצפוי‪ .‬לפי עקרון הערך הצפוי אנו כופלים את‬
‫ההכנסה בכל תוצאה בהסתברות של כל התוצאות וסוכמים את כל התוצאות‪ .‬במילים אחרות‪,‬‬
‫כאשר אנו משתמשים בעקרון הערך הצפוי אנו יכולים להביא בחשבון כל מצב כלכלי שעשוי‬
‫להתרחש ולחשב את ההכנסה הכוללת הצפויה עבור כל החלטה‪ .‬ההחלטה הטובה ביותר היא זו‬
‫המניבה את ההכנסה הגבוהה ביותר (חוק לפלס מניח הסתברויות שוות לכל המאורעות)‪.‬‬
‫נניח שישנם שלושה מאורעות‪ :‬קיפאון כלכלי‪ ,‬צמיחה כלכלית ומיתון כלכלי‪ .‬מומחה לחיזוי כלכלי‬
‫סבור שישנה הסתברות של ‪ 70%‬לקיפאון כלכלי )‪ ,(Es‬הסתברות של ‪ 20%‬לצמיחה כלכלית )‪(Eg‬‬
‫והסתברות של ‪ 10%‬למיתון )‪( .(E r‬חוק לפלס יעניק הסתברות שווה לכל אחד מהתרחישים)‪.‬‬
‫תחילה נכניס את ההסתברות לכל תרחיש לטבלת ההכנסות שלנו‪ ,‬ולאחר מכן נחשב את סך‬
‫הערך הצפוי עבור כל משתנה החלטה (‪S a‬‬
‫ו‪ )S n-‬בכל אחד מהתרחישים הכלכליים‪ .‬כך תראה‬
‫הנוסחה עבור מכירות ללא מסע פרסום‪:‬‬
‫)‪EV(Sn) = $50 — Pr(Eg) + $20 — Pr(Es) + $0 — Pr(Er‬‬
‫‪12‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ן ושא ר קרפ‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫הערך הצפוי של אי‪-‬הפרסום שווה להסתברות של צמיחה כלכלית כפול ההכנסה המתאימה‬
‫לה ‪ 50,000 -‬דולר‪ ,‬ועוד ההסתברות לקיפאון כפול ההכנסה הצפויה במצב זה ‪ 20,000 -‬דולר‪,‬‬
‫ועוד ההסתברות למיתון כפול ההכנסה הצפויה במקרה זה ‪ .0 -‬מנגד‪ ,‬הנה הנוסחה למכירות‬
‫שמסע פרסום בצידן (‪ = EV‬ערך צפוי)‪:‬‬
‫)‪EV(Sa) = $200 — Pr(Eg) + $50 — Pr(Es) + (-$100) — Pr(E r‬‬
‫נציב את ערך ההסתברות לכל מצב בנוסחה‪:‬‬
‫‪EV(Sn) = $50 — (0.2) + $20 — (0.7) + $0 — (0.1) = $24‬‬
‫‪EV(Sa) = $200 — (0.2) + $50 — (0.7) + (-$100) — (0.1) = $65‬‬
‫(לפי חוק לפלס‪ ,EV(Sa) = 50 ,EV(Sn) = 23.3 ,‬ולפיכך נבחר ב‪).)Sa( -‬‬
‫הערך הצפוי עבור אי פרסום )‪ (Sn‬הוא ‪ 24,000‬דולר‪ ,‬והערך הצפוי עבור פרסום )‪(Sa‬‬
‫הוא ‪65,000‬‬
‫דולר‪ .‬בהינתן הסתברויות אלו עבור שלושת התרחישים הכלכליים השונים‪ ,‬ההחלטה לפרסם )‪(Sa‬‬
‫תניב את הערך הצפוי הגבוה ביותר‪ .‬לו היו ההסתברויות שונות היו גם הערכים הצפויים שונים‪,‬‬
‫כמובן‪ ,‬והחלטתנו הייתה עשויה להיות שונה‪ .‬לדוגמה‪ :‬נניח שחזאי כלכלי אחר סבור שההסתברות‬
‫לקיפאון אינה ‪ 70%‬כי אם ‪ 10%‬בעוד ההסתברות למיתון היא ‪.70%‬‬
‫‪EV(Sn) = $50 (0.2) + $20 (0.1) + $0 (0.7) = $12‬‬
‫‪EV(S a) = $200 (0.2) + $50 (0.1) + (-$100) (0.7) = -$25‬‬
‫אם נציב את הערכים החדשים בנוסחאות ונחשב את הערך הצפוי‪ ,‬הערך הצפוי הגבוה ביותר‬
‫נקבל הוא ‪ 12,000‬דולר‪ ,‬ולכן נבחר בהחלטה )‪(Sn‬‬
‫‪ -‬ונמנע מלפרסם‪ .‬לפיכך‪ ,‬אם נבחר בחזאי‬
‫הראשון הטוען שהתרחיש המסתבר ביותר הוא מיתון‪ ,‬נבחר לצאת במסע פרסום‪ .‬לעומת זאת‪,‬‬
‫אם נבחר בחזאי השני שלשיטתו התרחיש המסתבר ביותר הוא מיתון‪ ,‬נמנע מלפרסם‪.‬‬
‫כעת נניח שישנה חברה המתמחה במחקרי שוק ומעניקה ייעוץ למשווקים‪ .‬החברה יכולה לחשב‬
‫את ההסתברות של כל תרחיש‪ ,‬אך תמורת תשלום‪ ,‬ולא תיתן אף פיסת מידע לגבי העתיד לפני‬
‫קבלת התשלום‪ .‬עם זאת‪ ,‬החברה מאפשרת לכם לעיין בתחזיות מהעבר )‪ .(F‬הניתוח הבייסיאני‬
‫מאפשר לנו להפיק תועלת מן התחזיות הללו‪ .‬אנו יכולים לעיין בחזיות ולהשוות אותן למה‬
‫שהתרחש בסופו של דבר‪ ,‬וכך לגזור הסתברות מותנית של התחזית ‪ -‬המכונה ‪F‬‬
‫כלכלי (‪ .Pr(F|E) :)E‬למידע זה כמות שהוא אין ערך רב‪ ,‬אך בעזרת חוק בייס אנו יכולים‬
‫למצוא את ההסתברות )‪ ,Pr(E|F‬ההסתברות של מצב כלכלי בהינתן תחזית‪.‬‬
‫‪ -‬בהינתן מצב‬
‫בדוגמה מציאותית זו עלינו לזכור שלא נדע מה חזה המומחה לחיזוי כלכלי עד שנשלם תמורת‬
‫התחזית‪ .‬כך נעשית השאלה מסובכת מעט יותר‪ .‬עלינו גם לשקול כמה נסכים לשלם תמורת‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪13‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫התחזית‪ .‬האם אנו זקוקים בהכרח לתחזית המדויקת ביותר? ככל שהתחזית מדויקת יותר כך‬
‫היא מתייקרת‪ ,‬וככל שנשלם בעדה מחיר גבוה יותר כך יקטנו רווחינו‪.‬‬
‫אנו יכולים להשיג את ההסתברויות לתרחישים כלכליים עתידיים ממקורות אמינים‪ .‬נניח שאנו‬
‫ההסתברויות האפריוריות שלנו‪.)0.1 ,0.7 ,0.2( :‬לאחר מכן נוכל למצוא מידע היסטורי שלפיו‬
‫נסיק כיצד חזה המומחה את ההסתברויות הללו ועד כמה דייק בתחזיתו‪ .‬זוהי ההסתברות של‬
‫התחזית בהינתן מצב כלכלי‪ ,‬או )‪.Pr(F i|E i‬‬
‫לאחר מכן נבנה טבלה שתיתן לנו את ההסתברות של התחזית עבור כל אחד מהמצבים הכלכליים‬
‫שנחזו‪ .‬לרוחב שורת התאים העליונה יופיעו הערכים של השכיחות היחסית של התחזית עבור‬
‫ומיתון )‪ .(E r‬לאורך העמודה הקיצונית מימין נסדר את המצבים‬
‫צמיחה )‪ ,(Eg‬קיפאון )‪(Es‬‬
‫הכלכליים השונים‪ :‬צמיחה )‪ ,(E g‬קיפאון )‪ (E s‬ומיתון )‪.(E r‬‬
‫כעת נניח שהמספרים מתחזיות העבר נמצאים בידינו‪ .‬לפי הטבלה שלנו‪ ,‬ב‪ 80%‬מן הפעמים שבהן‬
‫חזה המומחה צמיחה אכן חלה צמיחה‪ ,‬ב‪ 10%-‬מן הפעמים חל קיפאון וב‪ 10%-‬מן הפעמים‬
‫חל מיתון‪ .‬גם עבור התחזיות לקיפאון ומיתון היו התוצאות זהו ‪ -‬הן היו נכונות ב‪ 80%-‬מהזמן‪.‬‬
‫כעת יש לנו ההסתברות האפריורית של )‪ ,Pr(E‬וההסתברות המותנית‪ ,Pr(F|E) ,‬ואנו יכולים‬
‫לחשב את ההסתברות האפוסטריורית‪ ,‬או )‪ ,Pr(F i|E i‬ההסתברות של התרחשות מצב כלכלי‬
‫כלשהו בהינתן תחזית‪.‬‬
‫כך נחשב (קראו מימין לשמאל)‪:‬‬
‫מותנית‬
‫אפריורית‬
‫)‪Pr(E‬‬
‫‪Eg‬‬
‫‪0.2‬‬
‫‪Es‬‬
‫‪0.7‬‬
‫‪Er‬‬
‫‪0.1‬‬
‫‪X‬‬
‫אפוסטריורית‬
‫משותפת‬
‫)‪Pr(Fi|Ei‬‬
‫‪F r __ Fs __ Fg‬‬
‫)‪Pr(Fi,Ei‬‬
‫‪Fr __ Fs __ Fg‬‬
‫)‪Pr(E i|Fi‬‬
‫‪Fr __ Fs __ Fg‬‬
‫‪0.8‬‬
‫‪0.1‬‬
‫‪0.1‬‬
‫‪0.16‬‬
‫‪0.02‬‬
‫‪0.02‬‬
‫‪0.67‬‬
‫‪0.03‬‬
‫‪0.12‬‬
‫‪0.1‬‬
‫‪0.8‬‬
‫‪0.1‬‬
‫‪0.07‬‬
‫‪0.56‬‬
‫‪0.29 Pr(F ) 0.07‬‬
‫‪i‬‬
‫‪0.95‬‬
‫‪0.41‬‬
‫‪0.1‬‬
‫‪0.1‬‬
‫‪0.8‬‬
‫‪0.01‬‬
‫‪0.01‬‬
‫‪0.08‬‬
‫‪0.04‬‬
‫‪0.02‬‬
‫‪0.47‬‬
‫שולית‬
‫) ‪0.24 Pr(F‬‬
‫‪i‬‬
‫‪0.59‬‬
‫‪0.17‬‬
‫‪1.00‬‬
‫‪1.00‬‬
‫‪1.00‬‬
‫=‬
‫÷‬
‫שלב ‪ :1‬נכפול את ההסתברות האפריורית בהסתברות המותנית כדי לקבל הסתברות משותפת‪.‬‬
‫שלב ‪ :2‬נסכום כל עמודה כדי להגיע להסתברויות השוליות‪.‬‬
‫שלב ‪ :3‬נחלק את הסכום שבכל תא בהסתברות השולית המתאימה לו כדי למצוא את ההסתברות‬
‫האפוסטריורית‪.‬‬
‫החזאי הכלכלי יחזה אחד משלושה מצבים ‪Es ,E g -‬‬
‫או ‪ ,E r‬אך אתם יכולים לבסס את החלטתכם‬
‫על כל התחזיות האפשריות‪ .‬נחזור לעקרון הערך הצפוי‪ ,‬אך הפעם נציב את ערכי ההסתברות‬
‫‪14‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ן ושא ר קרפ‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫האפוסטריורית עבור כל תחזית אפשרית‪ .‬זכרו שתקבלו רק תחזית אחת ‪ -‬צמיחה‪ ,‬קיפאון או‬
‫מיתון‪.‬‬
‫כך נחשב את הערך הצפוי של מכירות ללא מסע פרסום בצידן והערך הצפוי של מכירות עם‬
‫מסע פרסום בצידן עבור כל מצב כלכלי אפשרי‪ .‬נביט על תוצאות החישובים שלנו‪ :‬אם המומחה‬
‫יחזה צמיחה‪ ,‬נבחר לפרסם ונרוויח ‪ 144,500‬דולר‪ .‬אם התחזית היא קיפאון נבחר לפרסם משום‬
‫שעדיין נרוויח ‪ 49,500‬דולר‪ .‬אך אם התחזית היא מיתון‪ ,‬נבחר שלא לפרסם משום שכך לא‬
‫נפסיד ואף נרוויח ‪ 14,200‬דולר‪.‬‬
‫הכנסה צפויה‬
‫(באלפי דולרים)‬
‫החלטה באלפי ‪$‬‬
‫‪$144.5‬‬
‫‪Sa‬‬
‫‪$51.5‬‬
‫‪Sa‬‬
‫‪$14.2‬‬
‫‪Sn‬‬
‫‪EV(Sn|Fg) = $50(0.67) + $20(0.29) + $0(0.04) = $39.3‬‬
‫‪EV(Sa|Fg) = $200(0.67) + $50(0.29) + (-$100)(0.04) = $144.5‬‬
‫‪EV(Sn|Fs) = $50(0.03) + $20(0.95) + $0(0.02) = $20.5‬‬
‫‪EV(Sa|Fs) = $200(0.03) + $50(0.95) + (-$100)(0.02) = $51.5‬‬
‫‪EV(Sn|Fr) = $50(0.12) + $20(0.41) + $0(0.47) = $14.2‬‬
‫‪EV(Sa|Fr) =$200(0.12) + $50(0.41) + (-$100)(0.47) = -$2.54‬‬
‫ער ך צפ ו י ש ל ה ח ז א י‬
‫לבסוף נוכל לחשב את הערך הכולל של החזאי‪ .‬עבור כל החלטה אפשרית נכפול את הערך‬
‫הצפוי של ההחלטה לפרסם או לא לפרסם בהסתברות השולית שהתחזית תתגשם‪ .‬לאחר מכן‬
‫נסכום את הערכים הצפויים הללו‪ .‬התוצאה שבידינו היא הערך הצפוי אם נבחר לעקוב אחר‬
‫תחזיתו של המומחה‪ = forecaster( .‬חזאי‪ = no forecaster ,‬ללא חזאי)‪:‬‬
‫‪EV(forecaster) = $144,500 (0.24) + $51,500 (0.59) + $14,200 (0.17) = $67,479‬‬
‫‪1‬‬
‫‪EV(no forecaster) = $200,000(0.2) + $50,000(0.7) + (-$100,000)(0.1) = $65,000‬‬
‫כאשר נפחית את התוצאה שהגענו אליה ללא התייעצות עם חזאי מהתוצאה שהגענו אליה לאחר‬
‫התייעצות עם החזאי נגיע לערך הצפוי של המידע הנוסף )‪ ,(EVAI‬ערך שהוסיפה ההתייעצות‬
‫עם החזאי‪ .‬זהו הסכום הגבוה ביותר שנהיה מוכנים לשלם תמורת הייעוץ‪ = net gain( .‬רווח נקי)‪:‬‬
‫‪EV(forecaster) = $67,479‬‬
‫‪EV(no forecaster) = $65,000‬‬
‫‪Net gain = $ 2,479‬‬
‫‪ 1‬ראו את החישוב תחת הכותרת ‘קבלת החלטות תוך שימוש בכלים הסתברותיים’‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪15‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫הער ך ה צפ ו י ש ל מ י ד ע מ ו ש ל ם )‪(EVPI‬‬
‫כדי למצוא את הערך האפשרי הגבוה ביותר של המידע הנוסף‪ ,‬או מה הסכום הגבוה ביותר‬
‫שכדאי לשלם לחזאי‪ ,‬נשתמש בערכי ההסתברות האפריורית שלנו כפול הסכום הכספי הגבוה‬
‫ביותר שנוכל להרוויח בכל תרחיש כלכלי‪ .‬התוצאה שתתקבל היא הערך הצפוי של מידע מושלם‪,‬‬
‫או ‪.EVPI‬‬
‫‪EVPI = $200,000(0.2) + $50,000(0.7) + $0(0.1) = $75,000‬‬
‫לאחר מכן נפחית מן הסכום הזה את הערך הצפוי ללא העזרות בשירותיו של חזאי‪.65,000$ ,‬‬
‫‪ = EV - EVPI‬הסכום הגבוה ביותר שנשלם לחזאי עם מידע מושלם‬
‫‪$75,000 - $65,000 = $10,000‬‬
‫תר גי ל‬
‫‪I1‬‬
‫‪I2‬‬
‫‪I3‬‬
‫‪E1‬‬
‫‪50‬‬
‫‪20‬‬
‫‪10‬‬
‫‪E2‬‬
‫‪40‬‬
‫‪10‬‬
‫‪5‬‬
‫‪E3‬‬
‫‪10‬‬
‫‪5‬‬
‫‪50‬‬
‫יהי ‪ - I‬מידת השקעה‪I ,I2 ,I1 ,‬‬
‫‪. 3‬‬
‫‪ - E‬מצב כלכלי‪E ,E2 ,E1 ,‬‬
‫‪. 3‬‬
‫‪ - F‬תחזית למצב כלכלי‬
‫ההסתברויות האפריוריות שלנו הן‪Pr(E1) = Pr(E 2) = Pr(E 3) :‬‬
‫תצ פי ת‪:‬‬
‫‪16‬‬
‫‪F1‬‬
‫‪F2‬‬
‫‪F3‬‬
‫‪E1‬‬
‫‪0.90‬‬
‫‪0.05‬‬
‫‪0.05‬‬
‫‪E2‬‬
‫‪0.05‬‬
‫‪0.90‬‬
‫‪0.05‬‬
‫‪E3‬‬
‫‪0.05‬‬
‫‪0.05‬‬
‫‪0.90‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫ן ושא ר קרפ‬
‫‪2‬‬
‫שאלות ‪:‬‬
‫‪.1‬‬
‫האם חלופה ‪I2‬‬
‫‪.2‬‬
‫האם ניתוח בייסיאני משנה את ההסתברות המותנית? מדוע או מדוע לא?‬
‫‪.3‬‬
‫מהו הערך הצפוי של המידע הנוסף )‪?(EVAI‬‬
‫‪.4‬‬
‫מהו הערך הצפוי של המידע המושלם )‪?(EVPI‬‬
‫‪2‬‬
‫התשובות בסוף הספר‬
‫כדאית בכל מצב או האם היא פתרון שולט? מדוע?‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪17‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫ת ר שים ‪ :1‬יי צ ו ג ח ז ותי ש ל ח ו ק בייס‬
‫אפריורית‬
‫‪X‬‬
‫משותפת‬
‫מותנית‬
‫אפוסטריורית‬
‫שולית‬
‫‪18‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ן ושא ר קרפ‬
‫ינאיסייב חו ת ינו תורבת ס ה ‬
‫חז ר ה‬
‫כ י צ ד לע ד כ ן ה ס ת בר ו ת אפר י ור י ת בעז רת חוק ביי ס‬
‫שלב ‪ :1‬קלט‬
‫‪.4‬‬
‫‪4‬טבלת הכנסות‬
‫‪.5‬‬
‫‪5‬הסתברות אפריורית עבור כל מאורע‪ ,‬ערך צפוי עבור כל אסטרטגיה‬
‫‪.6‬‬
‫‪6‬הסתברויות מותנות של הצלחת החזאי )‪(F|E‬‬
‫שלב ‪ :2‬חישוב הסתברויות‬
‫‪.1‬‬
‫‪1‬כפלו את ההסתברות האפריורית בהסתברות מותנית (‪ )F|E‬הסתברות משותפת‬
‫‪.2‬‬
‫‪2‬סכמו כל עמודה של הסתברות משותפת הסתברות שולית‬
‫‪.3‬‬
‫‪3‬חלקו כל תא של ההסתברות המשותפת בהסתברות השולית הסתברות מותנית )‪(E|F‬‬
‫שלב ‪ :3‬ערך צפוי (עם תחזית נתונה)‬
‫‪.1‬‬
‫‪F11‬‬
‫ א‪ .‬פעולת כפל‪:‬‬
‫‪ Pr(E1|F1) x‬הכנסה עבור ‪ (S1|E1); Pr(E2|F1) x‬הכנסה עבור )‪(S1|E2‬‬
‫עבור כל המאורעות והסכומים‬
‫ב‪ .‬עשו אותה פעולה עבור ‪S4 ,S3 ,S2‬‬
‫ג‪ .‬בחרו את ההחלטה שבה ה‪ E-‬הוא הגבוה ביותר )‪(Si|Fi‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪2‬חזרו על כל התהליך עבור ‪F2‬‬
‫‪3‬חזרו על כל התהליך עבור ‪F3‬‬
‫“ “ “ “‬
‫“ “ “ “‬
‫“ “ “ “‬
‫‪ “ Fn n‬‬
‫ “‬
‫שלב ‪ :4‬ערך צפוי (תחזית)‬
‫כפלו את הכנסה ‪F1‬‬
‫בהסתברות השולית )‪;Pr(F 1‬‬
‫חזרו על התהליך עבור כל התחזיות האפשריות וסכמו‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪19‬‬
‫ינאיסייב חו ת ינו תורבת ס ה‬
‫ן ושא ר קרפ‬
‫שלב ‪ :5‬ערך צפוי של מידע נוסף‬
‫ערך צפוי של מידע נוסף )‪(EVAI) = EV(forecast) - EV(no forecast‬‬
‫ערך צפוי של מידע מושלם (נתון לבחירתכם)‬
‫כפלו את ההכנסה המרבית עבור כל מאורע בהסתברותו של המאורע; סכמו‬
‫הכנסה מרבית לתחזית = )‪EV(maximum payoff)3 - EV(no forecast‬‬
‫‪ 3‬‬
‫‪20‬‬
‫‪ = Maximum payoff‬הכנסה מרבית‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫פרק שני‬
‫מ א פ י ינ י מ י ד ע‬
‫מ דע ה ש י ו ו ק‬
‫‪ -‬ס ק יר ה כ ל ל י ת‬
‫מבוא‬
‫אפשר לתאר עצמים ואנשים באמצעות נתונים‪ .‬לדוגמא‪ ,‬נניח שנרצה לתאר אדם שהוא‬
‫זכר‪ ,‬בוגר קולג'‪ ,‬הגר בניו‪-‬יורק‪ ,‬נשוי ורוכב לעבודה באופניים‪ .‬מידע יכול לשמש לייצוג‬
‫אובייקטים שונים‪ ,‬כמו האדם שלעיל‪ .‬נגדיר ארבעה משתנים‪ X1 :‬ייצג אדם זכר‪X2 ,‬‬
‫בוגר קולג'‪ X3 ,‬ייצג תושב ניו‪-‬יורק ו‪ X4 -‬ייצג אדם שאינו רוכב לעבודתו באופניים‪ .‬כל‬
‫אחד מן המשתנים יניח שערך ‪ 1‬מייצג אם המאפיין מתקיים וערך ‪ 0‬מייצג אם המאפיין‬
‫ייצג‬
‫אינו מתקיים‪.‬‬
‫האדם שהצגנו יכול להיות מזוהה כ‪ X1 = 1( 1110 -‬משום שהוא זכר‪X2 = 1 ,‬‬
‫שהוא בוגר קולג'‪ X3 = 1 ,‬משום שהוא תושב ניו‪-‬יורק ו ‪ X4 = 1 -‬משום שהוא כן‬
‫משום‬
‫רוכב לעבודתו באופניים)‪ .‬נקבה בוגרת בי"ס תיכון המתגוררת בעיר פארגו‪ ,‬צפון‪-‬דקוטה‬
‫ושאינה רוכבת על אופניים תזוהה כ‪.0001 -‬‬
‫אם היה לנו בסיס נתונים בעל כמה עשרות בני אדם‪ ,‬היינו מקבלים כמה עשרות אלפי‬
‫שורות של נתונים (שורות הן אופקיות ועמודות הן אנכיות)‪ .‬וארבע עמודות צולבות‪,‬‬
‫המייצגות עבור כל אדם מאפיינים של ארבעת המשתנים הנ"ל‪.‬‬
‫מ י ד ע נ ו מ ינ ל י‬
‫הדוגמא שלעיל מייצגת מידע נומינלי‪ .‬הסיבה היא‪ ,‬שהמספרים אינם מייצגים דבר מלבד קיומו‬
‫או היעדרו של מאפיין מסוים‪ .‬אם ניקח לדוגמא שני בני אדם‪ ,‬האחד עם תוצאה של ‪ 0001‬והשני‬
‫עם תוצאה של ‪ ,0010‬האם זה אומר שהאדם השני חשוב פי עשר מהראשון? כמובן שלא! זה‬
‫יהיה כמו לומר‪ ,‬שאם מספר המיקוד של מישהו גדול משלי‪ ,‬אז הוא חשוב יותר ממני‪ .‬ברור‪ ,‬כי‬
‫מספרים המייצגים את קיומו או היעדרו של מאפיין מסוים אינם יכולים לשמש למסקנות אחרות‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪21‬‬
‫עדימ ינייפאמ‬
‫ינש קרפ‬
‫מ י דע ס ד ור‬
‫נניח כי חברה למילוי בקבוקים מבקשת לבדוק את העדפותיהם של בני נוער לגבי סוגי משקאות‬
‫קלים‪ .‬רננה‪ ,‬המתגוררת בעיר‪ ,‬מעדיפה משקאות קלים בסדר הבא‪ :‬קוקה‪-‬קולה‪ ,‬ספרייט‪ ,‬ספרינג‪,‬‬
‫בירת קרלסברג ופפסי‪ .‬ורוניקה‪ ,‬החיה בחווה‪ ,‬מעדיפה משקאות קלים בסדר הבא‪ :‬ספרינג‪ ,‬ספרייט‪,‬‬
‫קוקה‪-‬קולה‪ ,‬פפסי ובירת קרלסברג‪.‬‬
‫אנו יכולים להגדיר חמישה משתנים לגבי העדפות של משקאות קלים‪:‬‬
‫‪V‬‬
‫ייצג את קוקה‪-‬קולה כמשקה הקל המועדף‬
‫‪W‬‬
‫ייצג את פפסי כמשקה הקל המועדף‬
‫‪X‬‬
‫ייצג את ספרינג כמשקה הקל המועדף‬
‫‪Y‬‬
‫ייצג את ספרייט‬
‫‪Z‬‬
‫ייצג את בירת קרלסברג‪.‬‬
‫כעת נציב את הערכים של ההעדפות‪ :‬העדפה ראשונה = ‪ ,5‬העדפה שניה = ‪,4‬‬
‫העדפה שלישית = ‪ ,3‬העדפה רביעית = ‪ 2‬והעדפה חמישית = ‪.1‬‬
‫העדפות של רננה יהיו )‪51342 (V = 5, W = 1, X = 3, Y = 4, Z = 2‬‬
‫ורוניקה – ‪32541‬‬
‫)‪ .(V = 3, W = 2, X = 5, Y = 4, Z = 1‬במקרה זה‪ ,‬תוצאת ה‪ 5 -‬של רננה‬
‫ושל‬
‫בהעדפת קוקה‪-‬קולה יהיה גבוה יותר מתוצאת ה‪ 3 -‬של ורוניקה‪ .‬היא מראה‪ ,‬שההעדפה של‬
‫רננה לגבי קוקה‪-‬קולה חזקה יותר מזו של ורוניקה‪ .‬מכאן‪ ,‬שסדר העדיפויות מיוצג בערכים של‬
‫המשתנים הנתונים‪.‬‬
‫סוג המידע הזה מוכר כמידע סדור‪ ,‬משום שסדר הנתונים מייצג העדפות‪ .‬מידע סדור מכיל יותר‬
‫אינפורמציה ממידע נומינלי‪ ,‬שמכיל רק אינפורמציה על קיומם או היעדרם של מאפיינים‪ .‬למרות‬
‫שמידע סדור מכיל יותר אינפורמציה ממידע נומינלי‪ ,‬יש בו חסרון משמעותי – רמת החשיבות‬
‫של ההעדפות אינה ידועה‪ .‬בדוגמא של המשקאות הקלים אנחנו לא יודעים מה היו תוצאות‬
‫התעדוף בפועל של המשקאות השונים‪.‬‬
‫נניח שבסרגל של ‪ 100‬נקודות‪ ,‬רננה‪ ,‬שההעדפות המקוריות שלה היו ‪ ,51342‬דירגה כך את‬
‫ההעדפות שלה‪ :‬קוקה‪-‬קולה = ‪ ,90‬פפסי = ‪ ,80‬ספרינג = ‪ ,82‬ספרייט = ‪ ,83‬בירת קרלסברג =‬
‫‪ .81‬ורוניקה‪ ,‬שההעדפות המקוריות שלה היו ‪ ,32541‬דירגה כך את ההעדפות שלה‪ :‬קוקה‪-‬קולה‬
‫= ‪ ,95‬פפסי = ‪ ,10‬ספרינג = ‪ ,97‬ספרייט = ‪ ,96‬בירת קרלסברג = ‪.5‬‬
‫אם היינו רוצים להשוות את ההעדפות של מותגים שונים‪ ,‬אנחנו נעשה טעות אם נאמר‪ ,‬שמאחר‬
‫וקוקה‪-‬קולה היתה העדיפות הראשונה של רננה ושלישית של ורוניקה‪ ,‬רננה אוהבת קוקה‪-‬קולה‬
‫יותר מאשר ורוניקה‪ .‬בדוגמא שלנו‪ ,‬ורוניקה נתנה לקוקה‪-‬קולה את הציון ‪ 95‬בעוד שרננה נתנה‬
‫‪22‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ינש קרפ‬
‫עדימ ינייפאמ ‬
‫לקוקה‪-‬קולה מיון של ‪ ! 90‬כך שתיהם דירגו את ספרייט במקום השני‪ ,‬כאשר רננה העניקה‬
‫לספרייט מיון של ‪ 83‬בעוד שורוניקה העניקה לספרייט ציון של ‪!96‬‬
‫לסיכום‪ ,‬מידע סדור אינו מאפשר השוואה של העדפות בין אינדוידואלים שונים מאחר וההעדפות‬
‫הן ייחודיות לכל אדם ואדם‪ .‬בסעיף הבא נדון במידע מוחלט (קטגוריאלי)‪.‬‬
‫מ י דע ק ט ג ור י א ל י‬
‫מידע יכול לשמש כדי לייצג סיגמנטים או קטגוריות שונות‪ .‬לדוגמא‪ ,‬במשתנה 'הכנסה' אדם אחד‬
‫יכול להשתייך לקבוצת ההכנסה הנמוכה‪ ,‬לקבוצת ההכנסה הבינונית או לקבוצת ההכנסה הגבוהה‪.‬‬
‫אנחנו יכולים לקודד את משתנה ההכנסה כך‪ =1 :‬הכנסה נמוכה‪ =2 ,‬הכנסה בינונית‪ =3 ,‬הכנסה‬
‫גבוהה‪ .‬נתוני ההכנסה בפועל לא תועדו כלל‪ ,‬רק הקטלוג לקבוצת ההכנסה‪ .‬לכן‪ ,‬המושג מידע‬
‫קטגוריאלי נועד לציין נתון המשויך לסיגמנט או לקבוצה‪.‬‬
‫מידע קטגוריאלי יכול לשמש להגדרת רמת הדישון של שדה‪ ,‬היקף ההוצאה על פרסום מוצרים‬
‫חדשים‪ ,‬היקף ההנחה הכלולה בהצעת מחיר‪ ,‬ועוד‪.‬‬
‫מ י דע א ינ טר ו ו ל י‬
‫מידע אינטרוולי שונה מידע סדור וממידע קטגוריאלי‪ .‬מידע אינטרוולי משתמש בתוצאות בפועל‬
‫או במדידת ביצועים‪ .‬לכן משתנה ה‪' -‬הכנסה' ימדוד את ההכנסה בפועל לבית‪-‬אב עבור אדם‬
‫מסוים‪ .‬זה מנוגד למשתנה הקטגוריאלי 'הכנסה'‪ ,‬בו המידע מודד את רמת ההכנסה של משפחה‬
‫ולא את ההכנסה בפועל של בית‪-‬האב‪ .‬אם 'הכנסה' הוא משתנה קטגוריאלי‪ ,‬ההבדל או האינטרוול‬
‫בין המושאים יכול להיות גדול מאוד או קטן מאוד‪.‬‬
‫נניח שהפער בין הכנסה גבוהה לבינונית הוא ‪ 75,000$‬והפער בין הכנסה בינונית לנמוכה הוא‬
‫‪ .25,000$‬אפשרי‪ ,‬שהאינטרוול בין ההכנסה הבינונית לנמוכה יהיה ‪ 74,000$( 65,000$‬ו‪.)9,000$ -‬‬
‫ייתכן גם שאינטרוול של ‪ 2.00$‬יבחין בין הכנסה בינונית ונמוכה (כאשר בית‪-‬אב אחד ירוויח‬
‫‪ 24,999$‬ובית‪-‬אב שני ירוויח ‪ .)25,001$‬האינטרוול בין ההכנסות לבית‪-‬אב הוא לא ידוע כאשר‬
‫המשתנה מבוטא בצורה קטגוריאלית‪.‬‬
‫בניגוד לכך‪ ,‬מידע אינטרוולי מציג את נתוני ההכנסה המדויקים לבית‪-‬אב‪ .‬ולכן האינטרוול בין‬
‫בתי‪-‬אב הוא ידוע‪ .‬מידע אינטרוולי הוא מידע בו האינטרוול המדויק בין שני מושאים הוא ידוע‪.‬‬
‫כאשר בוחנים תוצאות רצויות‪ ,‬התוצאות בפועל מוצגות כאשר החשיבות המקורית של התוצאות‬
‫הרצויות מבוטאת באמצעות הנתונים‪ .‬מידע סדור לעומת זאת אינו מבטא את החשיבות התוצאות‬
‫הרצויות באמצעות הנתונים (ראה דוגמא קודמת)‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪23‬‬
‫עדימ ינייפאמ‬
‫ינש קרפ‬
‫מידע יחסי‬
‫מידע יחסי דומה מאוד למידע אינטרוולי‪ .‬אולם למידע יחסי יש יתרון נוסף – נקודת האפס‬
‫איננה שרירותית‪ .‬לדוגמא‪ ,‬המשתנה המייצג את מספר הילדים לבית‪-‬אב הוא מידע יחסי‪ ,‬משום‬
‫שבית‪-‬אב ללא ילדים יקבל את הערך אפס‪ .‬בטרמומטר קלווין‪ ,‬אפס שווה ל‪ 230 -‬מעלות (בערך‬
‫‪ 100‬מעלות)‪ ,‬הטמפרטורה בה זכוכית הופכת לנוזלית‪ .‬לכן נקודת האפס היא לא שרירותית‪ ,‬אלא‬
‫מייצגת סיטואציה פיזיקלית משמעותית‪ ,‬שמתרחשת בטמפרטורה מסוימת ‪ -‬אפס‪.‬‬
‫ממוצעי נקודות מרכזיות )‪ (GPA‬הם נתונים אינטרווליים משום שבית ספר אחד יכול להשתמש‬
‫בסרגל בן ארבע נקודות )‪ (A=4, B=3, C=2, D=1, F=0‬בעוד שבית ספר שני יכול‬
‫להשתמש בסרגל בן חמש נקודות )‪B=4, C=3, D=2, F=1‬‬
‫ ‪ .(A=5,‬לכן אפס הוא‬
‫ערך שרירותי‪ .‬דוגמא נוספת למידע אינטרוולי היא תוצאות דירוג העדפות של צרכנים‪ .‬בד"כ נעשה‬
‫שימוש בסולם ליקרט )‪ ,(Likert‬בו העדפות הצרכנים נקבעים נקבעות בסולם של ‪ 1‬עד ‪5‬‬
‫‪ -2‬עד ‪ ,+2‬כך ש ‪ -2‬הוא העדיפות הנמוכה ביותר‪ 0 ,‬הוא העדפה מתונה ו ‪ +2‬הוא העדפה‬
‫חזקה‪ .‬הצגה שונה של תוצאות ההעדפות תהיה באמצעות סולם בו ‪ 1‬הוא העדיפות הנמוכה‬
‫ביותר‪ 3 ,‬הוא העדפה מתונה ו‪ 5 -‬הוא ההעדפה החזקה‪ .‬תוצאה של אפס היא שוב שרירותית‪,‬‬
‫או‬
‫והתוצאות הללו של ההעדפות הן נתונים אינטרווליים ולא יחסיים‪ .‬בשיווק‪ ,‬מידע מנותח מכיל‬
‫משתנים שהם אינטרווליים במהותם‪.‬‬
‫ה מ ש כ י ו ת ל ע ו מ ת א י ‪-‬ר צ יפ ו ת‬
‫כאשר בוחנים את כל הערכים שמשתנה יכול להכיל‪ ,‬ישנם משתנים היכולים להכיל סט של‬
‫ערכים‪ .‬בדוגמא שהזכרנו של סרגל ההעדפות (‪ 1‬הוא העדיפות הנמוכה ביותר‪ 3 ,‬הוא העדפה‬
‫מתונה ו ‪ 5‬הוא ההעדפה החזקה)‪ ,‬המשתנה 'תוצאות העדפה' יכול להכיל רק ערך אחד מתוך‬
‫חמש אפשרויות – ‪ .1,2,3,4,5‬המשתנה הזה הוא לא‪-‬רציף‪ ,‬משום שהוא יכול להכיל רק ערך‬
‫מספרי אחד‪.‬‬
‫לעומת זאת‪ ,‬משתנים רציפים יכולים להכיל כל ערך שהוא מתוך רצף נתון של מספרים‪ .‬לדוגמא‪,‬‬
‫המספר הממוצע של ילדים לבית‪-‬אב הוא משתנה רציף‪ .‬הערך יכול להיות כל מספר‪ ,‬משום‬
‫שאנחנו מחשבים את המספר הכולל של הילדים ומחלקים אותו בבתי‪-‬האב הכלולים במדגם‪.‬‬
‫כמובן שמספר הילדים בכל בית‪-‬אב שהוא הוא ערך לא‪-‬רציף‪ ,‬משום שהוא מתייחס רק למספרים‬
‫שלמים (‪.)...3 ,2 ,1‬‬
‫בפרק זה הוצגו העקרונות הבסיסיים של מאפייני מידע‪ .‬בחלקים הבאים נעסוק בנושא חשוב‬
‫נוסף‪ ,‬והוא איכות המידע‪ .‬בהקשר זה נדון בהטיות‪ ,‬תקפות ומהימנות של מידע‪.‬‬
‫‪24‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ינש קרפ‬
‫עדימ ינייפאמ ‬
‫הטיות‬
‫מידע הוא מוטה אם הוא אינו משקף במדויק את ערכי האמת של פרמטר נתון‪ .‬לדוגמא‪ ,‬טרמומטר‪,‬‬
‫המציג קריאה של חמש מעלות יותר הוא מוטה כלפי מעלה או מוטה חיובית‪ .‬אם הוא היה מציג‬
‫קריאה של חמש מעלות פחות הוא היה מוטה כלפי מטה או מוטה שלילית‪.‬‬
‫דוגמא להטיה חיובית במחקר שיווקי תהיה בשאלת ההכנסה‪ ,‬בה המשיב מתבקש לבחור את‬
‫הקטגוריה 'המשקפת בצורה הקרובה ביותר את ההכנסה השנתית של בית‪-‬האב שלך'‪ .‬חלק מן‬
‫המשיבים נוטים להגזים ברמת ההכנסה שהם מדווחים עליה‪ ,‬בהנחה שבזה הם יעלו את הערך‬
‫שלהם מבחינת נושא השאלה‪ .‬בדומה‪ ,‬חלק מן המשיבים עשויים להטות את התשובה שלהם‬
‫מטה בשל הרתיעה שלהם למסור את הגיל האמיתי שלהם‪ ,‬אפילו אם השאלון אנונימי (חלק‬
‫מהסוקרים מצלם בהיחבא את המשיבים באולטרא‪-‬סגול כדי לגלות את הזהות האמיתית של‬
‫המשיבים בסקר 'אנונימי'‪ ,‬דבר שהוא לא אתי וייתכן שאף לא חוקי)‪.‬‬
‫במסגרת רשת הסתברות‪ ,‬אנו יכולים להסביר הטיות באמצעות ערכים צפויים (ראה פרק ראשון)‪.‬‬
‫משתנה אקראי מניח ערכים הנובעים מניסיון אקראי‪ .‬המשתנים 'גיל' או 'הכנסה' יכולים להיחשב‬
‫למשתנים אקראיים אם תהליך בחירת הנתונים הוא אקראי‪ .‬הטיה מתרחשת כאשר הערכים‬
‫הצפויים של משתנה כלשהו אינם תואמים לאוכלוסיית המשתנה‪.‬‬
‫מצב נוסף של הטיה הוא זה‪ :‬נניח שאנו רוצים לחשב את ממוצע ההכנסה של ארבעה בתי‪-‬אב‬
‫בשנת ‪ 1993‬במדינת אילינוי (משתנה זה הוא קבוע וידוע בשם 'פרמטר')‪ .‬אנו יכולים לבחור מכל‬
‫מחוז מדגם שהוא פרופורציונלי לגודל המחוז יחסית למדינה כולה (ידוע בשם 'מיקום פרופורציונלי')‬
‫ולחשב מתוך המדגם את ההכנסה לבית‪-‬אב במדינה (אומדן זה הוא משתנה אקראי‪ ,‬משום‬
‫שהנתונים משתנים בהתאם לאוכלוסייה הנסחרת במדגם)‪ .‬אם היינו חוזרים על התהליך פעמים‬
‫רבות‪ ,‬היינו מקבלים את הערכים הצפויים של ההכנסה הממוצעת לבית‪-‬אב‪ ,‬הקרוב לממוצע‬
‫ההכנסה האמיתי לבית‪-‬אב של המדינה‪ .‬זוהי הערכה שאינה מוטית‪.‬‬
‫לעומת זאת‪ ,‬אם היינו בוחרים מדגם מתוך האוכלוסיה המבוססת של פרוורי שיקגו‪ ,‬כמו ברינגטון‪,‬‬
‫קנילוורט'‪ ,‬ווילמט‪ ,‬ההערכה שלנו היתה מוטית חיובית‪ .‬ולהיפך – אם המדגם שלנו היה נבנה‬
‫משכונות בשיקגו בעלות הכנסה נמוכה‪ ,‬כמו קבריני גרין‪ ,‬צפון לאונדיין ופארק גרפילד‪ ,‬ההערה‬
‫שלנו היתה מוטית שלילית‪.‬‬
‫בחלק הבא נבחן את מושג התקפות‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪25‬‬
‫עדימ ינייפאמ‬
‫ינש קרפ‬
‫ת קפ ו ת‬
‫מידע נאסף הוא תקף אם הוא מודד את מה שהוא אמור למדוד כלומר מה שתוכנן למדוד‪.‬‬
‫לדוגמא‪ :‬מבחן טעימה שבדק את ההעדפה בין קוקה‪-‬קולה ה'קלאסית' לקוקה‪-‬קולה החדשה‬
‫זיהה העדפה ברורה לקוקה‪-‬קולה החדשה‪ .‬מבחן זה תקף רק אם הוא בודק את ההעדפה של‬
‫הטעם ולא מתייחס למשתנים נוספים‪ ,‬תרבות הצריכה למשל‪ .‬ישנם משתנים שונים המשפיעים‬
‫על תרבות הצריכה‪ ,‬כמו הנאמנות למשקה בן מאה‪-‬השנים‪ ,‬שלא נבדקה בעבר‪.‬‬
‫טופסי הערכה למורים יכולים לכלול דירוג תקף למורה אם התלמידים באופן עקבי מעניקים לו‬
‫ציון טוב או לא טוב בלי קשר למוצע הציונים שלהם‪ .‬לעומת זאת‪ ,‬אם תלמידים בעלי ממוצע‬
‫ציונים גבוה נתונים למורה ציון טוב‪ ,‬ותלמידים בעלי ממוצע ציונים נמוך נותנים לאותו המורה‬
‫ציון נמוך‪ ,‬נתוני ההערכה אינן תקפים‪ ,‬כי רמת שביעות הרצון מן המורה מושפעת מרמת שביעות‬
‫הרצון של התלמידים מממוצע הציונים שלהם ולא מרמת ההוראה של המורה‪.‬‬
‫בהקשר של שיווק‪ ,‬תוצאות תעדוף של מותגים תקפה אם היא מביאה לידי ביטוי רק את ההעדפות‬
‫של המותגים‪ .‬תוצאות התעדוף לא יהיו תקפות לניתוח של תרבות צריכה‪ .‬אין אפשרות לתמחר‬
‫העדפה של מותג‪ ,‬ניתן לקבוע מחיר רק לעלות הרכישה של המותג‪.‬‬
‫עם סיום בחירות ‪ ,1948‬ה'שיקגו טריביון' פירסם בעמודו הראשי – 'דיואי ניצח'‪ .‬אנשי סקרים‬
‫רבים העריכו כי הוא ינצח בבחירות‪ ,‬אך למרות זאת‪ ,‬טרומן ניצח בבחירות‪ .‬לסקרים אלו היתה‬
‫בעיית תקפות‪ .‬הבוחרים בסקר התבקשו להצביע על המועמד העדיף עליהם וכמובן שמבין אלו‬
‫שהשתתפו בסקרים‪ ,‬רובם העדיפו את דיואי‪ .‬אולם הרוב העצל‪ ,‬שלא השתתף בסקרים‪ ,‬הצביע‬
‫ברובו להארי טרומן‪ .‬הסקרים הללו היו תקפים לפלח האוכלוסיה שנסקר אבל לא לאוכלוסיית‬
‫המצביעים בכללותה‪ .‬החלק הבא יעסוק במושג המהימנות‪.‬‬
‫מ ה י מנ ו ת‬
‫מידע הוא מהימן אם מדדים חוזרים ונשנים מפיקים את אותן התוצאות‪ .‬מאוד אפשרי‪ ,‬שתוצאות‬
‫נתונות הן תוצאה אקראית של אירוע בדוי‪ .‬לדוגמא‪ ,‬סקר הבודק את רמת הביטחון של צרכן‬
‫הכלכלה האמריקנית יכול לשקף אופטימיות יוצאת דופן במידה והסקר נערך ביום תשלום משכורות‬
‫או מתן בונוסים‪ .‬אותו הסקר יכול היה להפיק תוצאות שונות אם היה נערך שבועיים או שלושה‬
‫אח"כ‪.‬‬
‫מהימנות יכולה להימדד באמצעות נתוני של מבחנים חוזרים‪ .‬אם ישנה סטייה נומינלית במידע‬
‫שנאסף משמע שהמידע מהימן‪.‬‬
‫ישנם מורים המהססים להשתמש במבחנים בעלי מספר תשובות אפשריות ('מבחן אמריקני')‬
‫משום שהם אינם מהימנים‪ .‬אם התשובה הנכונה לכל השאלות במבחן היא 'ב' או 'ג' (כאשר‬
‫נתונות תשובות אפשריות 'א'‪' ,‬ב'‪' ,‬ג'‪' ,‬ד'‪' ,‬ה')‪ ,‬ממוצע הכיתה ייטה להיות גבוה יותר ממבחן חוזר‬
‫‪26‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ינש קרפ‬
‫עדימ ינייפאמ ‬
‫בו לשאלות ישנה רק התשובה הנכונה היא 'א' או 'ה'‪ .‬ההסבר לכך הוא‪ ,‬שתלמידים המנחשים‬
‫את התשובות נוטים יותר לבחור ב ‪' -‬ב' או 'ג' מאשר 'א' או 'ה'‪.‬‬
‫לפני שניגשים לניתוח של מידע‪ ,‬הכרחי לוודא את איכותו‪ :‬האם הוא אינו מוטה‪ ,‬האם הוא אמין‬
‫ותקף? יהיה זה בזבוז גדול של זמן אם לאחר ניתוח ופרשנות של המידע יתברר כי הוא מוטה‬
‫ואינו אמין‪ .‬חובה לוודא את איכות המידע לפני שמתחילים לנתח אותו‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪27‬‬
‫פרק שלישי‬
‫מ ד י דות ס יכ ו ם ו מ דדי פיזור‬
‫כאשר מתמודדים עם כמות גדולה של נתונים‪ ,‬קיים קושי להשוות תוצאות להעריך‬
‫סדרי‪-‬גודל בין קבוצות‪ .‬למשל הדוגמא הבאה‪ :‬נקבעה קבוצה בת עשרה סטודנטים‬
‫במנהל עסקים (קבוצה ‘א’) וקבוצה שניה בת עשרה סטודנטים באמנות מודרנית (קבוצה‬
‫‘ב’)‪ .‬אנו רוצים לזהות את הקבוצה בעלת ה ‪GPA‬‬
‫נקודות‪ .‬קבוצה ‘א’‪ .4,1,2,3,1,4,2,2,3 :‬קבוצה ב’‪ .4,3,2,2,4,1,3,2,1,4 :‬איזו קבוצה‬
‫הגבוה יותר באמצעות סרגל בן ארבע‬
‫היא טובה יותר? כעת דמיין שכל קבוצה מכילה ‪ 100,000‬סטודנטים‪ .‬איזו קבוצה היא‬
‫טובה יותר? במחקר שנערך ע”י בוז‪ ,‬אלן והמילטון נטען‪ ,‬שהמוח האנושי יכול לעבד עד‬
‫שבעה ביט של מידע בו‪-‬זמנית ‪±2‬‬
‫כדי לפרש מידע במהירות‪ ,‬אנו משתמשים במדדי סיכום‪ ,‬המספקים סיכום של‬
‫נתונים לרוחב בסיסי הנתונים שונים‪ .‬במקום לבחון מידע גולמי‪ ,‬אנו פשוט משווים‬
‫ומעמתים מדדי סיכום‪.‬‬
‫הוא ‪ ...‬תצפית של המשתנה ‪ .X‬בהנחה שמשתנה‬
‫אנו משתמשים בסימון שלהלן‪X1 :‬‬
‫‪ X‬מייצג את תוצאות ‪ GPA‬של קבוצה א’‪ ,‬התצפית השלישית והחמישית יסומנו כך‪:‬‬
‫‪ .X 3=2 X 5=1‬בחלקים הבאים נציג שלושה מדדי סיכום‪ :‬אמצעי‪ ,‬תיכון ושכיח‪ .‬לאחר‬
‫מכן יוצגו שלושה מדדי פיזור‪ :‬שונות‪ ,‬סטיית‪-‬תקן‪ ,‬סטיית ממוצע‪-‬חציון מוחלט )‪.(D.A.M‬‬
‫אמצעי‬
‫אמצעי הוא מדד סיכום הדורש תמצות של כל נקודות המידע חלקי מספר התצפיות‪ .‬בביטוי‬
‫מתמטי (‪ )X1 + X 2 + …. + Xn‬בו ‪ n‬מייצג את מספר התצפיות‪X ,‬‬
‫את המידע הנאסף והציון התחתי ‪ 1, 2, ...., n ,‬מייצג את התצפית הספציפית שנשמרה‪.‬‬
‫האות היוונית ‪ µ‬היא פרמטר המייצג את אוכלוסיית האמצעי‪ ,‬ו ̅‪ X‬מייצג את מדגם האמצעי‪,‬‬
‫הוא המשתנה המייצג‬
‫שהוא משתנה אקראי‪.‬‬
‫לאמצעי כמדד סיכום יש חסרון בולט בזה שכל הערכים הנצפים כלולים בחישוב של ערך האמצעי‪.‬‬
‫לכן נתונים חריגים יכולים להשפיע על ערך האמצעי בצורה לא פרופורציונלית‪ .‬לדוגמא‪ ,‬אם אנחנו‬
‫מבקשים להעריך את רמת ההכנסה בשכונה מסוימת‪ ,‬מספר תושבים אמידים עשויים לעוות את‬
‫רמת ההכנסה האמיתית של השכונה כולה‪ .‬פתרון לחסרון הזה מצוי בתיכון כמדד סיכום‪.‬‬
‫‪28‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫רוזיפ ידד מ ו ם ו כיס תוד י דמ ‬
‫ישיל ש קרפ‬
‫תיכון‬
‫תיכון הוא מספר שלפחות ‪ 50%‬מן המדגם שווה או גבוה ממנו ולפחות ‪ 50%‬מן המדגם‬
‫שווה או נמוך ממנו‪ .‬לדוגמא‪ ,‬נניח שאנחנו בוחנים את ההכנסה לפי בית‪-‬אב לחמישה אנשים‬
‫ומקבלים את הנתונים הבאים (באלפים)‪ .20 ,50 ,70 ,100 ,260 :‬האמצעי יהיה ‪100,000$‬‬
‫המחושב כך‪:‬‬
‫)‪.((20 + 50 + 70 + 100 + 260) ÷ 5 = 100‬‬
‫החציון יהיה ‪ 70,000$‬המחושב כך‪ :‬ל‪ 50% -‬או יותר יש הכנסה של ‪ 70,000$‬או פחות‪ ,‬ל‪-‬‬
‫‪ 50%‬או יותר יש הכנסה של ‪ 70,000$‬או יותר‪.‬‬
‫מחלקת המסחר האמריקנית משתמשת בתיכון כמדד סיכום של הכנסות ולא באמצעי‪ .‬תוצאת‬
‫האמצעי בד”כ מוטית מעלה בשל ההכנסה הגבוהה של מספר פרטים‪ .‬כאשר מאפיין כזה מחושב‬
‫באמצעות תצפיות רבות הקרובות לערך הנתון‪ ,‬וכאשר ישנם מספר פרטים בעלי ערכים הגבוהים‬
‫בהרבה מכל השאר‪ ,‬אזי הנתונים מוטים ימינה מצד שני‪ ,‬אם הנתונים החריגים נמוכים בהרבה‬
‫מן הרוב‪ ,‬אזי הנתונים מוטים שמאלה‪.‬‬
‫שכיח‬
‫מידע יכול להימדד באמצעות שכיחות‪ ,‬כלומר – איזה ערך מופיע הכי הרבה פעמים‪ .‬השכיח‬
‫הוא ערך המתאים לשכיחות הגבוהה ביותר של כל הערכים במדגם‪ .‬לנתונים יכול להיות יותר‬
‫משכיח אחד‪ .‬ייתכן גם שלנתונים לא יהיה שכיח כלל‪ .‬בחן את תוצאות ה – ‪GPA‬‬
‫הבאות של‬
‫סטודנטים‪ .‬איזו כיתה היא חד‪-‬גוונית‪ ,‬רב‪-‬גוונית וללא שכיח? האם הממוצעים שונים?‬
‫כיתה ‪5 ,4 ,3 ,2 ,1 :1‬‬
‫כיתה ‪5 ,5 ,3 ,1 ,1 :1‬‬
‫כיתה ‪5 ,5 ,3 ,3 ,1 :3‬‬
‫נבחן כעת מדדי פיזור‪.‬‬
‫מ ד ד י פ י ז ור ‪ :‬ש ונ ו ת ו ס ט י י ת ‪ -‬ת ק ן‬
‫החלקים הקודמים עסקו במדדי סיכום שונים‪ ,‬המיועדים לאפיין קבוצות מידע‪ .‬אולם מדדי‬
‫סיכום אינם מספקים כשלעצמם‪ .‬נמחיש זאת בדוגמא‪ :‬ניקח שלושה חלקים של אותו הקורס‬
‫שכל אחד מהם מורכב מאחד עשר סטודנטים‪ .‬המידע מורכב מממוצע של כל סטודנט לפני‬
‫הבחינה הסופית (תוך שימוש בסולם בעל ארבע נקודות)‪ .‬המורה מתכנן אסטרטגיה כיצד‬
‫להכין את הסטודנטים בצורה טובה ביותר לבחינת הגמר‪ .‬הנתונים הקיימים הם‪:‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪29‬‬
‫רוזיפ ידד מ ו ם ו כיס תוד י דמ‬
‫ישיל ש קרפ‬
‫אמצעי‬
‫חלק א‪2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 :‬‬
‫‪2‬‬
‫חלק ב‪4 ,4 ,3 ,3 ,2 ,2 ,2 ,1 ,1 ,0 ,0 :‬‬
‫‪2‬‬
‫חלק ג‪4 ,4 ,4 ,4 ,4 ,2 ,0 ,0 ,0 ,0 ,0 :‬‬
‫‪2‬‬
‫לכל חלק של הקורס יש אמצעי שווה‪ .‬אולם במונחים של ביצוע‪ ,‬לחלק א’ יש פיזור אפס‪ ,‬חלק‬
‫ב’ מבוזר בצורה כמעט אחידה בין הציונים א’‪ ,‬ב’‪ ,‬ג’‪ ,‬ד’‪ ,‬ה’ (נכשל)‪ .‬בחלק ג’ הציונים הבולטים‬
‫הם א’ ו‪ -‬ה’ (נכשל) יחד עם תלמיד בודד בעל הציון ג’‪ .‬ברור אם כן‪ ,‬שההיערכות לבחינה הסופית‬
‫לא צריכה להיות זהה בכל חלקי הקורס‪ ,‬זאת למרות שהאמצעי זהה בין כולם! שונות היא שיטת‬
‫מדידה של פיזור נתונים סביב האמצעי‪.‬‬
‫אנו מסכמים את השלבים של חישוב מדגם פיזור כך‪:‬‬
‫‪.1‬‬
‫‪1‬חישוב האמצעי‬
‫‪.2‬‬
‫‪2‬חיסור האמצעי מכל נקודת מידע‬
‫‪.3‬‬
‫‪3‬העלה בחזקת שתיים את ההפרש הנ”ל של כל נקודת מידע וחבר את התוצאות‬
‫‪.4‬‬
‫‪4‬חלק את חיבור התוצאות במספר התצפיות פחות אחד‪.‬‬
‫אם המידע הנתון מייצג את כלל האוכלוסיה‪ ,‬אזי סעיף ארבע צריך להתעדכן בזה שנחלק בסה”כ‬
‫התצפיות‪ .‬להלן השונות של שלושת החלקים שהוזכרו קודם לכן‪:‬‬
‫טב לה ‪ :3.1‬ממוצ ע ציוני סטודנ טים‬
‫חלק א’‬
‫חלק ג’‬
‫חלק ב’‬
‫נתון‬
‫נתון חציון‪²‬‬
‫נתון‬
‫נתון חציון‪²‬‬
‫נתון‬
‫נתון חציון‪²‬‬
‫‪2‬‬
‫‪0‬‬
‫‪0‬‬
‫‪4‬‬
‫‪0‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪0‬‬
‫‪4‬‬
‫‪0‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪0‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪0‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪0‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪4‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪3‬‬
‫‪1‬‬
‫‪4‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪3‬‬
‫‪1‬‬
‫‪4‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪4‬‬
‫‪4‬‬
‫‪4‬‬
‫‪4‬‬
‫‪2‬‬
‫‪0‬‬
‫‪4‬‬
‫‪4‬‬
‫‪4‬‬
‫‪4‬‬
‫סה”כ‬
‫‪0‬‬
‫‪40‬‬
‫‪20‬‬
‫חילוק הסה”כ ב‪11-1 = 10: -‬‬
‫שונות‪0 :‬‬
‫‪30‬‬
‫שונות‪2.0 :‬‬
‫שונות‪4.0 :‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ישיל ש קרפ‬
‫רוזיפ ידד מ ו ם ו כיס תוד י דמ ‬
‫חלק ג’ הוא בבירור בעל הפיזור הגבוה ביותר‪ ,‬מאחר וישנן שתי קבוצות נפרדות מהותית מתוך‬
‫הנתונים‪.‬‬
‫המושג סטיית‪-‬תקן מתייחס בפשטות לשורש הריבועי של השונות‪.σ ,‬‬
‫סטיית‪-‬התקן תהיה שלוש‪ .‬הסימן המקובל של סטיית‪-‬תקן הוא ‪. σ‬‬
‫‪2‬‬
‫אם השונות היא תשע‪,‬‬
‫מ ד ד י פ י ז ור ‪ :‬ס ט י י ת מ מ ו צ ע ‪ -‬ח צ י ו ן מו ח לט ( ‪)M. A . D‬‬
‫צורה נוספת למדידת פיזור היא סטיית ממוצע‪-‬חציון מוחלט (‪ .)M.A.D‬כזכור‪ ,‬בערך מוחלט‬
‫מתעלמים מסימן המינוס‪ .‬במילים אחרות‪ ,‬למרות ש‪ ,3-5= -2 :‬בערך מוחלט‪|3-5| = +2 :‬‬
‫~‬
‫אנו משתמשים בסימן הבא כדי לציין ‪ σ D.A.M:‬נשתמש בדוגמא הקודמת כדי להמחיש‬
‫את מושג ה ‪M.A.D: -‬‬
‫ט ב לה ‪ :3.2‬ה ת פ ל גו ת ממוצ ע אמצ עי‬
‫חלק א’‬
‫חלק ג’‬
‫חלק ב’‬
‫נתון‬
‫נתון חציון‪²‬‬
‫נתון‬
‫נתון חציון‪²‬‬
‫נתון‬
‫נתון חציון‪²‬‬
‫‪2‬‬
‫‪0‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪0‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪0‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪0‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪2‬‬
‫‪0‬‬
‫‪4‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪3‬‬
‫‪1‬‬
‫‪4‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪3‬‬
‫‪1‬‬
‫‪4‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪4‬‬
‫‪2‬‬
‫‪4‬‬
‫‪2‬‬
‫‪2‬‬
‫‪0‬‬
‫‪4‬‬
‫‪2‬‬
‫‪4‬‬
‫‪2‬‬
‫סה”כ‬
‫‪0‬‬
‫‪20‬‬
‫‪12‬‬
‫חילוק הסה”כ ב‪:)11( -‬‬
‫‪M.A.D: 1.09‬‬
‫‪M.A.D: 0‬‬
‫‪M.A.D: 1.82‬‬
‫חוקי סטיית הערך האמצעי המוחלט הם‪:‬‬
‫‪.1‬‬
‫‪1‬חישוב האמצעי‬
‫‪.2‬‬
‫‪2‬חיסור האמצעי מכל נקודת מידע תוך התעלמות מסימן המינוס‬
‫‪.3‬‬
‫‪3‬חיבור ההפרש של כל נקודת מידע‬
‫‪.4‬‬
‫‪4‬חלק את חיבור הסכום הנ”ל במספר התצפיות‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪31‬‬
‫רוזיפ ידד מ ו ם ו כיס תוד י דמ‬
‫ישיל ש קרפ‬
‫נ ת ונ י ם מק ו ב צ י ם‬
‫נתון‪ :‬קלט מידע רציף המחולק לקבוצות‪.‬‬
‫כיצד נקבע את הממוצע‪ ,‬את סטיית התקן ואת מקדם השונות (שמראה את הפיזור היחסי של‬
‫הנתונים)?‬
‫שלב ראשון‪ :‬מצאו את נקודת האמצע של כל קבוצה‪( :‬גבול עליון ‪ +‬גבול תחתון) חלקי ‪.2‬‬
‫כעת כפלו את שכיחות הקבוצה בנקודת האמצע‪ ,‬וחלקו את התוצאה במספר התצפיות שהוא ‪.n‬‬
‫שלב שני‪ :‬חשבו שני מספרים‪ :‬הראשון ‪ -‬העלו את כל נקודות האמצע בריבוע עבור כל קבוצה‪,‬‬
‫כפלו כל נקודת אמצע בריבוע בתדירות הקבוצה ופתרו‪ .‬השני ‪ -‬כפלו את תדירות הקבוצה‬
‫בממוצע הקבוצה ופתרו‪ .‬כעת העלו את התוצאה בריבוע וחלקו ב‪ .n-‬הפחיתו את המספר השני‬
‫מן המספר הראשון וחלקו ב‪ .)n - 1(-‬התוצאה שהתקבלה היא השונות‪.‬‬
‫שלב שלישי‪ :‬קחו את השורש הריבועי של המספר שקיבלתם בשלב השני‪ .‬זוהי סטיית התקן‪.‬‬
‫טעות תקן = סטיית תקן חלקי השורש הריבועי של ‪.n‬‬
‫שלב רביעי‪ :‬מקדם השונות‪ :‬חלקו את סטיית התקן (שלב שלישי) בממוצע המדגם (שלב ראשון)‪.‬‬
‫זוהי הסטייה היחסית ביחס לממוצע‪.‬‬
‫דוגמה (ד"ר אהרמן‪ ,‬ציונים סופיים באוניברסיטת אריאל‪:)2015 ,‬‬
‫נקודת‬
‫האמצע של‬
‫‪M‬‬
‫‪FxM‬‬
‫‪M2‬‬
‫‪F x (M)2‬‬
‫‪60-69‬‬
‫‪4‬‬
‫‪64.5‬‬
‫‪258.00‬‬
‫‪4160.25‬‬
‫‪16641.00‬‬
‫‪70-79‬‬
‫‪4‬‬
‫‪74.5‬‬
‫‪298.00‬‬
‫‪5550.25‬‬
‫‪22201.00‬‬
‫‪80-89‬‬
‫‪24‬‬
‫‪84.5‬‬
‫‪2028.00‬‬
‫‪7140.25‬‬
‫‪171366.00‬‬
‫‪90-99‬‬
‫‪15‬‬
‫‪94.5‬‬
‫‪1417.50‬‬
‫‪8930.25‬‬
‫‪133953.75‬‬
‫סך הכל‬
‫‪47‬‬
‫קבוצה‬
‫תדירות של ‪F‬‬
‫ממוצע = ‪85.1 = 47 / 4001.5‬‬
‫‪4001.5‬‬
‫סטיית תקן = ‪59‬‬
‫‪344161.75‬‬
‫טעות תקן = ‪8.6‬‬
‫‪√ { (344161.75 – [4001.5]2/47}/ (47-1)=√ 3480.85=59‬‬
‫טעות תקן = ‪8.6‬‬
‫מקדם השונות = סטיית תקן חלקי הממוצע = ‪8.6‬‬
‫‪32‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪3480.85‬‬
‫פרק רביעי‬
‫ב ח ינת ה ש ע רו ת‬
‫מטרה‪ :‬לוודא האם הקשר שהוצע בין המשתנים נכון או לא‪ .‬חשוב להבדיל בין סיבתיות ובין‬
‫קשר בין משתנים‪.‬‬
‫סיבתיות מתרחשת בין ‪ 2‬משתנים‪ ,‬נניח ‪ X‬ו ‪ ,Y‬אם שלושת התנאים הבאים מתקיימים‪ Y .‬גורם‬
‫ל‪ X-‬להתרחש כאשר‪:‬‬
‫‪ Y1.1‬תמיד קודם ל‪;X-‬‬
‫‪ X2.2‬לעולם אינו קודם ל‪;Y-‬‬
‫‪ X3.3‬לעולם אינו יכול להתרחש ללא ‪.Y‬‬
‫לדוגמה‪ ,‬בין מאורע ‪ ,Y‬הורדת הטמפרטורה של מים אל מתחת ל‪ 0°-‬צלזיוס‪ ,‬ומאורע ‪ ,X‬הפיכת‬
‫המים לקרח‪ ,‬ישנו יחס סיבתי‪ .‬לעומת זאת‪ ,‬היחס בין פרסום ובין מכירות אינו יחס סיבתי אלא‬
‫יחס של קשר‪ ,‬מכיוון שאפשר למכור בלא לפרסם‪ .‬כדי להוכיח האם קיים קשר בין משתנים‬
‫אפשר למדוד ישירות את השפעתו של משתנה אחד על השני‪ .‬לדוגמה‪ ,‬אם אנו רוצים לבדוק‬
‫האם גלולות הרזיה קשורות לירידה במשקל‪ ,‬נוכל למדוד את המשקל לפני נטילת הגלולות‬
‫ולאחריה ולבחון את ההבדל‪( .‬הדבר מכונה מערך ניסויי) בדומה לכך‪ ,‬אם אנו רוצים למדוד האם‬
‫מכירות קשורות לפרסום‪ ,‬נוכל למדוד את היקף המכירות ללא פרסום והיקף המכירות כאשר‬
‫מפרסמים ולבחון את ההבדל‪ .‬ההליך יהיה מסורבל וקשה ליישום בכל מסע פרסום בפני עצמו‪.‬‬
‫הוכחה כי קיים קשר תדרוש מדידות בכל פעם שנעשה שימוש במשתנה הנתון וללא המשתנה‬
‫הקשור אליו‪ .‬הוכחת הקשר ִת ָדחה אם למשתנה הקשור אליו אין כל השפעה ניתנת להערכה‬
‫על המשתנה הנתון‪.‬‬
‫זוהי דרישה שכמעט אי‪-‬אפשר לעמוד בה‪ ,‬משום שיש לאסוף מידע על כל המקרים שבהם היו‬
‫שני המשתנים נוכחים‪ .‬זאת ועוד‪ ,‬כמעט בלתי אפשרי להשיג הוכחת קשר ישירה‪ ,‬משום שייתכן‬
‫שישנה השפעה של משתנים נוספים‪.‬‬
‫ישנה חלופה להוכחה ישירה של קשר בין משתנים‪ .‬החלופה היא לטעון באמצעות השערת‬
‫אפס )‪H(0‬‬
‫שהיחס המשוער אינו קיים‪ .‬לדוגמה‪ ,‬השערת האפס לקשר בין מכירות ופרסום‬
‫היא שפרסום לא ישפיע על המכירות; שגלולות הרזיה אינן קשורות לירידה במשקל; שהשקיה‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪33‬‬
‫תורעשה תניחב‬
‫יעיב ר קרפ‬
‫אינה משפיעה על היבול‪ ,‬וכו’‪ .‬המשתנה שאנו מתמקדים בו הוא המשתנה התלוי‪ ,‬המשתנה או‬
‫המשתנים שייתכן שיש להם השפעה על המשתנה התלוי מוגדרים משתנים בלתי תלויים‪.‬‬
‫המטרה היא לדחות את השערת האפס‪ ,‬כלומר‪ ,‬כאשר אנו דוחים את השערת האפס אנחנו‬
‫“מוכיחים” את ההפך‪ ,‬כלומר‪ ,‬שאכן ישנו קשר בין המשתנה התלוי והמשתנה הבלתי תלוי‪ .‬הבסיס‬
‫לדחיית השערת האפס הם הנתונים שנצפו‪ .‬לאחר שנפריך את השערת האפס‪ ,‬ממילא תתקבל‬
‫ההשערה האלטרנטיבית )‪H(1‬‬
‫‪.‬‬
‫צורת הוכחה זו ‪ -‬הוכחה שהקשר קיים באמצעות דחיית השערת האפס ‪ -‬קלה הרבה יותר‬
‫ליישום‪ .‬כדי לדחות או להפריך טענה‪ ,‬קבוצת תצפיות אחת עשויה להספיק‪ .‬מספיק להוכיח‬
‫ש )‪ ,H(0‬הטענה שאין כל קשר בין משתנים‪ ,‬כוזבת‪ .‬כאשר הטענה הופרכה די בכך‪ ,‬ואין צורך‬
‫במדידות חוזרות כדי להוכיח זאת שנית‪.‬‬
‫שג י א ו ת מ ס ו ג ‪ I‬ו מ ס ו ג ‪I I‬‬
‫החלטתכם תהיה אחת משתיים‪ :‬לקבל את )‪ H(0‬או לדחות את )‪ .H(0‬ישנן שתי שגיאות שעלולות‬
‫ליפול בהחלטה זו‪ .‬השגיאות עשויות להיות חיובי שגוי‪ ,‬כלומר‪ ,‬לדחות את )‪H(0‬‬
‫כאשר היא‬
‫נכונה‪ .‬זוהי שגיאה מסוג ‪ .I‬השגיאות עשויות להיות גם שלילי שגוי‪ ,‬כלומר‪ ,‬לקבל את )‪H(0‬‬
‫כאשר היא שגויה‪ .‬זוהי שגיאה מסוג ‪.II‬‬
‫ההחלטה שלכם‪:‬‬
‫המציאות‪:‬‬
‫לקבל את )‪H(0‬‬
‫לדחות את )‪H(0‬‬
‫)‪ H(0‬נכונה‬
‫מצוין!‬
‫שגיאה מסוג ‪I‬‬
‫)‪ H(0‬לא נכונה‬
‫שגיאה מסוג ‪II‬‬
‫מצוין!‬
‫מה גרוע יותר‪ :‬שגיאה מסוג ‪ I‬או שגיאה מסוג ‪II‬‬
‫בפרסום‪ ,‬שגיאה מסוג ‪II‬‬
‫?‬
‫(אתם בוחרים לא לפרסם משום שאתם מקבלים את השערת האפס‬
‫האומרת שפרסום ומכירות אינם קשורים זה לזה) גורמת בדרך כלל לאובדן הזדמנויות‪ ,‬אך לא‬
‫להפסדים כספיים של ממש‪.‬‬
‫לעומת זאת‪ ,‬שגיאה מסוג ‪I‬‬
‫(אתם מוציאים כסף על פרסום כדי להגדיל את המכירות בעוד‬
‫שבמציאות מכירות המוצר הנתון אינן מושפעות מן הפרסום) תביא להוצאות כספיות ללא רווח‬
‫ממשי מהן‪ .‬מבין שני סוגי השגיאות‪ ,‬חלק מהאחראים על הפרסום בחברות השיווק יעדיפו יותר‬
‫להימנע משגיאות מסוג ‪ ,I‬הגורמות לחברה נזק בר‪-‬מדידה‪ ,‬מאשר משגיאות מסוג ‪ ,II‬המביאות‬
‫לאובדן הזדמנויות אך אינן מאיימות על כשירותו של המחליט בעיני אחרים‪.‬‬
‫בתעשיית התרופות יש לבחון את תופעות הלוואי של תרופות חדשות‪ .‬שגיאה מסוג ‪I‬‬
‫(אתם‬
‫מחליטים לא למכור את התרופה משום שאתם מניחים שיש לה תופעות לוואי שליליות) מביאה‬
‫לאובדן הזדמנויות‪ .‬לעומת זאת‪ ,‬שגיאה מסוג ‪II‬‬
‫‪34‬‬
‫(אתם מחליטים לשווק את התרופה לאחר‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ר קרפ‬
‫תורעשה תניחב ‬
‫שקיבלתם את השערת האפס האומרת שאין כל קשר בין התרופה ובין תופעות לוואי שליליות)‬
‫עשויה לגרום למוות ולנזק חסר תקנה לחברת התרופות‪ .‬בתרחיש זה‪ ,‬שגיאה מסוג ‪II‬‬
‫הרבה יותר משגיאה מסוג ‪ .I‬לפיכך‪ ,‬ברור שחומרת השגיאה (מה גרוע יותר ‪ -‬סוג ‪ I‬או סוג ‪)II‬‬
‫גרועה‬
‫תלויה במקרה הנתון‪.‬‬
‫מ ד י ד ת שג י א ו ת מ ס ו ג ‪I‬‬
‫המונח פונקציית צפיפות (‪ )pdf‬משמעו פונקציה בעלת התכונה הבאה‪ .‬אם המשתנה ‪X‬‬
‫הרי שערך ה ‪ Y‬התואם הוא ההסתברות ש ‪ X‬יקבל את הערך הנתון‪ .‬לדוגמה‪ ,‬אם נטיל קובייה‪,‬‬
‫‪ X‬ייצג את מספר הנקודות שעל פני הקובייה‪ X .‬יכול להיות ‪ ,6 ,5 ,4 ,3 ,2 ,1‬ו ‪ Y‬הוא ‪ 1/6‬עבור‬
‫כל אחד מן הערכים הללו‪ .‬אם נטיל מטבע‪ X=1 ,‬לעץ‪ X=2 ,‬לפאלי‪ ,‬אז ‪ Y=1/2‬עבור כל אחד‬
‫מהערכים הללו‪ .‬כאשר משרטטים את פונקציית ה ‪ ,Y‬אחת הדרישות העיקריות היא שהתחום‬
‫מתחת ל ‪ Y‬חייב להיות = ‪ .1‬בדוגמה הראשונה שלנו‪ Y ,‬הוא מלבן שרוחבו =‪ ,1/6‬אורכו =‪6‬‬
‫בדיד‪,‬‬
‫ושטחו =‪ .1‬בדוגמה השנייה‪ ,‬גובהו =‪ ,1/2‬אורכו =‪ 2‬ושטחו =‪.1‬‬
‫אם ‪ X‬הוא משתנה רציף‪ ,‬אנו מודדים את ההסתברות להתרחשות בטווח של ערכים‪ .‬לדוגמה‪,‬‬
‫אם הגובה הממוצע של גברים במקום יישוב הוא ‪ 1.73‬מטרים‪ ,‬וההתפלגות הנורמלית למשתנה‬
‫זה מתבטאת כעקומת פעמון‪ ,‬הרי ש‪ 50%-‬מכל הגברים גובהם ‪ 1.73‬מטרים או יותר‪ ,‬ו‪50%-‬‬
‫מכל הגברים גובהם ‪ 1.73‬מטרים או פחות‪.‬‬
‫בחינת השערות מתחלקת לשלושה שלבים‪:‬‬
‫‪.1‬‬
‫‪1‬לקבוע טווח לטעות מסוג ‪ 1%( I‬או ‪ 5%‬או ‪)10%‬‬
‫‪.2‬‬
‫‪2‬להגדיר ערכים קריטיים שיש לעבור אותם כדי לדחות את )‪.H(0‬‬
‫‪.3‬‬
‫‪3‬לחשב את הסטטיסטי בהתבסס על הנתונים‪ ,‬ולבדוק האם התוצאות עולות על הערכים‬
‫הקריטיים‪ .‬אם כן‪ ,‬נדחה את )‪ .H(0‬אם לא‪ ,‬נקבל את )‪.H(0‬‬
‫כך נחשב את ערך הסטטיסטי ‪ .#1 :Z‬נפחית את הממוצע לפי )‪H(0‬‬
‫‪ .#2‬נחשב את סטיית התקן )‪ ,(p 0.25‬ונחלק בשורש הריבועי של גודל המדגם‪ .‬לבסוף‪ ,‬נחלק‬
‫את ההפרש שקיבלנו בשלב ‪ #1‬במנה משלב ‪.#2‬‬
‫מן הממוצע שחושב‪.‬‬
‫ב ח ינ ת ערך מ מ ו צע ב ע זר ת ה ס ט טי סטי ‪Z‬‬
‫נניח שממוצע המכירות החודשי של משקה השוקו המוגז שלנו הוא ‪( 80‬באלפי יחידות)‪ .‬אנו‬
‫מחליטים לפרסם במשך חמישה חודשים‪ ,‬ומוצאים שהממוצע החדש שלנו הוא ‪ .83‬סטיית התקן‬
‫שלנו היא ‪ .5‬כדי לבחון את ההשערות‪ ,‬נעקוב אחר שלושת השלבים כדלהלן‪:‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪35‬‬
‫יעיב ר קרפ‬
‫‪.1‬‬
‫תורעשה תניחב‬
‫‪H(0): μ=801‬‬
‫‪H(1): μ>80‬‬
‫טווח הטעות המקסימלי הוא ‪0.05‬‬
‫‪.2‬‬
‫‪2‬ערך קריטי‪ )X̅-μ)÷√(Variance/n) :‬מתאים לפונקציית הצפיפות של ‪ .Z‬פונקציית‬
‫הצפיפות של ‪Z‬‬
‫מתאימה לפונקציית ההתפלגות הנורמלית (עקומת פעמון)‪ ,‬ממוצע‬
‫‪ ,n=0‬סטיית תקן =‪ .1‬הערך הקריטי ל ‪ 0.05‬מטבלת ערכי ה ‪Z‬‬
‫הוא ‪ .1.645‬זהו מבחן‬
‫חד זנבי; אנו רק רוצים לדעת האם ממוצע המכירות שלנו גדל במידה מספיקה לדחות‬
‫את )‪ .H(0‬השטח הכולל מתחת לעקומת ההתפלגות הנורמלית מ‪ 1.645-‬ומטה‬
‫(כלומר‪ ,‬שמאלה) = ‪ .0.95‬לפיכך‪ ,‬אם נשווה ערך ‪ Z‬גדול מ‪ ,1.645-‬טווח הטעות יהיה‬
‫פחות מ‪ 5%-‬ולכן נדחה את השערת האפס‪.‬‬
‫‪.3‬‬
‫‪3‬נחשב את הסטטיסטי ‪ :Z‬המשתנה )‪ )X̅-μ)÷√(Variance/n‬מתאים להתפלגות‬
‫הנורמלית של ‪ (83-80)÷√(25/5) = 134 :Z‬ערך ‪Z‬‬
‫הקריטי‪ ,‬ולפיכך‪ ,‬אנחנו מקבלים את )‪.H(0‬‬
‫שחישבנו קטן מן הערך‬
‫ב ח ינ ת ה הפר ש ב י ן מ מ ו צע י ם ב ע ז רת ה סטטי סטי ‪Z‬‬
‫נניח שברשותנו שתי תצפיות של ציוני תלמידים במבחן המחצית‪ .‬קבוצה א’ למדה בגישה שמרנית‪,‬‬
‫הכוללת שיעור פרונטלי‪ ,‬טקסטים ומטלות בית‪ .‬קבוצה ב’ למדה בגישה יצירתית הכוללת דיונים‬
‫ומשחקי תפקידים כדי להקיף נושאים‪ .‬בקבוצה א’ היה הממוצע ‪ 80‬וסטיית התקן הייתה ‪.5‬‬
‫בקבוצה ב’ היה הממוצע ‪ 85‬וסטיית התקן הייתה ‪ .2‬מספר התלמידים בכל קבוצה היה ‪.100‬‬
‫נשתמש בשיטה הבאה כדי לדעת האם קבוצה א’ שונה מקבוצה ב’‪:‬‬
‫‪.1‬‬
‫‪H(0): μ 1 - μ2 = 01‬‬
‫‪H(1): μ 1 - μ2 ≠ 0‬‬
‫‪.2‬‬
‫‪2‬נגדיר טווח טעות של ‪ 5%‬שהערך הקריטי שלו = ‪ ,1.96‬משום שזהו מבחן דו‪-‬זנבי‪.‬‬
‫ההפרש בין הממוצעים מתאים להתפלגות הנורמלית‪ ,‬ואנו יכולים לבדוק את טבלת‬
‫ערכי ה‪ Z-‬כדי למצוא את הערך ש‪ 2.5%-‬משטח ההתפלגות גדולים ממנו‪ .‬לפי‬
‫ההשערה האלטרנטיבית (‪μ1 - μ2 ,))1(H‬‬
‫עשוי להיות חיובי או שלילי ולכן זהו מבחן‬
‫דו‪-‬זנבי‪ .‬היות שזהו מבחן דו‪-‬זנבי עלינו לחלק את טווח הטעות לשני צידי ההתפלגות‪.‬‬
‫לכן‪ ,‬טווח הטעות הוא ‪ 0.025‬לערכים חיוביים ו‪ 0.025-‬לערכים שליליים‪ ,‬כך שהערך‬
‫הקריטי הוא ‪ ±1.96‬על פי טבלת ‪( Z‬ראו טבלה ‪ ,)1‬כלומר‪:‬‬
‫‪Pr (Z > 1.96) = 0.025, Pr (Z < -1.96) = 0.025‬‬
‫וההסתברות המשותפת לטעות היא ‪ ,0.05‬שהוא טווח הטעות המותרת המקסימלי‪.‬‬
‫‪.3‬‬
‫‪3‬נחשב את הסטטיסטי ‪:Z‬‬
‫‪√(Variance1/n1 + Variance2/n2) = (-5) ÷ √(25/100 + 4/100) = -9.28‬‬
‫התוצאה נמוכה משמעותית מהערך ‪-1.96‬‬
‫‪36‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫÷ )‪Z = (X1 -X2‬‬
‫יעיב ר קרפ‬
‫תורעשה תניחב ‬
‫החלטה‪:‬‬
‫נדחה את )‪ ,H(0‬מכיוון שהסטטיסטי שחישבנו גדול (בערך מוחלט) מהערך הקריטי‪.‬‬
‫ב ח ינ ת ה הפר ש ב י ן מ מ ו צ ע י ם ב א מצעות הת פ ל גות ‪T‬‬
‫נניח שוב שבידינו שתי תצפיות של ציוני תלמידים במבחן המחצית‪ .‬קבוצה א’ למדה בגישה‬
‫שמרנית הכוללת שיעור פרונטלי‪ ,‬טקסטים ומטלות בית‪ .‬קבוצה ב’ למדה בגישה יצירתית הכוללת‬
‫דיונים ומשחקי תפקידים כדי להקיף נושאים‪ .‬בקבוצה א’ היה הממוצע ‪ 80‬וסטיית התקן הייתה ‪.5‬‬
‫בקבוצה ב’ היה הממוצע ‪ 85‬וסטיית התקן הייתה ‪ .2‬אך במקרה זה יש לנו רק חמישה תלמידים‬
‫מכל קבוצה‪ ,‬גודל מדגם קטן‪ .‬כאשר אנו נתקלים בגודל מדגם קטן (בדרך כלל פחות מ‪,)35-‬‬
‫נשתמש בהתפלגות ‪ ,T‬הדומה מאד במראה להתפלגות ‪ ,Z‬אך אזורי הזנב בה עבים יותר‪ .‬נבחן‬
‫את ההשערות כך‪:‬‬
‫‪.1‬‬
‫‪H(0): μ1 - μ2 = 01‬‬
‫‪H(1): μ1 - μ2 ≠ 0‬‬
‫נגדיר טווח טעות של ‪ .5%‬הערך הקריטי הוא ‪( 2.306‬מתוך טבלת ‪T‬‬
‫יש בידינו בסך הכל ‪ 10‬תצפיות‪ ,‬ולכן ישנן ‪ n1 + n 2 - 2 = 8‬דרגות חופש‪ .‬זהו מבחן‬
‫דו‪-‬זנבי מכיוון שההשערה האלטרנטיבית (‪ ))H (1‬טוענת כי ‪ μ1 - μ 2‬עשוי להיות חיובי‬
‫‪ -‬ראו טבלה ‪.)2‬‬
‫או שלילי‪ .‬לפיכך‪ ,‬טווח הטעות מוכרח להיות ‪ 0.025‬לערכים חיוביים ו‪ 0.025-‬לערכים‬
‫שליליים‪ .‬הערך הקריטי הוא ‪.±2.306‬‬
‫‪.2‬‬
‫‪2‬נחשב את ערך ה‪ t -‬הסטטיסטי‪:‬‬
‫‪X̅2) ÷ (Variance1/n1 + Variance2/n2) 0.5 = (-5) ÷ {(25/5 ÷ 4/5)0.5}= -2.058‬‬
‫‪T = (X̅1 -‬‬
‫החלטה‪:‬‬
‫נקבל את )‪ ,H(0‬משום שהסטטיסטי שחישבנו אינו גדול מהערך הקריטי‪.‬‬
‫ב ח ינ ת ק שר ב י ן מ ש תנ י ם ש מ י י ם בעז רת מב ח ן ‪χ 2‬‬
‫(כִ י ב ר יב וע)‬
‫אם יש בידינו נתונים שמיים או קטגוריאליים‪ ,‬אנו יכולים למדוד סיכוי לשגיאה מסוג ‪ I‬באמצעות‬
‫מבחן ‪ .χ2‬לדוגמה‪ ,‬חשבו על משתנה תלוי‪ ,‬מיקום‪ = 1( .‬עיר‪ = 2 ,‬פרברים‪ = 3 ,‬אזורים כפריים)‪,‬‬
‫ומשתנה בלתי תלוי‪ ,‬מגדר (‪ = 1‬זכר‪ = 2 ,‬נקבה)‪ .‬אנו מעוניינים לדעת האם ישנה סבירות‬
‫גבוהה יותר שגברים רווקים שבבעלותם בתים יגורו בפרברים או לא‪ .‬המדגם שלנו כולל ‪ 7‬נשים‬
‫ו‪ 10-‬גברים המתגוררים בעיר‪ 7 ,‬נשים ו‪ 15-‬גברים המתגוררים בפרברים ו‪ 6-‬נשים ו‪ 5-‬גברים‬
‫המתגוררים באזורים כפריים‪ .‬הנה השלבים למבחן ‪: χ2‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪37‬‬
‫תורעשה תניחב‬
‫יעיב ר קרפ‬
‫שלב ‪1‬‬
‫נבנה טבלת שכיחויות‪ ,‬שמספר השורות בה מייצג את מספר הערכים האפשריים למשתנה אחד‪,‬‬
‫ומספר העמודות בה מייצג את מספר הערכים האפשריים למשתנה השני‪ .‬המספר המופיע בכל‬
‫תא מייצג את השכיחות הנצפית (השכיחות היחסית) )‪(Of‬‬
‫שבה מתרחשים ערכים אלו יחד‪.‬‬
‫טבלת שכיחויות נתונה בהמשך‪.‬‬
‫שלב ‪2‬‬
‫נבנה טבלת שכיחות צפויה‬
‫(‪)ef‬‬
‫שבה הערך עבור כל תא שווה ל‪[ :‬ערך כולל של השורה‬
‫המתאימה * ערך כולל של העמודה] ÷ (הסכום הכולל)‪ .‬ראו למטה‪( .‬שימו לב‪ :‬על‬
‫‪≥5‬‬
‫(‪)ef‬‬
‫להיות‬
‫עבור רוב התאים)‪.‬‬
‫שלב ‪3‬‬
‫נחשב את ה ‪Σ(Of - Ef) ÷ Ef , χ‬‬
‫‪2‬‬
‫‪2‬‬
‫ה‬
‫לכל התאים‪.‬‬
‫שלב ‪4‬‬
‫נחפש ערך קריטי ל ‪ = χ2‬ראו בטבלת ‪( χ2‬טבלה ‪ )3‬לערכים קריטיים עם שגיאת הסתברות מסוג‬
‫‪ ,I‬בהתאם לדרגות החופש המתאימות‪.‬‬
‫דרגות חופש = (מספר השורות בטבלת השכיחויות ‪( x )-1‬מספר העמודות בטבלת השכיחויות ‪.)-1‬‬
‫הערה‪ :‬הסבר למונח “דרגות חופש” נמצא בפרקים הקודמים‪.‬‬
‫טבל ת שכי חויו ת‬
‫שכיחות נצפית‬
‫מגדר‬
‫אזור‬
‫זכר‬
‫נקבה‬
‫סך כל העמודה‬
‫עיר‬
‫‪10‬‬
‫‪7‬‬
‫‪17‬‬
‫פרברים‬
‫‪15‬‬
‫‪7‬‬
‫‪22‬‬
‫כפרים ויישובים‬
‫‪5‬‬
‫‪6‬‬
‫‪11‬‬
‫סך כל השורה‬
‫‪30‬‬
‫‪20‬‬
‫‪50‬‬
‫הסך הכללי הוא ‪.50‬‬
‫‪38‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ר קרפ‬
‫תורעשה תניחב ‬
‫ט בל ת שכי חויו ת‬
‫שכיחות צפויה‬
‫מגדר‬
‫ערך‬
‫אזור‬
‫זכר‬
‫נקבה‬
‫עיר‬
‫‪x 30 ÷ 50 = 10.2 17‬‬
‫‪x 20 ÷ 50 = 6.8 17‬‬
‫פרברים‬
‫‪x 30 ÷ 50 = 13.2 22‬‬
‫‪x 20 ÷ 50 = 8.8 22‬‬
‫כפרים ויישובים‬
‫‪x 30 ÷ 50 = 6.6 11‬‬
‫‪x 20 ÷ 50 = 4.4 11‬‬
‫‪χ2‬‬
‫שחישבנו הוא‪:‬‬
‫‪[(10 - 10.2)2 ÷ 10.2] + [(7 - 6.8) 2 ÷ 6.8] +[(15 - 13.2) 2 ÷ 13.2] + [(7‬‬
‫‪- 8.8)2 ÷ 8.8] + [(5 - 6.6)2 ÷ 6.6] + [(6 - 4.4)2 ÷ 4.4] = 1.59‬‬
‫‪( χ2‬שתי דרגות חופש) ‪ 5%‬טעות =‪5.991‬‬
‫‪“ :H(0)1.1‬אזור‪ :‬ו”מגדר” בלתי תלויים‪.‬‬
‫)‪“ :H(1‬אזור” ו”מגדר” אינם בלתי תלויים‪.‬‬
‫‪.2‬‬
‫‪2‬ערך קריטי של ‪( χ2‬שתי דרגות חופש) (טעות אלפא ‪ -‬שגיאה מסוג ‪5.991 = 5 )I‬‬
‫‪.3‬‬
‫‪3‬ערך ‪ χ2‬שחושב = ‪1.59‬‬
‫היות שערך‬
‫‪χ2‬‬
‫קטן מן הערך הקריטי‪ ,‬אנו מקבלים את )‪ .H(0‬שימו לב‪ :‬המונחים דרגת‪p-‬‬
‫(ערך‪ )p-‬ורמת מובהקות (או אלפא ‪α -‬‬
‫‪ I‬כאשר דוחים את השערת האפס‪ .‬לדוגמה‪ :‬אם דרגות חופש = ‪ ,4‬ואנו מניחים שטווח הטעות‬
‫המותר של שגיאה מסוג ‪( I‬המכונה גם אלפא ‪ )α -‬הוא ‪ ,0.05‬אז הערך הקריטי=‪ .7.815‬אם ערכי‬
‫) מתייחסים להסתברות של התרחשות שגיאה מסוג‬
‫‪χ2‬‬
‫שחושבו גדולים מ‪ ,7.815-‬אנו דוחים את השערת האפס‪ .‬הערך הקריטי הוא המדד שלנו‬
‫בבחינת השערות‪ .‬את רמת המובהקות‪ ,‬הסבירות ששגיאה מסוג ‪I‬‬
‫)‪ ,H(0‬מחשבים באמצעות ‪ 1-p‬או ‪.1-alpha‬‬
‫לא תתרחש כאשר דוחים את‬
‫לדוגמה‪:‬‬
‫לבית הספר בית יעקב ברמת בית שמש התקבלו ‪ 10‬ילדות המשתייכות לקהילה החסידית ו‪5-‬‬
‫ילדות המשתייכות לקהילה הליטאית‪ .‬משרד החינוך טוען שישנה אפליה על רקע עדתי משום‬
‫שמספר הילדות הבאות מבתים חסידיים כפול ממספר הילדות הבאות מבתים ליטאיים‪ .‬למבחני‬
‫הכניסה ניגשו ‪ 100‬ילדות‪ 65 ,‬מבתים חסידיים ו‪ 35-‬מבתים ליטאיים‪ .‬משרד החינוך יזכה בתביעה‬
‫אם יוכיח שישנה אפליה עדתית‪ .‬האם תוכלו להוכיח באמצעות מבחן ‪ χ2‬האם ישנו סימן לאפליה‪,‬‬
‫כלומר‪ ,‬שהמשתנים “קבלה לבית הספר” ו”השתייכות קהילתית” אינם בלתי תלויים?‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪39‬‬
‫תורעשה תניחב‬
‫יעיב ר קרפ‬
‫‪.1‬‬
‫‪“ :H(0)1‬קבלה לבית הספר” ו”השתייכות קהילתית” בלתי תלויים‪.‬‬
‫‪.2‬‬
‫‪2‬הערך הקריטי של ‪( χ2‬דרגת חופש אחת) ברמת מובהקות של ‪( 3.841 = 5%‬ראו טבלה ‪.)3‬‬
‫‪.3‬‬
‫‪3‬ערך ‪ χ2‬שחושב = ‪( 0.02‬ראו טבלה)‬
‫)‪“ :H(1‬קבלה לבית הספר” ו”השתייכות קהילתית” אינם בלתי תלויים‪.‬‬
‫טבל ת שכי חויו ת‬
‫שכיחות נצפית‬
‫השתייכות קהילתית‬
‫קבלה לבית הספר‬
‫חסידי‬
‫ליטאי‬
‫סך כל העמודה‬
‫התקבלו‬
‫‪10‬‬
‫‪5‬‬
‫‪15‬‬
‫לא התקבלו‬
‫‪55‬‬
‫‪30‬‬
‫‪85‬‬
‫סך כל השורה‬
‫‪65‬‬
‫‪35‬‬
‫‪100‬‬
‫הסך הכולל הוא ‪.100‬‬
‫טבל ת שכי חויו ת‬
‫שכיחות צפויה‬
‫השתייכות קהילתית‬
‫קבלה לבית הספר‬
‫חסידי‬
‫ליטאי‬
‫התקבלו‬
‫‪x 65 ÷ 100 = 9.75 15‬‬
‫‪x 35 ÷ 100 = 5.25 15‬‬
‫לא התקבלו‬
‫‪x 65 ÷ 100 = 55.25 85‬‬
‫‪x 35 ÷ 100 = 29.75 85‬‬
‫ההבדל בין השכיחות הצפויה והשכיחות הנצפית הוא ‪ 0.25±‬לכל ארבעת התאים‪ .‬אנו יכולים‬
‫לחשב את ‪ 0.0625 = 0.252‬לכל התאים‪ ,‬ולחשב את ‪ χ2‬למטה‪.‬‬
‫‪ χ2‬שחושב =‬
‫‪{[0.0625 ÷ 9.75] + [0.0625 ÷ 5.25] + [0.0625 ÷ 55.25] + [0.0625 ÷ 29.75]} = 0.0215‬‬
‫‪χ2‬‬
‫([‪ 2‬שורות מינוס ‪ 2[x]1‬עמודות מינוס ‪ = ]1‬דרגת חופש אחת) בטווח טעות של ‪3.841 = 5%‬‬
‫החלטה‪:‬‬
‫השתייכות קהילתית וקבלה לבית הספר אינם קשורים זה בזה ואין כל סימן לאפליה קהילתית‪.‬‬
‫היחס בין חסידיות לליטאיות הוא של ‪ 2:1‬עבור הילדות שהתקבלו‪ ,‬אך גם ‪ 2:1‬בקירוב עבור ילדות‬
‫שלא התקבלו‪ .‬לפיכך‪ ,‬אין סימנים לאפליה קהילתית‪.‬‬
‫‪40‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ר קרפ‬
‫תורעשה תניחב ‬
‫ת ו צ א ה נ ו ספ ת ל ' כִ י ' בר י ב וע‬
‫כעת‪ ,‬לאחר שאתם מכירים את מבחן ‪X2‬‬
‫כיצד נקבע האם ההתפלגות נורמלית או לא?‬
‫תחומי מחלקה = (גבול מחלקה עליון ‪ +‬גבול מחלקה תחתון של הקבוצה הבאה) חלקי ‪.2‬‬
‫שלב ראשון‪ :‬חשבו את ציון ‪Z‬‬
‫עבור תחומי המחלקה לכל קבוצה‪.‬‬
‫‪( = Z‬תחום מחלקה ‪ -‬ממוצע כולל) חלקי (סטיית תקן) חלקי ‪√n‬‬
‫שלב שני‪ :‬השתמשו בטבלת ערכי ‪Z‬‬
‫כדי למדוד את ההסתברות לציון נמוך מתחום המחלקה‪.‬‬
‫שלב שלישי‪ :‬הפחיתו את ההסתברות לציון נמוך מתחום המחלקה התחתון מן ההסתברות לציון‬
‫גבוה מתחום המחלקה העליון‪ .‬התוצאה היא ההסתברות לציון בתוך תחומי המחקה‪ .‬פתרו עבור‬
‫כל הקבוצות‪.‬‬
‫שלב רביעי‪ :‬חשבו את השכיחות המצופה לכל קבוצה באמצעות הכפלת ההסתברות להימצא‬
‫בכל קבוצה בגודל המדגם הכולל‪ .n ,‬אם הנתונים מתפלגים נורמלית‪ ,‬תקבלו מספרים אלו* עבור‬
‫שכיחות קבוצה מצופה‪ ,‬או ‪.E f‬‬
‫שלב חמישי‪ :‬חשבו את ‪ :X2‬הפחיתו את השכיחות הנצפית‪(Of) ,‬‬
‫עבור כל קבוצה משכיחות‬
‫הקבוצה המצופה‪ .‬כעת העלו את ההפרש בריבוע וחלקו בשכיחות הקבוצה המצופה )‪(Ef‬‬
‫כל קבוצה‪ .‬פתרו משוואה זו עבור כל קבוצה‪ .‬זהו ערך ‪ X 2‬שלנו‪.‬‬
‫שלב ששי‪ :‬בדקו את ‪X2‬‬
‫עבור‬
‫בטבלה עבור טווח טעות של ‪ .1%‬דרגות החופש שלכם = מספר‬
‫הקבוצות ‪( 2 -‬אנו משתמשים בשני פרמטרים‪ :‬ממוצע וסטיית תקן)‪.‬‬
‫כלל‪ :‬אם ה‪ X2-‬שחישבנו גדול מערך ‪X2‬‬
‫אינם מתפלגים נורמלית‪ .‬אם ה‪ X 2-‬שחישבנו קטן מערך ‪ X 2‬בטבלה‪ ,‬נקבל את השערת האפס‬
‫בטבלה‪ ,‬נדחה את השערת האפש ונחליט שהנתונים‬
‫ונניח שהנתונים מתפלגים נורמלית‪.‬‬
‫ראו דוגמה להלן‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪41‬‬
‫תורעשה תניחב‬
‫יעיב ר קרפ‬
‫דוגמה (ד"ר אהרמן‪ ,‬ציונים סופיים באוניברסיטת אריאל‪:)2015 ,‬‬
‫ממוצע = ‪ ,85.1‬סטיית תקן = ‪,59‬‬
‫קבוצה‬
‫טעות תקן של הממוצע = ‪8.6‬‬
‫תחום (גבול‬
‫עליון ‪+‬גבול‬
‫תחתון של‬
‫הקבוצה‬
‫הבאה)‬
‫‪2‬‬
‫ערך ‪Z‬‬
‫(תחום ‪-‬‬
‫ממוצע)‬
‫טעות תקן‬
‫הסתברות‬
‫ערך > ‪Z‬‬
‫‪Z0‬‬
‫‪59.5‬‬
‫‪-2.97‬‬
‫‪0.0015‬‬
‫‪60-69‬‬
‫ההסתברות ‪ Ef 47‬כפול‬
‫‪Of47‬‬
‫להימצא ההסתברות הציונים‬
‫בקבוצה‬
‫להימצא‬
‫שקבלו ‪47‬‬
‫נתונה‬
‫בקבוצה‬
‫סטודנטים‬
‫‪0.0337‬‬
‫‪69.5‬‬
‫‪-1.81‬‬
‫‪70-79‬‬
‫‪79.5‬‬
‫‪80-89‬‬
‫‪89.5‬‬
‫‪90-99‬‬
‫‪99.5‬‬
‫‪21‬‬
‫‪13‬‬
‫‪15‬‬
‫‪0.3‬‬
‫‪0.9525‬‬
‫סך הכל‬
‫‪47‬‬
‫‪X2‬‬
‫שחישבנו = ‪7.2‬‬
‫‪X2‬‬
‫בטבלה (טווח טעות של ‪ 2 ,1%‬דרגות חופש) = ‪9.21‬‬
‫מסקנה‪ :‬הנתונים מתפלגים נורמלית‪ .‬ואי אפשר לדחות את )‪.H(0‬‬
‫‪42‬‬
‫‪24‬‬
‫‪0.4‬‬
‫‪0.6950‬‬
‫‪0.2575‬‬
‫‪+1.67‬‬
‫‪11‬‬
‫‪4‬‬
‫‪4.5‬‬
‫‪0.2578‬‬
‫‪0.4372‬‬
‫‪+0.51‬‬
‫‪2‬‬
‫‪0.0352‬‬
‫‪0.2226‬‬
‫‪-0.65‬‬
‫‪2‬‬
‫‪4‬‬
‫‪χ^2‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪47‬‬
‫‪7.2‬‬
‫פרק חמישי‬
‫נ יתו ח רג ר ס י ה‬
‫מ ד ד י ק ש ר לנתונ ים רציפים‬
‫ס קירה‬
‫אנו מתעתדים ללמוד את הנושאים הבאים‪ :‬הנחות בסיסיות בניתוח רגרסיה‪ ,‬מקדמי‬
‫משוואת הרגרסיה (או גזירה)‪ ,‬ההיגיון העומד מאחורי ניתוח רגרסיה‪ ,‬מבחני מובהקות‬
‫ומבחני טיב התאמה‪ .‬תינתנה דוגמאות לכל נושא‪.‬‬
‫תוצאה נוספת ל'כִ י' בריבוע‬
‫ב ד י ק ת הנ ח ו ת ( ה יפ ו ת י ז ו ת)‬
‫המטרה‪ :‬לוודא האם החיבור המוצע בין משתנים הוא מדויק או לא‪ .‬ישנה חשיבות בהבחנה בין‬
‫סיבתיות לבין חיבור בין משתנים‪ .‬יחס של סיבתיות קיים בין שני משתנים‪ ,‬למשל ‪ ,Y, X‬במידה‬
‫ושלושת הדרישות הבאות מתקיימות‪:‬‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫תמיד מקדים את ‪.X‬‬
‫‪Y1‬‬
‫‪ X2‬לעולם אינו יכול להקדים את ‪Y‬‬
‫‪ X3‬אינו יכול להתקיים ללא ‪.Y‬‬
‫לדוגמא‪ :‬אירוע ‪Y‬‬
‫‪ -‬קירור מים לטמפרטורה מתחת לאפס מעלות צלסיוס‪ ,‬ואירוע ‪ - X‬הפיכת‬
‫מים לקרח‪ ,‬הם אירועים בעלי קשר סיבתי‪ .‬לעומת זאת‪ ,‬הקשר בין פרסום למכירות הוא קשר‬
‫של חיבור ולא של סיבתיות‪ ,‬משום שניתן לבציע מכירה ללא פרסום‪.‬‬
‫כדי להוכיח כי קיים קשר של חיבור בין משתנים ניתן למדוד את ההשפעה של משתנה אחד‬
‫על השני‪ .‬לדוגמא‪ :‬אם נרצה לבדוק את הקשר בין כדורי הרזייה לבין אובדן משקל‪ ,‬נמדוד את‬
‫המשקל לפני ואחרי נטילת הכדורים ונשווה בין התוצאות (פרוצדורה כזו ידועה כתכנון ניסוי)‪.‬‬
‫בדומה‪ ,‬אם נרצה למדוד האם יש חיבור בין פרסום למכירות‪ ,‬נוכל למדוד את רמת המכירות עם‬
‫וללא פרסום ולהשוות בין התוצאות‪ .‬הפרוצדורה תהיה מאוד מסורבלת וקשה אם ננסה למדוד‬
‫כל קמפיין פרסומי‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪43‬‬
‫ה י סרגר חות י נ‬
‫ישימ ח קרפ‬
‫הוכחה של חיבור בין משתנים מחייב מדידה של כל אירוע‪ ,‬כל הזמן‪ ,‬של המשתנה‪ ,‬עם ובלי‬
‫הפעלה של המשתנה הקשור‪ .‬הקשר המשוער בין המשתנים יישלל אם המשתנה ‪ Y‬אינו משפיע‬
‫בצורה מהותית על המשתנה ‪.X‬‬
‫הדרישה הזו של המדידה היא כמעט בלתי אפשרית להשגה‪ ,‬משום שהיא כוללת איסוף מידע‬
‫של כל המופעים בהם מופיעים המשתנים‪ .‬יותר מזה‪ ,‬הוכחת הקשר בין שני משתנים היא כמעט‬
‫בלתי אפשרית‪ ,‬משום שקיימת אפשרות שלמשתנה שלישי גם כן יש השפעה‪.‬‬
‫הנ ח ו ת ב ס י ס י ו ת בנ י ת ו ח ר גר ס י ה‬
‫תרשים ‪ :2‬ר גר סיה לממוצ ע‬
‫ג ו ב ה מ מוצע‬
‫המונח 'ניתוח רגרסיה'‪ ,‬או ניתוח נסיגה‪ ,‬נטבע בידי סר פרנסיס גאלטון במחצית השנייה של‬
‫המאה ה‪ .19-‬הוא ביקש לחזות מה יהיה גובהו של אדם לפי גובהו של אביו‪ .‬הוא אסף את נתוני‬
‫הגובה של אבות ושל בניהם הבכורים‪ ,‬וחישב את גובהם הממוצע‪ .‬לאחר מכן בדק האם גובהו‬
‫של הבן הבכור קשור לגובהו של אביו‪ .‬הוא מצא תבנית המצביעה על הקשר הבא‪ :‬לאבות נמוכים‬
‫היו לרוב בנים נמוכים‪ ,‬ולאבות גבוהים היו לרוב בנים גבוהים‪ .‬נוסף לכך מצא גאלטון כי לאבות‬
‫נמוכים יש לרוב בנים נמוכים אך גבוהים מהם‪ ,‬ולאבות גבוהים יש לרוב בנים גבוהים הנמוכים‬
‫מהם‪ .‬תופעה זו של משיכה אל הממוצע מכונה רגרסיה לממוצע‪ .‬לאבות נמוכים יש לרוב בנים‬
‫גבוהים מהם משום שהבן קרוב יותר אל הממוצע‪ .‬בדומה לכך‪ ,‬לאבות גבוהים יש לרוב בנים‬
‫‪44‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ישימ ח קרפ‬
‫ה י סרגר חות י נ ‬
‫נמוכים מהם משום שבניהם קרובים יותר אל הממוצע‪ .‬כך‪ ,‬גובהם של בנים להורים גבוהים נסוג‬
‫אל הממוצע‪ ,‬משום שגובהם נמוך יותר משל הוריהם וקרוב יותר אל הממוצע (שרטוט ‪ 2‬עמ‪.)41 .‬‬
‫אחת מטרות החשובות של ניתוח רגרסיה היא להעריך האם אכן ישנו קשר בין משתנה תלוי‬
‫מסוים ומשתנים בלתי תלויים אחרים‪ .‬במילים אחרות‪ ,‬אנו מודדים מנקודת מבט של הסתברות‬
‫מה הסבירות שבעקבות עליה או ירידה בערך המשתנים הבלתי תלויים תהיה גם עליה או ירידה‬
‫בערך המשתנה התלוי‪ .‬אם סבירות הקשר גבוהה‪ ,‬אנו דוחים את השערת האפס ומניחים שישנו‬
‫קשר בין המשתנה התלוי למשתנה הבלתי תלוי‪.‬‬
‫רגרסיה ליניארית מניחה כי ליחס בין שני משתנים ישנו שיפוע קבוע‪Y = a+bX ,‬‬
‫‪ d‬הוא המקדם‪ ,‬וערך המקדם הוא מידת ההשפעה של המשתנה הבלתי תלוי על המשתנה התלוי‪.‬‬
‫המונחים ערך‪ p -‬ורמת מובהקות (או ערך אלפא ‪ )α -‬כולם משמעם ההסתברות שתקרה שגיאה‬
‫מסוג ‪ .I‬כלומר‪ ,‬הסיכויים שההחלטה לדחות את השערת האפס (ההחלטה שאין כל קשר בין‬
‫המשתנה התלוי והמשתנה הבלתי תלוי) הייתה שגויה‪.‬‬
‫לאחר שווידאנו שיש בידינו די מידע לדחות את השערת האפס בטווח הטעות שהגדרנו‪ ,‬כמו‬
‫ערך‪p-‬‬
‫של ‪ 0.05‬או פחות‪ ,‬אזי יש בידינו משוואת רגרסיה‪.‬‬
‫נ ק ו ד ו ת ח ש ו ב ו ת ב ה ת א מ ת נ ת ונ י ם לקו י ש ר‬
‫בניתוח רגרסיה אנו מתאימים את הנתונים שבידינו לקו ליניארי‪ .‬ישנן שלוש נקודות שיש לתת‬
‫עליהן את הדעת‪:‬‬
‫‪A .A‬זיהוי הקשר הפונקציונלי בין המשתנים‬
‫‪B .B‬מדידת עוצמת הקשר בין המשתנים‬
‫‪C .C‬זיהוי המשוואה המתאימה ביותר‬
‫‪.1‬‬
‫‪1‬קשר פונקציונלי‪ :‬האם קשרים עקומתיים יכולים להשתמש ברגרסיה ליניארית?‬
‫נזכר בפונקציה הליניארית ‪-‬‬
‫משוואת הקו הישר‪ .Y = aX+ b :‬חשבו על ‪= aX‬‬
‫‪b‬‬
‫‪.Y‬‬
‫משוואה זו אפשר להמיר למשוואה ליניארית באמצעות הוצאת הלוגריתמים משני‬
‫האגפים‪Y = log a × b log X ,‬‬
‫‪;log‬‬
‫והצבה‪ :‬יהי ‪.V = log b ;T = log A ;W = log X ;Z = log Y‬‬
‫‪ .Z‬בדומה לכך‪,‬‬
‫יש בידינו משוואת קו ישר ‪ -‬משוואה ליניארית‪= T÷bW :‬‬
‫"‪ Y= ab x‬נעשה )‪Z = T + VX, log Y = log a + X (log b‬‬
‫הצבה אינה מתאימה תמיד‪ .‬לדוגמה‪ .Y = a ÷ X b ,‬דיאגרמת פיזור שבה נקודות‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪45‬‬
‫ה י סרגר חות י נ‬
‫ישימ ח קרפ‬
‫הנתונים (‪ )X,Y‬מצוינות על צירי ה‪ X-‬וה‪Y-‬‬
‫יכולה לסייע לנו לקבוע האם הנתונים‬
‫ליניאריים (קוויים)‪ .‬אף שייתכן שאיננו יודעים מה הקשר הפונקציונלי המדויק‪ ,‬אנו‬
‫יכולים לדעת מה הכיוון המסתמן ‪ -‬האם הנתונים ליניאריים או לא‪.‬‬
‫‪.2‬‬
‫‪2‬עוצמת הקשר ( ‪ a‬הוא נקודת החיתוך עם ציר ה‪ b ,Y -‬הוא מקדם ה‪ ;X -‬ו‪ b -‬הוא‬
‫השיפוע של הקו של הרגרסיה )‬
‫הביטו במשוואות הבאות‪:‬‬
‫;‪Y =1÷X; Y= 1÷10X; Y =1÷100X‬‬
‫ ;‪. Y =1÷1000X‬‬
‫‪Y =1÷10000X‬‬
‫"‬
‫ההשפעה של ‪ X‬על ‪Y‬‬
‫יכולה להיות ביחס של ‪ 1‬ל ‪ 1 ,1‬ל ‪ 10‬או ‪ 1‬ל ‪ !10,000‬מה‬
‫שקובע מה תהיה עוצמת השפעתו של ‪ X‬על ‪Y‬‬
‫הוא ‪ ,b‬המקדם של ‪.X‬‬
‫הקריטריון שבו משתמשים כדי לקבוע את היחס ה"טוב ביותר" בין ‪ X‬ל‪ Y-‬הוא גורם‬
‫הטעות‪ ,‬כלומר‪ ,‬ה‪ Y-‬הנצפה מינוס ה‪ Ŷ-‬המנובא‪.‬‬
‫נתון‪ :‬לכל ערך נצפה במשתנה הבלתי תלוי‪ ,X ,‬ישנו ערך מנובא תואם במשתנה‬
‫התלוי‪ ,Ŷ ,‬שאליו מגיעים באמצעות הצבת ערך ה‪X-‬‬
‫‪ ,X=5‬הערך המנובא ל‪ Y -‬הוא ‪.50‬‬
‫במשוואה‪ .‬אם ‪ ,Y=10X‬אם‬
‫המונח ‪ ,RESIDUAL‬שארית או סטיית תצפית‪ ,‬משמעו ההבדל שבין ערך ה‪Y-‬‬
‫וערך ה‪ Y -‬המנובא‪ .‬הבדל זה מגיע ממאגר הנתונים שלנו‪ .‬בדוגמה שלנו‪,Y=10X ,‬‬
‫נניח שכאשר ‪ X =5‬העלתה התצפית שערך ‪ .45 = Y‬השארית היא (נצפה ‪ -‬מנובא)‬
‫= ‪ .5- = 45-50‬לו היינו בוחרים במשוואה ‪ ,Y=100X‬כאשר ‪ ,X=5‬אז היה ערך ה‪Y-‬‬
‫הנצפה‬
‫המנובא ‪ ,500‬והשארית היא (‪ .-455 =)400 - 45‬לו היה עלינו לבחור משוואת רגרסיה‪,‬‬
‫המשוואה הראשונה שבה גודל השארית הוא ‪ 5-‬טובה מן המשוואה השנייה שבה‬
‫גודל השארית הוא ‪ .455-‬לפיכך‪ ,‬שאריות (או סטיות תצפית) הן גורם מרכזי בבחירת‬
‫משוואת הרגרסיה המתאימה ביותר‪.‬‬
‫‪.3‬‬
‫‪3‬זיהוי המשוואה המתאימה ביותר‬
‫כאשר מגיעים לקביעת יחס ליניארי בין משתנה תלוי ‪Y‬‬
‫לו ‪ ,X‬ישנן אינסוף משוואות רגרסיה של קו ישר אפשריות היכולות להסביר את הקשר‬
‫בין ‪ ,X‬המשתנה הבלתי תלוי (בלתי נשלט או נשלט)‪ ,‬ו‪ ,Y -‬המשתנה התלוי (ובדרך‬
‫כלל בלתי נשלט)‪( .‬כאשר ישנם כמה משתנים בלתי תלויים מסמנים אותם ‪X1, X2...‬‬
‫‪ X i‬למשתני ”‪ .“i‬עם זאת‪ ,‬התוספת בכתב תחתי ”‪ “i‬מושמטת בדרך כלל לשם שמירה‬
‫על פשטות‪ Ŷ .‬הוא הערך המשוער ל‪.Y, Ŷ=a+bX -‬‬
‫והמשתנה הבלתי תלוי התואם‬
‫‪46‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ישימ ח קרפ‬
‫ה י סרגר חות י נ ‬
‫ש י ט ת הר י ב ו ע י ם הפ ח ו ת י ם‬
‫שיטת הריבועים הפחותים (‪ )OLS‬מזהה משוואת רגרסיה ייחודית שתשמש להגדרת ‪ ,b‬המקדם‬
‫של ‪ ,X‬ו‪ ,a-‬נקודת החיתוך עם ציר ה‪ ,Y-‬באמצעות שני הכללים הבאים‪:‬‬
‫‪.1‬‬
‫‪1‬סכום כל השאריות = ‪E(Yi - Ŷi) = 0 ;0‬‬
‫‪.2‬‬
‫‪2‬סכום כל השאריות בריבוע = מינימום; ‪ = E(Yi - ŶI)2‬מינימום‬
‫שימו לב‪ :‬הקטע הבא משתמש בחשבון דיפרנציאלי ואפשר לדלג עליו ולהמשיך הלאה‬
‫בלי לפגוע ברצף ההבנה‪.‬‬
‫‪.3‬‬
‫‪3‬משוואות נורמליות ‪ -‬מראות מדוע לאומד הריבועים הפחותים ישנו גורם טעות בריבוע‬
‫העומד על מינימום‪.‬‬
‫דרך‪ :‬השוו את הנגזרת הראשונה ל‪ .0-‬פתרו‪ .‬הפתרון ייתן את ערך המינימום‪.‬‬
‫‪∂∑(Yi-Ŷi)2 = 0; ∂∑(Y i- (a÷bXi))2 = 0; -2∑{X iYi - a - bxi)}=0‬‬
‫‪∂b‬‬
‫ ‪∂b‬‬
‫‪∂∑(Y i-Ŷ)2 = 0; ∂∑(Y i- (a÷bXi))2 = 0; -2∑(Y i - a - bxi) = 0‬‬
‫‪∂a‬‬
‫ ‪∂a‬‬
‫מ ש ו ו א ו ת נ ו רמל י ו ת‬
‫כפלו את שני האגפים ב ½�� ‪1. -2∑{Xi(Yi - a - bXi )} = 0‬‬
‫כפלו את שני האגפים ב ‪2. -2∑ (Yi - a - bXi) = 0 �� -∑Xi/2n‬‬
‫כעת הוסיפו לשני האגפים בכל משוואה את ‪1. ∑(XiYi) - a∑X i - b∑X2i =0 �� d‬‬
‫‪2. (∑Xi) (∑Yi) / n - a∑Xi - b(∑Xi)2 / n = 0‬‬
‫הפחיתו את המשוואה השנייה מן המשוואה הראשונה‪:‬‬
‫}‪b(∑X - (∑X i) / n) = {∑(XiYi) - (∑X i) (∑Yi) / n‬‬
‫‪2‬‬
‫חלקו את שני האגפים במקדם ‪:b‬‬
‫‪(∑X )2‬‬
‫) ‪÷ (∑X2i - n i‬‬
‫}‬
‫)‪(∑X i)(∑Yi‬‬
‫ )‪∑ (XiYi‬‬‫‪n‬‬
‫‪2‬‬
‫‪i‬‬
‫{‬
‫= ‪b‬‬
‫אפשר לכתוב את המשוואה הזו גם כך‪b = ∑ (x i-X̅ )(Yi - Y̅ ) ÷ ∑(Xi - X̅ )2��:‬‬
‫במשוואה ‪∑Yi - na - b∑Xi = 0 ��2‬‬
‫פתרו עבור ‪a = Y̅ - bX̅ �� a‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪47‬‬
‫ה י סרגר חות י נ‬
‫ישימ ח קרפ‬
‫‪ ,R 2‬מקדם המובהקות‪ ,‬מודד את כמות השונות המוסברת שמשוואת הרגרסיה מסבירה‪ .‬ל‪Y-‬‬
‫יש שונות משלו‪ ,‬והיחס בין השונות המוסברת ובין השונות הכוללת הוא ‪.R 2‬‬
‫שימו לב‪" :‬שונות מוסברת" מחשבים בכך שמפחיתים את השונות הבלתי מוסברת מן השונות‬
‫הכוללת‪ ,‬שהיא סכום ריבועי השאריות‪ .‬ההפרש נקרא "שונות מוסברת"‪ .‬מבחינה אלגברית‪ :‬שונות‬
‫כוללת = שונות מוסברת ÷ שונות בלתי מוסברת‪ .‬יש בידינו אומד ליניארי לא מוטה‪best( BLUE :‬‬
‫‪ .)linear unbiased estimator‬זהו האומד האופטימלי‪ .‬אופטימלי משמעו שאין כל אומד אחר שיכול‬
‫להפיק מן הערכים שנצפו סכום ריבועי שאריות קטן יותר‪ .‬אומד חסר הטיה משמעו שהערך‬
‫הצפוי של האומד ייתן את הפרמטר‪ .‬הערך הצפוי של ‪ ,b‬המקדם המוערך של ‪ ,X‬הוא הפרמטר‬
‫‪ ,B‬והערך הצפוי של ‪a‬‬
‫הוא הפרמטר ‪.A‬‬
‫ניתוח מתאם‬
‫‪ ,R‬מקדם המתאם‪ ,‬מודד את כיוון הקשר בין המשתנה התלוי והמשתנה הבלתי תלוי‪.‬‬
‫גזירה למדד ‪:R 2‬‬
‫סכום ריבועי ההפרשים מן הממוצע או‬
‫אפשר להראות כי האיבר האמצעי שווה אפס‪ ,‬כמו שמוסבר בהמשך‪.‬‬
‫זכרו כי‪Ŷ = a + bX i �� :‬‬
‫ו‪a = Y̅ - bX̅��:‬‬
‫ולכן‪(Ŷi - Y̅ ) = b(Xi-X̅ )��:‬‬
‫בדומה לזאת‪(Yi - Ŷi) = (Y i-Y̅ -b(Xi-X̅ )�� :‬‬
‫מכפלת האיברים הללו היא‪∑b(Xi - X̅ )(Yi - Y̅ )-∑b2(Xi - X̅ )2 ��:‬‬
‫מכיוון ש‪b = ∑(X i - X̅ )(Yi -Y̅ ) ÷ ∑(Xi - X̅ )2��:‬‬
‫האיבר הראשון הוא��‪∑b2 (Xi - X̅ )2‬‬
‫לפיכך‪ ,‬האיבר האמצעי נופל משום שההפרש בין איברים זהים שווה אפס‪.‬‬
‫כעת יש לנו צורה תמציתית יותר ל‪.SSY-‬‬
‫‪48‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ישימ ח קרפ‬
‫ה י סרגר חות י נ ‬
‫אנו יכולים לפרק את השונות של ‪Y‬‬
‫‪ (Y i - Ŷ i) 2‬מייצגת את סכום ריבועי השאריות בין ‪ ,Ŷ i‬הערך המשוער עבור ‪ Ŷ i|X i‬ו‪,Y i -‬‬
‫הערך הנצפה עבור ‪ .Ŷ i|X i‬האיבר השני‪ ,‬השונות המוסברת ‪ )Ŷi -Y̅)2‬מייצגת את השיפור‬
‫של הערך המשוער של ‪ Ŷ i‬מהממוצע‪ .‬הממוצע המדגמי כאומד הוא מספר נתון עבור המדגם‬
‫לשני מרכיבים‪ .‬האיבר הראשון‪ ,‬השונות הבלתי מוסברת‬
‫הנתון שאינו משתנה עם כל תצפית‪.‬‬
‫טיב התאמה הוא הפרופורציה של השונות המוסברת באמצעות מודל הרגרסיה‪.‬‬
‫בצורה מתמטית‪:‬‬
‫‪R‬‬
‫נותן לנו את חוזק המתאם ואת כיוון הקשר‪ .‬מתאם יכול להיות חיובי (שעות לימוד‪ ,‬ציונים‬
‫בקורס) ויכול להיות שלילי (מחיר של מוצר צריכה‪ ,‬מכירות ביחידות למוצר נתון)‪ .‬מתאם שלילי‬
‫יכול להיות משמעותי מאד‪.‬‬
‫בקצרה אנו משתמשים בשיטת הכתיבה הבאה‪:‬‬
‫סכום ריבועי ה‪– (ΣX) 2/n �� X-‬‬
‫סכום ריבועי ה‪– (ΣY) 2/n �� Y-‬‬
‫‪2‬‬
‫‪i‬‬
‫‪2‬‬
‫‪i‬‬
‫‪SSX = ΣX‬‬
‫‪SSY = ΣĳY‬‬
‫סכום הריבועים בין ‪ X‬ו‪SSXY = Σ(XY) – (ΣX)(ΣY)/n �� Y-‬‬
‫סכום ריבועי הסטיות הנובעות מן הרגרסיה ��‪SSR = (ssxy)2/ssx‬‬
‫סכום ריבועי הטעות הנובעת מקו הרגרסיה �� ‪SSE = ssy-ssr‬‬
‫‪b = SSXY ÷ SSX‬‬
‫ ̅‪a = Y̅ – bX‬‬
‫)‪R = SSXy ÷ √ (SSx) (ssy‬‬
‫‪ -1 < r < +1‬מסמל את כיוון היחס בין ‪ X‬ל ‪Y‬‬
‫)‪R 2 = SSXy2 ÷ (SSx) (ssy‬‬
‫‪ 0<r2 <+1‬מסמל את אחוז הפיזור של ‪Y‬‬
‫שמוסבר על ידי ‪ ,X‬אם סכום העולה על ‪ ,40%‬יספיק‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪49‬‬
‫ה י סרגר חות י נ‬
‫ישימ ח קרפ‬
‫התאמת המודל‬
‫מבחן ‪ R 2‬בודק את התאמת מודל הרגרסיה‪ .‬השערת האפס טוענת שאין כל קשר ליניארי משמעותי‬
‫בין המשתנה המנבא ‪X‬‬
‫והמשתנה המנובא ‪ .Y‬אם אנו מניחים שהתפלגות הטעויות נורמלית‪,‬‬
‫יש בידינו מבחן שיסייע לנו לקבל או לדחות את השערת האפס המניחה שאין כל קשר ליניארי‬
‫בין המשתנים‪.‬‬
‫לפני שנפנה למבחן‪ ,‬יש להכיר מושג חשוב המשמש במבחני מובהקות‪ ,‬דרגות חופש‪.‬‬
‫למשוואה יכול להיות יותר ממשתנה ‪ X‬אחד‪Y= a ÷ b1X1 + b2X2… +bnXn :‬‬
‫‪.‬‬
‫כדי להבין ביתר קלות את המושג "דרגות חופש"‪ ,‬הביטו בקבוצת המשוואות הבאה‪:‬‬
‫כמה משתנים חופשיים לקבל‬
‫כל ערך‬
‫משוואה‬
‫מספר משתנים‬
‫‪0‬‬
‫‪X1 = 5‬‬
‫‪1‬‬
‫‪1‬‬
‫‪X1 + X2 = 5‬‬
‫‪2‬‬
‫‪2‬‬
‫‪X1 + X2 ÷ X3 = 5‬‬
‫‪3‬‬
‫‪..........‬‬
‫‪X1 + X 2 ÷ X3…… + Xn = 5‬‬
‫‪n-1‬‬
‫‪N‬‬
‫ככל שמספר המשתנים גדל יש לנו "חופש" רב יותר לשייך להם ערכים‪ .‬לשימוש במספר מופרז‬
‫של משתנים בלתי תלויים יש גם מחיר‪ .‬מבחן המובהקות משתמש ב‪n-k -‬‬
‫‪ = n‬מספר התצפיות ו‪ = k-‬מספר המשתנים‪ .‬כדי שהמבחן הסטטיסטי יניב תוצאות‪ ,‬על ‪n-k‬‬
‫דרגות חופש‪ ,‬כאשר‬
‫להיות מספר גדול‪ .‬חשבו למשל על מחקר הדורש גודל מדגם של ‪ 100‬תצפיות‪ .‬אם ‪,k = 100‬‬
‫הרי שכל ‪ 100‬תצפיות שוות לתצפית אחת! לפיכך‪ 100 ,‬התצפיות הנדרשות מתורגמות ל‪10,000-‬‬
‫תצפיות‪ .‬לעומת זאת‪ ,‬אם ‪ ,k=2‬הרי ש‪ 200-‬תצפיות תספקנה‪.‬‬
‫ישנו קשר מוגדר בין מספר המשתנים ומספר התצפיות הנדרשות‪ .‬הקיצור ‪d.f.‬‬
‫(‪degrees of‬‬
‫‪ )freedom‬משמעו דרגות חופש‪.‬‬
‫מבחן ‪SSR/SST‬‬
‫= ‪ R 2‬הוא יחס הדומה ליחס נתח השוק (המכירות שלכם ÷ סך המכירות); סכום‬
‫הריבועים מוסבר באמצעות משוואת הרגרסיה‪ ,‬חלקי סך כל סכום הריבועים‪ ,‬הכולל את סכום‬
‫הריבועים המוסבר וסכום הריבועים הבלתי מוסבר (סכום ריבועי הסטיות וסכום ריבועי הטעות)‪.‬‬
‫‪50‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ישימ ח קרפ‬
‫ה י סרגר חות י נ ‬
‫מבחן ‪F‬‬
‫מבחן ‪ ,F‬ניתוח שונות חד גורמי‪ ,‬דומה למבחן יחס הסיכויים‪ :‬כמה פעמים זכיתם ÷ כמה פעמים‬
‫הפסדתם; ‪ F = {SSR/d.f.} ÷ {SSE/d.f.}.‬יש לנו ‪ k‬משתנים ו‪n -‬‬
‫)‪ (d.f.‬במונה שווה ל‪ ;k -‬דרגות החופש במכנה שווה ‪ .n-k -1‬ה‪ F -‬הסטטיסטי הוא למעשה‬
‫תצפיות‪ .‬דרגות החופש‬
‫היחס בין שני‬
‫‪χ2‬‬
‫ודרגות החופש של כל אחד מהם;‬
‫‪{χ 1 ÷ d.f.} ÷ {χ 2 ÷ d.f.} = F‬‬
‫‪2‬‬
‫‪2‬‬
‫(אנו מניחים שהטעויות מתפלגות נורמלית‪ ,‬שהשערת האפס נכונה ושריבועי ‪ SSR‬ו‪SSE-‬‬
‫‪ .)χ2‬נחשב את ערך ה‪ F -‬שקיבלנו ונבדוק בטבלת ערכי ה‪ .F -‬אם ערכי ה‪ F -‬שהתקבלו נמוכים‬
‫שניהם‬
‫מדי‪ ,‬כלומר‪ ,‬טווח הטעות בדחיית השערת האפס גדול מ‪ ,0.05-‬הרי שעלינו לקבל את השערת‬
‫האפס‪ .‬אם ה‪ F-‬שחושב גדול מערך ה‪F-‬‬
‫בטבלה ברמת ה‪ ,0.05-‬הרי שנדחה את שערת האפס‪,‬‬
‫מכיוון שההסתברות לעלות על הערך הזה קטנה מ‪ .0.05-‬טווח הטעות של ‪ 0.05‬הוא סובייקטיבי‬
‫ונתון לבחירת החוקר;‪ ,‬יהיו שיעדיפו ‪ 0.1‬ואחרים יעדיפו ‪ .0.01‬ראו את הדוגמה המובאת בהמשך‪.‬‬
‫מבחן ‪F‬‬
‫משמש לדחות את השערת האפס האומרת כי מקדם ‪ B‬שווה ‪.0‬‬
‫ד וג מ א ו ת‬
‫עשרה מדרגי אוכל התבקשו להעריך מותגים שונים של דגני בוקר‪ .‬לכל מדרג נאמר מה שיעור‬
‫הוויטמין ‪D‬‬
‫במוצר‪ ,X 2 ,‬ומה כמות החלבונים‪ ,X 1 ,‬בכל מוצר‪ .‬ציוני ההעדפות שלהם‪ ,Y ,‬היו‬
‫בתוך הטווח של ‪ .10 - 1‬משתנה זה הוא המשתנה התלוי‪( .‬ראו טבלה ‪.)5.1‬‬
‫אנו יכולים לבנות שתי משוואות רגרסיה נפרדות‪.‬‬
‫‪ ,Y‬העדפת המותג היא פונקציה של תכולת החלבונים שבו‪.‬‬
‫‪= f(X 1)1‬‬
‫‪.1‬‬
‫‪ ,Y = f(X 2)2.2‬העדפת המותג היא פונקציה של תכולת הוויטמין ‪ D‬במותג‪ .‬אנו יכולים‬
‫לפתור את משוואת הרגרסיה לכל משתנה בנפרד‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪51‬‬
‫ה י סרגר חות י נ‬
‫ישימ ח קרפ‬
‫ת רג י לים‬
‫טב לה ‪:5 .1‬‬
‫דירוג העדפות הצרכנים של עשרה מותגי דגני בוקר בעלי ערכים תזונתיים שונים‪.‬‬
‫דירוג‬
‫העדפה‬
‫כמות‬
‫חלבונים‬
‫כמות‬
‫ויטמין‬
‫‪D‬‬
‫‪X‬‬
‫ְמ ָד ֵרג‬
‫‪Y‬‬
‫‪X1‬‬
‫‪X2‬‬
‫‪Y2‬‬
‫‪1‬‬
‫‪3‬‬
‫‪4‬‬
‫‪2‬‬
‫‪9‬‬
‫‪16‬‬
‫‪2‬‬
‫‪7‬‬
‫‪9‬‬
‫‪7‬‬
‫‪49‬‬
‫‪81‬‬
‫‪63‬‬
‫‪3‬‬
‫‪2‬‬
‫‪3‬‬
‫‪1‬‬
‫‪4‬‬
‫‪9‬‬
‫‪6‬‬
‫‪1‬‬
‫‪4‬‬
‫‪1‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪1‬‬
‫‪4‬‬
‫‪2‬‬
‫‪5‬‬
‫‪6‬‬
‫‪3‬‬
‫‪3‬‬
‫‪36‬‬
‫‪9‬‬
‫‪18‬‬
‫‪9‬‬
‫‪18‬‬
‫‪9‬‬
‫‪6‬‬
‫‪2‬‬
‫‪4‬‬
‫‪4‬‬
‫‪4‬‬
‫‪16‬‬
‫‪8‬‬
‫‪16‬‬
‫‪8‬‬
‫‪16‬‬
‫‪7‬‬
‫‪8‬‬
‫‪7‬‬
‫‪9‬‬
‫‪64‬‬
‫‪49‬‬
‫‪56‬‬
‫‪81‬‬
‫‪72‬‬
‫‪63‬‬
‫‪8‬‬
‫‪3‬‬
‫‪3‬‬
‫‪2‬‬
‫‪9‬‬
‫‪9‬‬
‫‪9‬‬
‫‪4‬‬
‫‪6‬‬
‫‪6‬‬
‫‪9‬‬
‫‪9‬‬
‫‪8‬‬
‫‪7‬‬
‫‪81‬‬
‫‪64‬‬
‫‪72‬‬
‫‪49‬‬
‫‪63‬‬
‫‪56‬‬
‫‪10‬‬
‫‪2‬‬
‫‪1‬‬
‫‪3‬‬
‫‪4‬‬
‫‪1‬‬
‫‪2‬‬
‫‪9‬‬
‫‪6‬‬
‫‪3‬‬
‫סך הכל‬
‫‪43‬‬
‫‪43‬‬
‫‪40‬‬
‫‪261‬‬
‫‪255‬‬
‫‪247‬‬
‫‪226‬‬
‫‪232‬‬
‫‪229‬‬
‫‪2‬‬
‫‪1‬‬
‫‪X 1Y‬‬
‫‪X‬‬
‫‪12‬‬
‫‪4‬‬
‫‪6‬‬
‫‪49‬‬
‫‪49‬‬
‫‪63‬‬
‫‪2‬‬
‫‪3‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪X 2Y‬‬
‫‪X 1X 2‬‬
‫‪8‬‬
‫ממוצע‪:‬‬
‫‪Y = 4.3‬‬
‫‪X 1 = 4.3‬‬
‫‪X 2 = 4.0‬‬
‫סטיית תקן‬
‫‪2.908‬‬
‫‪2.792‬‬
‫‪2.708‬‬
‫מידע להחלטות מחקריות‪ ,‬פול א‪ .‬גרין‪ ,‬דונלד טול וג'רלד אלבאום‪ .1986 ,‬פרנטיס הול בע"מ‪.‬‬
‫באישור המחברים‪.‬‬
‫‪52‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ישימ ח קרפ‬
‫ה י סרגר חות י נ ‬
‫תרג יל ‪1‬‬
‫בחנו את הקשר שבין כמות החלבונים בדגני הבוקר של מותג מסוים ומידת ההעדפה שלהם‪.‬‬
‫סכום ריבועי ה‪– (ΣX i)2/n �� X-‬‬
‫‪2‬‬
‫‪i‬‬
‫‪SSX = ΣX‬‬
‫סכום ריבועי ה‪– (ΣY i)2/n �� Y-‬‬
‫‪2‬‬
‫‪i‬‬
‫‪SSY = ΣY‬‬
‫סכום הריבועים בין ‪ X‬ו‪SSXY = Σ(X iYi) – (ΣX i)(ΣYi)/n �� Y-‬‬
‫סכום ריבועי הסטיות הנובעות מן הרגרסיה ��‪SSR = (ssxy)2/ssx‬‬
‫סכום ריבועי הטעות הנובעת מקו הרגרסיה �� ‪SSE = ssy-ssr‬‬
‫‪b = SSXY ÷ SSX‬‬
‫ ̅‪a = Y̅ – bX‬‬
‫)‪R = SSXy ÷ √ (SSx) (ssy‬‬
‫משוואת הרגרסיה‪Y = �� :‬‬
‫מבחן ‪(SSR/d.f.) ÷ (SSE/d.f.) = �� :F‬‬
‫האם קיים קשר מובהק?‬
‫תרג יל ‪2‬‬
‫בחנו את הקשר בין תכולת הוויטמין ‪ D‬במוצר ובין מידת ההעדפה כלפיו‪.‬‬
‫סכום ריבועי ה‪– (ΣX i)2/n �� X-‬‬
‫‪2‬‬
‫‪i‬‬
‫‪SSX = ΣX‬‬
‫סכום ריבועי ה‪– (ΣY i)2/n �� Y-‬‬
‫‪2‬‬
‫‪i‬‬
‫‪SSY = ΣY‬‬
‫סכום הריבועים בין ‪ X‬ו‪SSXY = Σ(X iYi) – (ΣX i)(ΣYi)/n �� Y-‬‬
‫סכום ריבועי הסטיות הנובעות מן הרגרסיה ��‪SSR = (ssxy)2/ssx‬‬
‫סכום ריבועי הטעות הנובעת מקו הרגרסיה �� ‪SSE = ssy-ssr‬‬
‫‪b = SSXY ÷ SSX‬‬
‫ ̅‪a = Y̅ – bX‬‬
‫)‪R = SSXy ÷ √ (SSx) (ssy‬‬
‫משוואת הרגרסיה‪Y = �� :‬‬
‫מבחן ‪(SSR/d.f.) ÷ (SSE/d.f.) = �� :F‬‬
‫האם קיים קשר מובהק? ‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪53‬‬
‫ה י סרגר חות י נ‬
‫ישימ ח קרפ‬
‫תרג יל ‪3‬‬
‫מדיד ת כמו ת ז פ ת בנח ל ( ‪ )Y‬בטמ פרטו ר ה ( ‪)X‬‬
‫תצפית‬
‫מס‪.‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪8‬‬
‫‪9‬‬
‫‪Xi‬‬
‫‪1.5‬‬
‫‪1.8‬‬
‫‪2.4‬‬
‫‪3.0‬‬
‫‪3.5‬‬
‫‪3.9‬‬
‫‪4.4‬‬
‫‪4.8‬‬
‫‪5.0‬‬
‫‪Yi‬‬
‫‪4.8‬‬
‫‪5.7‬‬
‫‪7.0‬‬
‫‪8.3‬‬
‫‪10.9‬‬
‫‪12.4‬‬
‫‪13.1‬‬
‫‪13.6‬‬
‫‪15.3‬‬
‫הסתברות וסטטיסטיקה למדענים ולמהנדסים‪ ,‬רונלד וולפול וריימונד מאיירס‪ ,‬מקמילן‪ .1989 ,‬באישור המחברים‪.‬‬
‫חשבו‪:‬‬
‫סכום ריבועי ה‪– (ΣX i)2/n �� X-‬‬
‫סכום ריבועי ה‪– (ΣY i)2/n �� Y-‬‬
‫‪2‬‬
‫‪i‬‬
‫‪2‬‬
‫‪i‬‬
‫‪SSX = ΣX‬‬
‫‪SSY = ΣY‬‬
‫סכום הריבועים בין ‪ X‬ו‪SSXY = Σ(X iYi) – (ΣX i)(ΣYi)/n �� Y-‬‬
‫סכום ריבועי הסטיות הנובעות מן הרגרסיה ��‪SSR = (ssxy)2/ssx‬‬
‫סכום ריבועי הטעות הנובעת מקו הרגרסיה �� ‪SSE = ssy-ssr‬‬
‫‪b = SSXY ÷ SSX‬‬
‫ ̅‪a = Y̅ – bX‬‬
‫)‪R = SSXy ÷ √ (SSx) (ssy‬‬
‫משוואת הרגרסיה‪Y = �� :‬‬
‫מבחן ‪(SSR/d.f.) ÷ (SSE/d.f.) = �� :F‬‬
‫האם קיים קשר מובהק? ‬
‫‪54‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ישימ ח קרפ‬
‫ה י סרגר חות י נ ‬
‫נ י ת ו ח ר גר ס י ה מר ו ב ה‬
‫‪ ,Y‬והרגרסיה הנובעת ממנו‬
‫תתי‪-‬הפרקים הקודמים עסקו במשתנה בלתי תלוי בודד‪= a+bX ,‬‬
‫מכונה רגרסיה ליניארית פשוטה‪ .‬מרבית המקרים ה ישרודם ניתוח רגרסיה עוסקים בכמה משתנים‬
‫בלתי תלויים‪ ,Y = a+b 1X 1 + b 2X 2 + …. b nX n ,‬ובהם נשתמש ברגרסיה ליניארית מרובת‬
‫משתנים‪ .‬ניתוח רגרסיה ליניארית מרובה ללא סיוע מחשב היא פעולה קשה מאד‪.‬‬
‫ישנן תוכנות רבות כדוגמת ‪ STATISTIX ,SYSTAT ,SAS BMDP, MINITAB, SPSS,‬ואחרות‬
‫המספקות תוצאות מידיות‪ .‬כל משתנה מקבל ציון ”‪( “t‬ראו בפרקים הקודמים) וערך‪p-‬‬
‫אם ערך ה‪ p -‬קטן מן המקסימום שנקבע (‪ )10% ,5% ,1%‬כוללים את המשתנה במשוואה; אם‬
‫תואם‪.‬‬
‫לא‪ ,‬אין כוללים אותו במשוואה‪ .‬בטבלה ‪ 5.3‬תמצאו מאגר נתונים‪.‬‬
‫תרג יל ‪4‬‬
‫טרנס אמריקה שרותי טלפון בע"מ נמצאת במצב פיננסי קשה‪ .‬עליה למכור עוד קווי טלפון‪,‬‬
‫ולא‪ - ‬תאבד את הזיכיון‪ .‬שיעורי החדירה הממוצעים הם ‪( 30%‬מספר משקי הבית באזור הפעילות‬
‫שירכשו קו של טרנס אמריקה‪ ,‬חלקי מספר משקי הבית באיזור הפעילות)‪ ,‬ובכל המדינה הוא‬
‫קרוב יותר ל‪( .50%-‬אלו הם נתונים משנת ‪.)1974‬‬
‫נניח שיש בידינו משאבים לפעול בחמישה אזורי פעילות‪ .‬יש לנו מטרה כפולה‪ :‬תחילה‪ ,‬להגדיר‬
‫את המשתנים הקשורים לחדירה באמצעות ‪≥ 0.05‬‬
‫ערך‪ ;p -‬ושנית‪ ,‬לקבוע באילו חמישה אזורי‬
‫פעילות ישנה סבירות גבוהה למכירות חדשות (שאריות בעלות ערך שלילי גבוה מאד)‪ .‬זכרו‪:‬‬
‫שארית = (ה‪ Y-‬הנצפה מינוס ה‪Ŷ-‬‬
‫המנובא)‪ .‬ערך שלילי משמעו כי על שיעורי רכישת הקווים‬
‫הנצפים להיות גבוהים הרבה יותר מהשיעור הנוכחי‪.‬‬
‫הש לימו‬
‫הנתונים נמצאים בטבלה בעמוד הבא‪ ,‬השתמשו ב ‪ SPSS‬כדי לייצר את משוואת‬
‫הריגרסיה‪ ,‬ניתן להעשות 'העתק‪-‬הדבק' ל ‪.SPSS‬‬
‫בעמוד האחרון של הספר יש את הנתונים ב'אקסל' מימין לשמאל‪.‬‬
‫ הטבלה‪ :‬כריסטופר לבלוק וצ'רלס ווינברג‪ ,‬טרנס אמריקה קייבל‪ ,‬בוסטון‪ :‬בית הספר לעסקים של הארוורד‪ ,‬מקרה‬
‫מס‪ .9-583-1450 .‬זכויות יוצרים ‪ .President and Fellows of Harvard College ,1983‬בספרם של כריסטופר לבלוק וצ'רלס‬
‫ווינברג‪ ,‬אתגרים בשיווק‪ ,‬ניו יורק‪ .McGraw Hill, 1988 :‬מובא באישור בית הספר לעסקים באוניברסיטת ארה"ב‬
‫המשתנים הקשורים בשיעורי חדירה (הסתברות של טעות פחות מ‪ )5%-‬הם‪:‬‬
‫‪)1‬‬
‫‪)2‬‬
‫‪)3‬‬
‫‪)4‬‬
‫‪= p )1‬‬
‫‪= p )2‬‬
‫‪= p )3‬‬
‫‪= p )4‬‬
‫איזורי הפעילות (‪ )#ID‬שבהם השאריות השליליות הגבוהות ביותר הם‪:‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪55‬‬
‫ישימ ח קרפ‬
‫‪#ID‬‬
‫‪101‬‬
‫‪102‬‬
‫‪103‬‬
‫‪104‬‬
‫‪105‬‬
‫‪106‬‬
‫‪107‬‬
‫‪108‬‬
‫‪109‬‬
‫‪110‬‬
‫‪111‬‬
‫‪201‬‬
‫‪202‬‬
‫‪203‬‬
‫‪204‬‬
‫‪205‬‬
‫‪206‬‬
‫‪207‬‬
‫‪208‬‬
‫‪209‬‬
‫‪210‬‬
‫‪211‬‬
‫‪212‬‬
‫‪301‬‬
‫‪302‬‬
‫‪303‬‬
‫‪304‬‬
‫‪305‬‬
‫‪306‬‬
‫‪401‬‬
‫‪402‬‬
‫‪403‬‬
‫‪404‬‬
‫‪405‬‬
‫‪406‬‬
‫‪407‬‬
‫‪406‬‬
‫‪409‬‬
‫‪410‬‬
‫‪411‬‬
‫‪412‬‬
‫‪413‬‬
‫‪414‬‬
‫‪415‬‬
‫‪416‬‬
‫‪501‬‬
‫‪502‬‬
‫‪503‬‬
‫‪504‬‬
‫‪505‬‬
‫‪506‬‬
‫‪601‬‬
‫‪602‬‬
‫‪603‬‬
‫‪701‬‬
‫‪702‬‬
‫‪703‬‬
‫‪704‬‬
‫‪705‬‬
‫‪706‬‬
‫‪56‬‬
‫ה י סרגר חות י נ‬
‫‪ %‬השחורים‬
‫שיעור החדירה הכנסה חציונית‬
‫משקי בית‬
‫באוכלוסיה‬
‫‪38.8%‬‬
‫‪$11.389‬‬
‫‪28.1%‬‬
‫‪364‬‬
‫‪6.1‬‬
‫‪20,058‬‬
‫‪31.1‬‬
‫‪4,980‬‬
‫‪99.3‬‬
‫‪21,233‬‬
‫‪36.5‬‬
‫‪1, 516‬‬
‫‪25.8‬‬
‫‪21,969‬‬
‫‪34.5‬‬
‫‪6, 026‬‬
‫‪88.3‬‬
‫‪31,205‬‬
‫‪38.0‬‬
‫‪1,444‬‬
‫‪96.9‬‬
‫‪31,461‬‬
‫‪44.9‬‬
‫‪1, 742‬‬
‫‪98.6‬‬
‫‪20,322‬‬
‫‪36. 8‬‬
‫‪2,364‬‬
‫‪94 .4‬‬
‫‪26,717‬‬
‫‪37.4‬‬
‫‪3,252‬‬
‫‪94 .4‬‬
‫‪22,184‬‬
‫‪50.1‬‬
‫‪2,624‬‬
‫‪98.4‬‬
‫‪22,441‬‬
‫‪37.9‬‬
‫‪2,722‬‬
‫‪94.7‬‬
‫‪28,981‬‬
‫‪35.2‬‬
‫‪2,576‬‬
‫‪99.0‬‬
‫‪13,385‬‬
‫‪27.0‬‬
‫‪1.464‬‬
‫‪99.9‬‬
‫‪13,162‬‬
‫‪28.3‬‬
‫‪3,419‬‬
‫‪99.7‬‬
‫‪14,632‬‬
‫‪30.1‬‬
‫‪1,892‬‬
‫‪97.2‬‬
‫‪16,391‬‬
‫‪43.1‬‬
‫‪2,580‬‬
‫‪84 .2‬‬
‫‪12.485‬‬
‫‪38.0‬‬
‫‪1,898‬‬
‫‪97.7‬‬
‫‪13,755‬‬
‫‪50.6‬‬
‫‪1,464‬‬
‫‪99.6‬‬
‫‪13,199‬‬
‫‪42.2‬‬
‫‪1,178‬‬
‫‪89.4‬‬
‫‪14.320‬‬
‫‪33.3‬‬
‫‪1,812‬‬
‫‪99.1‬‬
‫‪15,971‬‬
‫‪34.0‬‬
‫‪2,706‬‬
‫‪57.5‬‬
‫‪27,292‬‬
‫‪36.2‬‬
‫‪1,452‬‬
‫‪48.7‬‬
‫‪13,868‬‬
‫‪35.5‬‬
‫‪490‬‬
‫‪53.0‬‬
‫‪24,607‬‬
‫‪36.5‬‬
‫‪1,258‬‬
‫‪98.7‬‬
‫‪9,228‬‬
‫‪12.9‬‬
‫‪2,264‬‬
‫‪97.1‬‬
‫‪12,509‬‬
‫‪14 .6‬‬
‫‪1,664‬‬
‫‪32.3‬‬
‫‪23.323‬‬
‫‪15.0‬‬
‫‪2,160‬‬
‫‪28.0‬‬
‫‪6, 692‬‬
‫‪16 .6‬‬
‫‪641‬‬
‫‪35.5‬‬
‫‪18,716‬‬
‫‪16.3‬‬
‫‪64 0‬‬
‫‪65.8‬‬
‫‪12.313‬‬
‫‪15.0‬‬
‫‪603‬‬
‫‪7.4‬‬
‫‪15.761‬‬
‫‪23 .6‬‬
‫‪443‬‬
‫‪96.7‬‬
‫‪13,755‬‬
‫‪21.3‬‬
‫‪1,600‬‬
‫‪32.9‬‬
‫‪20,763‬‬
‫‪21.2‬‬
‫‪711‬‬
‫‪8.7‬‬
‫‪24,754‬‬
‫‪21.9‬‬
‫‪4, 458‬‬
‫‪10.9‬‬
‫‪28.576‬‬
‫‪15.0.‬‬
‫‪4,077‬‬
‫‪6.8‬‬
‫‪23,474‬‬
‫‪23.6‬‬
‫‪1,939‬‬
‫‪2.0‬‬
‫‪18,407‬‬
‫‪22.9‬‬
‫‪2.953‬‬
‫‪16.4‬‬
‫‪23.196‬‬
‫‪22.2‬‬
‫‪1.712‬‬
‫‪28.2‬‬
‫‪21,571‬‬
‫‪21.9‬‬
‫‪2,423‬‬
‫‪4 .3‬‬
‫‪27.542‬‬
‫‪13 .4‬‬
‫‪3,199‬‬
‫‪65.4‬‬
‫‪14,218‬‬
‫‪11.1‬‬
‫‪3,410‬‬
‫‪4.8‬‬
‫‪13,754‬‬
‫‪39.5‬‬
‫‪954‬‬
‫‪69.1‬‬
‫‪33,809‬‬
‫‪35.5‬‬
‫‪1,233‬‬
‫‪93.9‬‬
‫‪22,140‬‬
‫‪34.2‬‬
‫‪1,691‬‬
‫‪99.4‬‬
‫‪27,390‬‬
‫‪32.9‬‬
‫‪935‬‬
‫‪98.7‬‬
‫‪12.821‬‬
‫‪33.3‬‬
‫‪862‬‬
‫‪1.7‬‬
‫‪25,725‬‬
‫‪31.2‬‬
‫‪3,966‬‬
‫‪1.0‬‬
‫‪24,679‬‬
‫‪26 .7‬‬
‫‪4,728‬‬
‫‪0.8‬‬
‫‪28,662‬‬
‫‪23 .6‬‬
‫‪2,367‬‬
‫‪12.7‬‬
‫‪39.062‬‬
‫‪38.8‬‬
‫‪3.485‬‬
‫‪1.9‬‬
‫‪74,693‬‬
‫‪42.8‬‬
‫‪3,803‬‬
‫‪1.6‬‬
‫‪94,980‬‬
‫‪39.6‬‬
‫‪2,580‬‬
‫‪30.7‬‬
‫‪20,509‬‬
‫‪28.4‬‬
‫‪6,803‬‬
‫‪30.5‬‬
‫‪30,603‬‬
‫‪36.5‬‬
‫‪8,169‬‬
‫‪3.3‬‬
‫‪22,138‬‬
‫‪48.2‬‬
‫‪3,366‬‬
‫‪47.7‬‬
‫‪24,082‬‬
‫‪45.3‬‬
‫‪815‬‬
‫‪47.6‬‬
‫‪27,933‬‬
‫‪51.5‬‬
‫‪6,621‬‬
‫‪21.7‬‬
‫‪28,076‬‬
‫‪54.0‬‬
‫‪9,145‬‬
‫‪29.3‬‬
‫‪25,061‬‬
‫‪46.7‬‬
‫‪5,952‬‬
‫‪32.0‬‬
‫‪22.046‬‬
‫‪50.4‬‬
‫‪8,525‬‬
‫‪33.7‬‬
‫‪25.804‬‬
‫‪40.5‬‬
‫‪14,478‬‬
‫‪ ID‬מ‪ 101 -‬עד ‪ = 416‬קינגסטון‪ ,‬מ‪ 501 -‬עד ‪ = 506‬הוב‪ ,‬מ‪ 601 -‬עד‬
‫גיל חציוני‬
‫‪49.3‬‬
‫‪54.1‬‬
‫‪26.8‬‬
‫‪49.2‬‬
‫‪32.4‬‬
‫‪34.2‬‬
‫‪28.5‬‬
‫‪28.1‬‬
‫‪27.9‬‬
‫‪30.6‬‬
‫‪26.0‬‬
‫‪16.1‬‬
‫‪18.0‬‬
‫‪29.6‬‬
‫‪19.1‬‬
‫‪24.8‬‬
‫‪28.2‬‬
‫‪28.0‬‬
‫‪24.2‬‬
‫‪25.4‬‬
‫‪43.3‬‬
‫‪29.4‬‬
‫‪38.2‬‬
‫‪17.9‬‬
‫‪45.2‬‬
‫‪40.4‬‬
‫‪22.3‬‬
‫‪59.7‬‬
‫‪34.1‬‬
‫‪42.5‬‬
‫‪35.4‬‬
‫‪20.6‬‬
‫‪29.2‬‬
‫‪43.9‬‬
‫‪41.6‬‬
‫‪48.6‬‬
‫‪48.3‬‬
‫‪41.4‬‬
‫‪39.9‬‬
‫‪32.5‬‬
‫‪31.1‬‬
‫‪38.4‬‬
‫‪32.2‬‬
‫‪33.0‬‬
‫‪26.4‬‬
‫‪44 .1‬‬
‫‪48.3‬‬
‫‪56.2‬‬
‫‪38.5‬‬
‫‪25.5‬‬
‫‪46.6‬‬
‫‪28.2‬‬
‫‪34.4‬‬
‫‪50.2‬‬
‫‪29.9‬‬
‫‪27.4‬‬
‫‪26.3‬‬
‫‪25.7‬‬
‫‪31.1‬‬
‫‪25 .4‬‬
‫‪ = 706‬ברייטן‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪ %‬מגורים בדירה‬
‫‪0.0%‬‬
‫‪8 .5‬‬
‫‪28.2‬‬
‫‪31.9‬‬
‫‪22.2‬‬
‫‪27.7‬‬
‫‪3.2‬‬
‫‪1.6‬‬
‫‪2 .2‬‬
‫‪19.6‬‬
‫‪7.4‬‬
‫‪20.6‬‬
‫‪13.6‬‬
‫‪2.6‬‬
‫‪26.2‬‬
‫‪22.2‬‬
‫‪1.0‬‬
‫‪4.6‬‬
‫‪15.2‬‬
‫‪11.0‬‬
‫‪14.4‬‬
‫‪2.3‬‬
‫‪0.0‬‬
‫‪44.5‬‬
‫‪5.4‬‬
‫‪87.1‬‬
‫‪37.5‬‬
‫‪0.0‬‬
‫‪0.0‬‬
‫‪12.6‬‬
‫‪3.6‬‬
‫‪55.3‬‬
‫‪58.2‬‬
‫‪54.9‬‬
‫‪61.5‬‬
‫‪37.4‬‬
‫‪15.3‬‬
‫‪28.9‬‬
‫‪29.2‬‬
‫‪13.8‬‬
‫‪31.1‬‬
‫‪38.4‬‬
‫‪32.2‬‬
‫‪33.0‬‬
‫‪26.4‬‬
‫‪28.5‬‬
‫‪6.6‬‬
‫‪48.8‬‬
‫‪1.8‬‬
‫‪3.5‬‬
‫‪9.9‬‬
‫‪7.4‬‬
‫‪36.2‬‬
‫‪3.5‬‬
‫‪0.0‬‬
‫‪12.1‬‬
‫‪16.3‬‬
‫‪0.0‬‬
‫‪0.8‬‬
‫‪21.0‬‬
‫ישימ ח קרפ‬
‫ה י סרגר חות י נ ‬
‫ר גר ס י ה ק ד י מ ה ‪ ,‬ר גר ס י ה ל א ח ור ו ר ג ר סיה בצ ע די ם‬
‫ברגרסיה מרובת משתנים אנו בוחנים כל משתנה בלתי תלוי כדי לזהות את ערך ה‪p-‬‬
‫ולהחליט‬
‫האם יש לכלול את המשתנה במשוואת הרגרסיה או לא‪ .‬דרך אחת היא לכלול את כל המשתנים‬
‫הבלתי‪-‬תלויים במשוואה ולהתחיל להשמיט כל משתנה שערך ה‪p-‬‬
‫שלו גדול מהרמה שקבענו‪.‬‬
‫גישה זו מכונה רגרסיה לאחור‪ ,‬משום שאנו הולכים ומשמיטים משתנים‪ ,‬או נעים "לאחור"‪,‬‬
‫מהמשוואה הראשונית שכללה את כל המשתנים‪.‬‬
‫שיטה אחרת היא להכניס משתנה אחד בכל צעד ולבחון אותו כדי לקבוע האם ערך ה‪p-‬‬
‫שלו‬
‫גדול מהערך שקבענו‪ .‬גישה זו מכונה רגרסיה קדימה‪ ,‬משום שאנו הולכים ומוסיפים משתנים‬
‫שערך ה‪p-‬‬
‫שלהם מתאים‪.‬‬
‫הגישה השלישית והמומלצת היא רגרסיה בצעדים‪ .‬בשיטה זו אנו משלבים בין שתי הדרכים‬
‫הראשונות‪ .‬תחילה אנו בוחרים משתנה שרמת המובהקות שלו היא הגבוהה ביותר‪ ,‬או במילים‬
‫אחרות‪ ,‬ערך ה‪p-‬‬
‫שלו הוא הנמוך ביותר‪ .‬לאחר מכן אנו מוסיפים עוד משתנה וחוזרים לאחור‬
‫לבדוק האם אנו עדיין מעוניינים במשתנה הראשון‪ ,‬כלומר‪ ,‬האם ערך ה‪p-‬‬
‫של המשתנה הראשון‬
‫גבוה מדי לאחר שהכנסנו את המשתנה השני למשוואה? שיטת עבודה זו‪ ,‬של שני צעדים קדימה‬
‫וצעד אחורה‪ ,‬נתנה לדרך זו את שמה ‪ -‬רגרסיה בצעדים‪ .‬כדי להמשיך‪ ,‬נוסיף משתנה שלישי‪,‬‬
‫ולאחר מכן נבדוק האם אנו עדיין מעוניינים בשני המשתנים הראשונים‪ ,‬לנוכח המשתנה השלישי‪.‬‬
‫(בפרק ‪ 7‬תמצאו שיטה נוספת)‪.‬‬
‫אם ישנו מתאם בין המשתנים הבלתי תלויים נוצרת בעיה ושמה מולטיקוליניאריות‪ .‬לדוגמה‪ ,‬אם‬
‫אנו מציבים את המכירות כמשתנה תלוי‪ ,‬והכנסה ורמת השכלה הם המשתנה הבלתי תלוי‪ ,‬הרי‬
‫שלכאורה יש לנו שני משתנים‪ .‬למעשה‪ ,‬יש בידינו רק משתנה אחד‪ ,‬משום שבין רמת הכנסה‬
‫לרמת השכלה ישנו מתאם חיובי‪ .‬זו בעיה מסובכת משום שלמעשה אנו סופרים משתנה אחד ‪-‬‬
‫מעמד סוציו‪-‬אקונומי ‪ -‬כשני משתנים‪ ,‬הכנסה והשכלה‪ .‬את בעיית המולטיקוליניאריות פותרים‬
‫בעזרת ניתוח גורמים‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪57‬‬
‫פרק שישי‬
‫נ יתו ח שונו ת ‪A N O V A -‬‬
‫בפרק הקודם עסקנו בקשרים בין המשתנה התלוי למשתנה הבלתי תלוי או למשתנים‬
‫הבלתי תלויים‪ .‬הכרנו מבחנים שונים המשמשים לבדוק את עוצמת הקשר‪ ,‬את הסבירות‬
‫לטעות וטעויות השמטה פוטנציאליות שונות‪.‬‬
‫אחד התנאים החשובים בניתוח רגרסיה הוא שהמשתנה התלוי והמשתנה הבלתי תלוי‬
‫יהיו שניהם נתונים רציפים‪ .‬כאשר הן המשתנה התלוי והן המשתנה הבלתי תלוי הם‬
‫משתנים שמיים או קטגוריאליים‪ ,‬אפשר לבדוק‪ ,‬באמצעות מבחן ‪ ,χ2‬האם אפשר לדחות‬
‫את השערת האפס (האומרת כי אין כל קשר בין המשתנה התלוי והמשתנה הבלתי תלוי)‪.‬‬
‫אם טווח הטעות‪ ,‬או ערך ה ‪ ,p‬קטן מטווח הטעות המקסימלי האפשרי בשגיאה מסוג ‪,I‬‬
‫אנו יכולים לדחות את השערת האפס‪ .‬אם טווח הטעות גדול מטווח הטעות המקסימלי‬
‫האפשרי בשגיאה מסוג ‪ ,I‬נקבל את השערת האפס‪.‬‬
‫כאשר המשתנה הבלתי תלוי קטגוריאלי והמשתנה התלוי רציף‪ ,‬ניתוח שונות הוא המבחן‬
‫המתאים למדידת ערך ‪p‬‬
‫(ההסתברות לקבלת השערת האפס בטעות)‪ .‬חשבו על טבלת‬
‫אפשרויות‪ .‬יש בה שורות שונות ועמודות שונות‪ .‬ניתוח שונות חד גורמי מניח ש‪,X -‬‬
‫המשתנה היחיד שמודדים‪ ,‬נמצא בעמודות‪ ,‬וכל עמודה מודדת מה קורה ל‪Y -‬‬
‫ערכים שונים של ‪ .X‬ניתוח שונות דו‪-‬גורמי מניח שהן השורות והן העמודות משפיעות‬
‫על ‪.Y‬‬
‫בנוכחות‬
‫נ י ת ו ח ש ונ ו ת ח ד ג ור מ י‬
‫הנה דוגמה לניתוח שונות חד גורמי‪ .‬משתנה ‪ Y‬הוא שיעור הספיגה של לחות בבטון‪ ,‬כפי‬
‫שנמדדו בחמישה סוגי בטון שהוכנו מחמש תערובות חצץ שונות‪ .‬השערת האפס אומרת שהספיגה‬
‫הממוצעת זהה‪.‬‬
‫‪H(0): μ 1 = μ 2 = μ3 = μ 4 = μ 5‬‬
‫‪ μi ≠ μj‬לפחות מקרה אחד של‪H(1):‬‬
‫הנתונים שלנו מורכבים מ‪ 6-‬תצפיות עבור כל סוג בטון‪ ,‬סך הכל ‪ 30‬תצפיות‪ .‬אנו יכולים להציג‬
‫את הנתונים במטריצה (או טבלה) שבה ‪ 6‬שורות ו‪ 5-‬עמודות‪.‬‬
‫‪58‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ ‪ -‬תונוש חות י נ חותינ ‬
‫ישיש קרפ‬
‫טב לה ‪:6 .1‬‬
‫שיעורי ספיגה של לחות בתערובות בטון‬
‫תערובת (‪%‬משקל)‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫סוג‬
‫‪551‬‬
‫‪595‬‬
‫‪639‬‬
‫‪417‬‬
‫‪563‬‬
‫‪457‬‬
‫‪580‬‬
‫‪615‬‬
‫‪449‬‬
‫‪631‬‬
‫‪450‬‬
‫‪508‬‬
‫‪511‬‬
‫‪517‬‬
‫‪522‬‬
‫‪731‬‬
‫‪583‬‬
‫‪573‬‬
‫‪438‬‬
‫‪613‬‬
‫‪499‬‬
‫‪633‬‬
‫‪648‬‬
‫‪415‬‬
‫‪656‬‬
‫‪632‬‬
‫‪517‬‬
‫‪677‬‬
‫‪555‬‬
‫‪679‬‬
‫סך הכל‬
‫‪3,320‬‬
‫‪3,416‬‬
‫‪3,663‬‬
‫‪2,791‬‬
‫‪16,854 3,664‬‬
‫ממוצע‬
‫‪553.33‬‬
‫‪569.33‬‬
‫‪610.50‬‬
‫‪465.17‬‬
‫‪561.80 610.67‬‬
‫(הסתברות וסטטיסטיקה למדענים ולמהנדסים‪ ,‬וולפול ומאיירס‪ ,‬מקמילן‪ ,1989 ,‬מובא ברשות‬
‫המחברים‪).‬‬
‫הערך בכל תא הוא ‪ ,Y‬שהוא משתנה רציף‪ .‬כל עמודה מייצגת ערך אחר עבור ‪ ,X‬המשתנה בלתי‬
‫תלוי‪ ,‬ובו ‪X‬‬
‫יכול לקבל את הערכים ‪ ,5 - 1‬או פשוט ‪ .X = 1,2,3,4,5‬הפרשי סכום הריבועים‬
‫מהממוצע של ‪ ,Y, SST‬היא נוסחת ה‪SSY-‬‬
‫‪2‬‬
‫שהובאה בפרק הקודם‪– (ΣY) /n ,‬‬
‫‪2‬‬
‫‪i‬‬
‫‪.SSY = ΣY‬‬
‫סכום הריבועים של ‪:Y‬‬
‫‪Y = 5512 + 4572 + … +6972 – (16854)2/30 = 9677954 - 9468577 = 209,377‬‬
‫אנו יכולים לפרק את סכום הריבועים לשני חלקים‪ :‬סכום הריבועים בין סכומי העמודות וסכום‬
‫הריבועים בתוך סכומי העמודות‪ .‬לפי השערת האפס‪ ,‬ההבדלים בין תערובות הבטון אינם‬
‫משמעותיים ועל סכומי העמודות להיות דומים זה לזה‪ .‬ההשערה האלטרנטיבית )‪H(1‬‬
‫אומרת‬
‫כי ישנו הבדל משמעותי בין תערובות הבטון‪ .‬לכן‪ ,‬על סכומי העמודות להיות שונים זה מזה אך‬
‫המספרים בתוך העמודות יהיו דומים‪ ,‬מכיוון שכל הפריטים בכל עמודה עברו מניפולציה זהה‪.‬‬
‫המבחן לניתוח שונות הוא היחס‪{ :‬סכום הריבועים הממוצע של ההפרשים בין העמודות} ‪).d.f ( /‬‬
‫÷ {סכום הריבועים הממוצע בתוך העמודות} ‪ .).d.f ( /‬המונה הוא אפקט המניפולציה (כלומר‪,‬‬
‫התהליך) הנובע מ‪ ,X-‬והמכנה הוא אפקט הטעות שאפילו ההשערה האלטרנטיבית )‪H(1‬‬
‫מסבירה אותה‪ .‬טבלת ערכי ‪ F‬תספק את הערך הקריטי‪ ,‬בהתבסס על ערך ה‪ p -‬שנקבע או‬
‫ההסתברות המקובלת לשגיאה מסוג ‪ ,I‬על דרגות החופש למונה‪ ,‬לפי מספר העמודות מינוס ‪1‬‬
‫(מספר המניפולציות שנעשו מוגדר כ‪ ,)k -‬ועל דרגות החופש למכנה לפי מספר השורות מינוס‪,1 ‬‬
‫אינה‬
‫כפול מספר המניפולציות שנעשו‪:‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪59‬‬
‫ ‪ -‬תונוש חות י נ חותינ‬
‫ישיש קרפ‬
‫)‪ .k(n-1‬בהמשך מובא חישוב ערכים אלו עבור הדוגמה של ספיגת לחות בבטון שהובאה קודם‪.‬‬
‫צורת הכתיבה בניתוח שונות היא כזו‪:‬‬
‫כותרות השורות עושות שימוש בציון התחתי ‪ ,i: i = 1, 2, …, n‬ו‪Ti -‬‬
‫לשורת ה‪ .i -‬כותרות העמודות עושות שימוש בציון התחתי ‪ ,j: j = 1, 2, … k‬ו‪ T j -‬הוא‬
‫סכום העמודה לעמודה ה‪ .j -‬האות ‪ T‬מציינת את הסכום הכולל של כל התאים בטבלה‪ .‬הנה‬
‫הנוסחאות הנחוצות למבחן ‪:F‬‬
‫הוא סכום השורה‬
‫‪2‬‬
‫אפקט המניפולציה = סכום הריבועים שבין העמודות ‪SSA = ΣjT j/n - T2/nk‬‬
‫‪2‬‬
‫סך סכום הריבועים של ‪= Y‬סכום הריבועים של ‪SST = ΣiΣj (Y ĳ) - T2/nk Y‬‬
‫‪2‬‬
‫‪2‬‬
‫סכום הריבועים בתוך כל עמודה = אפקט הטעות ‪SSE = ΣiΣj (Y ĳ) - ΣjT j/n‬‬
‫שימו לב‪= SST - SSA :‬‬
‫‪ ,SSE‬יש בידינו מספר שווה של תצפיות עבור כל עמודה‪.‬‬
‫כך נפתור את הדוגמה שעסקנו בה‪:‬‬
‫‪SSA = (3,3202 + 3,4162 + … +3,6642)/6 – 16,8542/30 = 85,356‬‬
‫‪SST = 5512 + 4572 + … + 6792 – (16,854)2/30 = 9677954 – 9468577 = 209,377‬‬
‫‪SSE = SST - SSA = 209,377 – 85,356 = 124,021‬‬
‫מבחן ‪ = (SSR/d.f.)/SSE/d.f.) :F‬ממוצ ע אפ קט ה מנ י פ ו ל צ י ה‪ /‬מ מ ו צ ע א פ ק ט הט ע ו ת‬
‫דרגות החופש )‪(d.f.‬‬
‫במונה = (מספר העמודות ‪ ,)1 -‬כלומר‪.k - 1 ,‬‬
‫דרגות החופש במכנה = (מספר השורות ‪ )1 -‬כפול ‪.k‬‬
‫כאשר נחלק את סכום הריבועים בדרגות החופש המתאימות‪ ,‬נקבל את ערך ממוצע הריבועים‪.‬‬
‫לפיכך‪F = MSA ÷ MSE ,‬‬
‫כך תראה ט ב ל ת ני תו ח שונו ת‬
‫( ‪)A N O V A‬‬
‫ע ב ו ר ד וג מ ת הל חות ב ב ט ו ן‪:‬‬
‫מקור השינוי‬
‫סכום הריבועים‬
‫דרגות חופש‬
‫ממוצע הריבועים‬
‫ערך ה‪ F-‬שחושב‬
‫תערובות בטון‬
‫‪85,356‬‬
‫‪4‬‬
‫‪21,339‬‬
‫‪4.30‬‬
‫טעות‬
‫‪124,021‬‬
‫‪25‬‬
‫‪4.961‬‬
‫סך הכל‬
‫‪209,377‬‬
‫‪29‬‬
‫‪ F‬בטבלה = ‪ ,2.76‬נדחה את השערת האפס‪.‬‬
‫‪60‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ ‪ -‬תונוש חות י נ חותינ ‬
‫ישיש קרפ‬
‫נ י ת ו ח ש ונ ו ת ד ו ‪ -‬ג ור מ י‬
‫חשבו על מצב שבו שני משתנים בלתי תלויים עשויים להיות קשורים במשתנה תלוי אחד‪ .‬לדוגמה‪,‬‬
‫נניח שהמשתנה התלוי שלנו הוא הכנסתם השנתית של מנהלים בחברה נתונה‪ .‬לכל המנהלים‬
‫הללו תואר במנהל עסקים‪ ,‬והם התמחו באחד מתוך ששה תחומים אפשריים‪ :‬שיווק (‪ ,)1‬ניהול‬
‫(‪ ,)2‬ראית חשבון (‪ ,)3‬כלכלה (‪ ,)4‬מדעי הניהול (‪ )5‬ומשאבי אנוש (‪ .)6‬בדומה לכך‪ ,‬המנהלים‬
‫ההלו נחלקים לארבע קבוצות לפי איכות התפקוד שלהם ומכאן דירוגם בחברה‪ :‬הרביעון העליון‬
‫(‪ 25%‬הראשונים בקבוצת הדירוג)‪ ,‬רביעון שני‪ ,‬רביעון שלישי ורביעון עליון‪ .‬השאלה שלנו היא‬
‫האם להתמחותו ולדירוגו של המנהל יש השפעה על הכנסתו‪( .‬שימו לב שהנתונים היפותטיים‬
‫ומובאים כאן למטרות הדגמה בלבד)‪.‬‬
‫שלושה שלבים נחוצים לפתרון הבעיה‪ .‬בשלב הראשון נגדיר את ההנחות‪ ,‬בשלב השני נחשב‬
‫את הערכים הסטטיסטיים הנדרשים ובשלב השלישי נבנה טבלת ניתוח שונות דו‪-‬גורמי‪ .‬הטבלה‬
‫תיתן לנו את ערך ה‪ .F-‬אם יהיה ערך ה‪ F-‬גדול מהערך הקריטי שלנו‪ ,‬נדחה את השערת האפס‪.‬‬
‫אם יהיה קטן מן הערך הקריטי‪ ,‬נקבל את השערת האפס‪.‬‬
‫נזכור שכעת יש לנו שני אפקטים עיקריים הנובעים מהמניפולציה‪ :‬שורה (דירוג) ועמודה (התמחות)‪.‬‬
‫‪ SSA‬הוא סכום הריבועים בין השורות‪ SSB ,‬הוא סכום הריבועים בין העמודות‪ SSE ,‬הוא סכום‬
‫הריבועים של גורם הטעות ו‪ SST-‬הוא סכום הריבועים הכולל של משתנה ‪ .Y‬לפי )‪SSA ,H(1‬‬
‫מודד את אפקט המניפולציה‪ ,‬והיינו מצפים למצוא שוני גדול בין סכומי השורות (אפקט מניפולציה‬
‫‪ .)A‬לפי )’‪ SSB ,H(1‬מודד את אפקט המניפולציה והיינו מצפים למצוא שוני גדול בין סכומי‬
‫העמודות (אפקט מניפולציה ‪ .)B‬לפי )‪ H(1‬ו‪ ,H(1’) -‬גורם הטעות‪ ,SSE ,‬אמור להיות קטן יחסית‪,‬‬
‫משום שהוא מייצג טעות אקראית‪ .‬מבחן ‪ F‬הוא יחס הסיכויים‪ :‬למניפולציה ‪ ,A‬יחס הסיכויים הוא‬
‫{‪ .}.SSA/d.f.} ÷ {SSE/d.f‬דרגות החופש במונה = (‪ .)n - 1) (k - 1‬למניפולציה ‪ ,B‬יחס הסיכויים‬
‫הוא {‪ ,}.SSB/d.f.} ÷ {SSE/d.f‬דרגות החופש במונה = ‪ ,k - 1‬דרגות החופש במכנה = ()‪n - 1‬‬
‫‪ .)(k - 1‬החישובים מובאים להלן‪:‬‬
‫ט ב לה ‪6.2‬‬
‫הכנסה שנתית של מנהלים (באלפים)‬
‫התמחות המנהל בלימודי התואר‬
‫דירוג בתוך הקבוצה‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫סך הכל‬
‫רביעון ראשון‬
‫‪42.5‬‬
‫‪39.3‬‬
‫‪39.6‬‬
‫‪39.9‬‬
‫‪42.9‬‬
‫‪43.6‬‬
‫‪247.8‬‬
‫רביעון שני‬
‫‪39.8‬‬
‫‪40.1‬‬
‫‪40.5‬‬
‫‪42.3‬‬
‫‪42.5‬‬
‫‪43.1‬‬
‫‪248.3‬‬
‫רביעון שלישי‬
‫‪40.2‬‬
‫‪40.5‬‬
‫‪41.3‬‬
‫‪43.4‬‬
‫‪44.9‬‬
‫‪45.1‬‬
‫‪255.4‬‬
‫רביעון רביעי‬
‫‪41.3‬‬
‫‪42.2‬‬
‫‪43.5‬‬
‫‪44.2‬‬
‫‪45.9‬‬
‫‪42.3‬‬
‫‪259.4‬‬
‫סך הכל‬
‫‪163.8‬‬
‫‪162.1‬‬
‫‪164.9‬‬
‫‪169.8‬‬
‫‪176.2‬‬
‫‪174.1‬‬
‫‪1010.9‬‬
‫(הסתברות וסטטיסטיקה למדענים ולמהנדסים‪ ,‬וולפול ומאיירס‪ ,‬מקמילן‪ ,1989 ,‬מובא ברשות המחברים‪).‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪61‬‬
‫ ‪ -‬תונוש חות י נ חותינ‬
‫ישיש קרפ‬
‫שלב א'‪:‬‬
‫ממוצעי השורות ‪H(0) = μ1 = μ2 = μ3 = μ4 = 0‬‬
‫ממוצעי העמודות ‪H(0’) = μ1 = μ2 = μ3 = μ4 = μ5 = μ6 = 0‬‬
‫)‪H(1‬‬
‫= לפחות אחד ‪ μi ≠ μi‬אחר = אפקט השורות מובהק‬
‫)’‪H(1‬‬
‫= לפחות אחד ‪ μj ≠ μj‬אחר = אפקט העמודות מובהק‬
‫שלב ב'‪:‬‬
‫חישוב הסטטיסטיים הנחוצים‪:‬‬
‫סך סכום הריבועים של ‪= Y‬סכום הריבועים של ‪SST = ΣiΣj (Y2) – T2/nk Y‬‬
‫אפקט המניפולציה = סכום הריבועים שבין השורות ‪SSA = ΣiT2/k – T2/nk‬‬
‫אפקט המניפולציה = סכום הריבועים שבין העמודות ‪SSB = ΣjT2/n – T2/nk‬‬
‫אפקט הטעות = ‪SSE = Σ i Σj (Y2) – ΣjT2/k – ΣjT2/n + T2/nk‬‬
‫דרגות חופש ל‪ ;n-1 = A-‬דרגות חופש ל‪,.k – 1 = B-‬דרגות חופש ל ‪(n – 1)(k–1) = E‬‬
‫והנה חישוב הבעיה‪:‬‬
‫‪SST = 42.52 + 39.82 + … +42.32 – 1010.92/24 = 81.86‬‬
‫‪SSA = (247.82 + 248.32 + … + 259.42)/6 – 1010.92/24 = 15.93‬‬
‫‪SSB = (163.82 + 162.12 + … + 174.12)/4 – 1010.92/24 = 42.09‬‬
‫‪SSE = SST – SSA – SSB = 81.86 – 15.93 – 42.09 = 23.84‬‬
‫ערך ‪ F‬קריטי ל‪ 3 ,p = 0.05( A-‬דרגות חופש במונה‪ 15 ,‬דרגות חופש במכנה) = ‪3.29‬‬
‫ערך ‪ F‬קריטי ל‪ 5 ,p = 0.05( B-‬דרגות חופש במונה‪ 15 ,‬דרגות חופש במכנה) = ‪2.90‬‬
‫שלב ג'‬
‫טב ל ת ני תו ח שונו ת דו‪ -‬גורמי‬
‫‪62‬‬
‫מקור‬
‫סכום הריבועים‬
‫דרגות חופש‬
‫ממוצע הריבועים‬
‫ערך ‪F‬‬
‫דירוג‬
‫‪15.93‬‬
‫‪3‬‬
‫‪5.31‬‬
‫‪3.34‬‬
‫התמחות‬
‫‪42.09‬‬
‫‪5‬‬
‫‪8.42‬‬
‫‪5.30‬‬
‫טעות‬
‫‪23.84‬‬
‫‪15‬‬
‫‪1.59‬‬
‫סך הכל‬
‫‪81.86‬‬
‫‪23‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ ‪ -‬תונוש חות י נ חותינ ‬
‫החלטה‪ :‬נדחה את )‪H(0‬‬
‫ישיש קרפ‬
‫ואת )’‪.H(0‬‬
‫ערך ‪ F‬עבור מניפולציה ‪3.29 > 3.34 = A‬‬
‫ערך ‪ F‬עבור מניפולציה ‪2.90 > 5.30 = B‬‬
‫בתת הפרק הבא נעסוק במדידת אפקט האינטראקציה‪ .‬כלומר‪ ,‬האם לאפקט של שני‬
‫המשתנים הבלתי תלויים יחד תהיה השפעה שונה על המשתנה התלוי מאשר לכל‬
‫משתנה לחוד?‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪63‬‬
‫ ‪ -‬תונוש חות י נ חותינ‬
‫ישיש קרפ‬
‫אפק ט ה א ינ טר א ק צ י ה‬
‫חשבו על התרחיש הבא‪ .‬חקלאי מעוניין להגדיל את תנובת שדותיו‪ .‬אחת הדרכים לעשות זאת‬
‫היא לדשן את השדות‪ .‬עם זאת‪ ,‬הדשן עשוי לפעול רק חלקית משום שהשדות באיזור זה אינם‬
‫זוכים לדי גשם בדרך כלל‪ .‬מכאן‪ ,‬חלופה אפשרית לדישון היא התקנת מערכת השקיה שתגדיל‬
‫את היבול משמעותית‪.‬‬
‫אם ישלב החקלאי בין דישון ובין התקנת מערכת השקיה‪ ,‬יהיה הגידול הנקי ביבול גדול יותר‬
‫מאשר מידת ההשפעה של הדישון לבדה יחד עם מידת ההשפעה של מערכת השקיה לבדה‪ .‬הדשן‬
‫יהיה אפקטיבי הרבה יותר בנוכחות השקיה וההשקיה תהיה אפקטיבית הרבה יותר בנוכחות דשן‪.‬‬
‫הנה דוגמה מתחום השיווק‪ :‬בדרך כלל‪ ,‬פרסום מביא לגידול במכירות‪ .‬גם מבצעי קידום בחנויות‬
‫מביאים לגידול במכירות‪ .‬שילוב בין פרסום (המגביר את המודעות למותג) ומבצעי קידום בחנויות‬
‫(המושכים תשומת לב למוצר בשעת התנהגות רכישה) עשויים לגרום לאפקט גדול יותר על‬
‫המכירות מאשר סכום האפקטים של כל פעולה בפני עצמה‪ .‬אפקט זה מכונה אפקט האינטראקציה‪.‬‬
‫את אפקט האינטראקציה מודדים באמצעות תהליך זהה לזה של ניתוח שונות דו‪-‬גורמי‪ ,‬בתוספת‬
‫משוואה חדשה‪ ,SSAB ,‬האינטראקציה של מניפולציה ‪ A‬עם מניפולציה ‪ .B‬נשתמש באותה‬
‫שיטת כתיבה כמקודם‪ ,‬ונדגים את התהליך‪:‬‬
‫אנו מדפיסים שלוש פרסומות שונות ופותחים בארבעה מבצעי קידום שונים בחנויות‪ .‬אנו רוצים‬
‫לבדוק האם ישנו הבדל משמעותי בין הפרסומות‪ ,‬המבצעים ואפקט האינטראקציה מבחינת‬
‫המכירות‪ .‬אנו מקצים פרסומות ומבצעי קידום ל‪ 24-‬חנויות שונות ברשת באופן אקראי‪ .‬הנתונים‬
‫מובאים בטבלה ‪.6.3‬‬
‫ט ב לה ‪6.3‬‬
‫נתוני מכירות למבצעי הקידום השונים‬
‫מבצעי קידום בחנויות‬
‫סך כל השורות‪/‬‬
‫לפרסומת‬
‫מסע פרסום‬
‫‪b1‬‬
‫‪b2‬‬
‫‪b3‬‬
‫‪b4‬‬
‫‪a1‬‬
‫‪34.0‬‬
‫‪32.7‬‬
‫‪30.1‬‬
‫‪32.8‬‬
‫‪29.8‬‬
‫‪26.7‬‬
‫‪29.0‬‬
‫‪28.9‬‬
‫‪244.0‬‬
‫‪a2‬‬
‫‪32.0‬‬
‫‪33.2‬‬
‫‪30.2‬‬
‫‪29.8‬‬
‫‪28.7‬‬
‫‪28.1‬‬
‫‪27.6‬‬
‫‪27.8‬‬
‫‪237.4‬‬
‫‪a3‬‬
‫‪28.4‬‬
‫‪29.3‬‬
‫‪27.3‬‬
‫‪28.9‬‬
‫‪29.7‬‬
‫‪27.3‬‬
‫‪28.8‬‬
‫‪29.1‬‬
‫‪228.8‬‬
‫סך הכל‬
‫‪189.6‬‬
‫‪179.1‬‬
‫‪170.3‬‬
‫‪171.2‬‬
‫‪710.2‬‬
‫(הסתברות וסטטיסטיקה למדענים ולמהנדסים‪ ,‬וולפול ומאיירס‪ ,‬מקמילן‪ ,1989 ,‬מובא ברשות‬
‫המחברים‪).‬‬
‫‪64‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ ‪ -‬תונוש חות י נ חותינ ‬
‫ישיש קרפ‬
‫שלב א'‪:‬‬
‫אפקט השורות ‪H(0) = μ1 = μ2 = μ3 = 0‬‬
‫אפקט העמודות ‪H(0’) = μ1 = μ2 = μ3 = μ4 = 0‬‬
‫כל ממוצעי התאים שווים‪ :‬אפקט האינטראקציה )”‪H(0‬‬
‫אחר = אפקט השורות מובהק ‪μi ≠ μi‬לפחות אחד = )‪H(1‬‬
‫אחר = אפקט העמודות מובהק ‪μj ≠ μj‬לפחות אחד = )’‪H(1‬‬
‫אפקט האינטראקציה מובהק )”‪:H(1‬‬
‫‪ ;i,‬את העמודות נסמן בעזרת האות‬
‫כך נסמן‪ :‬את השורות נסמן בעזרת האות ‪i = 1,2,…n‬‬
‫‪ ;j: j = 1,2,…k‬את הערכים שבתוך התאים נסמן בעזרת האות ‪ m: m = 1,2,…r. T‬הוא‬
‫הסך הכולל‪ .‬נגדיר את ‪ Tĳ‬כסך כל התאים לשורה מספר ‪ i‬ולעמודה מספר ‪ .j‬לדוגמה‪T 11 = :‬‬
‫‪ ,66.7, T 22 = 60.0, T 33 = 57.0‬דרגות חופש לאפקט ‪ ,A = n – 1‬דרגות חופש לאפקט‬
‫‪ ,B = k – 1‬דרגות חופש לאפקט ‪ ,)AB = (n – 1)(k – 1‬דרגות חופש לגורם הטעות =‬
‫(‪.)nk)(r – 1‬‬
‫שלב ב'‪ :‬חישוב ערך ‪F‬‬
‫תחילה נציג את הנוסחאות ולאחר מכן נציב בהן את הערכים מהדוגמה שלנו‪ X( .‬משמעו פעולת‬
‫כפל)‪.‬‬
‫סכום הריבועים הכולל ‪SST = Σ i Σj Σm Yĳm2 – T2/nkr‬‬
‫אפקט מניפולציה ‪SSA = Σ i T2/kr – T2/nkr A‬‬
‫אפקט מניפולציה ‪SSB = Σ j T2/nr – T2/nkr B‬‬
‫אפקט מניפולציה של אינטראקציה ‪SSAB = Σj Σj Tĳ2/r – Σi T2/kr – Σj T2/nr + T2/nkr AB‬‬
‫אפקט הטעות ‪SSE = Σ i Σj Σm Yĳm2 – Σj Σj Tĳ2/r‬‬
‫כעת נחשב את הערכים‪:‬‬
‫‪SST = 34.02 + 32.72 + … + 29.12 – 710.22/24 = 91.68‬‬
‫‪SSA = (244.02 + 237.42 + 228.82)/8 – 710.22/24‬‬
‫‪= 21,030.52 – 21,016.00 = 14.52‬‬
‫‪SSB = (189.62 + 179.12 + 170.32 + 171.22)/6 – 710.22/24‬‬
‫‪= 21,056.08 – 21,016.00 = 40.08‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪65‬‬
‫ ‪ -‬תונוש חות י נ חותינ‬
‫ישיש קרפ‬
‫‪SSAB = ((34.0 + 32.7)2 + (32.0 + 33.2)2 + … + (28.8 + 29.1)2/2 – 21,030.52 – 21,056.08‬‬
‫‪+ 710.22/24 = 22.17‬‬
‫‪SSE = SST – SSA – SSB – SSAB = 91.68 – 14.52 – 40.08 – 22.17 = 14.91‬‬
‫ערך ‪ F‬קריטי ל‪ 2 ,p=0.05( A-‬דרגות חופש במונה‪ 12 ,‬דרגות חופש במכנה) = ‪3.89‬‬
‫ערך ‪ F‬קריטי ל‪ 3 ,p=0.05( B-‬דרגות חופש במונה‪ 12 ,‬דרגות חופש במכנה) = ‪3.49‬‬
‫ערך ‪ F‬קריטי ל‪ 6 ,p=0.05( AB-‬דרגות חופש במונה‪ 12 ,‬דרגות חופש במכנה) = ‪3.00‬‬
‫ש ל ב ג '‪ :‬טב ל ת ני תו ח שונו ת דו‪ -‬גורמ י‬
‫מקור השונות‬
‫סכום הריבועים‬
‫דרגות חופש‬
‫ממוצע הריבועים‬
‫ערך ‪ F‬שחושב‬
‫מסע פרסום‬
‫‪14.52‬‬
‫‪2‬‬
‫‪7.26‬‬
‫‪5.58‬‬
‫‪40.08‬‬
‫‪3‬‬
‫‪13.36‬‬
‫‪10.77‬‬
‫‪22.17‬‬
‫‪6‬‬
‫‪3.70‬‬
‫‪2.98‬‬
‫טעות‬
‫‪14.91‬‬
‫‪12‬‬
‫‪1.24‬‬
‫סך הכל‬
‫‪91.68‬‬
‫‪23‬‬
‫אפקט המבצעי‬
‫קידום בחנויות‬
‫אפקט‬
‫האינטראקציה‬
‫אפשר לראות שערך ‪ F‬שחישבנו גדול מערך ‪ F‬הקריטי בטבלה עבור האפקטים העיקריים של‬
‫‪ A‬ו‪ B-‬אך לא עבור אפקט האינטראקציה‪ .‬לכן אנו מסיקים ש‪:‬‬
‫נדחה את )‪H(0‬‬
‫‪ ,‬שינויים במסע הפרסום אכן משפיעים על המכירות‬
‫נדחה את )’‪ ,H(0‬שינויים במבצעים בחנויות אכן משפיעים על המכירות‬
‫נקבל את )”‪ ,H(0‬האינטראקציה אינה משפיעה על המכירות‬
‫תרגיל‪ :‬איזה שילוב בין מבצעים לפרסום הוא הטוב ביותר?‬
‫אף שהתרגיל עשוי להיות מייגע‪ ,‬ישנן תכנות רבות שיגיעו לתוצאות בן רגע‪ ,MINITAB .‬למשל‪,‬‬
‫יוצרת טבלת ניתוח שונות דו גורמי בלחיצה על פקודת ‪.ANOVA‬‬
‫תכנות אחרות‪ ,‬כגון‪ SAS , BMDP, SPSS, SYSTAT ,‬ואחרות יתנו גם הן פתרון מידי‪ .‬עם‬
‫זאת‪ ,‬המשתמש מוכרח להבין את ההנחות ואת ההיגיון הטמון בבסיסן של הטכניקות לניתוח‬
‫סטטיסטי לפני שילחץ על לחצנים ויקבל את התוצאות‪ .‬אנו מקווים שהחומר שנלמד בפרק זה‬
‫יסייע ללומדים להבין את עקרונות ניתוח השונות הדו‪-‬גורמי‪.‬‬
‫‪66‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫פרק שביעי‬
‫נו ש א י ם מת ק דמ י ם‬
‫בפרקים הקודמים הוצגו טכניקות חשובות שבהן משתמשים במדעי השיווק לצורך ניתוח‬
‫נתונים‪ .‬עם זאת‪ ,‬כדי שיהיה אפשר להשתמש בטכניקות אלה יש לענות על מספר‬
‫דרישות בסיסיות‪ .‬כך למשל ברגרסיה לינארית יש צורך בנתונים רציפים (מסולם רווח‬
‫ומעלה) הן עבור משתנים בלתי‪-‬תלויים והן עבור משתנים תלויים‪ .‬בפרק זה יבואר כיצד‬
‫להמיר נתונים סידוריים (שמיים או קטגוריאליים) לנתונים רציפים באמצעות טכניקת‬
‫סילום המכונה סולם תורסטון )‪.(Thurstone’s Case V Scaling‬‬
‫זיהינו את‬
‫‪χ2‬‬
‫כשיטה המשמשת לניתוח נתונים קטגוריאליים‪ ,‬את הרגרסיה הלינארית‬
‫כשיטה המשמשת לניתוח נתונים כאשר הן המשתנה התלוי והן המשתנה הבלתי‪-‬תלוי‬
‫הם נתונים רציפים‪ ,‬ואת ניתוח השונּות כשיטה המתאימה כאשר המשתנה התלוי הוא‬
‫רציף והמשתנה הבלתי‪-‬תלוי או המשתנים הבלתי תלויים הם קטגוריאליים‪ .‬עם זאת‪,‬‬
‫כאשר המשתנה הבלתי תלוי הוא קטגוריאלי והמשתנים הבלתי‪-‬תלויים הם רציפים נוצרת‬
‫בעיה‪ .‬האם ישנה טכניקה של ניתוח נתונים שאפשר להשתמש בה במצב מעין זה?‬
‫הטכניקה המתאימה במקרה זה היא ניתוח מבחין ובפרק זה נראה מדוע יש להשתמש‬
‫דווקא בה‪.‬‬
‫בפרק זה נראה תחילה כיצד אפשר להמיר נתונים סידוריים (קטגוריאליים או שמיים)‬
‫לנתונים רציפים‪ .‬אחר כך נציג מושג הנקרא ניתוח גורמים‪ .‬ניתוח גורמים מעבד נתונים‬
‫לצורך ניתוח נוסף שייעשה בהמשך‪ .‬דבר זה עשוי להועיל מאוד ברגרסיה לינארית‪ ,‬שבה‬
‫משתמשים בציוני גורמים )‪ (factor scores‬ולא בנתונים מקבוצת המשתנים המקורית‬
‫כדי להריץ את הרגרסיה‪ .‬לאחר מכן נדון בניתוח אשכולות‪ ,‬והפרק האחרון יעסוק בניתוח‬
‫מבחין‪.‬‬
‫ה מר ת נ ת ונ י ם ס י ד ור י י ם לנ ת ונ י ם רצי פי ם‬
‫חשבו על המקרה שלהלן‪ :‬משווק מעוניין לזהות בקרב שוק יעד מסוים את דירוג ההעדפה של‬
‫משקאות קלים שונים‪ .‬כדי להשיג נתונים רציפים חייבים לדרג כל משקה בנפרד‪ .‬תהליך זה הוא‬
‫מסורבל ואיננו יעיל כאשר מספר סוגי המשקאות העומדים למבחן הוא גבוה‪ ,‬כמו למשל עשרה או‬
‫חמישה‪-‬עשר סוגים‪ .‬לנתונים סידוריים יש יתרון גדול כשמדובר באיסוף נתונים‪ .‬כל שהמשתתפים‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪67‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫בסקר צריכים לעשות הוא ְלמספר את העדפתם הראשונה‪ ,‬השנייה והשלישית‪ ,‬וכן הלאה‪ .‬עם‬
‫זאת‪ ,‬במונחים של ניתוח נתונים‪ ,‬מספר המבחנים שאפשר לערוך לנתונים סידוריים מוגבל‪.‬‬
‫סולם תורסטון הוא כלי שימושי שבאמצעותו אפשר להמיר בקלות נתונים סידוריים המוצגים‬
‫כהשוואות זוגיות לנתונים רווחיים‪ .‬זהו תהליך בן חמישה שלבים‪.‬‬
‫שלב ‪ :1‬הצגת הנתונים כהשוואות זוגיות והגדרת האלכסון כ‪( .0.5-‬שלב זה הכרחי שכן אי אפשר‬
‫להשוות פריט לעצמו)‪.‬‬
‫שלב ‪ :2‬שימוש בטבלת ‪ Z‬כדי להמיר את כל הנתונים המוצגים כאחוזים לציוני תקן שבהם‬
‫ההסתברות שהתוצאה תהיה נמוכה מהערך שקולה לשיעור המקורי (הערך באחוזים)‪ .‬שימו לב‪:‬‬
‫כל ערכי ה‪ 0.5-‬הופכים כעת ל‪ 0.0-‬משום שההסתברות שהתוצאה תהיה נמוכה מ‪ 0.0-‬שקולה‬
‫ל‪.0.5-‬‬
‫שלב ‪ :3‬חיבור כל ציוני התקן על פי העמודות‪.‬‬
‫שלב ‪ :4‬התאמת סכומי הערכים של כל העמודות‪ .‬יש למצוא את המספרים השליליים הנמוכים‬
‫ביותר מבין תוצאות סיכום ערכי העמודות‪ ,‬ולהוסיף מספר זה לכל אחד מסכומי ערכי העמודות‪.‬‬
‫תהליך זה מבטל את האפשרות לדירוג העדפה "שלילי"‪.‬‬
‫שלב ‪ :5‬ארגון הסכומים המותאמים בסדר יורד‪ .‬מספרים אלה מייצגים נתונים רווחיים של דירוג‬
‫העדפה בין הפריטים המתחרים‪.‬‬
‫להלן מוצגת דוגמה הממחישה את התהליך‪( .‬מישל רוג'רס סייעה באיסוף הנתונים)‪.‬‬
‫דו גמה‬
‫בית ספר למנהל עסקים מעוניין לזהות מהו תחום המחקר העיקרי שבוחרים סטודנטים הלומדים‬
‫מנהל עסקים במסלול דו‪-‬ראשי‪ .‬דבר זה הכרחי משום שמקצוע ראשי אחד בלבד מופיע על‬
‫תעודת הסיום של הסטודנט‪ .‬מחקר נערך בקרב יותר ממאה ושניים סטודנטים בסיינט מרי קולג'‪,‬‬
‫ובו התגלו הממצאים שלהלן‪.‬‬
‫בקרב הסטודנטים שסיימו את לימודיהם בסיינט מרי קולג'‪ ,‬מאה ושניים למדו במסלול דו‪-‬ראשי‪.‬‬
‫הסטודנטים נדרשו לבחור מקצוע ראשי אחד שיירשם בתעודה שלהם‪ .‬במונחים של השוואה זוגית‪,‬‬
‫כאשר נדרשו לבחור בין שיווק ובין מנהל עסקים‪ ,‬ארבעים אחוזים בחרו במנהל; בין שיווק ובין‬
‫ראיית חשבון – שמונים אחוזים בחרו בראיית חשבון; בין מנהל ובין ראיית חשבון – ארבעים‬
‫אחוזים בחרו בראיית חשבון; בין מנהל ובין כלכלה – חמישים אחוזים בחרו בכלכלה; בין מנהל‬
‫ובין עסקים בין‪-‬לאומיים – שישים אחוזים בחרו בעסקים בין‪-‬לאומיים; בין ראיית חשבון ובין‬
‫כלכלה – עשרים ושמונה אחוזים בחרו בכלכלה; בין ראיית חשבון ובין עסקים בין‪-‬לאומיים –‬
‫חמישים אחוזים בחרו בעסקים בין‪-‬לאומיים; בין כלכלה ועסקים בין‪-‬לאומיים – ארבעים ושלושה‬
‫אחוזים בחרו בעסקים בין‪-‬לאומיים‪.‬‬
‫‪68‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫מנהלת האוניברסיטה עמדה בפני בעיה‪ :‬האם ישנה דרך ליצור דירוג של ההעדפה למקצוע ראשי‬
‫אחד בקרב קבוצת הלומדים במסלול דו‪-‬ראשי?‬
‫סולם תורסטון פותר בעיה זו‪.‬‬
‫ט ב לה ‪7.1‬‬
‫שיעור התלמידים הלומדים מנהל עסקים במסלול דו‪-‬ראשי‪ ,‬שנדרשו לבחור תחום אחד‬
‫והעדיפו את השדות שלמטה בהשוואה לשדות שמימין‬
‫שיווק‬
‫מנהל‬
‫ראיית חשבון‬
‫כלכלה‬
‫בינ”ל‬
‫שיווק‬
‫‪0.50‬‬
‫‪0.40‬‬
‫‪0.80‬‬
‫‪0.50‬‬
‫‪0.20‬‬
‫מנהל‬
‫‪0.60‬‬
‫‪0.50‬‬
‫‪0.40‬‬
‫‪0.50‬‬
‫‪0.60‬‬
‫ראיית חשבון‬
‫‪0.20‬‬
‫‪0.60‬‬
‫‪0.60‬‬
‫‪0.28‬‬
‫‪0.50‬‬
‫כלכלה‬
‫‪0.50‬‬
‫‪0.50‬‬
‫‪0.72‬‬
‫‪0.50‬‬
‫‪0.43‬‬
‫בינ”ל‬
‫‪0.80‬‬
‫‪0.40‬‬
‫‪0.50‬‬
‫‪0.57‬‬
‫‪0.50‬‬
‫ציוני התקן של התלמידים הלומדים מנהל עסקים במסלול דו‪-‬ראשי‪ ,‬שנדרשו לבחור‬
‫שדה מחקר אחד והעדיפו את השדות שלמטה בהשוואה לשדות שמימין‬
‫שיווק‬
‫מנהל‬
‫ראיית חשבון‬
‫כלכלה‬
‫בינ”ל‬
‫שיווק‬
‫‪0.00‬‬
‫‪-0.25‬‬
‫‪0.84‬‬
‫‪0.00‬‬
‫‪-0.84‬‬
‫מנהל‬
‫‪0.25‬‬
‫‪0.00‬‬
‫‪-0.25‬‬
‫‪0.00‬‬
‫‪0.25‬‬
‫ראיית חשבון‬
‫‪-0.84‬‬
‫‪0.25‬‬
‫‪0.00‬‬
‫‪-0.58‬‬
‫‪0.00‬‬
‫כלכלה‬
‫‪0.00‬‬
‫‪0.00‬‬
‫‪0.58‬‬
‫‪0.00‬‬
‫‪-0.18‬‬
‫בינ”ל‬
‫‪0.84‬‬
‫‪-0.25‬‬
‫‪0.00‬‬
‫‪0.18‬‬
‫‪0.00‬‬
‫סכום‬
‫‪0.25‬‬
‫‪-0.25‬‬
‫‪1.17‬‬
‫‪-0.40‬‬
‫‪-0.77‬‬
‫ממוצע‬
‫‪0.05‬‬
‫‪0.05‬‬
‫‪0.23‬‬
‫‪-0.08‬‬
‫*‪-0.15‬‬
‫התאמה‬
‫‪+0.15‬‬
‫‪+0.15‬‬
‫‪+0.15‬‬
‫‪+0.15‬‬
‫‪+0.15‬‬
‫ציונים רווחיים‬
‫‪0.20‬‬
‫‪0.10‬‬
‫‪0.38‬‬
‫‪0.07‬‬
‫‪0.00‬‬
‫*המספר השלילי הנמוך ביותר‪ .‬מוסיפים מספר זה לממוצע של כל עמודה‪.‬‬
‫אנחנו רואים כעת שלראיית חשבון יש את דירוג ההעדפה הרציף הגבוה ביותר‪ ,‬ואחריו שיווק; מנהל‬
‫עסקים וכלכלה מתחרים על המקום השלישי‪ ,‬ולעסקים בין‪-‬לאומיים יש את הציון הנמוך ביותר‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪69‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫תרג יל ‪1‬‬
‫יצרן משקאות קלים מעוניין לייצר נתוני העדפה רציפים מנתוני השוואות זוגיות‪ .‬נתונים אלה‬
‫מובאים להלן‪ .‬חשבו את ציוני ההעדפה הרציפים של משקאות א‪ ,‬ב‪ ,‬ג‪ ,‬ד ו‪-‬ה‪ .‬שימו לב‪ :‬טבלה‬
‫‪ 7.2‬איננה מציינת ציוני תקן‪ .‬עליכם לחפש אותם בטבלה ‪I‬‬
‫ואחר כך לחשב את הסכום‪.‬‬
‫ט ב לה ‪7.2‬‬
‫העדפת מותג ‪( X‬בראש הטבלה) ביחס למותג ‪( Y‬בצד ימין של הטבלה)‬
‫העדפת מותג ‪X‬‬
‫ביחס למותג ‪Y‬‬
‫א‬
‫ב‬
‫ג‬
‫ד‬
‫ה‬
‫א‬
‫‪0.50‬‬
‫‪0.82‬‬
‫‪0.69‬‬
‫‪0.25‬‬
‫‪0.35‬‬
‫ב‬
‫‪0.18‬‬
‫‪0.50‬‬
‫‪0.27‬‬
‫‪0.07‬‬
‫‪0.15‬‬
‫ג‬
‫‪0.31‬‬
‫‪0.73‬‬
‫‪0.50‬‬
‫‪0.16‬‬
‫‪0.25‬‬
‫ד‬
‫‪0.75‬‬
‫‪0.93‬‬
‫‪0.84‬‬
‫‪0.50‬‬
‫‪0.59‬‬
‫ה‬
‫‪0.65‬‬
‫‪0.85‬‬
‫‪0.75‬‬
‫‪0.41‬‬
‫‪0.50‬‬
‫סכום ציוני ‪Z‬‬
‫לכל מותג‬
‫ממוצע‬
‫התאמה‬
‫ציונים רווחיים‬
‫(מתוך‪Research for Information Decisions, Green, Tull and Albaum, Prentice Hall, :‬‬
‫‪ .1984‬באישור המחברים)‪.‬‬
‫נ י ת ו ח מפ ל ה‬
‫מולטיקולינאריות (רב‪-‬קוויות)‬
‫כדי להעריך נכון את ניתוח הגורמים חשוב להבין מדוע ניתוח גורמים הוא חשוב ומהן הבעיות‬
‫שהוא מנסה לפתור‪ .‬נסביר מהי מולטיקולינאריות באמצעות דוגמה‪.‬‬
‫‪70‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫תהא המשוואה שלהלן‪:‬‬
‫‪Y = a + B 1X1 + B2X2 + B3X3 +B4X4‬‬
‫‪=Y‬מכירות‪=X 1 ,‬פרסום‪=X 2 ,‬קידום‪=X 3 ,‬תל"ג‪=X 4 ,‬הכנסה פנויה‬
‫נניח שכל משתני ‪ X‬נמדדים בדולרים‪ .‬אי אפשר להשתמש במקדמים ‪B i -‬‬
‫‪ -‬כדי להשוות את‬
‫עוצמתו או את כוחו של אחד המשתנים למשתנה אחר‪ .‬למשל‪ ,‬בשנת ‪X3 ,1990‬‬
‫דולר‪ 10,000 = X 2 ,‬דולר‪ .‬מובן מאליו שהמקדם של ‪ X 3‬צריך להיות קטן ביותר‪ ,‬בסדר גודל‬
‫של ‪ 10 -9‬כדי שתהיה אחידות ביחידות בין המשתנים‪.‬‬
‫= ‪ 5,513‬מיליארד‬
‫עם זאת‪ ,‬ישנה אפשרות להמיר את כל המשתנים ליחידות משותפות באמצעות תקנּון של כל‬
‫משתנה‪ .‬מחשבים את הממוצע ואת סטיית התקן של כל משתנה; מחסרים את הממוצע מכל‬
‫תצפית ומחלקים בסטיית התקן שלה בהתאמה‪ .‬ממירים כל ‪Xi‬‬
‫באופן מתמטי לנוסחה הזו‪:‬‬
‫(סטיית תקן ÷ (‪X‬ממוצע ‪X'i = ) Xi -‬‬
‫נניח שהמרנו את כל ערכי ‪ X‬לערכי ‪ 'X‬מתוקננים‪.‬‬
‫‪Y' = a + B 1X’1 + B2X’2 + B3X’3 +B4X’4‬‬
‫אחרי שלכל ערכי ‪X’i‬‬
‫יש קנה מידה משותף‪ :‬ממוצע = ‪ ,0‬סטיית תקן = ‪ ,1‬אפשר למדוד את‬
‫עוצמת הקשר של כל המשתנים ב‪ Y-‬באמצעות הערך של ‪ .Bi‬אם למשל ערכו של ‪B 1‬‬
‫פי שניים מערכו של ‪ ,B 2‬הרי שכוחו של הפרסום בהגברת מכירות גדול פי שניים מכוחו של‬
‫הקידום‪ .‬באופן דומה‪ ,‬אם ערכם של ‪ B 1‬ו‪ B 2-‬יחד גדול פי שלושה מערכו של ‪ ,B 3‬הרי שפרסום‬
‫גדול‬
‫וקידום משפיעים על המכירות פי שלושה יותר מאשר התל"ג‪.‬‬
‫עם זאת‪ ,‬סביר להניח שישנו ִמ ְת ָאם בין קידום ובין פרסום‪ .‬כלומר‪ ,‬כאשר נמדוד את ‪ ,B 2‬שהוא‬
‫ההשפעה של הכסף שהושקע בקידום‪B1 ,‬‬
‫‪ -‬המאמץ שהושקעה בפרסום ‪ -‬ישפיע על יעילות‬
‫מאמצי הקידום‪ .‬ברור למדי שמסע קידום מכירות המתנהל בתוך החנות בלבד‪ ,‬ללא כל מסע‬
‫פרסום‪ ,‬לא יהיה יעיל כפי שעשוי להיות מסע קידום מכירות בתוך החנות המלווה במסע פרסום‪.‬‬
‫משום כך הכסף שהושקע בפרסום ויעילות מסעי קידום המכירות אינם בלתי‪-‬תלויים אחד בשני‪.‬‬
‫מסיבה זו‪ ,‬כאשר משווים את כוחם של הקידום והפרסום לעומת התל"ג אנחנו סופרים למעשה‬
‫"ספירה כפולה" את השפעת הפרסום‪ .‬בעיה זו של ספירה כפולה היא תוצאה של מולטיקולינאריות;‬
‫ישנו מתאם בין המשתנים הבלתי‪-‬תלויים לבין עצמם‪.‬‬
‫ישנה בעיה נוספת העלולה להיווצר בגלל המולטיקולינאריות‪ .‬כאשר ההשפעה הבסיסית של‬
‫משתנה מתפזרת על פני כמה משתנים‪ ,‬לכל משתנה עלול להיות ערך‪ p-‬גבוה מדי‪ ,‬והוא יישמט‬
‫ממשוואת הרגרסיה‪ .‬זוהי תוצאה של דילול ההשפעה של משתנה אחד‪ ,‬המתרחש כאשר כוללים‬
‫מספר משתנים שיש מתאם בינם ובין המשתנה הראשון‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪71‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫עניין נוסף הוא שישנן משוואות רגרסיה שיש בהן מספר משתנים רב מדי‪ ,‬ודבר זה יוצר בעיה‬
‫של עומס ושל עודפות‪ .‬ניתוח גורמים פותר את הבעיות הללו‪.‬‬
‫בניתוח גורמים משתמשים בסכום משוקלל של כל המשתנים הבלתי‪-‬תלויים‪ ,‬ומייצרים גורמים‬
‫בלתי‪-‬תלויים אחד בשני‪.‬‬
‫ג ור מ י ם ב ל ת י ‪ -‬ת ל ו י י ם‬
‫נקודת ההתחלה של ניתוח גורמים היא המודל השלם ‪ -‬מספר הגורמים זהה למספר השורות‪,‬‬
‫וכל גורם הוא הסכום המשוקלל של כל המשתנים בעמודות‪ .‬המשקלים מחושבים כדי להביא‬
‫למקסימום את הׁשֹונּות הנכללת בגורם הראשון‪ ,‬וכן לגבי הגורם השני‪ ,‬הגורם השלישי וכן הלאה‪.‬‬
‫נתון‪ :‬ישנם ‪ m‬משתנים ו ‪ n‬תצפיות לכל משתנה‪ .‬אם כן‪ ,‬ישנם ‪m‬‬
‫גורמים במודל השלם‪ ,‬כל‬
‫גורם הוא סכום לינארי משוקלל ייחודי של כל המשתנים‪ ,‬והמשקלים הם ערכי האלפא הייחודיים‬
‫לכל גורם‪ ,‬כדי לכלול את הׁשֹונּות המירבית האפשרית (ראה להלן)‪.‬‬
‫מוד ל ש לם‬
‫(‪ i‬שורות‪ j ;i=1,…..,m ,‬עמודות‪)j=1,……,m ,‬‬
‫‪⍺1mXm‬‬
‫‪⍺2mXm‬‬
‫‪⍺3mXm‬‬
‫‪⍺mmXm‬‬
‫‪+‬‬
‫‪...‬‬
‫‪+‬‬
‫‪+‬‬
‫‪...‬‬
‫‪+‬‬
‫‪⍺13X3‬‬
‫‪+‬‬
‫‪...‬‬
‫‪+‬‬
‫•‬
‫‪⍺33X3‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪+‬‬
‫‪...‬‬
‫‪+‬‬
‫‪⍺23X3‬‬
‫‪⍺m3X3‬‬
‫‪+‬‬
‫‪⍺12X2‬‬
‫‪+‬‬
‫‪⍺32X2‬‬
‫•‬
‫•‬
‫•‬
‫‪+‬‬
‫‪+‬‬
‫‪⍺22X2‬‬
‫‪⍺m2X2‬‬
‫‪+‬‬
‫‪⍺11X1‬‬
‫‪+‬‬
‫‪⍺31X1‬‬
‫•‬
‫‪+‬‬
‫‪+‬‬
‫‪⍺21X1‬‬
‫‪⍺m1X1‬‬
‫=‬
‫‪F1‬‬
‫=‬
‫‪F2‬‬
‫=‬
‫‪F3‬‬
‫=‬
‫‪Fm‬‬
‫בחירת הגורמים‪ :‬באילו גורמים אנחנו מעוניינים?‬
‫למעשה‪ ,‬יצרנו ‪ m + m‬תצפיות עבור כל משתתף‪ m .‬המשתנים הראשונים הם קבוצת המשתנים‬
‫המקורית‪ ,‬והקבוצה השנייה היא הגורמים שנוצרו מהבאה למקסימום של הׁשֹונּות המוסברת על‬
‫ידי קבוצת הנתונים המקורית‪ .‬יתר על כן‪ ,‬כל הגורמים מתוקננים (ממוצע אפס‪ ,‬שימוש ביחידות‬
‫סטיית תקן) ובלתי תלויים האחד בשני‪.‬‬
‫‪72‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫המשתנים המקוריים*‬
‫הגורמים שנוצרו*‬
‫‪X 1 X2 X3 … X m‬‬
‫‪F1 F2 F3 … Fm‬‬
‫תצפיות‬
‫•‬
‫• • •‬
‫•‬
‫• • •‬
‫‪1‬‬
‫•‬
‫• • •‬
‫•‬
‫• • •‬
‫‪2‬‬
‫•‬
‫• • •‬
‫•‬
‫• • •‬
‫‪3‬‬
‫•‬
‫• • •‬
‫•‬
‫• • •‬
‫•‬
‫•‬
‫• • •‬
‫•‬
‫• • •‬
‫•‬
‫•‬
‫• • •‬
‫•‬
‫• • •‬
‫•‬
‫•‬
‫• • •‬
‫•‬
‫• • •‬
‫‪N‬‬
‫•‬
‫• • •‬
‫•‬
‫• • •‬
‫* כל נקודה מייצגת תצפית‬
‫כדי להתאים בין המשתנים ובין הגורמים יש לבדוק את המתאם בין כל גורם ובין כל משתנה‪ .‬אם‬
‫המתאם בין גורם ובין משתנה שווה ל‪ 0.4-‬או גדול ממנו‪ ,‬הוא גבוה דיו להקצות את המשתנה‬
‫לגורם הנתון‪ .‬כל משתנה מוקצה לגורם אחד בלבד (אלא אם יש שוויון)‪.‬‬
‫טעינות הגורמים )‪ (factor loadings‬היא המתאם בין המשתנים ובין הגורמים‪ .‬קומיונליות‬
‫)‪ (communality‬היא שיעור השונות של המשתנה המוסברת על ידי הגורם הנתון‪ .‬ציון גורם‬
‫)‪ (factor score‬הוא פשוט הנתון החדש שנוצר מהסכום הלינארי המשוקלל של כל המשתנים‬
‫הכלולים בגורם‪ .‬מספר הגורמים שבהם משתמשים נקבע על פי שיעור השונות המוסברת‪ .‬כש‪-‬‬
‫‪ 50‬אחוזים מהשונות של כל משתני ‪X‬‬
‫מוסברת על ידי הגורמים‪ ,‬יש בידינו מספר מספיק של‬
‫גורמים‪( .‬ערכים עצמיים )‪ 1 ≥ (eigenvalue‬גם הם קריטריונים לבחירת גורמים‪ ,‬אך לא נדון‬
‫כאן בנושא זה משום שהוא מחייב היכרות עם חשבון מטריצות)‪ .‬מטרתו של ניתוח הגורמים‬
‫הוא לצמצם את העודפות של המשתנים‪ .‬מובן שאיננו מעוניינים להשתמש במודל השלם‪ ,‬משום‬
‫שמטרתנו היא להקטין ככל האפשר את מספר הגורמים‪.‬‬
‫א יך ל הענ יק ש ם ל ג ור מ י ם ‪ :‬נ י ת וח ט עי נות גו ר מי ם‬
‫אחרי שזיהינו את מספר הגורמים שבהם נשתמש‪ ,‬אנחנו בוחנים מחדש את טעינות הגורמים‪.‬‬
‫אנחנו חייבים לשיים כל גורם על סמך המשתנים בעלי הטעינות הגדולה מ‪ 0.4-‬או השווה ל‪.0.4-‬‬
‫להלן דוגמה לשיום גורמים‪.‬‬
‫דוגמה‪ :‬מודדים את פעילויות קידום המכירות שנעשו בחנות כלשהי‪ ,‬על פי סוגיהן השונים‪ .‬מאגר‬
‫הנתונים שלנו מודד את התדירות של ארבע פעילויות קידום מסוימות‪ :‬מחירים נמוכים‪ ,‬הצעת‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪73‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫קופונים‪ ,‬הנחות ומגוון רחב של מוצרים‪ .‬ערכנו ניתוח גורמים למאגר הנתונים המקורי ויש בידינו‬
‫כעת את טעינות הגורמים בין המשתנים ובין ציוני הגורמים (טבלה ‪)7.3‬‬
‫טב לה ‪ :7.3‬ט עינו ת גורמים בין פ עי ל ו י ו ת ק י ד ו ם ו ב י ן ג ו ר מי ם‬
‫משתנים‬
‫מחירים נמוכים‬
‫הצעת קופונים‬
‫הנחות תדירות‬
‫מגוון מוצרים רחב‬
‫‪X1‬‬
‫‪X2‬‬
‫‪X3‬‬
‫‪X4‬‬
‫גורמים‬
‫‪F1‬‬
‫‪*0.7‬‬
‫‪0.3‬‬
‫‪0.1‬‬
‫‪-0.1‬‬
‫‪F2‬‬
‫‪*-0.6‬‬
‫‪*0.7‬‬
‫‪0.01‬‬
‫‪*0.6‬‬
‫‪F3‬‬
‫‪*-0.4‬‬
‫‪0.3‬‬
‫‪0.3‬‬
‫‪*0.9‬‬
‫* טעינות הגורמים ≥|‪.|0.4‬‬
‫במונחים של שיום גורמים‪ ,‬אנחנו מעוניינים לזהות אילו חנויות מבין "סוגי החנויות" השונים‬
‫נוקטות צעדים אלה לצרכי קידום המכירות‪ .‬ברור למדי שגורם ‪ 1‬הוא חנויות המוכרות מוצרים‬
‫בהנחה (הדגש מושם על המחיר הנמוך)‪ ,‬גורם ‪ 2‬הוא חנויות בוטיק (הדגש מושם על מגוון רחב‬
‫ועל קופונים‪ ,‬ללא הנחות במחיר)‪ ,‬וגורם ‪ 3‬הוא מחסני עודפים (מחיר נמוך ומגוון רחב)‪ .‬נעצור‬
‫כאן‪ ,‬משום שלמעלה מ‪ 50-‬אחוזים מהשונות של משתני ‪ X‬מוסברת על ידי הגורמים הללו‪.‬‬
‫אנחנו מקצים לגורם כל משתנה שהטעינות שלו ביחס לגורם גדולה מ‪ |0.4|-‬או שווה ל‪.|0.4|-‬‬
‫גורם ‪ 1‬הוא חנות "מחירים נמוכים"; לגורם ‪ 2‬יש מגוון רחב וקופונים רבים‪ ,‬אבל מחירים גבוהים‬
‫יותר (שימו לב למתאם השלילי ביחס למחיר הנמוך); בגורם ‪ 3‬המחירים אינם גבוהים מאוד‪ ,‬ויש‬
‫בו מגוון רחב של מוצרים‪ .‬משום כך אנו מגדירים את גורם ‪ 1‬כחנויות המוכרות מוצרים בהנחה‪,‬‬
‫את גורם ‪ 2‬כחנויות בוטיק ואת גורם ‪ 3‬כמחסני עודפים‪ .‬זכרו שאין להקצות משתנה לשני גורמים‬
‫אלא אם טעינות הגורמים שקולה‪.‬‬
‫ס י ב ו ב (ר ו ט צ י ה)‬
‫בעת יישום ניתוח גורמים יש לעיתים צורך לסובב את הגורמים (או לעשות להם רוטציה)‪ .‬סיבוב‬
‫זה עשוי להיות הכרחי משום שלגורם הראשון עשויה להיות טעינות גבוהה עבור כל המשתנים‪.‬‬
‫כשדבר מעין זה מתרחש‪ ,‬ואין זה נדיר‪ ,‬אנחנו חייבים לסובב את הצירים‪ .‬אם לא עושים זאת‬
‫לא יהיה אפשר להבין את גורם ‪ 1‬משום שכמעט כל המשתנים מוקצים לו כי המתאם עולה‬
‫על ‪ .0.4‬באמצעות הסיבוב אנחנו מחלקים את המשתנים לגורמים האחרים והתוצאות נעשות‬
‫בעלות משמעות רבה יותר‪.‬‬
‫‪74‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫סיבוב בשיטת ‪ varimax‬הוא טכניקה שמשתמשים בה לעיתים קרובות לסיבוב הצירים‪ ,‬וישנן גם‬
‫אפשרויות נוספות‪ .‬תוכנת ‪ SPSS‬משתמשת בשיטת ‪ varimax‬כברירת המחדל לסיבוב צירים‪.‬‬
‫החישוב של מקדמי אלפא‪ ,‬סיבוב הצירים‪ ,‬ציוני הגורמים וטעינות הגורמים נעשה על ידי המחשב‪.‬‬
‫חישובים אלה מסורבלים מכדי לעשותם ללא שימוש במחשב‪ .‬מטרתה של יחידה זו היא להכיר‬
‫לקורא את התהליכים שבהם משתמשת התוכנה כדי לערוך ניתוח גורמים‪ .‬כך יש בידי הקורא‬
‫הכלים להחליט מתי להשתמש בניתוח גורמים ומתי לא; אילו משתנים יש להקצות לאילו גורמים;‬
‫וכיצד יש לפרש את טעינות הגורמים‪ .‬בין התוכנות העורכות ניתוח גורמים ניתן למנות את‬
‫‪ ,BMDP , SAS, SPSS‬ו‪.SYSTAT -‬‬
‫דוגמה לניתוח גורמים‬
‫להלן מוצגת דוגמה לניתוח גורמים שבה חמישים ושישה משתנים (טבלה ‪ .)7.4‬מחקר שנערך‬
‫בקרב עקרות בית בדק כיצד הן מתארות את אופיין ואת אורח החיים שלהן‪ .‬הסולם שבו נעשה‬
‫שימוש במחקר הוא סולם של ‪ 1‬עד ‪.5‬‬
‫הממוצעים וסטיות התקן מוצגים עבור כל חמישים ושישה המשתנים‪ .‬טעינות הגורמים מוצגת‬
‫עבור גורם ‪ 1‬בלבד‪ .‬בחרנו את המשתנים שלהם מתאם מובהק לגורם ‪ .1‬העניקו שם לגורם ‪.1‬‬
‫טב לה ‪:7 .4‬‬
‫ממוצעים‪ ,‬סטיות תקן וטעינות גורמים עבור "תיאורים של אופי ושל אורח חיים"‬
‫מספר‬
‫המשתנה‬
‫שם‬
‫ממוצע‬
‫סטיית תקן‬
‫טעינות‬
‫גורם ‪1‬‬
‫‪1‬‬
‫אני אוהבת להזמין חברים לארוחה‬
‫‪2.04‬‬
‫‪1.02‬‬
‫‪.3181‬‬
‫‪2‬‬
‫אני מעדיפה ירקות טריים על פני ירקות משומרים או קפואים‬
‫‪2.23‬‬
‫‪1.15‬‬
‫‪-0.0005‬‬
‫‪3‬‬
‫אני נזהרת בצריכת הקלוריות שלי‬
‫‪3.17‬‬
‫‪1.31‬‬
‫‪.0222‬‬
‫‪4‬‬
‫אני אוהבת לחיות חיים פשוטים‬
‫‪3.22‬‬
‫‪1.17‬‬
‫‪..1522‬‬
‫‪5‬‬
‫אינני מבשלת היטב‬
‫‪3.60‬‬
‫‪1.29‬‬
‫‪-.4790‬‬
‫‪6‬‬
‫אני מאמינה במה שההורים שלי האמינו‬
‫‪2.68‬‬
‫‪0.91‬‬
‫‪.0026‬‬
‫‪7‬‬
‫אני אדם לחוץ מטבעי‬
‫‪3.09‬‬
‫‪1.28‬‬
‫‪-.0962‬‬
‫‪8‬‬
‫אני נוהגת לפגוש את המשפחה בסעודות חג‬
‫‪1.73‬‬
‫‪1.04‬‬
‫‪-0.0224‬‬
‫‪9‬‬
‫כשאני רואה משהו שמוצא חן בעיני אני קונה אותו‬
‫‪2.65‬‬
‫‪1.02‬‬
‫‪0.0163‬‬
‫‪10‬‬
‫אני מעדיפה מוצרים טבעיים על פני מוצרים שיש בהם רכיבים מלאכותיים‬
‫‪1.95‬‬
‫‪1.06‬‬
‫‪-0.0274‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪75‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫מספר‬
‫המשתנה‬
‫שם‬
‫ממוצע‬
‫סטיית תקן‬
‫טעינות‬
‫גורם ‪1‬‬
‫‪11‬‬
‫אני אוהבת מאוד לאכול‬
‫‪1.63‬‬
‫‪0.88‬‬
‫‪0.3798‬‬
‫‪12‬‬
‫אינני חשה בטוב‪ ,‬אבל אינני יודעת מה הבעיה‬
‫‪4.30‬‬
‫‪1.03‬‬
‫‪0.0591‬‬
‫‪13‬‬
‫אני אוהבת להיות בחברת אנשים רבים‬
‫‪2.43‬‬
‫‪1.07‬‬
‫‪0.0576‬‬
‫‪14‬‬
‫אני נחמדה לעצמי‬
‫‪2.44‬‬
‫‪0.9‬‬
‫‪-0.0359‬‬
‫‪15‬‬
‫אני אוהבת לבשל תבשילים חדשים‬
‫‪2.08‬‬
‫‪1.05‬‬
‫‪0.5778‬‬
‫‪16‬‬
‫בדרך כלל אני מכינה כמה תוספות מיוחדות בחגים‬
‫‪1.70‬‬
‫‪0.87‬‬
‫‪0.2069‬‬
‫‪17‬‬
‫אני אוהבת להכין לילדים שלי את מה שהם אוהבים לאכול‬
‫‪2.01‬‬
‫‪1.00‬‬
‫‪0.0666‬‬
‫‪18‬‬
‫אני אוהבת לתכנן‪/‬לארגן את הארוחות שלי מראש‬
‫‪2.16‬‬
‫‪1.10‬‬
‫‪0.1351‬‬
‫‪19‬‬
‫אני קונה לעיתים את מוצרי הרשת במקום מותגים‬
‫‪2.91‬‬
‫‪1.17‬‬
‫‪-0.0125‬‬
‫‪20‬‬
‫אני אוהבת לחפש מבצעים כשאני עורכת קניות‬
‫‪1.92‬‬
‫‪1.10‬‬
‫‪-0.0444‬‬
‫‪21‬‬
‫אני בדיאטה לעיתים קרובות‬
‫‪3.25‬‬
‫‪1.35‬‬
‫‪0.0629‬‬
‫‪22‬‬
‫אני חושבת שיום ראשון הוא יום מסורתי‬
‫‪2.38‬‬
‫‪1.24‬‬
‫‪-0.0020‬‬
‫‪23‬‬
‫אני סובלת מכאבים מעטים‬
‫‪3.20‬‬
‫‪1.40‬‬
‫‪0.0866‬‬
‫‪24‬‬
‫אני אוהבת לעשות “על האש”‬
‫‪2.19‬‬
‫‪1.16‬‬
‫‪0.2609‬‬
‫‪25‬‬
‫המשפחה שלי מעריכה את המאמץ שאני משקיעה בהכנת הארוחות‬
‫‪2.05‬‬
‫‪0.97‬‬
‫‪0.3921‬‬
‫‪26‬‬
‫אני אוהבת להכין תבשילים מיוחדים אף שזה אורך זמן רב‬
‫‪2.70‬‬
‫‪1.30‬‬
‫‪0.5584‬‬
‫‪27‬‬
‫אני בריאה יותר מרוב חברי‬
‫‪2.67‬‬
‫‪1.15‬‬
‫‪0.0945‬‬
‫‪28‬‬
‫האוכל שאני מכינה משקף את מצב הרוח שלי‬
‫‪2.86‬‬
‫‪1.14‬‬
‫‪0.1781‬‬
‫‪29‬‬
‫אני אוהבת להעסיק את עצמי גם בזמני מנוחה‬
‫‪2.03‬‬
‫‪1.06‬‬
‫‪0.0059‬‬
‫‪30‬‬
‫בדרך כלל אני מבשלת בשביל בעלי‬
‫‪1.88‬‬
‫‪1.19‬‬
‫‪0.1188‬‬
‫‪31‬‬
‫אני מתכננת את חיי בתשומת לב‬
‫‪2.79‬‬
‫‪1.10‬‬
‫‪0.0052‬‬
‫‪32‬‬
‫אני אוהבת לבשל בשביל אורחים יותר משאני אוהבת לבשל בשביל משפחה‬
‫‪3.47‬‬
‫‪1.25‬‬
‫‪-0.0747‬‬
‫‪33‬‬
‫אני אוהבת ארוחות מאוזנות ואני דואגת שהן יהיו מזינות‬
‫‪1.84‬‬
‫‪0.87‬‬
‫‪0.0713‬‬
‫‪34‬‬
‫אני אוהבת להכין סלטים צבעוניים‬
‫‪2.15‬‬
‫‪1.04‬‬
‫‪0.1572‬‬
‫‪76‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫מספר‬
‫המשתנה‬
‫שם‬
‫ממוצע‬
‫סטיית תקן‬
‫טעינות‬
‫גורם ‪1‬‬
‫‪35‬‬
‫בניהול הבית ‪ -‬אני חושבת כיצד אמי הייתה עשויה לנהוג‬
‫‪3.50‬‬
‫‪1.19‬‬
‫‪0.0830‬‬
‫‪36‬‬
‫אני אוהבת לארח בביתי‬
‫‪2.10‬‬
‫‪1.04‬‬
‫‪0.2865‬‬
‫‪37‬‬
‫הייתי רוצה להיות ביישנית פחות‬
‫‪3.57‬‬
‫‪1.33‬‬
‫‪-0.0482‬‬
‫‪38‬‬
‫אני מנסה ליצור ניגוד בטעמים ובצבעים בארוחות המרכזיות‬
‫‪2.00‬‬
‫‪0.97‬‬
‫‪0.1051‬‬
‫‪39‬‬
‫אני מגישה לשולחן שאריות לעיתים רחוקות‬
‫‪3.32‬‬
‫‪1.225‬‬
‫‪0.0970‬‬
‫‪40‬‬
‫פרסומות למוצרי מזון מעניינות אותי‬
‫‪2.56‬‬
‫‪1.22‬‬
‫‪-0.0651‬‬
‫‪41‬‬
‫אני אוהבת להקדיש זמן להכנת ארוחות‬
‫‪2.28‬‬
‫‪1.03‬‬
‫‪0.6165‬‬
‫‪42‬‬
‫אני מכינה פשטידות רבות למדי‬
‫‪2.90‬‬
‫‪1.05‬‬
‫‪0.0987‬‬
‫‪43‬‬
‫אני דואגת שתמיד יהיו בבית פירות‬
‫‪1.51‬‬
‫‪0.75‬‬
‫‪0.0274‬‬
‫‪44‬‬
‫אנחנו מעדיפים מאכלים פשוטים‬
‫‪2.19‬‬
‫‪0.90‬‬
‫‪-0.3540‬‬
‫‪45‬‬
‫אנחנו מאמינים שנועדנו ליהנות מהחיים‬
‫‪2.23‬‬
‫‪0.95‬‬
‫‪-0.0569‬‬
‫‪46‬‬
‫אני אוהבת לבשל‬
‫‪1.84‬‬
‫‪1.01‬‬
‫‪0.7470‬‬
‫‪47‬‬
‫אני חושבת שהבשר הוא החלק החשוב בארוחה‬
‫‪1.78‬‬
‫‪0.85‬‬
‫‪0.1416‬‬
‫‪48‬‬
‫אני אוהבת להיות פעילה‬
‫‪1.63‬‬
‫‪0.73‬‬
‫‪0.0265‬‬
‫‪49‬‬
‫אני אוהבת מאכלים מתובלים היטב‬
‫‪2.89‬‬
‫‪1.11‬‬
‫‪0.4987‬‬
‫‪50‬‬
‫הכנת ארוחות היא דרך לבטא רגשי חיבה כלפי המשפחה‬
‫‪2.11‬‬
‫‪1.05‬‬
‫‪0.4555‬‬
‫‪51‬‬
‫אני חשה אשמה כשאני משליכה אוכל לפח‬
‫‪1.84‬‬
‫‪1.12‬‬
‫‪0.1326‬‬
‫‪52‬‬
‫רטבים‪ :‬מרבה‪/‬ממעטת להשתמש‬
‫‪.52‬‬
‫‪0.50‬‬
‫‪-0.1613‬‬
‫‪53‬‬
‫גיל‪ :‬צעיר‪/‬מבוגר‬
‫‪.39‬‬
‫‪0.49‬‬
‫‪-0.0679‬‬
‫‪54‬‬
‫בשר‪ :‬מרבה‪/‬ממעטת לאכול‬
‫‪.43‬‬
‫‪0.50‬‬
‫‪-0.0393‬‬
‫‪55‬‬
‫פירות‪ :‬מרבה‪/‬ממעטת לאכול‬
‫‪.51‬‬
‫‪0.50‬‬
‫‪-0.0539‬‬
‫‪56‬‬
‫השכלה‪ :‬תיכונית‪+/‬‬
‫‪.65‬‬
‫‪0.48‬‬
‫‪0.0460‬‬
‫‪Jan Erik Modig and F. Stewart DeBruicker, Ocean Spray Cranberries, Inc (A), Boston:‬‬
‫‪Harvard Business School, Case #9-575-039. Copyright © 1974 by the President and‬‬
‫‪Fellows of Harvard College. In F. Stewart DeBruicker, John Quelch and Scott Ward,‬‬
‫‪Cases in Consumer Behavior, Englewood Cliffs, N.J.: Prentice Hall, 1986. Reprinted by‬‬
‫‪permission of Harvard Business School.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪77‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫ט ב לה ‪ :7 .5‬ט עינו ת גורם ‪1‬‬
‫(‪ 5.9‬אחוזים מהשונות מוסברת)‬
‫מספר המשתנה‬
‫טעינות‬
‫שם‬
‫‪46‬‬
‫‪0.7470‬‬
‫אני אוהבת לבשל‬
‫‪41‬‬
‫‪0.6165‬‬
‫אני אוהבת להקדיש זמן להכנת ארוחות‬
‫‪15‬‬
‫‪0.5778‬‬
‫אני אוהבת לבשל תבשילים חדשים‬
‫‪26‬‬
‫‪0.5584‬‬
‫אני אוהבת לבשל תבשילים מיוחדים אף שזה אורך זמן רב‬
‫‪49‬‬
‫‪0.4987‬‬
‫אני אוהבת להגיש מאכלים מתובלים היטב‬
‫‪5‬‬
‫‪-0.4790‬‬
‫אינני מבשלת היטב‬
‫‪50‬‬
‫‪0.4555‬‬
‫הכנת ארוחות היא דרך לבטא רגשי חיבה כלפי המשפחה‬
‫*‪25‬‬
‫‪0.3921‬‬
‫המשפחה שלי מעריכה את המאמץ שאני משקיעה בהכנת ארוחות‬
‫*‪11‬‬
‫‪0.3978‬‬
‫אני אוהבת מאוד לאכול‬
‫*‪44‬‬
‫‪-0.3540‬‬
‫אנחנו מעדיפים מאכלים פשוטים‬
‫*‪24‬‬
‫‪0.2609‬‬
‫אני אוהבת לעשות “על האש”‬
‫*‪16‬‬
‫‪0.2069‬‬
‫בדרך כלל אני מכינה כמה תוספות מיוחדות בחגים‬
‫*מוקצים לגורם ‪ 1‬אף שהטעינות קטנה מ‪ |0.40|-‬וגדולה מ‪.|0.2|-‬‬
‫‪Jan Erik Modig and F. Stewart DeBruicker, Ocean Spray Cranberries, Inc (A), Boston:‬‬
‫‪Harvard Business School, Case #9-575-039. Copyright © 1974 by the President and Fellows‬‬
‫‪of Harvard College. In F. Stewart DeBruicker, John Quelch and Scott Ward, Cases in‬‬
‫‪Consumer Behavior, Englewood Cliffs, N.J.: Prentice Hall, 1986. Reprinted by permission‬‬
‫‪of Harvard Business School.‬‬
‫תרג יל ‪2‬‬
‫השם שתעניקו לגורם ‪ 1‬הוא‬
‫היחידה הבאה עוסקת בניתוח אשכולות‪.‬‬
‫‪78‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫ניתוח אשכולות‬
‫בתת‪-‬היחידה הקודמת‪ ,‬הוצג ניתוח הגורמים כשיטה המאפשרת "לנקות" מולטיקולינאריות ועודפות‬
‫בקרב משתנים‪ .‬הגורמים מחליפים את המשתנים; כל גורם הוא בלתי‪-‬תלוי בגורמים האחרים‪,‬‬
‫הממוצע שווה לאפס וסטיית התקן שווה לאחד‪.‬‬
‫המדגם שסיפק את הנתונים למשתנים המקוריים הוא הטרוגני; כל משתתף במדגם עשוי לייצג‬
‫מערך ייחודי של דעות‪ ,‬העדפות‪ ,‬סדרי עדיפויות וערכים‪ .‬עם זאת‪ ,‬לעיתים ישנו דמיון מסוים‬
‫בין חלק ממשתתפי המדגם בכמה משתנים מרכזיים‪.‬‬
‫מטרתו של ניתוח האשכולות הוא לאגד או לקבץ יחד את המשתתפים במדגם באופן כזה שהשונות‬
‫המחושבת מהמשתתפים במדגם הנכללים בכל קבוצה היא מינימלית; השונות בין הקבוצות‪,‬‬
‫כלומר‪ ,‬השונות המחושבת מממוצעי הקבוצות היא מקסימלית‪ .‬במילים אחרות‪ ,‬המטרה היא‬
‫לייצר קבוצות שמשתתפי המדגם המרכיבים אותן דומים מאוד זה לזה‪ ,‬וכל קבוצה שונה מאוד‬
‫מהקבוצות האחרות‪ .‬מספר הקבוצות נקבע באמצעות מבחן ‪ scree test.‬מגדירים את ‪Y‬‬
‫כשונות הפנים‪-‬קבוצתית הממוצעת ואת ‪ X‬כמספר הקבוצות‪ .‬ערך ‪ Y‬אמור לרדת ירידה חדה‪,‬‬
‫ואז קו הגרף אמור להתיישר ככל שמספר הקבוצות גדל (דבר זה מכונה גם "אפקט המרפק")‪.‬‬
‫כשהשונות הפנים‪-‬קבוצתית הממוצעת מתקרבת למינימום (ה"עיקול" במרפק)‪ ,‬מפסיקים את‬
‫התהליך‪( .‬להמחשת עניין זה ראה‪ ,Green, Tull and Albaum :‬עמ' ‪.)578‬‬
‫אפשר להשתמש במבחן ‪ scree test‬גם ברגרסיה לינארית מרובה‪ .‬המשתנה ‪ Y‬הוא ערך ‪SSE‬‬
‫(סכום ריבועי הטעות) והמשתנה ‪ X‬הוא מספר המשתנים ברגרסיה‪ .‬אף שערך ‪R2‬‬
‫נוטה לגדול‬
‫ככל שמספר המשתנים הבלתי‪-‬תלויים גדל‪ ,‬מבחן ‪ scree test‬יתמקד במספר המשתנים הגורם‬
‫לירידה החדה בערך ‪ ,SSE‬ממש ב"עיקול" במרפק‪ ,‬ויעצור בנקודה זו‪.‬‬
‫לכל קבוצה יש מרכז או ממוצע קבוצתי עבור כל המשתנים הנכללים בניתוח‪ .‬מדד לדמיון‪ ,‬המאפשר‬
‫להחליט אילו פרטים לכלול בקבוצה‪ ,‬הוא מרחק מינימלי בין התצפית ובין ממוצע הקבוצה (או‬
‫המרכז)‪ .‬אפשר לחשב את המרחק בין ממוצעי הקבוצות (או המרכזים שלהן) באמצעות המרחק‬
‫משתנים‪ ,‬ואנחנו מעוניינים למדוד את ‪ ,d j,k‬המרחק בין הממוצע של‬
‫האוקלידי‪ .‬נניח שישנם ‪i‬‬
‫קבוצה מספר ‪ j‬ובין הממוצע של קבוצה מספר ‪.)k (j≠k‬‬
‫] ‪dj,k = √[∑i(Xĳ - Xik)2‬‬
‫רצוי לתקנן את כל משתני ‪ ,i‬וָ לא‪ ,‬משתנה שלו מספר גבוה יותר של יחידות יהיה בעל משקל‬
‫נוסף בקביעת המרחק הכולל בין הקבוצות‪ .‬מדד למרחק שבו אפשר להשתמש עבור משתנים‬
‫בלתי‪-‬מתוקננים הוא המרחק המשוקלל‪ ,‬המשוקלל בהתאם למספר היחידות של כל משתנה‪ .‬כדי‬
‫להימנע מבעיה זו רצוי לתקנן את כל המשתנים‪ ,‬כלומר‪ ,‬להמיר כל תצפית ‪ X‬לנוסחה (‪X-µ)/σ‬‬
‫עבור כל משתתף במדגם‪ .‬אפשר לקבץ ציוני גורמים אם ישנו מתאם בין המשתנים‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪79‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫נ י ת ו ח ק ב ו צ ו ת ( א ש כ ו ל ו ת)‬
‫מרחק מינימלי מציון הממוצע של כל האשכול‪ ,‬ומודדים אחוז מכירות של כל קבוצה‬
‫ניקח לדוגמה תשע מקומות מ"ברייטן"‬
‫מספרים‬
‫‪ # ID‬חדשים‬
‫מהמחשב‬
‫קבוצות ‪6‬‬
‫קבוצות ‪4‬‬
‫קבוצות ‪3‬‬
‫קבוצות ‪2‬‬
‫אחוז מכירות קבוצות ‪9‬‬
‫‪705‬‬
‫‪46‬‬
‫‪50.40‬‬
‫‪46‬‬
‫‪46, 50‬‬
‫‪46, 50, 51‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪603‬‬
‫‪47‬‬
‫‪48.20‬‬
‫‪47‬‬
‫‪47, 48, 49‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪701‬‬
‫‪48‬‬
‫‪45.30‬‬
‫‪48‬‬
‫‪47, 48, 49‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪704‬‬
‫‪49‬‬
‫‪46.70‬‬
‫‪49‬‬
‫‪47, 48, 49‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪702‬‬
‫‪50‬‬
‫‪51.50‬‬
‫‪50‬‬
‫‪46, 50‬‬
‫‪46, 50, 51‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪703‬‬
‫‪51‬‬
‫‪54.00‬‬
‫‪51‬‬
‫‪51‬‬
‫‪46, 50, 51‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪46, 50, 51,‬‬
‫‪47, 48, 49‬‬
‫‪601‬‬
‫‪52‬‬
‫‪28.40‬‬
‫‪52‬‬
‫‪52‬‬
‫‪52‬‬
‫‪52‬‬
‫‪52, 53, 54‬‬
‫‪706‬‬
‫‪53‬‬
‫‪40.50‬‬
‫‪53‬‬
‫‪53‬‬
‫‪53, 54‬‬
‫‪53, 54‬‬
‫‪52, 53, 54‬‬
‫‪602‬‬
‫‪54‬‬
‫‪36.60‬‬
‫‪54‬‬
‫‪54‬‬
‫‪53, 54‬‬
‫‪53, 54‬‬
‫‪52, 53, 54‬‬
‫איור של דנדוגרם‬
‫‪80‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫תפ ע ו ל נ י ת ו ח א ש כ ו ל ו ת‬
‫החישובים הנדרשים לעריכת ניתוח אשכולות מסורבלים מכדי שאפשר יהיה לעשותם ללא מחשב‪.‬‬
‫במקום זה‪ ,‬התהליך שבו המחשב מקצה תצפיות לקבוצות יוסבר להלן‪.‬‬
‫בפסקה הקודמת הגדרנו את המרחק האוקלידי כמדד למרחק‪ .‬בכל קבוצת נתונים אפשר למדוד‬
‫ביחס לכל משתתף את המרחק בין הממוצע של אותו משתתף ובין ממוצעי כל הקבוצות (או‬
‫מרכזיהן)‪ .‬המשתתף משוייך לקבוצה שמרחקו ממנה הוא הקטן ביותר‪.‬‬
‫הליך זה מוכר כתהליך "מקבץ"‪ ,‬משום שמתחילים עם מספר קבוצות הזהה למספר המשתתפים‪,‬‬
‫ובהמשך משייכים משתתפים לקבוצות השונות‪ .‬הקבוצה הראשונה מורכבת משני המשתתפים‬
‫שהמרחק האוקלידי מכל תצפית אחרת שאיננה שייכת לקבוצה‪ .‬אם תנאי זה איננו נענה נוצרת‬
‫קבוצה חדשה המורכבת מתצפית זו ומהתצפית הקרובה ביותר שאיננה חלק מקבוצה‪ .‬תהליך זה‬
‫יכול להמשיך עד שתהיה בידינו קבוצה אחת בלבד‪ .‬תוכנת יצירת הקבוצות מבקשת מהמשתמש‬
‫לקבוע את מספר הקבוצות המבוקש‪.‬‬
‫"מ ָפ ֵרק"‪ ,‬שבו כל המשתתפים מצורפים לקבוצה אחת‪ ,‬ובהמשך‬
‫גישה חלופית ידועה כתהליך ְ‬
‫מחלקים את הקבוצה לקבוצות קטנות יותר ויותר‪ .‬אפשר להמשיך תהליך זה עד שכל משתתף‬
‫שייך לקבוצה נפרדת‪.‬‬
‫לדוגמה‪ ,‬נשתמש בנתונים של טבלה ‪ ,5.3‬ונייצר שלשה נתונים מקובצים‬
‫הציון הממוצע של כל קבוצה נקרא באנגלית "סנטרויד"‪:‬‬
‫אחוז מכירות = ‪Values at Group Centroids‬‬
‫‪Descriptive Statistics‬‬
‫‪Std.‬‬
‫‪Deviation‬‬
‫‪Mean‬‬
‫‪Statistic Std. Error Statistic‬‬
‫‪Minimum Maximum‬‬
‫‪N‬‬
‫‪Statistic‬‬
‫‪Statistic‬‬
‫‪Statistic‬‬
‫‪3.87646‬‬
‫‪1.11904‬‬
‫‪47.4833‬‬
‫‪54.00‬‬
‫‪42.20‬‬
‫‪12‬‬
‫‪4.35096‬‬
‫‪1.02553‬‬
‫‪18.4500‬‬
‫‪23.60‬‬
‫‪11.10‬‬
‫‪3.95646‬‬
‫‪.72235‬‬
‫‪34.3867‬‬
‫‪40.50‬‬
‫‪26.70‬‬
‫‪12‬‬
‫‪18‬‬
‫‪18‬‬
‫‪30‬‬
‫‪30‬‬
‫‪Cluster Number of‬‬
‫‪Case‬‬
‫‪penetrat‬‬
‫‪1‬‬
‫)‪Valid N (listwise‬‬
‫‪penetrat‬‬
‫‪2‬‬
‫)‪Valid N (listwise‬‬
‫‪penetrat‬‬
‫‪3‬‬
‫)‪Valid N (listwise‬‬
‫ישנן שיטות חלופיות רבות לעריכת ניתוח אשכולות‪ .‬לדוגמה‪ ,‬מרחק אוקלידי הוא דרך אחת בלבד‬
‫שבאמצעותה משייכים משתתפים לקבוצות‪ .‬דרך נוספת למדוד דמיון היא באמצעות ממוצע‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪81‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫הסטיות המוחלטות בין מרכזי הקבוצות‪ .‬ישנם ‪ i‬משתנים‪ ,‬ואנחנו מודדים דמיון בין הקבוצות ‪j‬‬
‫ו‪ .)j≠k( k-‬כל תצפית מצורפת לקבוצה שלה ממוצע הסטיות המוחלטות )‪ (MAD‬הנמוך ביותר‬
‫בין התצפית ובין ממוצע הקבוצה‪ .‬ממוצע הסטיות המוחלטות מחושב כך‪:‬‬
‫|‪MADj,k = ∑ i |Xĳ - Xik‬‬
‫ש י מ ו ש בנ י ת ו ח א ש כ ו ל ו ת‬
‫ניתוח אשכולות הוא כלי יעיל ביותר באסטרטגיית שיווק‪ .‬באמצעות ניתוח אשכולות אפשר לזהות‬
‫פלחי שוק שונים במידה כזו שהפרטים המרכיבים כל פלח שוק יהיו דומים מאוד האחד לשני‪,‬‬
‫ופרטים מפלחי שוק שונים יהיו שונים מאוד האחד מהשני‪.‬‬
‫חשבו על הדוגמה הזאת‪ְ :‬מתאם העובד במנהלת האוניברסיטה מבקש להגביר את ההרשמה‬
‫לאוניברסיטה‪ .‬מספר סקרים נערכו בקרב תלמידי כיתה י"ב‪ ,‬ובהם התלמידים התבקשו לזהות את‬
‫המשתנים העיקריים המשפיעים על החלטתם להירשם לאוניברסיטה מסוימת‪ .‬בסקרים הוזכרו‬
‫המאפיינים שלהלן‪:‬‬
‫‪.1‬‬
‫‪1‬איכות תכנית הלימודים‬
‫‪.2‬‬
‫‪2‬המוניטין של המרצים‬
‫‪.3‬‬
‫‪3‬איכות האוכל וקיום תכנית ארוחות‬
‫‪.4‬‬
‫‪4‬אווירה "כפרית" בקמפוס‬
‫‪.5‬‬
‫‪5‬הזדמנות לפגוש חברים לספסל הלימודים ולהכיר חברים חדשים‬
‫‪.6‬‬
‫‪6‬אחוות סטודנטים‬
‫‪.7‬‬
‫‪7‬קבוצות ספורט (כדורסל‪ ,‬פוטבול)‬
‫‪.8‬‬
‫‪8‬הסיוע הכלכלי המוצע‬
‫‪.9‬‬
‫‪9‬שכר לימוד נמוך‬
‫‪1010‬קירבה לאזור עירוני גדול‬
‫‪1111‬שירותי השמה טובים‬
‫‪1212‬תכנית מוכוונת קריירה‬
‫תלמידים אינם מביאים בחשבון גורם אחד בלבד בעת בחירת אוניברסיטה‪ .‬עם זאת‪ ,‬הם יכולים‬
‫לדרג את מידת החשיבות של כל גורם עבורם באמצעות שימוש בסולם ליקרט (‪=10‬חשוב ביותר‪,‬‬
‫‪=5‬חשוב במידת מה‪=1 ,‬כלל לא חשוב)‪.‬‬
‫ניתוח אשכולות מודד את התוצאות של כל שנים‪-‬עשר המשתנים‪ ,‬ויקבץ יחד תלמידים בעלי‬
‫העדפות דומות‪ .‬למשל‪ ,‬משתתפים שהעניקו ציון נמוך לגורם מספר ‪ 11‬עשויים להיות מעוניינים‬
‫‪82‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫בלימודים לתארים מתקדמים‪ ,‬או שלמשפחתם יש עסק משפחתי שהחליטו להשתלב בו בתום‬
‫הלימודים‪.‬‬
‫מידע זה שימושי ביותר בעת כתיבת עלון מידע המפליג בשבחי האוניברסיטה‪ .‬אין טעם לדבר‬
‫על מעלותיה של מחלקת ההשמה באזני קהל יעד שאיננו מעוניין בשירות השמה‪ .‬באמצעות‬
‫ניתוח אשכולות‪ ,‬מנהלת האוניברסיטה יכולה לזהות אילו אנשים שייכים לכל קבוצה ולהתאים‬
‫את העלון לצרכיהם‪ ,‬כלומר‪ ,‬להדגיש בו נושאים החשובים לקבוצה זו או לפלח שוק זה‪.‬‬
‫ניתוח אשכולות הוא כלי כמעט הכרחי עבור אסטרטג שיווק המעוניין ליישם את עקרון השיווק‪.‬‬
‫אפשר לזהות את המאפיינים הדמוגרפיים הייחודיים של כל קבוצה באמצעות מרכז הקבוצה‪ .‬זכרו‬
‫שהנתונים צריכים להיות מתוקננים (ממוצע שווה לאפס‪ ,‬שונות שווה לאחד)‪ .‬אם כן‪ ,‬ממוצעי‬
‫הקבוצות או מרכזי הקבוצות הרחוקים מאפס‪ ,‬בין אם הם חיוביים או שליליים‪ ,‬מייצגים נטייה‬
‫חזקה מהממוצע לטובת המשתנה המדובר (כאשר הממוצע חיובי) או נגדו (כאשר הממוצע שלילי)‪.‬‬
‫לניתוח אשכולות יש חסרון משמעותי‪ ,‬והוא שקשה להרחיב את מסקנותיו מעבר למשתתפים‬
‫שהשתתפו בפועל במדגם‪ .‬כמובן‪ ,‬ישנם מקרים שבהם האוכלוסייה כולה נכללת בניתוח האשכולות‪.‬‬
‫למשל‪ ,‬גרין וטול (‪1984, p.594‬‬
‫‪ )Green and Tull ,‬מזכירים מחקר שבו נעשה שימוש‬
‫בניתוח אשכולות )‪ (Green and Larsen, 1985‬שבו כל מדינות העולם נכללו במחקר‪ .‬כדי‬
‫לקבץ את המדינות לקבוצות נעשה שימוש במשתנים הללו‪ :‬תוצר מקומי גולמי‪ ,‬שיעור האוריינות‪,‬‬
‫צריכת אנרגיה‪ ,‬ייצוא נפט וחובות בין‪-‬לאומיים‪ .‬במחקר זה נכללה כל אוכלוסיית העולם‪ ,‬ואין‬
‫צורך להכליל את תוצאות המחקר אל מעבר לטווח המחקר שנעשה בפועל‪.‬‬
‫עם זאת‪ ,‬במקרים רבים המדגם איננו כולל את כלל האוכלוסייה‪ .‬חשבו על הדוגמה שהובאה‬
‫למעלה‪ ,‬שבה תלמידי תיכון קובצו לקבוצות על פי החשיבות שהם ייחסו למשתנים שונים העשויים‬
‫להשפיע על בחירת אוניברסיטה‪ .‬ברור למדי שהתלמידים שנכללו במדגם אינם מייצגים את כל‬
‫תלמידי כיתות י"ב‪ .‬עולה אפוא השאלה כיצד אפשר לזהות בכלל האוכלוסייה איזה תלמיד שייך‬
‫לאיזו קבוצה או לאיזה פלח? איך אפשר לזהות שייכות לקבוצה בקרב אנשים שלא השתתפו‬
‫במדגם? חסרון נוסף של ניתוח אשכולות הוא שאין כל ערך‪ p-‬או אומדן טעות‪ .‬הקבוצות הן‬
‫מונְ חות‪-‬נתונים‪ ,‬ואין מדד שאפשר לדחות לפיו את השערת האפס שמשתתף מסוים איננו שייך‬
‫לקבוצה מסוימת‪ .‬עניין נוסף הוא שניתוח אשכולות רגיש מאוד לשיטת המדידה שבה משתמשים‬
‫כדי לייצר את הקבוצות‪ .‬מדידה על פי המרחק האוקלידי יוצרת קבוצות שונות מאוד מאלו הנוצרות‬
‫באמצעות שיטת ממוצע הסטיות המוחלטות‪ .‬תת‪-‬היחידה הבאה תספק פתרונות לבעיות אלה‪.‬‬
‫ניתוח מבחין‬
‫בפרק שעסק ברגרסיה לינארית הודגשה העובדה שהן המשתנה הבלתי‪-‬תלוי והן המשתנה התלוי‬
‫צריכים להיות נתונים רציפים‪ .‬ניתוח מבחין מיועד לקבוצות נתונים שבהן המשתנה התלוי הוא‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪83‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫קטגוריאלי והמשתנים הבלתי‪-‬תלויים מסודרים על פי סולם רווח ומעלה (רציפים)‪ .‬המשוואה‬
‫הבסיסית נשארת כפי שהיא ברגרסיה לינארית‪:‬‬
‫‪Y = a + B 1X1 + B2X2 + … +BnXn‬‬
‫כמו ברגרסיה לינארית‪ ,‬ישנן שתי השערות‪:‬‬
‫השערת אפס‪B1 = B 2 … = Bn = 0 :‬‬
‫השערה אלטרנטיבית )‪ : H(1‬קיים לפחות ‪ Bi‬אחד השונה מאפס )‪(Bi≠0‬‬
‫אפשר לחשב באמצעות הסטטיסטי ‪ F‬את ההסתברות לשגיאה מסוג ‪ ,I‬כלומר את ההסתברות‬
‫לדחיית השערת האפס כאשר לאמיתו של דבר היא נכונה‪ .‬אם הסטטיסטי ‪ F‬שחּושב גדול מהערך‬
‫הקריטי שקבע החוקר‪ ,‬כלומר‪ ,‬הערך בטבלת ‪ F‬נמצא ברמה המותרת לשגיאות מסוג ‪,0.05 ,0.1( I‬‬
‫‪ ,)0.01‬הרי שדוחים את השערת האפס‪ .‬אם המצב איננו כזה מקבלים את השערת האפס‪ .‬נוסף‬
‫על כך‪ ,‬אפשר להכניס את משתני ‪Xi‬‬
‫למשוואה באמצעות שיטת רגרסיה בצעדים ( ‪,)Stepwise‬‬
‫כפי שהיא הוסברה למעלה בפרק הדן ברגרסיה לינארית‪ .‬הפונקציה המבחינה מייצרת ציון מבחין‬
‫לכל משתתף במדגם‪ .‬נניח שהמשתנה התלוי הוא הכנסה‪ ,‬וישנן שתי קטגוריות‪" :‬מתחת להכנסה‬
‫החציונית" (קבוצה ‪ )1‬ו"מעל להכנסה החציונית" (קבוצה ‪ .)2‬הפונקציה המבחינה תיתן ציון מבחין‬
‫לכל אחד מהמשתתפים‪ .‬כל המשתתפים שציוניהם נמוכים מהפונקציה המבחינה שייכים לקבוצה‬
‫‪ ,1‬וכל המשתתפים שציוניהם מעל לפונקציה המבחינה שייכים לקבוצה ‪ .2‬מרכז הקבוצה של‬
‫קבוצה ‪ 1‬הוא פשוט הציון המבחין הממוצע של כל החברים בקבוצה זו‪ ,‬וכך גם בקבוצה ‪.2‬‬
‫נניח של‪ ,Y-‬המשתנה התלוי‪ ,‬יש שלוש רמות‪ :‬הכנסה נמוכה‪ ,‬הכנסה בינונית והכנסה גבוהה‪.‬‬
‫כעת יש צורך בשתי פונקציות מבחינות שייצרו שני ציונים מבחינים עבור כל משתתף במדגם‪.‬‬
‫מאחר שיש שלוש קבוצות‪ ,‬יהיו כעת גם שלושה מרכזי קבוצות‪ ,‬שכל אחד מהם מתבסס על הציון‬
‫המבחין הממוצע בקבוצה‪ .‬ייתכן שלקבוצה ‪ 1‬יהיה מרכז חיובי גבוה על פי הפונקציה המבחינה‬
‫הראשונה‪ ,‬ומרכז שלילי גבוה בפונקציה השנייה‪ .‬לקבוצה השנייה עשויים להיות מרכזים הקרובים‬
‫שניהם לאפס‪ ,‬ולקבוצה השלישית עשוי להיות מרכז שלילי גבוה בפונקציה המבחינה הראשונה‬
‫ומרכז חיובי גבוה בפונקציה המבחינה השנייה‪.‬‬
‫הפונקציה המבחינה מאפשרת לנו לנבא השתייכות לקבוצות‪ .‬אם מוצאים פרט שלא השתתף‬
‫במדגם המקורי‪ ,‬אפשר לנבא את השתייכותו לקבוצה זו או אחרת באמצעות הכנסת ערכי ה‪X -‬‬
‫שלו לפונקציה המבחינה (או הפונקציות המבחינות) וניתוח הציונים שמתקבלים‪ .‬אם הם קרובים‬
‫למרכזים של קבוצה ‪ ,1‬הרי שפרט זה שייך לקבוצה ‪ ,1‬וכן לגבי קבוצה ‪ 2‬וקבוצה ‪.3‬‬
‫בהנחה שהנתונים שבהם אנחנו משתמשים הם נתונים מתוקננים‪ ,‬המקדם ‪B i‬‬
‫עוצמת החשיבות ‪ -‬איזה משתנה תורם יותר להבחנה בין קבוצות‪.‬‬
‫‪84‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫מספק מידע על‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫מדד נוסף המורה אילו משתנים חיוניים להבחנה בין קבוצות הוא ‪ ,R‬שהוא המתאם בין הציונים‬
‫המבחינים ובין המשתנים‪ .‬אם ערך ‪ R‬גדול מחמש או שווה לו‪ ,‬ברור למדי שישנה מידה משמעותית‬
‫של מתאם בין המשתנה ובין הפונקציה המבחינה‪ .‬זכרו שהשתמשנו ברגרסיה בצעדים כדי לבחון‬
‫אם ראוי לכלול את המשתנה בפונקציה המבחינה‪.‬‬
‫האם הניתוח המבחין שלכם יעיל?‬
‫בניתוח רגרסיה השתמשנו ב‪ R2-‬כמדד לטיב ההתאמה‪ .‬חישבנו את השונות של ‪Y‬‬
‫בידי משוואת הרגרסיה‪ ,‬וחילקנו אותה בשונות הכוללת של ‪ .Y‬חישבנו גם את שיעור השונות‬
‫המוסברת הנובעת ממשוואת הרגרסיה‪ .‬אם ‪ R 2‬הוא מספר גבוה (קרוב ל‪ ,)1.00-‬הרי שרובה של‬
‫השונות של ‪ Y‬מוסברת באמצעות משוואת הרגרסיה‪ ,‬ואם המצב איננו כזה יש צורך להוסיף‬
‫המוסברת‬
‫משתנים‪.‬‬
‫לרוע המזל‪ ,‬מתודולוגיה זו איננה ישימה בניתוח מבחין‪ .‬המשתנה ‪Y‬‬
‫"השונות של "‪ Y‬הוא חסר משמעות ביחס לנתונים קטגוריאליים‪.‬‬
‫הוא קטגוריאלי‪ ,‬והמונח‬
‫במקום זאת משתמשים במדד חלופי כדי להעריך את יעילותה של הפונקציה המבחינה‪ .‬ברוב‬
‫המקרים שבהם מריצים פונקציה מבחינה במחשב‪ ,‬המחשב מספק את מקדמי ‪ B‬של הפונקציה‬
‫המבחינה‪ ,‬את המתאם בין המשתנים ובין הפונקציה המבחינה ומדד של שיעור המקרים שסווגו‬
‫נכון‪ .‬אם בכל קטגוריה יש מספר זהה של משתתפים‪ ,‬שיעור המקרים שסווגו נכון הוא מדד‬
‫חשוב‪ ,‬בתנאי שהוא עולה על ‪ = G( G/1‬מספר הקבוצות)‪ .‬עם זאת‪ ,‬אם מספר המשתתפים איננו‬
‫זהה בכל הקבוצות‪" ,‬המודל הנאיבי" משייך את כל המשתתפים לקבוצה הגדולה ביותר (דבר זה‬
‫שווה ערך להשערת האפס)‪.‬‬
‫למשל‪ ,‬בהנחה שישנן שתי קבוצות ומספר החברים בכל קבוצה זהה‪ ,‬המודל הנאיבי מדייק‬
‫בחמישים אחוזים מהמקרים‪" .‬שיעור מקרים שסווגו נכון" השווה ל‪ 0.55-‬איננו מרשים‪ .‬בדומה‬
‫לכך‪ ,‬אם ישנן שלוש קבוצות‪ ,‬המודל הנאיבי יסווג נכון שלושים ושלושה אחוזים מהמקרים‪,‬‬
‫וכשיש ארבע קבוצות – עשרים וחמישה אחוזים‪" .‬שיעור המקרים שסווגו נכון" חייב להיות גבוה‬
‫מהציון המינימלי‪ ,‬המתקבל מהמודל הנאיבי‪.‬‬
‫אם גודלי הקבוצות אינם זהים המודל הנאיבי משייך את כולם לקבוצה הגדולה ביותר‪ .‬למשל‪,‬‬
‫אם התקבל "שיעור מקרים שסווגו נכון" השווה ל‪ ,0.7-‬ושבעים אחוזים מהמדגם שייכים לקבוצה‬
‫הגדולה‪ ,‬הרי שמידת ההצלחה של הפונקציה המבחינה זהה לזו של המודל הנאיבי‪ .‬ברור למדי‬
‫שדבר זה איננו טוב מבחינת הניתוח המבחין‪.‬‬
‫לדוגמה‪ ,‬נשתמש בנתונים של טבלה ‪ ,5.3‬ונייצר שלשה נתונים מקובצים‬
‫נתקנן את אחוז המכירות שציון הממוצע הוא ‪ ,0‬פחות מהממוצע הוא שלילי‪ ,‬וגבוה מהממוצע‪,‬‬
‫הוא חיובי‪.‬‬
‫הציון הממוצע של כל קבוצה נקרא באנגגלית סנטרויד‬
‫אנחנו רוצים להשתמש בנתונים אלו לתת תחזית לאיזה קבוצה שייך כל ‪ID‬‬
‫כמובן‪ ,‬לכל קבוצה יש הסתברות שווה לכל קבוצה‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪85‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
Prior Probabilities for Groups
Cluster Number
of Case
Prior
1
Cases Used in Analysis
Unweighted
Weighted
.333
12
12.000
2
.333
18
18.000
3
.333
30
30.000
Total
1.000
60
60.000
; 33% ‫ הוא אחוז טוב יותר מ‬47% ‫ מכיוון ש‬,‫ הניתוח המבחין שלנו הוא נכון‬,‫התוצאה היא‬
Classification Results a
Cluster Number of Case
Total
Original
%
Predicted Group
Membership
1
2
3
Count
1
9
2
1
2
4
11
3
18
3
13
9
8
30
1
75.0
16.7
8.3
100.0
2
22.2
61.1
16.7
100.0
3
43.3
30.0
26.7
100.0
12
a 46.7% of original grouped cases correctly classified
:‫ המשוואה היא‬,‫ חוץ מדירות‬5% ‫הסתברות של טעות גבוהה מ‬
,‫ וגבוה מהממוצע‬,‫ פחות מהממוצע הוא שלילי‬,0 ‫נתקנן את אחוז המכירות שציון הממוצע הוא‬
.‫הוא חיובי‬
Canonical Discriminant
Function Coefficients
Function
1
apt
.059
(Constant)
-1.178
Unstandardized coefficients
‫ אהרמן‬.‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‬
86
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫‪Functions at Group Centroids‬‬
‫‪Function‬‬
‫‪Cluster Number of‬‬
‫‪Case‬‬
‫‪-.693‬‬
‫‪1‬‬
‫‪.784‬‬
‫‪2‬‬
‫‪-.193‬‬
‫‪3‬‬
‫‪1‬‬
‫‪Unstandardized canonical discriminant functions evaluated at group means‬‬
‫לסיכום‪ ,‬המונח "שיעור המקרים שסווגו נכון" הוא כלי דיאגנוסטי נוסף המשמש לבדיקת הפונקציה‬
‫המבחינה‪ .‬הוא מורה לנו באיזו מידת הצלחה הפונקציה מסוגלת להבחין בין פרטים ולסווג אותם‬
‫על סמך הציון המבחין שלהם‪ .‬יש להשוות מספר זה ל"מודל הנאיבי" המשייך את כולם לקבוצה‬
‫הגדולה ביותר‪ .‬אם שיעור המקרים שסווגו נכון קרוב מאוד לתוצאת המודל הנאיבי‪ ,‬הרי שהפונקציה‬
‫המבחינה איננה עדיפה על מודל זה ויש לשקול הוספת משתנים חדשים ולערוך ניתוח מבחין נוסף‪.‬‬
‫בנתונים שלנו אחוז הגבוה ביותר היא קבוצה ‪ #1‬והוא ‪ ,75%‬אם הסתברות של כל הקבוצות‬
‫שווה ל‪ ,33%‬תחזית של ‪ ,47%‬היא חיובית‪ .‬אבל מכיוון שהנתונים שלנו הם‪ :‬קבוצה ‪,75% - #1‬‬
‫היה יותר טוב לנו לשכוח מניתוח מפלה לגמרי‪ ,‬ולהחליט שכולם שייכים לקבוצה ‪ ,#1‬שב‪75% -‬‬
‫אנחנו צודקים‪ ,‬מה שיותר טוב מ ‪.47%‬‬
‫ניתוח מבחין הוא כלי עבודה שימושי ביותר לפילוח השוק‪ .‬למעשה‪ ,‬זיהוי חברי שוק היעד נעשה‬
‫באמצעות שילוב של ניתוח גורמים‪ ,‬ניתוח אשכולות וניתוח מבחין‪.‬‬
‫גישה זו היא בת שלושה שלבים‪:‬‬
‫‪.1‬‬
‫‪1‬עריכת ניתוח גורמים למשתנים המסבירים הבלתי‪-‬תלויים‪ ,‬כלומר‪ ,‬המשתנים הקשורים‬
‫לצריכת המוצר‪.‬‬
‫‪.2‬‬
‫‪2‬קיבוץ המשתתפים לקבוצות על סמך ציוני הגורמים‪.‬‬
‫‪.3‬‬
‫‪3‬עריכת ניתוח מבחין לקבוצות‪ .‬שייכות לקבוצות היא המשתנה התלוי (‪)n....,1,2‬‬
‫ומשתנים דמוגרפיים הם המשתנים הבלתי‪-‬תלויים בניתוח המבחין‪.‬‬
‫ניתוח מבחין מאפשר לנבא השתייכות לקבוצה על סמך המשתנים הבלתי‪-‬תלויים המובהקים‬
‫(כלומר‪ ,‬שערך‪ p-‬שלהם מקובל)‪ .‬המשווק יכול לזהות חברים בשוק היעד שלו באמצעות הפונקציה‬
‫המבחינה‪ ,‬המנבאת השתייכות לקבוצה‪( .‬להמחשת עניין זה ראה ‪ Ocean Spray Case‬ו‪Greg-‬‬
‫‪ Advertising Case‬בתוך ‪.)1982 ,Cases in Consumer Behavior, DeBruicker and Ward‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪87‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫נ י ת ו ח ה עד פ ו ת )‪(Conjoint Analysis‬‬
‫בספרות המקצועית של תחום השיווק ניתנת תשומת לב מיוחדת למודלים של בחירת מותגים‪.‬‬
‫משווקים המוציאים לשוק מוצרים חדשים מעוניינים בתחזית אמינה לנתח השוק הצפוי של‬
‫המוצר החדש‪ .‬מידע זה הכרחי לקבלת ההחלטה אם לשווק את המוצר או לא‪ .‬אם נתח השוק‬
‫הצפוי קטן מהמינימום שדורשים הקריטריונים של תשואה להשקעה של החברה‪ ,‬מחליטים שלא‬
‫להוציא את המוצר לשוק‪ .‬ולהפך‪ ,‬אם נתח השוק הצפוי גדול מהמינימום הנדרש‪ ,‬מחליטים‬
‫להוציא את המוצר לשוק‪.‬‬
‫לרוע המזל‪ ,‬משווקים רבים מגלים שהמוצר החדש שלהם נכשל‪ ,‬כלומר‪ ,‬שנתח השוק שלו קטן‬
‫בהרבה מהמינימום שדורשת החברה‪ ,‬רק אחרי שהשקיעו מאות אלפי דולרים בפרסום המוצר‬
‫ובקידומו‪ .‬ידע זה הוא תוצאה של ניתוח שלאחר מעשה‪.‬‬
‫מודלים רבים של בחירת מותגים מיועדים לנבא את המכירות ואת נתח השוק הפוטנציאליים‬
‫בשלב מוקדם של הוצאת המוצר לשוק‪ .‬כדי להעריך נכון את תרומתו של ניתוח ההעדפות לעולם‬
‫המודלים של בחירת מותגים יש לתאר בקצרה כמה מודלים כאלה‪.‬‬
‫על פי ספרות השיווק (ראה למשל ‪ ,).Robertson et al‬נראה שאפשר להגדיר את חקר העמדות‬
‫כתהליך היררכי בן שלושה שלבים‪:‬‬
‫תרשים ‪ :7.1‬גישה ִמבנית כלפי עמדות‬
‫‪.1‬‬
‫‪1‬השלב ההכרתי (קוגניטיבי)‬
‫זהו השלב שבו נוצרות אמונות בנוגע למוצר או לשירות‪ .‬מידע אודות תפקוד המוצר‪,‬‬
‫איכותו‪ ,‬מחירים‪ ,‬אחריות וכן הלאה נאסף בשלב זה‪.‬‬
‫‪.2‬‬
‫‪2‬השלב הרגשי‬
‫בשלב זה נוצרים דעות‪ ,‬רגש חיובי או רגש שלילי כלפי המוצר או השירות‪ .‬עמדה היא‬
‫מדד של רגש חיובי או שלילי‪.‬‬
‫‪.3‬‬
‫‪3‬השלב ההתנהגותי‬
‫זהו שלב הפעולה‪ .‬אם מתבצעת רכישה‪ ,‬היא מתבצעת כעת‪ ,‬בשלב השלישי‪.‬‬
‫"אימוץ" מוצר חדש הוא תהליך היררכי (כלומר‪ ,‬אי אפשר להגיע לשלב השלישי בלי לעבור את‬
‫השלב הראשון והשלב שני לפני כן)‪ ,‬ומשום כך אנשים העוסקים בתחזיות מודדים את עמדת‬
‫הצרכנים בשלב השני‪ ,‬השלב הרגשי‪ .‬אחת הגישות הידועות לכך היא המודל הליניארי המפצה‬
‫(‪ )LCM‬המוכר גם בשם מודל פישביין‪.‬‬
‫עמדות נמדדות באמצעות איסוף דירוג הצרכנים לאיכותה המצופה של פעילות המוצר‪ ,‬על פי‬
‫מספר מאפיינים מרכזיים‪ ,‬ודירוג של רמת החשיבות שמייחסים למאפיינים אלה (למשל‪ ,‬באיזו‬
‫מידה משפיע המאפיין "יכולת תמרון" בעת רכישת מכונית חדשה?)‪ .‬הציון הכולל של העמדות‬
‫‪88‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫מחושב באמצעות הכפלת ציוני דירוג ה"אמונות" בציוני החשיבות של כל המאפיינים המרכזיים‪,‬‬
‫וחיבור המכפלות יוצר את הציון הכולל‪ .‬המותג בעל העמדה שזכתה לציון הגבוה ביותר הוא‬
‫המועדף ביותר‪ .‬אפשר להציג זאת כך באופן מתמטי‪ :‬נניח ש‪Bĳ-‬‬
‫מותג מספר ‪ i‬במאפיין מספר ‪ Ij ;j‬הוא מידת החשיבות של ‪ j‬בבחירת המותג‪.‬‬
‫הוא ציון ה"אמונה" של תפקוד‬
‫)‪i = ∑j (Bĳ x Ii‬עמדה‬
‫מחקרים הראו שמודל זה מנבא בחירת מותגים במידה רבה של הצלחה‪ .‬עם זאת‪ ,‬תקפות המודל‬
‫יוצרת בעיה‪ .‬ההחלטות שמקבלים הצרכנים מתבססות על המוצרים המוצעים למכירה‪ .‬דבר זה‬
‫ידוע כבחירה מאולצת ‪ -‬אי אפשר לקנות את המוצר שמעוניינים לקנות אם הוא איננו נמכר בחנות‬
‫שבה עורכים קניות‪ .‬עם זאת‪ ,‬המודל הליניארי המפצה מודד את דירוג ההעדפה והחשיבות של‬
‫כל המאפיינים של המוצר‪ .‬אין כל אילוץ במודל המגביל את הבחירה לפריטים המוצעים למכירה‪.‬‬
‫יתר על כן‪ ,‬המודל הליניארי המפצה מתייחס לכל מאפיין בנפרד כשהוא מודד את נתוני העדפות‬
‫הצרכנים‪ ,‬אף שישנם מאפיינים רבים שאי אפשר להפריד ביניהם‪ .‬למשל‪ ,‬שני מאפיינים של‬
‫חברת תעופה ‪ -‬טיסות תכופות ומחירי כרטיסים גבוהים ‪ -‬קשורים זה לזה‪ .‬למרות זאת‪ ,‬המודל‬
‫הלינארי המפצה אוסף נתונים לגבי כל מאפיין בנפרד‪ ,‬בלי להתייחס לקשרים שייתכן שיש לו‬
‫למאפיינים אחרים‪ .‬נוסף על כך‪ ,‬המודל הלינארי המפצה איננו מביא בחשבון שקלול תמורות‬
‫(‪ )tradeoff‬בין אפשרויות הבחירה השונות‪ .‬לסיכום‪ ,‬ההפרדה בין המאפיינים ובעיית הבחירה‬
‫המאולצת מעודדים לחפש מודל חלופי‪.‬‬
‫ניתוח העדפות יכול להתגבר על החסרונות האלה‪ .‬משתתפים נשאלים על שקלול התמורות בין‬
‫אפשרויות הבחירה‪ ,‬ואינם מתבקשים לדרג העדפת מאפיינים‪ .‬תהליך איסוף נתונים זה מגדיל‬
‫את התקפות של דפוסי ההתנהגות בעת קבלת החלטות‪ .‬גישה זו משחזרת את תהליך קבלת‬
‫ההחלטות שהצרכנים מבצעים בפועל‪ :‬בחירה הכוללת שקלול תמורות בין המותגים המתחרים‪.‬‬
‫מבין היתרונות הרבים שיש לניתוח ההעדפות‪ ,‬הן במישור המחקרי והן בפועל‪ ,‬ברצוני להתמקד‬
‫בשלושה תחומים חשובים שבהם יש לשיטה זו תרומה חשובה‪:‬‬
‫‪1 .1‬דירוג ההעדפה של האפשרויות השונות נשמר באמצעות ערכי התועלת (‪Utility‬‬
‫‪ .)Values‬ערך תועלת הוא מספר בין ‪ 0.0‬ל‪ "1" ;1.0-‬מייצג רמה גבוהה של תועלת או‬
‫של שביעות רצון כשהמאפיין מוגדר ברמה זו‪ ,‬ו‪ "0"-‬מייצג חוסר תועלת או חוסר שביעות‬
‫רצון‪.‬‬
‫‪2 .2‬סימולטור יכול לנבא העדפת מותגים בקרב מוצרים בעלי צירופי מאפיינים שאינם קיימים‬
‫במוצרים הקיימים בשוק‪ .‬הסימולטור יכול לנבא גם את פלח השוק הצפוי של מוצר‬
‫ישנּו את מאפייניו‪ ,‬וכן לגבי מוצרים חדשים‪.‬‬
‫מסוים אם ַ‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪89‬‬
‫םימדקתמ םיאשונ‬
‫יעיב ש קרפ‬
‫‪3 .3‬מערכי ניסוי פקטוריאליים חלקיים )‪ .(fractional factorial design‬עשויים להיות‬
‫שילובים אפשריים רבים בין רמות שונות של מאפיין מסוים‪ .‬למשל‪ ,‬חמישה מאפיינים‬
‫שכל אחד מהם בעל שלוש רמות (גבוהה‪ ,‬בינונית ונמוכה) עשוי לייצר סך כולל של‬
‫מאתיים ארבעים ושלושה צירופים )‪ .(3x3x3x3x3=243‬אין זה סביר שהצרכן ימלא‬
‫סקר המתייחס למאתיים ארבעים ושלושה צירופי מאפיינים שונים של מוצר או של‬
‫שירות‪ .‬ניתוח העדפות מצמצם את מספר צירופי התכונות למספר נוח יותר‪ .‬הדוגמה‬
‫שלהלן מדגימה שימוש אפשרי בניתוח העדפות‪.‬‬
‫דוגמה‪:‬‬
‫דוד עשיר החליט לתגמל את אחיינו‪ ,‬הסטודנט החרוץ‪ .‬הוא החליט להציע לו מכונית חדשה במתנה‪.‬‬
‫אחד ממכריו היה סוכן מכוניות‪ ,‬והוא ביקש ממנו להמליץ על מכונית טובה‪ .‬הסוכן אמר לו שעליו‬
‫לבחור בין מכונית אמריקאית ובין מכונית יפנית‪ .‬לכל אחת מאלה יש שלושה גדלים אפשריים‪:‬‬
‫מכונית מסחרית‪ ,‬מכונית משפחתית או מכונית מנהלים‪ .‬נוסף על כך‪ ,‬ישנן שתי קטגוריות שיש‬
‫לבחור ביניהן בנוגע לצריכת הדלק‪ :‬קילומטראז' גבוה לליטר או קילומטראז' נמוך לליטר‪ .‬כרגע‬
‫אין ברשות סוכן המכונית את כל הצירופים האפשריים‪ .‬יש ברשותו רק מכונית מנהלים יפנית‬
‫בעלת קילומטראז' גבוה לליטר ומכונית מסחרית אמריקאית בעלת קילומטראז' נמוך לליטר‪.‬‬
‫הדוד החליט שבמקום לבקש מאחיינו לבחור בין שתי האפשרויות העומדות בפניו כרגע הוא‬
‫יבקש ממנו לדרג את כל שתים‪-‬עשרה האפשרויות הקיימות )‪ .(2x3x2‬באופן כזה הוא ידע מיד‬
‫את דירוג ההעדפות של האחיין אם תגיע לידי סוכן המכוניות מכונית חדשה‪ .‬טבלה ‪ 7.6‬מתארת‬
‫את העדפותיו של האחיין‪ .‬ניתוח העדפות מעניק משקל לתועלת של כל צירוף אפשרי (‪utility‬‬
‫‪ )weight‬תוך שמירה על דירוג ההעדפות‪ .‬טבלה ‪ 7.7‬מציגה דוגמה היפותטית לחלוקת משקל‬
‫תועלת שבה נשמר דירוג ההעדפות‪ .‬כשיודעים את משקל התועלת אפשר לדעת מהן העדפות‬
‫הצרכנים גם ביחס למוצרים שאינם מוצעים למכירה בעת עריכת הסקר‪.‬‬
‫ט ב לה ‪ :7.6‬סדר ה עדי פויו ת ש ל סטוד נ ט‬
‫קילומטראז’ גבוה לליטר‬
‫‪90‬‬
‫קילומטראז’ נמוך לליטר‬
‫סוג המכונית‬
‫מכונית יפנית‬
‫מכונית אמריקאית‬
‫מכונית יפנית‬
‫מכונית אמריקאית‬
‫מסחרית‬
‫‪1‬‬
‫‪3‬‬
‫‪2‬‬
‫‪5‬‬
‫משפחתית‬
‫‪4‬‬
‫‪8‬‬
‫‪6‬‬
‫‪10‬‬
‫מנהלים‬
‫‪7‬‬
‫‪11‬‬
‫‪9‬‬
‫‪12‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫יעיב ש קרפ‬
‫םימדקתמ םיאשונ ‬
‫נניח‬
‫תועלת של מסחרית‬
‫= ‪1.0‬‬
‫תועלת של משפחתית‬
‫= ‪0.5‬‬
‫תועלת של מנהלים‬
‫= ‪0.2‬‬
‫תועלת של קילומטראז’ גבוה לליטר‬
‫= ‪0.4‬‬
‫תועלת של קילומטראז’ נמוך לליטר‬
‫= ‪0.2‬‬
‫תועלת של מכונית יפנית‬
‫= ‪0.6‬‬
‫תועלת של מכונית אמריקאית‬
‫= ‪0.2‬‬
‫אם נסכם את ערכי התועלת של כל שנים‪-‬עשר הצירופים האפשריים תתקבל התוצאה שלהלן‪:‬‬
‫ט ב לה ‪ :7 .7‬ערכי ה תו ע ל ת ש ל הה עד פו ת של ס ט ו ד נ ט מ סו ים‬
‫קילומטראז’ גבוה לליטר‬
‫קילומטראז’ נמוך לליטר‬
‫סוג המכונית‬
‫מכונית יפנית‬
‫מכונית אמריקאית‬
‫מכונית יפנית‬
‫מכונית אמריקאית‬
‫מסחרית‬
‫‪2.0‬‬
‫‪1.6‬‬
‫‪1.8‬‬
‫‪1.4‬‬
‫משפחתית‬
‫‪1.5‬‬
‫‪1.1‬‬
‫‪1.3‬‬
‫‪0.9‬‬
‫מנהלים‬
‫‪1.2‬‬
‫‪0.8‬‬
‫‪1.0‬‬
‫‪0.6‬‬
‫שימו לב‪ :‬סיכום ערכי התועלת משמר את סדר ההעדפות של הצרכן‪ .‬דבר זה מאפשר לסימולטור‬
‫לאמוד העדפה בבחירות אחרות‪.‬‬
‫ישנם מודלים רבים המבוססים על מחשבים המסוגלים לאמוד את ערך התועלת מניסוי שאיננו‬
‫מתייחס ל"פרופיל שלם" (כלומר‪ ,‬כל הצירופים האפשריים נבדקים כדי לברר העדפת חלופות)‪.‬‬
‫ניתוח העדפות מתואר כמודל "מפרק" משום שמסיקים בו ערכי תועלת מתוך ההעדפות בין‬
‫אפשרויות הבחירה השונות‪ .‬כלומר‪ ,‬בניתוח העדפות מפרקים את שקלול התמורות בין האפשרויות‬
‫השונות להעדפות של רמות הביצוע של המאפיינים שלהן‪ .‬לעומת זאת‪ ,‬המודל הליניארי המפצה‬
‫שהוזכר למעלה הוא מודל "מחבר"‪ .‬הצרכן נשאל אודות העדפת מאפיינים מסוימים‪ ,‬ועורך המחקר‬
‫מרכיב או מחבר את התוצאות של העדפות המאפיינים לעמדה‪ ,‬שהיא מדד ליחס חיובי או שלילי‪.‬‬
‫ישנן מספר תוכנות המיועדות לשימוש במחשב ביתי העורכות ניתוח העדפות‪ ,‬וביניהן ‪SYSTAT‬‬
‫(גרסת ‪ SPSS ,)PC‬של חברת ברטון קלארק (ניו יורק) ו‪( Sawtooth Software -‬אוונסטון‪,‬‬
‫אילינוי)‪ .‬חברות תוכנה רבות מציעות בחינם דיסקט הדגמה כדי להדגים שימוש בניתוח העדפות‪.‬‬
‫(מומלץ לקוראים המתעניינים בכך לבקש מהחברות גרסת הדגמה)‪ .‬הפרק הבא עוסק באומדן‪.‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪91‬‬
‫פרק שמיני‬
‫ה ע רכ ה‬
‫בפרק זה נעסוק בהערכת פרמטרים‪ .‬נזכור שהערך האמיתי של סטטיסטי נתון הוא קבוע‬
‫המכונה פרמטר‪ .‬לדוגמה‪ ,‬אם ההכנסה השנתית הממוצעת למשק בית במדינת אילינוי‪,‬‬
‫ארה"ב‪ ,‬בשנת ‪ 1993‬הייתה ‪ ,$35,000‬אז ‪ .µ = $35,000‬הפרמטרים מזוהים באותיות‬
‫יווניות‪.‬‬
‫נניח שאנו רוצים לאמוד את ההכנסה הממוצעת למשק בית באמצעות איסוף דגימות של הכנסה‬
‫למשק בית במחוזות המרכזיים באילינוי‪ .‬הביטוי ̅‪X‬‬
‫שלנו הוא ‪ ,$34,000‬הרי ש = ‪ .X̅ $34,000‬אנו משתמשים באותיות רומיות לסמן משתנים‬
‫מבטא את ממוצע המדגם‪ .‬אם ממוצע המדגם‬
‫אקראיים‪ ,‬היות שהערך שלהם משתנה בהתאם למשתתפים במדגם‪.‬‬
‫אמידה נקודתית היא שיטת אמידה שבה ערך מדגמי משמש כהערכה לפרמטר‪ .‬בדוגמה שהובאה‬
‫קודם‪ ,‬האמידה הנקודתית ל‪µ -‬‬
‫תהיה ‪ .$34,000‬זה אינו הערך המדויק אך הוא אינו רחוק מהערך‬
‫האמיתי של הפרמטר‪.‬‬
‫אמידה מרווחית (רציפה) משמשת גם היא משום שאמידה נקודתית המבוססת על מדגם קטן‬
‫כמעט אף פעם אינה מדויקת‪ .‬אמידה נקודתית משתמשת ב‪ ,X̅ -‬משתנה אקראי עם טווח ערכים‪,‬‬
‫כדי לאמוד את הפרמטר ‪µ‬‬
‫המדגמי‪ X̅ , ,‬פלוס ומינוס )‪ (±‬רווח‪ ,‬כך שב‪ 95%-‬מן הזמן אנו כוללים את כל הערכים האפשריים‬
‫שהוא ערך בודד מסוים‪ .‬אמידה מרווחית עושה שימוש בטווח‪ :‬הערך‬
‫לפרמטרים שלנו‪ .‬הטווח הזה מכונה רווח בר סמך‪ .‬בכתיבה מתמטית‪:‬‬
‫‪Pr(lower limit< µ<upper limit) = 0.95‬‬
‫‪ - Pr‬סבירות‬
‫‪ - Lower limit‬גבול תחתון‬
‫‪ - Upper limit‬גבול עליון‬
‫אומדנים שמרניים משתמשים ברווח בר סמך של ‪ ,99%‬שלהם טווח ערכים גדול יותר בהשוואה‬
‫לרווח בר סמך של ‪ 95%‬או ‪.90%‬‬
‫שימוש ברווח בר סמך גדול עשוי להקשות‪ :‬אם אנו רוצים לאמוד הכנסה ממוצעת‪ ,‬טווח של‬
‫‪ $20,000‬עד ‪ $80,000‬אינו שימושי במיוחד‪ .‬טווח קטן יותר יהיה נוח ושימושי הרבה יותר‪.‬‬
‫‪92‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ינימ ש קרפ‬
‫הכרעה ‬
‫טע ו ת ת ק ן‬
‫בפרקים הקודמים השתמשנו בסטיית תקן כדי למדוד את הפיזור של התצפיות‪ .‬בהערכת פרמטרים‬
‫נשתמש בממוצע המדגם ̅‪ .X‬טעות התקן מודדת את הפיזור של ̅‪ .X‬במדגמים אקראיים טעות‬
‫התקן שווה לסטיית התקן חלקי השורש הריבועי של ‪ - n‬גודל המדגם‪ .‬בכתיבה מתמטית‪:‬‬
‫‪σX̅ = σ/√n‬‬
‫דוגמה‪:‬‬
‫בחרנו באקראי תשעה משקי בית בישוב קטן במדינת אילינוי כדי להעריך את ההכנסה השנתית‬
‫הממוצעת למשק בית במחוז‪.‬‬
‫ט ב לה ‪8.1‬‬
‫הכנסה ממוצעת למשק בית (באלפים)‬
‫‪(2‬נתונים ‪ -‬ממוצע)‬
‫‪X̅ 1 = 32‬‬
‫‪X̅ 2 = 36‬‬
‫‪X̅ 3 = 34‬‬
‫‪X̅ 4 = 34‬‬
‫‪X̅ 5 = 30‬‬
‫‪X̅ 6 = 28‬‬
‫‪4‬‬
‫‪4‬‬
‫‪0‬‬
‫‪0‬‬
‫‪16‬‬
‫‪36‬‬
‫‪X̅ 7 = 40‬‬
‫‪X̅ = 348‬‬
‫‪0‬‬
‫‪X̅ 9 = 38‬‬
‫‪16‬‬
‫סך הכל = ‪306‬‬
‫‪112‬‬
‫ממוצע = ‪34‬‬
‫‪112/(n - 1) = 14‬‬
‫‪36‬‬
‫סטיית תקן = √‪14 = 3.74‬‬
‫טעות תקן = ‪1.25 = 1.247 = 3.74/3‬‬
‫הפיזור של ̅‪X‬‬
‫מתאים לעקומת הפעמון הרגילה‪ .‬נניח שאנו רוצים רווח בר סמך של ‪ 95%‬התחום‬
‫שמתחת לעקומה מהגבול העליון של הרווח ומטה מוכרח להיות ‪ ,0.975‬והתחום שמתחת לעקומה‬
‫מן הגבול התחתון של הרווח ומטה מוכרח להיות ‪ ,0.025‬כך‪ ,‬התחום שמתחת לעקומה הנכלל‬
‫ברווח בר הסמך הוא ‪.)0.95 = 0.025 - 0.975( 95%‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪93‬‬
‫הכרעה‬
‫ינימ ש קרפ‬
‫נחפש בטבלה א' את הערך ‪ ,0.975‬ונמצא את נקודת הציון ‪Z‬‬
‫של ‪ .1.96‬רווח בר הסמך מוגדר‬
‫כך‪:‬‬
‫‪ - ±(Z coordinate)(standard error). Z coordinate‬נקודת הציון ‪standard . Z‬‬
‫‪ - error‬טעות תקן‪.‬‬
‫רווח ַ ּבר סמך ל‪µ-‬‬
‫=‬
‫)‪Z value. X̅ ± (Z value)(standard error‬‬
‫‪ -‬ערך ‪.Z‬‬
‫בדוגמה שלנו‪ ,‬הרווח בר סמך של ‪ 95%‬להכנסה שנתית ממוצעת למשק בית הוא‪:‬‬
‫‪ 31,560$ = )1.25()1.96(± 34‬עד ‪36,440$‬‬
‫כך הרווח ַ ּבר סמך צר יותר ובעל ערך רב יותר עבור התחזית‪.‬‬
‫באמצעות אמידה רווחית (רציפה)‪ ,‬מי שמבקש לחזות דבר מה בכלים סטטיסטיים משתמש בערך‬
‫המבוסס על המדגם עבור פרמטרים אלו ומוסיף רווח נתון (פלוס ומינוס) סביב לאומד‪ .‬בהמשך‬
‫מובא סיכום של המרווחים עבור הערכת פרמטרים‪ .‬הוכחות וגזירות אפשר למצוא בספרם של‬
‫וולפול ומאיירס‪ ,1989 ,‬מכיוון שספר זה מיועד לשמש כמדריך חזרה לסטודנטים שלמדו לפחות‬
‫קורס סטטיסטיקה אחד‪ .‬מבחינת הכתיבה המתמטית‪ n ,‬הוא גודל המדגם או מספר הפריטים‬
‫הכלולים במדגם‪ .d.f .‬הן דרגות החופש‪ ,‬שהן ‪ n - 1‬עבור התפלגות ‪( t‬טבלה ב')‬
‫ו‪χ2-‬‬
‫(טבלה‬
‫ג')‪ µ ,‬הוא ממוצע האוכלוסיה‪ σ ,‬הוא סטית התקן ו‪ σ2-‬הוא השונות‪ α ,‬היא הסבירות לשגיאה‬
‫מסוג ‪ I‬או ערך ‪ p‬שהוזכר קודם (המכונה גם ‪ 1‬מינוס רמת מובהקות); ‪ α/2‬משמש כאשר בידינו‬
‫מבחן דו‪-‬זנבי‪.‬‬
‫המבחנים להערכת פרמטרים של ממוצע מסוכמים כדלהלן (תרשים ‪ ,)8.1‬בהנחה של טווח טעות‬
‫מקסימלי של ‪( 5%‬לשגיאה מסוג ‪ .)I‬בתרשים ‪ 8.2‬מובאים גם רווחים בני סמך של ‪ 95%‬לפרמטרים‬
‫של רגרסיה‪.‬‬
‫‪94‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ינימ ש קרפ‬
‫הכרעה ‬
‫תרשים ‪ :8.1‬רווחים בני סמ ך ש ל ‪ 9 5%‬ל ה ע ר כ ת מ מ וצ ע‬
‫‪.1‬‬
‫‪1‬הערכת ממוצע אם ‪ n‬פחות מ‪ ,30-‬שונות ידועה; ממוצע מדגם‬
‫}‪X̅ ± {1.96 σ/√n‬‬
‫‪.2‬‬
‫‪2‬הערכת ממוצע אם ‪ n‬פחות מ‪ ,30-‬שונות בלתי ידועה; ממוצע מדגם‬
‫}‪X̅ ± {td.f.s/√n‬‬
‫דרגות חופש )‪n - 1 = (d.f.‬‬
‫‪.3‬‬
‫‪3‬הערכת הפרש ממוצעים אם ( ‪ )n2 + n1‬יותר מ‪ ,30-‬ושונות ידועות אינן שוות בין‬
‫הממוצעים;‬
‫הפרש בין ממוצעי המדגמים‬
‫}])‪X̅1 -X̅2 ± {1.96√ [{σ12/n1) + (σ 22/n2‬‬
‫‪.4‬‬
‫‪4‬הערכת הפרש ממוצעים אם ( ‪ )n2 + n1‬פחות מ‪ ,30-‬ושונות לא ידועות אם שוות או‬
‫שאינן שוות בין הממוצעים; משתמשים ב‪-‬‬
‫‪pooled‬‬
‫‪2‬‬
‫‪s‬‬
‫הפרש בין ממוצעי המדגמים‪,‬‬
‫})]‪X̅1 -X̅2 ± {td.f. (√s2pooled /[1/n1 + 1/n 2‬‬
‫;)‪+ n2 - 2‬‬
‫‪(S2pooled = {(n1 - 1)s²¹ + (n 2 - 1)s²}/(n‬‬
‫‪1‬‬
‫‪²‬‬
‫דרגות חופש )‪)n1 + n2 - 2( = (d.f.‬‬
‫‪ S 2‬הוא הערכת עבור ‪ ;σ 2‬הוא מחושב עבור כל קבוצה בנפרד‪.‬‬
‫‪.‬‬
‫‪5‬הערכת הפרש ממוצעים אם ( ‪ )n2 + n1‬פחות מ‪ ,30-‬ושונות בלתי ידועות אבל ידוע‬
‫שאינן שוות בין הממוצעים;‬
‫הפרש בין ממוצעי המדגמים‪X̅1-X̅2±{td.f.(√ [(s 1/n1)+(s 2 /n2)])} - ,‬‬
‫‪ S 2‬הוא הערכה עבור ‪ ;σ 2‬הוא מחושב עבור כל קבוצה בנפרד‪.‬‬
‫דרגות חופש )‪= (d.f.‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫‪2‬‬
‫})‪[s 1/(n1) + s 2 /(n2)] / {[(s 1/n1) ]/(n1 - 1)+[(s 22/n2)2]/(n2 - 1‬‬
‫‪2‬‬
‫‪2‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪95‬‬
‫הכרעה‬
‫ינימ ש קרפ‬
‫תרשים ‪8.2‬‬
‫הערכים למשוואת הרגרסיה ‪Y = a + bX‬‬
‫‪1 .1‬הערכה של ‪Y | X0‬‬
‫כאשר מציבים ערך במקומו של ה‪ X-‬במשוואת הרגרסיה‪ ,‬ערך המכונה ‪ ,X0‬מקבלים ‪,Ŷ‬‬
‫ערך מנובא ל‪ .Y-‬הרווח ַ ּבר הסמך ל‪ Y-‬הוא‪:‬‬
‫)}‪Ŷ ± tα/2 d.f. (S √ {1 + 1/n+(x0 -X̅)2/SSX‬‬
‫דרגות חופש (‪ S ;n - 2 = ).d.f‬הוא הערכה עבור ‪ SSX ; σ‬הוא סכום הריבועים עבור‬
‫המשתנה ‪( X‬עיינו בפרק העוסק ברגרסיה)‪S2 = SSE/n-2 ,‬‬
‫‪2 .2‬הערכה של ‪µˠ | X0‬‬
‫כעת נאמוד ערך ממוצע עבור ‪ ,µˠ | X0‬כלומר הממוצע עבור ‪ Y‬בהינתן ערך ‪ X‬מסוים‪.X0 ,‬‬
‫)}‪Ŷ ± tα/2 d.f. (S√{1/n+(x0 - X̅)2/SSX‬‬
‫דרגות חופש )‪ S ;n -2 = (d.f.‬הוא הערכה עבור ‪ SSX ;σ‬הוא סכום הריבועים עבור‬
‫המשתנה ‪( X‬עיינו בפרק העוסק ברגרסיה)‪.S 2 = SSE/n - 2 ,‬‬
‫‪.3‬‬
‫‪3‬הערכה של הפרמטר ‪ ,β‬המקדם של ‪ ,X‬מבוסס על ערך ‪ b‬המנובא‪.‬‬
‫)}‪b ± tα/2 d.f. (S/√{SSX‬‬
‫דרגות חופש )‪ S ;n - 2 = (d.f.‬הוא הערכה עבור ‪ SSX ;σ‬הוא סכום הריבועים עבור‬
‫המשתנה ‪( X‬עיינו בפרק העוסק ברגרסיה)‪.S 2 = SSE/n - 2 ,‬‬
‫‪.4‬‬
‫‪4‬הערכת הפרמטר ‪ ,α‬נקודת החיתוך עם ציר ה‪ ,y-‬המבוסס על הערך המנובא ‪.a‬‬
‫})‪a ± tα/2 d.f. S√{(ΣiX )/(√n⋅SSX‬‬
‫)‪S2 = SSE/ (n-2‬‬
‫דרגות חופש )‪ S ;n - 2 = (d.f.‬הוא הערכה עבור ‪ SSX ;σ‬הוא סכום הריבועים‬
‫עבור המשתנה ‪( X‬עיינו בפרק העוסק ברגרסיה)‪.‬‬
‫‪2‬‬
‫‪i‬‬
‫שימו לב‪ :‬כאשר אומדים (או מנבאים) פרמטרים לבעיית רגרסיה מרובה‪ ,‬תוכנת המחשב תספק‬
‫מעצמה רווחים בני סמך לפרמטרים הנתונים‪.‬‬
‫תרגיל‪ :‬חשבו רווחים בני סמך של ‪ 95%‬ל‪β ,µˠ | X0 ,Y | X0 -‬‬
‫ו‪ ,α -‬בעזרת הנתונים שהובאו‬
‫בתרגיל חישוב תכולת הזפת במים לפי טמפרטורת המים (היעזרו בטבלה בתחילת הפרק העוסק‬
‫בניתוח רגרסיה)‪.‬‬
‫‪96‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫ינימ ש קרפ‬
‫הכרעה ‬
‫ג ו ד ל ה מ ד ג ם הנ דר ש לנ י ב ו י מ מ ו צע‬
‫כאשר עוסקים באמידת רווח בר סמך‪ ,‬אם גודל הרווח ידוע (‪±‬‬
‫רווח נתון מהערך המנובא) ורמת‬
‫המובהקות ידועה‪ ,‬אפשר לאמוד את גודל המדגם הנדרש תוך שימוש בשיטת הציון הבאה‪:‬‬
‫‪ = ϵ‬הסכום הנדרש להוספה לערך ̅‪ X‬ולחיסור ממנו‪ ,‬כך שישנה סבירות של ‪1 - α/2‬‬
‫זה ‪ )95%‬שהפרמטר נמצא בתוך הרווח‪ n .‬הוא גודל המדגם הנדרש‪.‬‬
‫(במקרה‬
‫אם ‪ ,α = 0.05‬הנוסחה שלהלן תקפה‪.‬‬
‫‪n = {1.96 σ/ ϵ}2‬‬
‫אם ‪α‬‬
‫הוא מספר אחר‪ ,‬היעזרו בטבלה א' כדי למצוא את ערך ה‪ Z-‬המתאים‪ .‬לדוגמה‪,‬‬
‫אם ‪ ,α = 0.01‬אז ‪= 2.575 ,α/2 = 0.005‬‬
‫‪α/2‬‬
‫‪. Z‬‬
‫כדי לסכם נושא זה‪ ,‬נציג את נושא המודלים של מרקוב לתלמידים השולטים בכפל מטריצות‪.‬‬
‫מ ו ד ל י ם ש ל מר ק ו ב‬
‫נניח שיש בידינו נתוני נתח שוק לזמן ‪ ,t‬ואנו רוצים לנבא נתוני נתח שוק לזמן ‪t+1‬‬
‫בעזרת‬
‫התנהגויות רכישה משתי הזדמנויות קודמות כאינדיקטור להתנהגות רכישה עתידית‪ .‬מודל זה‬
‫מתאים למוצרים בעלי מעורבות נמוכה‪ ,‬כלומר‪ ,‬מוצרים זולים הנקנים בתדירות גבוהה‪ ,‬והצרכן‬
‫כמעט אינו משקיע מאמץ בחיפוש אחר קניה משתלמת (לדוגמה‪ ,‬חלב‪ ,‬גומי לעיסה וכדומה)‪.‬‬
‫ישנם ארבעה תאים בטבלה‪:‬‬
‫‬
‫•נ"מ ‪ -‬נאמנות למותג‪ ,‬הצרכן קנה את המותג שאתם משווקים פעמיים רצופות‪.‬‬
‫‬
‫•מ ‪ -‬משנה‪ ,‬הצרכן קנה את המותג שלכם אך בקניה הבאה החליט לשנות ולרכוש מותג אחר‪.‬‬
‫‬
‫•ח ‪ -‬מתנסה בחידושים‪ ,‬הצרכן קנה מותג אחר בקניה הראשונה ובקניה הבאה החליט לרכוש‬
‫את המותג שלכם‪.‬‬
‫‬
‫•א ‪ -‬אינו משתמש‪ ,‬הצרכן אינו רוכש את המוצר שלכם אף פעם‪.‬‬
‫כך נבנה את המטריצה‪:‬‬
‫רכיש ת המו ת ג ב זמן ‪t +1‬‬
‫רכישת המותג בזמן ‪t‬‬
‫המותג שלכם‬
‫כל המותגים האחרים‬
‫המותג שלכם‬
‫נ”מ‬
‫מ‬
‫כל המותגים האחרים‬
‫ח‬
‫א‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪97‬‬
‫הכרעה‬
‫ינימ ש קרפ‬
‫אפשר להשתמש במטריצה זו עבור גודל מדגם גדול‪ ,‬ואפשר לפרש אותה כמטריצה סטוכסטית‪,‬‬
‫כלומר‪ ,‬כיצד עובר נתח השוק מזמן ‪t‬‬
‫לזמן ‪ .t+1‬ניקח את נתח השוק הנוכחי שלנו‪ ,‬נכפיל אותו‬
‫במטריצה הסטוכסטית ונקבל את נתח השוק המנובא עבור זמן ‪.t+1‬‬
‫נניח שלמותג שלנו יש בזמן ‪t‬‬
‫נתח שוק של ‪( 0.3‬מזה נובע שנתח השוק של כל המותגים האחרים‬
‫הוא ‪ ,)0.7‬והמטריצה הסטוכסטית נותנת לנו ערכים של ‪ 0.6‬עבור נ"מ ו‪ 0.7-‬עבור א‪ .‬אנו יודעים‬
‫שסכום האיברים בכל שורה מוכרח להיות‬
‫= ‪ ,1‬מכיוון שזוהי הסתברות מותנית לזמן ‪t+1‬‬
‫המבוססת על המתרחש בזמן ‪ .t‬נפתור את הבעיה בעזרת בנית וקטור שורה של נתח שוק‪ :‬המותג‬
‫שלכם וכל המותגים האחרים‪ .‬לאחר מכן נכפול את וקטור השורה הזה במטריצה הסטוכסטית‬
‫כדי לנבא את נתח השוק לזמן ‪ .t+1‬הערך המנובא שקיבלנו לזמן ‪t+1‬‬
‫ ‪] = [0.39‬‬
‫]‪0.61‬‬
‫‪0.4‬‬
‫‪0.7‬‬
‫ ‪[0.6‬‬
‫ ‪0.3‬‬
‫הוא ‪ ,0.39‬ראו בהמשך‪.‬‬
‫‪[0.3 0.7] x‬‬
‫אנו יכולים להשתמש במטריצה הסטוכסטית שלנו גם כדי לנבא הסתברות מצב יציב‪ .‬במצב‬
‫יציב נעשים המספרים הדינמיים והמשתנים של נתח השוק יציבים והופכים לפרמטרים‪ .‬האות‬
‫המסמנת הסתברויות מצב יציב היא ‪ .π‬נשתמש באותה שיטת ציון למטריצה הסטוכסטית שלנו‪:‬‬
‫נציב ‪ π1‬לנתח השוק של המותג שלנו במצב יציב‪ ,‬ו‪π2 -‬‬
‫לנתח השוק של כל המותגים האחרים‬
‫במצב יציב‪.‬‬
‫וזמן ‪ .t+1‬לפיכך‪:‬‬
‫מכיוון שאנו מנבאים נתח שוק במצב יציב‪ ,‬נתח השוק לא ישתנה בין זמן ‪t‬‬
‫]‪ - Transition matrix .[π 1 π 2] x [transition matrix] = [π 1 π 2‬מטריצה‬
‫סטוכסטית‪.‬‬
‫כמו כן‪ ,‬אנו יודעים ש‪+ π2 = 1 :‬‬
‫יכולים למצוא את ‪ π 1‬ואת ‪.π 2‬‬
‫]‪π 2‬‬
‫ ‪] = [π‬‬
‫‪1‬‬
‫ ‪[0.6‬‬
‫ ‪0.3‬‬
‫‪0.4‬‬
‫‪0.7‬‬
‫‪ .π 1‬לפיכך‪ ,‬יש בידינו שני נעלמים ושתי משוואות ואנו‬
‫‪[π1 π2] x‬‬
‫‪π1 + π2 = 1‬‬
‫לאחר שפתרנו שתי משוואות אלו הגענו למשוואה‪:‬‬
‫‪1-π 2 =π1‬‬
‫‪0.6π1 + 0.3π 2 = π 1‬‬
‫נציב את‬
‫‪1-π2‬‬
‫עבור‬
‫‪π1‬‬
‫ונקבל‪:‬‬
‫‪.π1= 3/7, π2 = 4/7‬‬
‫כך אפשר להשתמש בהערכה (ניבוי) פרמטרים למציאת נתח שוק במצב יציב בעזרת מטריצה‬
‫סטוכסטית‪.‬‬
‫‪98‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫דבר המחבר‬
‫אני מקווה שספר זה יעודד את הלומדים להמשיך ולעסוק‬
‫בסטטיסטיקה ובמדעי השיווק‪ ,‬הן כחוקרים והן כאנשי מקצוע‪.‬‬
‫שיטות כמותיות עשויות להיות כלים רבי ערך בפתרון בעיות‬
‫בעולם העסקים‪.‬‬
‫טבלאות‬
‫תואלבט‬
‫‬
‫התחום שמתחת‬
‫לעקומת ההתפלגות‬
‫הנורמלית‬
‫‪area‬‬
‫טב לה ‪1‬‬
‫‪102‬‬
‫‪0.09‬‬
‫‪0.08‬‬
‫‪0.07‬‬
‫‪0.06‬‬
‫‪0.05‬‬
‫‪0.04‬‬
‫‪0.03‬‬
‫‪0.02‬‬
‫‪0.01‬‬
‫‪0.00‬‬
‫‪z‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪-3.80‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪-3.70‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0001‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪-3.60‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪.0002‬‬
‫‪-3.50‬‬
‫‪.0002‬‬
‫‪.0003‬‬
‫‪.0003‬‬
‫‪.0003‬‬
‫‪.0003‬‬
‫‪.0003‬‬
‫‪.0003‬‬
‫‪.0003‬‬
‫‪.0003‬‬
‫‪.0003‬‬
‫‪-3.40‬‬
‫‪.0003‬‬
‫‪.0004‬‬
‫‪.0004‬‬
‫‪.0004‬‬
‫‪.0004‬‬
‫‪.0004‬‬
‫‪.0004‬‬
‫‪.0005‬‬
‫‪.0005‬‬
‫‪.0005‬‬
‫‪-3.30‬‬
‫‪.0005‬‬
‫‪.0005‬‬
‫‪.0005‬‬
‫‪.0006‬‬
‫‪.0006‬‬
‫‪.0006‬‬
‫‪.0006‬‬
‫‪.0006‬‬
‫‪.0007‬‬
‫‪.0007‬‬
‫‪-3.20‬‬
‫‪.0007‬‬
‫‪.0007‬‬
‫‪.0008‬‬
‫‪.0008‬‬
‫‪.0008‬‬
‫‪.0008‬‬
‫‪.0009‬‬
‫‪.0009‬‬
‫‪.0009‬‬
‫‪.0010‬‬
‫‪-3.10‬‬
‫‪.0010‬‬
‫‪.0010‬‬
‫‪.0011‬‬
‫‪.0011‬‬
‫‪.0011‬‬
‫‪.0012‬‬
‫‪.0012‬‬
‫‪.0013‬‬
‫‪.0013‬‬
‫‪.0013‬‬
‫‪-3.00‬‬
‫‪.0014‬‬
‫‪.0014‬‬
‫‪.0015‬‬
‫‪.0015‬‬
‫‪.0016‬‬
‫‪.0016‬‬
‫‪.0017‬‬
‫‪.0018‬‬
‫‪.0018‬‬
‫‪.0019‬‬
‫‪-2.90‬‬
‫‪.0019‬‬
‫‪.0020‬‬
‫‪.0021‬‬
‫‪.0021‬‬
‫‪.0022‬‬
‫‪.0023‬‬
‫‪.0023‬‬
‫‪.0024‬‬
‫‪.0025‬‬
‫‪.0026‬‬
‫‪-2.80‬‬
‫‪.0026‬‬
‫‪.0027‬‬
‫‪.0028‬‬
‫‪.0029‬‬
‫‪.0030‬‬
‫‪.0031‬‬
‫‪.0032‬‬
‫‪.0033‬‬
‫‪.0034‬‬
‫‪.0035‬‬
‫‪-2.70‬‬
‫‪.0036‬‬
‫‪.0037‬‬
‫‪.0038‬‬
‫‪.0039‬‬
‫‪.0040‬‬
‫‪.0041‬‬
‫‪.0043‬‬
‫‪.0044‬‬
‫‪.0045‬‬
‫‪.0047‬‬
‫‪-2.60‬‬
‫‪.0048‬‬
‫‪.0049‬‬
‫‪.0051‬‬
‫‪.0052‬‬
‫‪.0054‬‬
‫‪.0055‬‬
‫‪.0057‬‬
‫‪.0059‬‬
‫‪.0060‬‬
‫‪.0062‬‬
‫‪-2.50‬‬
‫‪.0064‬‬
‫‪.0066‬‬
‫‪.0068‬‬
‫‪.0069‬‬
‫‪.0071‬‬
‫‪.0073‬‬
‫‪.0075‬‬
‫‪.0078‬‬
‫‪.0080‬‬
‫‪.0082‬‬
‫‪-2.40‬‬
‫‪.0084‬‬
‫‪.0087‬‬
‫‪.0089‬‬
‫‪.0091‬‬
‫‪.0094‬‬
‫‪.0096‬‬
‫‪.0099‬‬
‫‪.0102‬‬
‫‪.0104‬‬
‫‪.0107‬‬
‫‪-2.30‬‬
‫‪.0110‬‬
‫‪.0113‬‬
‫‪.0116‬‬
‫‪.0119‬‬
‫‪.0122‬‬
‫‪.0125‬‬
‫‪.0129‬‬
‫‪.0132‬‬
‫‪.0136‬‬
‫‪.0139‬‬
‫‪-2.20‬‬
‫‪.0143‬‬
‫‪.0146‬‬
‫‪.0150‬‬
‫‪.0154‬‬
‫‪.0158‬‬
‫‪.0162‬‬
‫‪.0166‬‬
‫‪.0170‬‬
‫‪.0174‬‬
‫‪.0179‬‬
‫‪-2.10‬‬
‫‪.0183‬‬
‫‪.0188‬‬
‫‪.0192‬‬
‫‪.0197‬‬
‫‪.0202‬‬
‫‪.0207‬‬
‫‪.0212‬‬
‫‪.0217‬‬
‫‪.0222‬‬
‫‪.0228‬‬
‫‪-2.00‬‬
‫‪.0233‬‬
‫‪.0239‬‬
‫‪.0244‬‬
‫‪.0250‬‬
‫‪.0256‬‬
‫‪.0262‬‬
‫‪.0268‬‬
‫‪.0274‬‬
‫‪.0281‬‬
‫‪.0287‬‬
‫‪-1.90‬‬
‫‪.0294‬‬
‫‪.0301‬‬
‫‪.0307‬‬
‫‪.0314‬‬
‫‪.0322‬‬
‫‪.0329‬‬
‫‪.0336‬‬
‫‪.0344‬‬
‫‪.0351‬‬
‫‪.0359‬‬
‫‪-1.80‬‬
‫‪.0367‬‬
‫‪.0375‬‬
‫‪.0384‬‬
‫‪.0392‬‬
‫‪.0401‬‬
‫‪.0409‬‬
‫‪.0418‬‬
‫‪.0427‬‬
‫‪.0436‬‬
‫‪.0446‬‬
‫‪-1.70‬‬
‫‪.0455‬‬
‫‪.0465‬‬
‫‪.0475‬‬
‫‪.0485‬‬
‫‪.0495‬‬
‫‪.0505‬‬
‫‪.0516‬‬
‫‪.0526‬‬
‫‪.0537‬‬
‫‪.0548‬‬
‫‪-1.60‬‬
‫‪.0559‬‬
‫‪.0571‬‬
‫‪.0582‬‬
‫‪.0594‬‬
‫‪.0606‬‬
‫‪.0618‬‬
‫‪.0630‬‬
‫‪.0643‬‬
‫‪.0655‬‬
‫‪.0668‬‬
‫‪-1.50‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫תואלבט ‬
‫‪0.09‬‬
‫‪0.08‬‬
‫‪0.07‬‬
‫‪0.06‬‬
‫‪0.05‬‬
‫‪0.04‬‬
‫‪0.03‬‬
‫‪0.02‬‬
‫‪0.01‬‬
‫‪0.00‬‬
‫‪z‬‬
‫‪.0681‬‬
‫‪.0694‬‬
‫‪.0708‬‬
‫‪.0721‬‬
‫‪.0735‬‬
‫‪.0749‬‬
‫‪.0764‬‬
‫‪.0778‬‬
‫‪.0793‬‬
‫‪.0808‬‬
‫‪-1.40‬‬
‫‪.0823‬‬
‫‪.0838‬‬
‫‪.0853‬‬
‫‪.0869‬‬
‫‪.0885‬‬
‫‪.0901‬‬
‫‪.0918‬‬
‫‪.0934‬‬
‫‪.0951‬‬
‫‪.0968‬‬
‫‪-1.30‬‬
‫‪.0985‬‬
‫‪.1003‬‬
‫‪.1020‬‬
‫‪.1038‬‬
‫‪.1056‬‬
‫‪.1075‬‬
‫‪.1093‬‬
‫‪.1112‬‬
‫‪.1131‬‬
‫‪.1151‬‬
‫‪-1.20‬‬
‫‪.1170‬‬
‫‪.1190‬‬
‫‪.1210‬‬
‫‪.1230‬‬
‫‪.1251‬‬
‫‪.1271‬‬
‫‪.1292‬‬
‫‪.1314‬‬
‫‪.1335‬‬
‫‪.1357‬‬
‫‪-1.10‬‬
‫‪.1379‬‬
‫‪.1401‬‬
‫‪.1423‬‬
‫‪.1446‬‬
‫‪.1469‬‬
‫‪.1492‬‬
‫‪.1515‬‬
‫‪.1539‬‬
‫‪.1562‬‬
‫‪.1587‬‬
‫‪-1.00‬‬
‫‪.1611‬‬
‫‪.1635‬‬
‫‪.1660‬‬
‫‪.1685‬‬
‫‪.1711‬‬
‫‪.1736‬‬
‫‪.1762‬‬
‫‪.1788‬‬
‫‪.1814‬‬
‫‪.1841‬‬
‫‪-0.90‬‬
‫‪.1867‬‬
‫‪.1894‬‬
‫‪.1922‬‬
‫‪.1949‬‬
‫‪.1977‬‬
‫‪.2005‬‬
‫‪.2033‬‬
‫‪.2061‬‬
‫‪.2090‬‬
‫‪.2119‬‬
‫‪-0.80‬‬
‫‪.2148‬‬
‫‪.2177‬‬
‫‪.2206‬‬
‫‪.2236‬‬
‫‪.2266‬‬
‫‪.2296‬‬
‫‪.2327‬‬
‫‪.2358‬‬
‫‪.2389‬‬
‫‪.2420‬‬
‫‪-0.70‬‬
‫‪.2451‬‬
‫‪.2483‬‬
‫‪.2514‬‬
‫‪.2546‬‬
‫‪.2578‬‬
‫‪.2611‬‬
‫‪.2643‬‬
‫‪.2676‬‬
‫‪.2709‬‬
‫‪.2743‬‬
‫‪-0.60‬‬
‫‪.2776‬‬
‫‪.2810‬‬
‫‪.2843‬‬
‫‪.2877‬‬
‫‪.2912‬‬
‫‪.2946‬‬
‫‪.2981‬‬
‫‪.3015‬‬
‫‪.3050‬‬
‫‪.3085‬‬
‫‪-0.50‬‬
‫‪.3121‬‬
‫‪.3156‬‬
‫‪.3192‬‬
‫‪.3228‬‬
‫‪.3264‬‬
‫‪.3300‬‬
‫‪.3336‬‬
‫‪.3372‬‬
‫‪.3409‬‬
‫‪.3446‬‬
‫‪-0.40‬‬
‫‪.3483‬‬
‫‪.3520‬‬
‫‪.3557‬‬
‫‪.3594‬‬
‫‪.3632‬‬
‫‪.3669‬‬
‫‪.3707‬‬
‫‪.3745‬‬
‫‪.3783‬‬
‫‪.3821‬‬
‫‪-0.30‬‬
‫‪.3859‬‬
‫‪.3897‬‬
‫‪.3936‬‬
‫‪.3974‬‬
‫‪.4013‬‬
‫‪.4052‬‬
‫‪.4090‬‬
‫‪.4129‬‬
‫‪.4168‬‬
‫‪.4207‬‬
‫‪-0.20‬‬
‫‪.4247‬‬
‫‪.4286‬‬
‫‪.4325‬‬
‫‪.4364‬‬
‫‪.4404‬‬
‫‪.4443‬‬
‫‪.4483‬‬
‫‪.4522‬‬
‫‪.4562‬‬
‫‪.4602‬‬
‫‪-0.10‬‬
‫‪.4641‬‬
‫‪.4681‬‬
‫‪.4721‬‬
‫‪.4761‬‬
‫‪.4801‬‬
‫‪.4840‬‬
‫‪.4880‬‬
‫‪.4920‬‬
‫‪.4960‬‬
‫‪.5000‬‬
‫‪-0.00‬‬
‫‪.5359‬‬
‫‪.5319‬‬
‫‪.5279‬‬
‫‪.5239‬‬
‫‪.5199‬‬
‫‪.5160‬‬
‫‪.5120‬‬
‫‪.5080‬‬
‫‪.5040‬‬
‫‪.5000‬‬
‫‪0.00‬‬
‫‪.5753‬‬
‫‪.5714‬‬
‫‪.5675‬‬
‫‪.5636‬‬
‫‪.5596‬‬
‫‪.5557‬‬
‫‪.5517‬‬
‫‪.5478‬‬
‫‪.5438‬‬
‫‪.5398‬‬
‫‪0.10‬‬
‫‪.6141‬‬
‫‪.6103‬‬
‫‪.6064‬‬
‫‪.6026‬‬
‫‪.5987‬‬
‫‪.5948‬‬
‫‪.5910‬‬
‫‪.5871‬‬
‫‪.5832‬‬
‫‪.5793‬‬
‫‪0.20‬‬
‫‪.6517‬‬
‫‪.6480‬‬
‫‪.6443‬‬
‫‪.6406‬‬
‫‪.6368‬‬
‫‪.6331‬‬
‫‪.6293‬‬
‫‪.6255‬‬
‫‪.6217‬‬
‫‪.6179‬‬
‫‪0.30‬‬
‫‪.6879‬‬
‫‪.6844‬‬
‫‪.6808‬‬
‫‪.6772‬‬
‫‪.6736‬‬
‫‪.6700‬‬
‫‪.6664‬‬
‫‪.6628‬‬
‫‪.6591‬‬
‫‪.6554‬‬
‫‪0.40‬‬
‫‪.7224‬‬
‫‪.7190‬‬
‫‪.7157‬‬
‫‪.7123‬‬
‫‪.7088‬‬
‫‪.7054‬‬
‫‪.7019‬‬
‫‪.6985‬‬
‫‪.6950‬‬
‫‪.6915‬‬
‫‪0.50‬‬
‫‪.7549‬‬
‫‪.7517‬‬
‫‪.7486‬‬
‫‪.7454‬‬
‫‪.7422‬‬
‫‪.7389‬‬
‫‪.7357‬‬
‫‪.7324‬‬
‫‪.7291‬‬
‫‪.7257‬‬
‫‪0.60‬‬
‫‪.7852‬‬
‫‪.7823‬‬
‫‪.7794‬‬
‫‪.7764‬‬
‫‪.7734‬‬
‫‪.7704‬‬
‫‪.7673‬‬
‫‪.7642‬‬
‫‪.7611‬‬
‫‪.7580‬‬
‫‪0.70‬‬
‫‪.8133‬‬
‫‪.8106‬‬
‫‪.8078‬‬
‫‪.8051‬‬
‫‪.8023‬‬
‫‪.7995‬‬
‫‪.7967‬‬
‫‪.7939‬‬
‫‪.7910‬‬
‫‪.7881‬‬
‫‪0.80‬‬
‫‪.8389‬‬
‫‪.8365‬‬
‫‪.8340‬‬
‫‪.8315‬‬
‫‪.8289‬‬
‫‪.8264‬‬
‫‪.8238‬‬
‫‪.8212‬‬
‫‪.8186‬‬
‫‪.8159‬‬
‫‪0.90‬‬
‫‪.8621‬‬
‫‪.8599‬‬
‫‪.8577‬‬
‫‪.8554‬‬
‫‪.8531‬‬
‫‪.8508‬‬
‫‪.8485‬‬
‫‪.8461‬‬
‫‪.8438‬‬
‫‪.8413‬‬
‫‪1.00‬‬
‫‪.8830‬‬
‫‪.8810‬‬
‫‪.8790‬‬
‫‪.8770‬‬
‫‪.8749‬‬
‫‪.8729‬‬
‫‪.8708‬‬
‫‪.8686‬‬
‫‪.8665‬‬
‫‪.8643‬‬
‫‪1.10‬‬
‫‪.9015‬‬
‫‪.8997‬‬
‫‪.8980‬‬
‫‪.8962‬‬
‫‪.8944‬‬
‫‪.8925‬‬
‫‪.8907‬‬
‫‪.8888‬‬
‫‪.8869‬‬
‫‪.8849‬‬
‫‪1.20‬‬
‫‪.9177‬‬
‫‪.9162‬‬
‫‪.9147‬‬
‫‪.9131‬‬
‫‪.9115‬‬
‫‪.9099‬‬
‫‪.9082‬‬
‫‪.9066‬‬
‫‪.9049‬‬
‫‪.9032‬‬
‫‪1.30‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪103‬‬
‫‬
‫‪104‬‬
‫תואלבט‬
‫‪0.09‬‬
‫‪0.08‬‬
‫‪0.07‬‬
‫‪0.06‬‬
‫‪0.05‬‬
‫‪0.04‬‬
‫‪0.03‬‬
‫‪0.02‬‬
‫‪0.01‬‬
‫‪0.00‬‬
‫‪z‬‬
‫‪.9319‬‬
‫‪.9306‬‬
‫‪.9292‬‬
‫‪.9279‬‬
‫‪.9265‬‬
‫‪.9251‬‬
‫‪.9236‬‬
‫‪.9222‬‬
‫‪.9207‬‬
‫‪.9192‬‬
‫‪1.40‬‬
‫‪.9441‬‬
‫‪.9429‬‬
‫‪.9418‬‬
‫‪.9406‬‬
‫‪.9394‬‬
‫‪.9382‬‬
‫‪.9370‬‬
‫‪.9357‬‬
‫‪.9345‬‬
‫‪.9332‬‬
‫‪1.50‬‬
‫‪.9545‬‬
‫‪.9535‬‬
‫‪.9525‬‬
‫‪.9515‬‬
‫‪.9505‬‬
‫‪.9495‬‬
‫‪.9484‬‬
‫‪.9474‬‬
‫‪.9463‬‬
‫‪.9452‬‬
‫‪1.60‬‬
‫‪.9633‬‬
‫‪.9625‬‬
‫‪.9616‬‬
‫‪.9608‬‬
‫‪.9599‬‬
‫‪.9591‬‬
‫‪.9582‬‬
‫‪.9573‬‬
‫‪.9564‬‬
‫‪.9554‬‬
‫‪1.70‬‬
‫‪.9706‬‬
‫‪.9699‬‬
‫‪.9693‬‬
‫‪.9686‬‬
‫‪.9678‬‬
‫‪.9671‬‬
‫‪.9664‬‬
‫‪.9656‬‬
‫‪.9649‬‬
‫‪.9641‬‬
‫‪1.80‬‬
‫‪.9767‬‬
‫‪.9761‬‬
‫‪.9756‬‬
‫‪.9750‬‬
‫‪.9744‬‬
‫‪.9738‬‬
‫‪.9732‬‬
‫‪.9726‬‬
‫‪.9719‬‬
‫‪.9713‬‬
‫‪1.90‬‬
‫‪.9817‬‬
‫‪.9812‬‬
‫‪.9808‬‬
‫‪.9803‬‬
‫‪.9798‬‬
‫‪.9793‬‬
‫‪.9788‬‬
‫‪.9783‬‬
‫‪.9778‬‬
‫‪.9772‬‬
‫‪2.00‬‬
‫‪.9857‬‬
‫‪.9854‬‬
‫‪.9850‬‬
‫‪.9846‬‬
‫‪.9842‬‬
‫‪.9838‬‬
‫‪.9834‬‬
‫‪.9830‬‬
‫‪.9826‬‬
‫‪.9821‬‬
‫‪2.10‬‬
‫‪.9890‬‬
‫‪.9887‬‬
‫‪.9884‬‬
‫‪.9881‬‬
‫‪.9878‬‬
‫‪.9875‬‬
‫‪.9871‬‬
‫‪.9868‬‬
‫‪.9864‬‬
‫‪.9861‬‬
‫‪2.20‬‬
‫‪.9916‬‬
‫‪.9913‬‬
‫‪.9911‬‬
‫‪.9909‬‬
‫‪.9906‬‬
‫‪.9904‬‬
‫‪.9901‬‬
‫‪.9898‬‬
‫‪.9896‬‬
‫‪.9893‬‬
‫‪2.30‬‬
‫‪.9936‬‬
‫‪.9934‬‬
‫‪.9932‬‬
‫‪.9931‬‬
‫‪.9929‬‬
‫‪.9927‬‬
‫‪.9925‬‬
‫‪.9922‬‬
‫‪.9920‬‬
‫‪.9918‬‬
‫‪2.40‬‬
‫‪.9952‬‬
‫‪.9951‬‬
‫‪.9949‬‬
‫‪.9948‬‬
‫‪.9946‬‬
‫‪.9945‬‬
‫‪.9943‬‬
‫‪.9941‬‬
‫‪.9940‬‬
‫‪.9938‬‬
‫‪2.50‬‬
‫‪.9964‬‬
‫‪.9963‬‬
‫‪.9962‬‬
‫‪.9961‬‬
‫‪.9960‬‬
‫‪.9959‬‬
‫‪.9957‬‬
‫‪.9956‬‬
‫‪.9955‬‬
‫‪.9953‬‬
‫‪2.60‬‬
‫‪.9974‬‬
‫‪.9973‬‬
‫‪.9972‬‬
‫‪.9971‬‬
‫‪.9970‬‬
‫‪.9969‬‬
‫‪.9968‬‬
‫‪.9967‬‬
‫‪.9966‬‬
‫‪.9965‬‬
‫‪2.70‬‬
‫‪.9981‬‬
‫‪.9980‬‬
‫‪.9979‬‬
‫‪.9979‬‬
‫‪.9978‬‬
‫‪.9977‬‬
‫‪.9977‬‬
‫‪.9976‬‬
‫‪.9975‬‬
‫‪.9974‬‬
‫‪2.80‬‬
‫‪.9986‬‬
‫‪.9986‬‬
‫‪.9985‬‬
‫‪.9985‬‬
‫‪.9984‬‬
‫‪.9984‬‬
‫‪.9983‬‬
‫‪.9982‬‬
‫‪.9982‬‬
‫‪.9981‬‬
‫‪2.90‬‬
‫‪.9990‬‬
‫‪.9990‬‬
‫‪.9989‬‬
‫‪.9989‬‬
‫‪.9989‬‬
‫‪.9988‬‬
‫‪.9988‬‬
‫‪.9987‬‬
‫‪.9987‬‬
‫‪.9987‬‬
‫‪3.00‬‬
‫‪.9993‬‬
‫‪.9993‬‬
‫‪.9992‬‬
‫‪.9992‬‬
‫‪.9992‬‬
‫‪.9992‬‬
‫‪.9991‬‬
‫‪.9991‬‬
‫‪.9991‬‬
‫‪.9990‬‬
‫‪3.10‬‬
‫‪.9995‬‬
‫‪.9995‬‬
‫‪.9995‬‬
‫‪.9994‬‬
‫‪.9994‬‬
‫‪.9994‬‬
‫‪.9994‬‬
‫‪.9994‬‬
‫‪.9993‬‬
‫‪.9993‬‬
‫‪3.20‬‬
‫‪.9997‬‬
‫‪.9996‬‬
‫‪.9996‬‬
‫‪.9996‬‬
‫‪.9996‬‬
‫‪.9996‬‬
‫‪.9996‬‬
‫‪.9995‬‬
‫‪.9995‬‬
‫‪.9995‬‬
‫‪3.30‬‬
‫‪.9998‬‬
‫‪.9997‬‬
‫‪.9997‬‬
‫‪.9997‬‬
‫‪.9997‬‬
‫‪.9997‬‬
‫‪.9997‬‬
‫‪.9997‬‬
‫‪.9997‬‬
‫‪.9997‬‬
‫‪3.40‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪3.50‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9998‬‬
‫‪.9998‬‬
‫‪3.60‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪3.70‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪.9999‬‬
‫‪3.80‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫תואלבט ‬
‫התחום שמתחת‬
‫להתפלגות ‪t‬‬
‫‪tα‬‬
‫טבלה ב‬
‫‪0.005‬‬
‫‪63.567‬‬
‫‪9.925‬‬
‫‪5.841‬‬
‫‪4.604‬‬
‫‪4.032‬‬
‫‪3.707‬‬
‫‪3.499‬‬
‫‪3.355‬‬
‫‪3.250‬‬
‫‪3.169‬‬
‫‪3.106‬‬
‫‪3.055‬‬
‫‪3.012‬‬
‫‪2.977‬‬
‫‪2.947‬‬
‫‪2.921‬‬
‫‪2.898‬‬
‫‪2.878‬‬
‫‪2.861‬‬
‫‪2.845‬‬
‫‪2.831‬‬
‫‪2.819‬‬
‫‪2.807‬‬
‫‪2.797‬‬
‫‪2.787‬‬
‫‪2.779‬‬
‫‪2.771‬‬
‫‪2.763‬‬
‫‪2.756‬‬
‫‪2.576‬‬
‫‪0‬‬
‫‪α‬‬
‫‪0.01‬‬
‫‪31.821‬‬
‫‪6.965‬‬
‫‪4.541‬‬
‫‪3.747‬‬
‫‪3.365‬‬
‫‪3.143‬‬
‫‪2.998‬‬
‫‪2.896‬‬
‫‪2.821‬‬
‫‪2.764‬‬
‫‪2.718‬‬
‫‪2.681‬‬
‫‪2.650‬‬
‫‪2.624‬‬
‫‪2.602‬‬
‫‪2.583‬‬
‫‪2.567‬‬
‫‪2.552‬‬
‫‪2.539‬‬
‫‪2.528‬‬
‫‪2.518‬‬
‫‪2.508‬‬
‫‪2.500‬‬
‫‪2.492‬‬
‫‪2.485‬‬
‫‪2.479‬‬
‫‪2.473‬‬
‫‪2.467‬‬
‫‪2.462‬‬
‫‪2.326‬‬
‫‪0.025‬‬
‫‪12.706‬‬
‫‪4.303‬‬
‫‪3.182‬‬
‫‪2.776‬‬
‫‪2.571‬‬
‫‪2.447‬‬
‫‪2.365‬‬
‫‪2.306‬‬
‫‪2.262‬‬
‫‪2.228‬‬
‫‪2.201‬‬
‫‪2.179‬‬
‫‪2.160‬‬
‫‪2.145‬‬
‫‪2.131‬‬
‫‪2.120‬‬
‫‪2.110‬‬
‫‪2.101‬‬
‫‪2.093‬‬
‫‪2.086‬‬
‫‪2.080‬‬
‫‪2.074‬‬
‫‪2.069‬‬
‫‪2.064‬‬
‫‪2.060‬‬
‫‪2.056‬‬
‫‪2.052‬‬
‫‪2.048‬‬
‫‪2.045‬‬
‫‪1.960‬‬
‫‪0.05‬‬
‫‪6.314‬‬
‫‪2.920‬‬
‫‪2.353‬‬
‫‪2.132‬‬
‫‪2.015‬‬
‫‪1.943‬‬
‫‪1.895‬‬
‫‪1.860‬‬
‫‪1.833‬‬
‫‪1.812‬‬
‫‪1.796‬‬
‫‪1.782‬‬
‫‪1.771‬‬
‫‪1.761‬‬
‫‪1.753‬‬
‫‪1.746‬‬
‫‪1.740‬‬
‫‪1.734‬‬
‫‪1.729‬‬
‫‪1.725‬‬
‫‪1.721‬‬
‫‪1.717‬‬
‫‪1.714‬‬
‫‪1.711‬‬
‫‪1.708‬‬
‫‪1.706‬‬
‫‪1.703‬‬
‫‪1.701‬‬
‫‪1.699‬‬
‫‪1.645‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪0.10‬‬
‫‪3.078‬‬
‫‪1.886‬‬
‫‪1.638‬‬
‫‪1.533‬‬
‫‪1.476‬‬
‫‪1.440‬‬
‫‪1.415‬‬
‫‪1.397‬‬
‫‪1.383‬‬
‫‪1.372‬‬
‫‪1.363‬‬
‫‪1.365‬‬
‫‪1.350‬‬
‫‪1.345‬‬
‫‪1.341‬‬
‫‪1.337‬‬
‫‪1.333‬‬
‫‪1.330‬‬
‫‪1.328‬‬
‫‪1.325‬‬
‫‪1.323‬‬
‫‪1.321‬‬
‫‪1.319‬‬
‫‪1.318‬‬
‫‪1.316‬‬
‫‪1.315‬‬
‫‪1.314‬‬
‫‪1.313‬‬
‫‪1.311‬‬
‫‪1.282‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪8‬‬
‫‪9‬‬
‫‪10‬‬
‫‪11‬‬
‫‪12‬‬
‫‪13‬‬
‫‪14‬‬
‫‪15‬‬
‫‪16‬‬
‫‪17‬‬
‫‪18‬‬
‫‪19‬‬
‫‪20‬‬
‫‪21‬‬
‫‪22‬‬
‫‪23‬‬
‫‪24‬‬
‫‪25‬‬
‫‪26‬‬
‫‪27‬‬
‫‪28‬‬
‫‪29‬‬
‫‪Inf.‬‬
‫‪105‬‬
‫תואלבט‬
‫‬
‫התחום שמתחת להתפלגות ‪χ2‬‬
‫‪ a‬הוא האזור שמימין ל ‪χ 2a‬‬
‫טבלה ג‬
‫‪a‬‬
‫‪106‬‬
‫‪V‬‬
‫‪χ2α‬‬
‫הוא דרגת החופש‬
‫‪0‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫תואלבט ‬
‫התחום שתחת התפלגות ‪ ,F‬ערך ‪-p=0.05‬‬
‫טבלה ד‬
‫‪ - d1‬דרגות החופש במונה‬
‫‪ - d2‬דרגות החופש במכנה‬
‫‪a‬‬
‫‪fα‬‬
‫‪0‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪107‬‬
‫תואלבט‬
‫‬
‫ט בלה ד ‪ -‬המש ך‬
‫‪108‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫תשובות לתרגילים‬
‫םיליגרת ל תובושת‬
‫‬
‫פר ק ר א ש ון‬
‫שאלה ‪.1‬האם חלופה ‪I2‬‬
‫תשובה‪ I2 :‬מושלט ב ‪I1‬‬
‫כדאית בכל מצב או האם היא פתרון שולט? מדוע?‬
‫שאלה ‪.2‬האם ניתוח בייסיאני משנה את ההסתברות המותנית? מדוע או מדוע לא?‬
‫תשובה‪ :‬לא‪ ,‬משום שההסתברויות האפריוריות שלהם שוות‬
‫שאלה ‪.3‬מהו הערך הצפוי של המידע הנוסף )‪?(EVAI‬‬
‫תשובה‪132.25/3-100/3=32.25/3 :‬‬
‫שאלה ‪.4‬מהו הערך הצפוי של המידע המושלם )‪?(EVPI‬‬
‫תשובה‪140/3-100/3 =40/3 :‬‬
‫פר ק חמ י ש י‬
‫תר גי ל ‪1‬‬
‫סכום ריבועי ה‪�� X-‬‬
‫סכום ריבועי ה‪(ΣY) /n �� Y-‬‬
‫‪– (ΣX) 2/n‬‬
‫‪2‬‬
‫–‬
‫‪2‬‬
‫‪i‬‬
‫‪2‬‬
‫‪i‬‬
‫‪= ΣX‬‬
‫‪70.1 =................................ SSX‬‬
‫‪= ΣY‬‬
‫‪76.1 =................................ SSY‬‬
‫סכום הריבועים בין ‪ X‬ו‪= Σ(XY) – (ΣX)(ΣY)/n :Y-‬‬
‫‪62.1 =................................SSXY‬‬
‫סכום ריבועי הסטיות הנובעות מן הרגרסיה ‪= (ssxy)2/ssx‬‬
‫‪55.0 =. ........................... SSR‬‬
‫סכום ריבועי הטעות הנובעת מקו הרגרסיה�� ‪= ssy-ssr‬‬
‫‪21.1 =. ............................. SSE‬‬
‫‪0.89 =. ...............................b‬‬
‫‪= SSXY ÷ SSX‬‬
‫̅‪0.47 =. ............................... a = Y̅ – bX‬‬
‫)‪= SSXy2 ÷ (SSx) (ssy‬‬
‫‪0.72 =. .............................. R 2‬‬
‫משוואת הרגרסיה‪Y = 0.47+0.89(X1)��:‬‬
‫מבחן ‪(SSR/d.f.) ÷ (SSE/d.f.) = 20.85��:F‬‬
‫‪ F‬בטבלה = ‪5.32‬‬
‫האם קיים קשר מובהק?‪ :‬כן‬
‫‪110‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫םיליגרת ל תובושת ‬
‫תר גי ל ‪2‬‬
‫סכום ריבועי ה‪– (ΣX) 2/n �� X-‬‬
‫סכום ריבועי ה‪– (ΣY) 2/n �� Y-‬‬
‫‪2‬‬
‫‪i‬‬
‫‪2‬‬
‫‪i‬‬
‫‪= ΣX‬‬
‫‪66.0 =................................ SSX‬‬
‫‪= ΣY‬‬
‫‪76.1 =................................ SSY‬‬
‫סכום הריבועים בין ‪ X‬ו‪= Σ(XY) – (ΣX)(ΣY)/n :Y-‬‬
‫‪60.0 =................................ SSXY‬‬
‫סכום ריבועי הסטיות הנובעות מן הרגרסיה ��‪= (ssxy)2/ssx‬‬
‫סכום ריבועי הטעות הנובעת מקו הרגרסיה �� ‪= ssy-ssr‬‬
‫‪54.5 =........................ SSR‬‬
‫‪21.6 =................................ SSE‬‬
‫‪0.91 =................................ b‬‬
‫‪= SSXY ÷ SSX‬‬
‫̅‪0.66 =.................................. a = Y̅ – bX‬‬
‫)‪= SSXy2 ÷ (SSx) (ssy‬‬
‫‪0.72 =................................ R 2‬‬
‫משוואת הרגרסיה‪Y = 0.66+0.91(X2)�� :‬‬
‫מבחן ‪(SSR/d.f.) ÷ (SSE/d.f.) = 20.19�� :F‬‬
‫‪ F‬בטבלה = ‪5.32‬‬
‫האם קיים קשר מובהק? ‪ :‬כן‬
‫תר גי ל ‪3‬‬
‫סכום ריבועי ה‪– (ΣX) 2/n �� X-‬‬
‫סכום ריבועי ה‪– (ΣY) 2/n �� Y-‬‬
‫‪2‬‬
‫‪i‬‬
‫‪2‬‬
‫‪i‬‬
‫‪= ΣX‬‬
‫‪13.1 =................................ SSX‬‬
‫‪= ΣY‬‬
‫‪114.52 =............................ SSY‬‬
‫סכום הריבועים בין ‪ X‬ו‪= Σ(XY) – (ΣX)(ΣY)/n :Y-‬‬
‫‪38.39 =.............................. SSXY‬‬
‫סכום ריבועי הסטיות הנובעות מן הרגרסיה ��‪= (ssxy)2/ssx‬‬
‫סכום ריבועי הטעות הנובעת מקו הרגרסיה �� ‪= ssy-ssr‬‬
‫‪112.5 =......................... SSR‬‬
‫‪2.02 =................................ SSE‬‬
‫‪2.9305 =.........................b‬‬
‫‪= SSXY ÷ SSX‬‬
‫̅‪0.2561 =.........................a = Y̅ – bX‬‬
‫)‪= SSXy2 ÷ (SSx) (ssy‬‬
‫‪0.98 =.............................R 2‬‬
‫משוואת הרגרסיה‪Y = 0.2561+2.93059(X)�� :‬‬
‫מבחן ‪(SSR/d.f.) ÷ (SSE/d.f.) = 389.0�� F‬‬
‫‪ F‬בטבלה = ‪10.56‬‬
‫האם קיים קשר מובהק? ‪ :‬כן‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪111‬‬
‫םיליגרת ל תובושת‬
‫‬
‫תר גי ל ‪4‬‬
‫משתנים לשאלת קווי הטלפון‬
‫המשוואה היא‪:‬‬
‫גיל (‪ ;)p = 0.007‬דירה (‪ ,)p = 0.000‬סכום משפחות (‪ ,)p = 0.038‬הכנסה (‪)p = 0.013‬‬
‫אזורי פעילות שלהם השאריות השליליות הגבוהות ביותר‪:‬‬
‫שארית‬
‫אזורי פעילות‬
‫‪-21.48463‬‬
‫‪411‬‬
‫‪-17.05434‬‬
‫‪306‬‬
‫‪-16.03600‬‬
‫‪410‬‬
‫‪-14.97168‬‬
‫‪301‬‬
‫‪-13.68935‬‬
‫‪302‬‬
‫רגרסיה בצעדים‬
‫‪Coefficientsa‬‬
‫הסתברות של‬
‫טעות‬
‫‪Sig‬‬
‫‪t‬‬
‫‪.000‬‬
‫‪19.393‬‬
‫‪.001‬‬
‫‪-3.494‬‬
‫‪.000‬‬
‫‪14.087‬‬
‫‪Standardized‬‬
‫‪Coefficients‬‬
‫‪Beta‬‬
‫‪Unstandardized‬‬
‫‪Coefficients‬‬
‫‪Model‬‬
‫‪Std. Error‬‬
‫‪B‬‬
‫‪1.912‬‬
‫‪37.071‬‬
‫)‪(Constant‬‬
‫‪.070‬‬
‫‪-.245‬‬
‫‪apt‬‬
‫‪2.352‬‬
‫‪33.127‬‬
‫)‪(Constant‬‬
‫‪.001‬‬
‫‪-3.611‬‬
‫‪-.410‬‬
‫‪.067‬‬
‫‪-.241‬‬
‫‪apt‬‬
‫‪.010‬‬
‫‪2.647‬‬
‫‪.301‬‬
‫‪.050‬‬
‫‪.131‬‬
‫‪HH_00‬‬
‫‪.000‬‬
‫‪8.948‬‬
‫‪4.728‬‬
‫‪42.310‬‬
‫)‪(Constant‬‬
‫‪.001‬‬
‫‪-3.673‬‬
‫‪-.404‬‬
‫‪.064‬‬
‫‪-.237‬‬
‫‪apt‬‬
‫‪.013‬‬
‫‪2.568‬‬
‫‪.283‬‬
‫‪.048‬‬
‫‪.124‬‬
‫‪HH_00‬‬
‫‪.031‬‬
‫‪-2.215‬‬
‫‪-.244‬‬
‫‪.119‬‬
‫‪-.264‬‬
‫‪med_age‬‬
‫‪.000‬‬
‫‪8.598‬‬
‫‪4.618‬‬
‫‪39.702‬‬
‫(‪)Constant‬‬
‫‪.000‬‬
‫‪-3.799‬‬
‫‪-.398‬‬
‫‪.061‬‬
‫‪-.233‬‬
‫דירה ‪apt‬‬
‫‪.038‬‬
‫‪2.128‬‬
‫‪.228‬‬
‫‪.047‬‬
‫‪.100‬‬
‫משפחות ‪HH_00‬‬
‫‪.007‬‬
‫‪-2.803‬‬
‫‪-.301‬‬
‫‪.116‬‬
‫‪-.325‬‬
‫גיל ‪med_age‬‬
‫‪.013‬‬
‫‪2.582‬‬
‫‪.281‬‬
‫‪.089‬‬
‫‪.230‬‬
‫הכנסה‬
‫‪Income_000‬‬
‫‪-.417‬‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫אחוזי מכירות = ‪a. Dependent Variable: penetrat‬‬
‫‪112‬‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫םיליגרת ל תובושת ‬
‫פר ק שב י ע י‬
‫תר גי ל ‪1‬‬
‫בעיית מותגי המשקאות‬
‫העדפת מותג ‪X‬‬
‫ביחס למותג ‪Y‬‬
‫א‬
‫ב‬
‫ג‬
‫ד‬
‫ה‬
‫א‬
‫‪0.50‬‬
‫‪0.82‬‬
‫‪0.69‬‬
‫‪0.25‬‬
‫‪0.35‬‬
‫ב‬
‫‪0.18‬‬
‫‪0.50‬‬
‫‪0.27‬‬
‫‪0.07‬‬
‫‪0.15‬‬
‫ג‬
‫‪0.31‬‬
‫‪0.73‬‬
‫‪0.50‬‬
‫‪0.16‬‬
‫‪0.25‬‬
‫ד‬
‫‪0.75‬‬
‫‪0.93‬‬
‫‪0.84‬‬
‫‪0.50‬‬
‫‪0.59‬‬
‫ה‬
‫‪0.65‬‬
‫‪0.85‬‬
‫‪0.75‬‬
‫‪0.41‬‬
‫‪0.50‬‬
‫תשובות‬
‫סכום ציוני ‪ Z‬לכל‬
‫מותג‬
‫‪-0.36‬‬
‫‪4.05‬‬
‫‪1.55‬‬
‫‪-3.37‬‬
‫‪-1.87‬‬
‫ממוצע‬
‫‪-0.072‬‬
‫‪0.810‬‬
‫‪0.310‬‬
‫‪-0.674‬‬
‫‪-0.374‬‬
‫מתוקנן‬
‫‪+0.674‬‬
‫‪+0.674‬‬
‫‪+0.674‬‬
‫‪+0.674‬‬
‫‪+0.674‬‬
‫תשובה‬
‫‪+0.744‬‬
‫‪+1.594‬‬
‫‪+0.984‬‬
‫‪+0.000‬‬
‫‪+0.300‬‬
‫תר גי ל ‪2‬‬
‫בעיית תיאור אופי ואורח חיים‬
‫תשובה‪ :‬חובבת בישול נלהבת‬
‫סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ‪ .‬אהרמן‬
‫‪113‬‬
56 ‫נספח לעמוד‬
% Live ‫ל‬
in‫םיליגרת‬
‫ תובושת‬
Apartment
0
8.5
28.2
31.9
22.2
27.7
3.2
1.6
2.2
19.6
7.4
20.6
13.6
2.6
26.2
22.2
1
4.6
15.2
11.0
14.4
2.3
0
44.5
5.4
87.1
37.5
0
0
12.6
3.6
55.3
58.2
54.9
61.5
37.4
15.3
28.9
29.2
13.8
31.1
38.4
32.2
33
26.4
28.5
6.6
48.8
1.8
3.5
9.9
7.4
36.2
3.5
0
12.1
16.3
0
0.8
21
Median Age
Percent
Minority
Income
Sales Percentage
Households
ID#
49.3
54.1
26.8
49.2
32.4
34.2
28.5
28.1
27.9
30.6
26
16.1
18
29.6
19.1
24.8
28.2
28
24.2
25.4
43.3
29.4
38.2
17.9
45.2
40.4
22.3
59.7
34.1
42.5
35.4
20.6
29.2
43.9
41.6
48.6
48.3
41.4
39.9
32.5
31.1
38.4
32.2
33
26.4
44.1
48.8
56.2
38.5
25.5
46.6
28.2
34.4
50.2
29.9
27.4
26.3
25.7
31.1
25.4
38.8
6.1
99.3
25.8
88.3
96.9
98.6
94.4
94.4
98.4
94.7
99
99.9
99.7
97.2
84.2
97.7
99.6
89.4
99.1
57.5
48.7
53
98.7
97.1
32.3
28
35.6
65.8
7.4
96.7
32.9
8.7
10.9
6.8
2
16.4
28.2
4.3
65.4
4.8
69.1
93.9
99.4
98.7
1.7
1
0.8
12.7
1.9
1.6
80.7
30.5
3.3
47.7
47.6
21.7
29.3
32
33.7
11389
20058
21233
21969
31205
31461
20322
26717
22184
22441
28981
13385
13162
14632
16391
12485
13755
13199
14320
15971
27292
13868
24607
9228
12509
23323
6692
18716
12313
15761
13755
20763
24754
28576
23474
18407
23196
21571
27542
14218
13754
38809
22140
27390
12821
25725
24679
28662
39062
74693
94980
20509
30603
22138
24082
27933
28076
25061
22046
25804
28.1
31.1
36.5
34.5
38
44.9
36.8
37.4
50.1
37.90
35.20
27
28.30
30.10
43.10
38
50.60
42.20
33.3
34.0
36.2
35.5
36.5
12.9
14.6
15
16.6
16.3
15
23.6
21.3
21.2
21.9
15
23.6
22.9
22.2
21.9
13.4
11.1
39.5
35.5
34.2
32.9
33.3
31.2
26.7
23.6
38.8
42.8
39.6
28.4
36.6
48.2
45.3
51.5
54
46.7
50.4
40.5
364
4980
1516
6026
1444
1742
2364
3252
2624
2722
2576
1464
3419
1892
2580
1898
1464
1178
1812
2706
1452
490
1258
2264
1664
2160
641
640
603
445
1600
711
4458
4077
1939
2953
1712
2423
3199
3410
954
1233
1691
935
862
3966
4728
2367
3485
3803
2580
6803
8169
3366
815
6621
9145
5952
8525
14478
101
102
103
104
105
106
107
108
109
110
111
201
202
203
204
205
206
207
208
209
210
211
212
301
302
303
304
305
306
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
501
502
503
504
505
506
601
602
603
701
702
703
704
705
706
‫ = ברייטן‬706 ‫ עד‬601 ‫ מ‬,‫ = הוב‬506 ‫ עד‬501 ‫ מ‬,‫ = קינגסטון‬416 ‫ עד‬101 ‫ מ‬ID
114