סטטיסטיקה ומדעי השיווק סקירה הסתברות משותפת )Pr (B,M m f b nb ד"ר חיים מ .אהרמן סטטיסטיקה ומדעי השיווק סקירה הסתברות משותפת )Pr (B,M m f b nb ד"ר חיים מ .אהרמן סטטיסטיקה ומדעי השיווק סקירה ד"ר חיים מ .אהרמן מרצה בכיר בשיווק וסטטיסטיקה למעלה מארבעים שנה מ ה דורה מ ח ודש ת בעב ר ית 2 016 - 1st printing – Dame Publishing, Houston, TX, 1994 2nd printing – Loyola University Chicago, Chicago, IL, 1999 3rd printing – Loyola University Chicago, Chicago, IL, 2011 4th printing – Hebrew- Michigan Jewish Institute, West Bloomfield, MI, 2016 Copyright © by Chaim M. Ehrman All Rights Reserved. No part of this publication may be reproduced, stored in a retrieval system, or transmitted in any form or by any means, without prior written permission of the author. הק ד ש ה ספר זה מוקדש לשני משווקים דגולים: אבי ,מר גרשון אהרמן ,שניצל בהצלחה את מומחיותו ואת הבנתו המעמיקה בתחום היהלומים לליטוש יהלומים ולשיווקם; חמי ,ד"ר הארולד ריימונד שייר ,עורך דין ,מורה וחוקר משכמו ומעלה ,שעשה שימוש בידע ובמומחיות שצבר בתחום השיווק ויישם אותם בהצלחה גדולה בהמצאותיו בתחום האווירונאוטיקה. ת וד ו ת הכותב מבקש להודות לפרופסור אבא מ .ש .קריגר ופרופסור אמריטוס מוריס המבורג מן המחלקה לסטטיסטיקה בבית הספר וורטון ,אוניברסיטת פנסילבניה ,על עזרתם, עידודם והכוונתם במאמץ להעביר לי את ההבנה לעומק בנושאים בסטטיסטיקה ,ולהוקרת הנושאים. הכותב מודה גם לפרופסור ג'רלד פונק ,המחלקה למדעי המתמטיקה ,אוניברסיטת לויולה בשיקגו ,על עידודו ,סיועו והכוונתו בנבכי הסטטיסטיקה. כמו כן אני רוצה להודות מאוד לד"ר צבי סקאר על עזרתו ועידודו בהבנה ותרגום ספר זה מאנגלית לעברית. אחרון אחרון חביב ,יש לי הכרת הטוב לאשתי יוכבד דבשה תחי' .ספר זה בפרט ,וכל השגותי בכלל ,וכן תואר שלישי מוורטון ,היו בלתי אפשריים ללא עידודה ועזרתה. היא קיימה את דברי חז"ל "גדול המעשה יותר מן העושה". ה ק דמ ה חיבור זה אינו בא במקומו של ספר לימוד .הוא מיועד לאנשי המקצוע העוסקים בתחום ולתלמידים שלמדו סטטיסטיקה בעבר ומעוניינים לחזור על עקרונות היסוד .הצורך לחזור על החומר הוא תופעה רווחת .תלמידי תואר ראשון במדעי השיווק ,לדוגמה ,עשויים ללמוד קורס בחקר השיווק בשנה השלישית או הרביעית ללימודיהם ,בשעה שייתכן כבר שכחו את מרבית הידע שרכשו בקורס יסודות הסטטיסטיקה שלמדו שנתיים או שלוש לפני כן ,ואשר מניח את היסודות לקורסים מחקריים .לפיכך ,יש צורך ללמוד את היסודות שנית במתכונת יעילה ותמציתית .הדבר נכון גם לגבי אנשי מקצוע שלמדו סטטיסטיקה לפני כמה שנים ורוצים לרענן את ידיעותיהם. כדי ליצור דרך פשוטה ומועילה לחזור על היסודות ,השתדלנו לפשט את הכתיבה המתמטית במידת האפשר .נוסחת הסכום ,לדוגמה ,כאשר היא נכתבת כך: (נתונים - ממוצע) 2עשויה היות קלה יותר לקריאה מאשר כך: כאן יש לציין שאת כל הנוסחאות שתכתבנה במילים עבריות בלבד יש לקרוא מימין לשמאל ,בכיוון הקריאה הרגיל ולא בכיוון הכתיבה המתמטית ,לדוגמה :נתונים פחות ממוצע בריבוע .נוסחאות המערבות עברית ולועזית תקראנה לרוב משמאל לימין. ריבויים של המחשבים האישיים ועמם התוכנות לניתוח נתונים עלול לגרור עמו שימוש שגוי בתוכנות אלו .לכל כלי לניתוח נתונים ישנן הוראות שימוש מתאימות ,כמו למשל שימוש בנתונים רציפים ולא סודרים .אנשי מקצוע המשתמשים בתוכנות אלו ואינם מודעים לאופן השימוש הנכון בהן עשויים פשוט ללחוץ על פקודת ניתוח רגרסיה ולקבל רגרסיה נכונה מבחינה חישובית אך מטעה ושגויה מבחינה מציאותית ,משום שלא עשתה שימוש בנתונים הנכונים .אחת ממטרותיה העיקריות של חוברת זו היא למנוע ככל האפשר שימוש שגוי בכלי ניתוח נתונים. תוכן עניינים פרק ראשון 2.................................................................................................................... הסתברות וניתוח בייסיאני 2................................................................................................... תוצאות ,מרחב מדגם ומאורעות 2........................................................................................... הגדרת השכיחות היחסית של הסתברות2............................................................................... מאורעות בלתי תלויים 3.......................................................................................................... הסתברות משותפת4............................................................................................................... הסתברות שולית 4................................................................................................................... הסתברות מותנית 5................................................................................................................. תרגיל מתחום השיווק 9........................................................................................................... קבלת החלטות תוך שימוש בכלים הסתברותיים12................................................................... ערך צפוי של החזאי 15............................................................................................................. הערך הצפוי של מידע מושלם (16................................................................................ )EVPI תרשים :1ייצוג חזותי של חוק בייס 18..................................................................................... כיצד לעדכן הסתברות אפריורית בעזרת חוק בייס 19............................................................... פרק שני 21.......................................................................................................................... מאפייני מידע 21....................................................................................................................... מדע השיווק -סקירה כללית 21............................................................................................ מידע נומינלי 21......................................................................................................................... מידע סדור 22............................................................................................................................ מידע קטגוריאלי 23.................................................................................................................... מידע אינטרוולי 23..................................................................................................................... מידע יחסי24............................................................................................................................. המשכיות לעומת אי-רציפות24................................................................................................. הטיות25.................................................................................................................................... תקפות 26.................................................................................................................................. מהימנות26................................................................................................................................ פרק שלישי 28................................................................................................................... מדידות סיכום ומדדי פיזור28.................................................................................................. אמצעי28................................................................................................................................... תיכון 29..................................................................................................................................... שכיח29..................................................................................................................................... מדדי פיזור :שונות וסטיית-תקן 29............................................................................................ מדדי פיזור :סטיית ממוצע-חציון מוחלט (31................................................................)M.A.D נתונים מקובצים32.................................................................................................................... פרק רביעי 33..................................................................................................................... בחינת השערות 33.................................................................................................................... שגיאות מסוג Iומסוג 34....................................................................................................... II מדידת שגיאות מסוג 35.......................................................................................................... I בחינת ערך ממוצע בעזרת הסטטיסטי 35.............................................................................. Z בחינת ההפרש בין ממוצעים בעזרת הסטטיסטי 36............................................................... Z בחינת ההפרש בין ממוצעים באמצעות התפלגות 37.............................................................T (כי בריבוע)37.............................................. בחינת קשר בין משתנים שמיים בעזרת מבחן ִ χ2 ל'כי' בריבוע 41................................................................................................... תוצאה נוספת ִ פרק חמישי 43................................................................................................................... ניתוח רגרסיה 43....................................................................................................................... בדיקת הנחות (היפותיזות) 43.................................................................................................... גובה ממוצע 44.......................................................................................................................... הנחות בסיסיות בניתוח רגרסיה 44............................................................................................ נקודות חשובות בהתאמת נתונים לקו ישר 45........................................................................... שיטת הריבועים הפחותים47..................................................................................................... משוואות נורמליות 47................................................................................................................ ניתוח מתאם 48......................................................................................................................... התאמת המודל 50..................................................................................................................... מבחן 51................................................................................................................................. F דוגמאות 51.............................................................................................................................. ניתוח רגרסיה מרובה 55............................................................................................................ רגרסיה קדימה ,רגרסיה לאחור ורגרסיה בצעדים57.................................................................. פרק שישי 58...................................................................................................................... ניתוח שונות 58...................................................................................................... ANOVA - ניתוח שונות חד גורמי 58.......................................................................................................... מבחן 60..................................................................................................................................f ניתוח שונות דו-גורמי 61........................................................................................................... אפקט האינטראקציה64............................................................................................................. פרק שביעי 67.................................................................................................................... נושאים מתקדמים 67............................................................................................................... המרת נתונים סידוריים לנתונים רציפים67................................................................................ ניתוח מפלה70.......................................................................................................................... גורמים בלתי-תלויים 72............................................................................................................. איך להעניק שם לגורמים :ניתוח טעינות גורמים 73.................................................................. סיבוב (רוטציה) 74..................................................................................................................... ניתוח אשכולות 79..................................................................................................................... ניתוח קבוצות (אשכולות) 80...................................................................................................... תפעול ניתוח אשכולות 81......................................................................................................... שימוש בניתוח אשכולות 82....................................................................................................... ניתוח מבחין83.......................................................................................................................... ניתוח העדפות (88.................................................................................. )Conjoint Analysis פרק שמיני 92.................................................................................................................... הערכה 92.................................................................................................................................. טעות תקן 93............................................................................................................................. טעות תקן 93............................................................................................................................. גודל המדגם הנדרש לניבוי ממוצע97........................................................................................ מודלים של מרקוב 97................................................................................................................ טבלאות 101................................................................................................................................ תשובות לתרגילים 109............................................................................................................... פרק ראשון ה סת ב רות ונ ית ו ח ביי סיאני חקר השיווק הוא חלק מהותי מהפעילות השיווקית של חברות .הוא מסווג כתת -תחום בשיווק, כמו גם פרסום ,אסטרטגית שיווק ,התנהגות הצרכן ,קידום וניהול מכירות .אחת משאלות המפתח העומדות בפני המשווקים היא “כמה כסף משתלם להשקיע במחקר?” כאן נענה על שאלה זו בעזרת הסטטיסטיקה הבייסיאנית .כדי להבין כיצד ליישם סטטיסטיקה בייסיאנית יש לשלוט בהסתברות בסיסית. מוש גים חשובים ת ו צ א ו ת ,מר ח ב מ ד ג ם ו מ א ור ע ו ת תוצאה היא דבר מה שמתרחש .המונח “מרחב מדגם” משמעו כל התוצאות האפשריות העשויות להתרחש .לדוגמה ,כאשר מטילים קובייה ,אחת התוצאות האפשריות היא .1ישנן בסך הכל 6 תוצאות אפשריות 5 ,4 ,3 ,2 ,1 :ו 6 .6-תוצאות אלו יחד יוצרות את מרחב המדגם. המונח “מאורע” הגדרתו אוסף או מצבור תוצאות .לדוגמה ,בעת הטלת קובייה נוכל להגדיר כמאורע רק תוצאות הקטנות מ .3-המונח “משתנה אקראי” משמעו הפריט המסוים הנתון ביד המקרה .אנו מניחים שכל התוצאות האפשריות עבור המשתנה ידועות מראש .לדוגמה ,מספר הנקודות השחורות המופיעות על פני הקובייה לאחר הטלתה הוא משתנה אקראי .אנו עשויים לרצות לחשב את הסתברותה של תוצאה או את הסתברותו של מאורע .כדי לפשט ,נדון כאן תמיד בהסתברותם של מאורעות ,מכיוון שתמיד אפשר להגדיר מאורע כתוצאה בודדת. ה ג דר ת ה ש כ י ח ו ת ה י ח ס י ת ש ל ה סתב רות הגדרת השכיחות היחסית של הסתברות אומרת שהסתברותו של מאורע מסוים נמדדת כשכיחות היחסית של המאורע בטווח הארוך .נניח שאתם חזאי מזג אוויר ואתם מתבקשים להעריך את הסיכויים שכמות המשקעים ביולי 1991תהיה גדולה מן הממוצע .שיטה אחת למדידת ההסתברות של מאורע זה היא לחשב את השכיחות היחסית של חודשי יולי שכמות המשקעים בהם הייתה גדולה מן הממוצע במהלך מאה השנים האחרות .בשיטה זו ,אם ב 10-שנים מתוך מאה הייתה כמות המשקעים בחודש יולי גדולה מן הממוצע ,ההסתברות לכמות משקעים גדולה מן הממוצע 2 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ן ושא ר קרפ ינאיסייב חו ת ינו תורבת ס ה בחודש יולי 1991היא 10%או .0.1כך מחשבים שכיחות יחסית של הסתברות .נציב את X = Xמשמעו שביולי 1991הייתה כמות המשקעים כמשתנה האקראי “כמות משקעים ביולי 5 ;”1991 ממוצעת X = 1 .משמעו שביולי 1991הייתה כמות המשקעים קטנה מהממוצע; X = 10משמעו שביולי 1991הייתה כמות המשקעים גדולה מן הממוצע X .יכול לקבל שלושה ערכים: הגדרת השכיחות היחסית של הסתברות אומרת שאם ( )X = 10מייצג את המאורע של כמות משקעים גדולה מהממוצע ,ההסתברות של ,X = 10שנכתבת כךPr(X = 10), : שווה לשכיחות היחסית של התרחשות מאורע זה לאורך זמן. כך ננסח את ההסתברות של מאורע X = 10 הנה דוגמה נוספת :נניח שאתם עומדים להטיל קובייה .המשתנה האקראי X מייצג את מספר הנקודות השחורות על פני הקובייה .את הסיכוי ,או במילים אחרות ההסתברות ,שהקובייה תראה את המספר 1אפשר לחשב באמצעות חישוב השכיחות היחסית לאורך זמן של התרחשות מאורע זה במהלך סדרה של הטלות קובייה .יהי Xהתוצאות האפשריות של הטלהX = : }.{1,2,3,4,5,6 יהי Aתוצאה שבה הקובייה מראה ,1ולשם נוחות נכתוב ) Pr(Aולא )Pr(X = A :. אם נטיל קובייה הוגנת מאות פעמים ונתעד את התוצאות ,השבר שיתקבל ימשיך להיות קרוב ל 1/6-או .0.167זאת אומרת ,אנו יכולים לצפות לתוצאה 1ב 16.7%-מהפעמים. מ א ור ע ו ת ב ל ת י ת ל ו י י ם כאשר מטילים קובייה ,ההסתברות לקבל 1נשארת זהה עבור כל הטלה .קבלת התוצאה 1בהטלה אחת אינה משפיעה על הסיכוי לקבל 1בהטלה הבאה .המאורעות ,כלומר מספר הנקודות המופיע על פני הקובייה לאחר כל הטלה ,אינם תלויים זה בזה. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 3 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ ה ס ת בר ו ת מ ש ו תפ ת הסתברות משותפת משמעה הסיכויים ששני מאורעות מסוימים של שני משתנים אקראיים יתרחשו בעת ובעונה אחת .נניח שאנו מגדירים שני משתנים אקראייםX : שהסטודנט לומד בו ו Y -הוא המגדר .נגדיר עבור Xאת המאורעות האפשריים :לומד/ת מנהל עסקים כחוג ראשי ) (Bאו לומד/ת מנהל עסקים כחוג משני ) .(NBהמאורעות האפשריים עבור Yהם גבר ) (Mואשה ).(F הוא החוג הראשי לדוגמה :נניח שאנו נכנסים לכיתה מלאה סטודנטים וסטודנטיות בעיניים מכוסות ובוחרים אחד .Pr(Xלשם נוחות נכתוב מהם באקראי .אנו רוצים לדעת מה ההסתברות ש= B, Y = M) : ) .Pr(B,Mכאשר מאורעות אינם תלויים זה בזה אנו יכולים לבטא את ההסתברות המשותפת שלהם כסכום המכפלה של הסתברות שני האירועים: )Pr(B,M) = Pr(B) x Pr(M ה ס ת בר ו ת ש ו ל י ת נניח שמשרדי האוניברסיטה העבירו לכם רשימה של סטודנטים ,הן נשים והן גברים ,המתחילים את לימודי התואר הראשון .חלקם ילמדו מנהל עסקים כחוג ראשי וחלקם ילמדו מנהל עסקים כחוג משני .נוכל להמיר את טבלה 1.1לטבלת הסתברות באמצעות חלקות כל תא במספר הסטודנטים .250 ,זוהי טבלת הסתברות משותפת משום שהיא מראה את ההסתברות שסטודנט יהיה גבר או אשה ואת ההסתברות שילמד מנהל עסקים כחוג ראשי או כחוג משני. טב לה :1 .1 סיכום נתוני סטודנטים על פי מגדר וחוג ראשי חוג ראשי מנהל עסקים חוג ראשי אחר סך הכל גבר 50 100 150 אישה 50 50 100 סך הכל 100 150 250 טבלה :1.1אנו יכולים להמיר את הטבלה לטבלת הסתברות בכך שנחלק את הסכום בכל תא בסך הכולל של התלמידים .250 ,זוהי טבלת הסתברות משותפת משום שהיא מראה את ההסתברות שתלמיד יהיה גבר או אשה ושהחוג הראשי שלו יהיה מנהל עסקים או חוג אחר. 4 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ן ושא ר קרפ ינאיסייב חו ת ינו תורבת ס ה נניח שאנו רוצים לדעת מה ההסתברות שכל הסטודנטים יבחרו במנהל עסקים כחוג ראשי, יהיה המגדר אשר יהיה .הדבר מכונה הסתברות שולית .כדי למצוא את ההסתברות ,פשוט נחבר את ההסתברויות עבור שני המינים בעמודת מנהל העסקים (B) 0.4 + 0.2 = 0.6 מתמטי . Pr(B) = Pr(M,B) + Pr(F,B) :הסתברויות שוליות נוספות אפשר לחשב באופן זהה .ההסתברות השולית של Mהיא ,0.6וההסתברות השולית של Fהיא .0.4ראו טבלה .1.2 ובכתיב טב לה :1 .2 הסתברות משותפת עבור M, F, B, NBעבור תלמידי שנה א’ אחר מנהל עסקים שולית גבר 0.2 0.4 0.6 אישה 0.2 0.2 0.4 שולית 0.4 0.6 ה ס ת בר ו ת מ ו תנ י ת ) Pr(X|Yהוא ההסתברות של Xבהינתן התרחשותו של .Yהפריט שמשמאל לקו )|( המשתנה האקראי .אם כך ,במקרה זה Xהוא המשתנה האקראי .הפריט שלימין הקו האנכי הוא הוא הנתון ,הוא הפריט שהסתברות הפריט השני מותנה בהתרחשותו קודם .כלומר ,מה ההסתברות שיקרה Xבתנאי שקרה קודם .Yההסתברות לבחור תלמיד גבר הלומד מנהל עסקים כמקצוע .Pr(Xלשם נוחות נכתוב פשוט ) ,Pr(B|Mשמשמעו ראשי נכתבת כך= B | Y = M) : ההסתברות של Bבהינתן .Mהדבר קרוי הסתברות מותנית .הסתברות מותנית אפשר להדגים באמצעות דיאגרמת .Venn תרשים א’ מדגים את ההסתברות המשותפת שהסטודנט יהיה גבר הלומד מנהל עסקים כמקצוע ראשי .המשתנים האקראיים שלנו הם חוג ראשי ומגדר .המאורעות האפשריים למגדר הם גבר (השטח שבתוך המעגל הימני) ואישה (השטח שמחוץ למעגל הימני) .המאורעות האפשריים למשתנה האקראי ‘חוג לימודים ראשי’ הם מנהל עסקים (בתוך המעגל השמאלי) או אחר (מחוץ למעגל השמאלי) .השטח הכולל של התיבה מסמל את היקום ,או את מרחב המדגם .הוא מכיל את כל המאורעות האפשריים .(NB,F) ,(NB,M) ,(B,F) ,(B,M) ,ההסתברות המשותפת שהסטודנט יהיה גבר הלומד מנהל עסקים כחוג ראשי היא השטח המוכהה ביחס לשטח מרחב המדגם ,כלומר ,שטח התיבה הכולל ,השווה .1 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 5 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ תרשים א: M F B NB תרשים א’ :ממחיש את ההסתברות המשותפת שתלמיד הוא גבר והוא לומד מנהל עסקים כמקצוע ראשי .המשתנים האקראיים הם מגדר ומקצוע ראשי .המאורעות האפשריים במגדר הם גבר (השטח שבתוך המעגל הימני) ואישה (השטח שמחוץ למעגל הימני), והמאורעות האפשריים במקצוע ראשי הוא מנהל עסקים כמקצוע ראשי (השטח שבתוך המעגל השמאלי) ומקצוע ראשי אחר (השטח שמחוץ למעגל השמאלי). תרשים ב ממחיש את ההסתברות המותנית שתלמיד ילמד מנהל עסקים כמקצוע ראשי בהינתן שהוא גבר .כמו בתרשים א’ ,שני המשתנים האקראיים הם מקצוע ראשי ומגדר ,והמאורעות הם מנהל עסקים כמקצוע ראשי ,מקצוע ראשי אחר ,גבר ואישה ,אך במקרה זה אנו מגבילים את עצמנו לאחד מהמאורעות האפשריים במגדר :גבר .האזור המוכהה בשטח החפיפה של שני המעגלים ממיצג את ההסתברות המותנית שסטודנט ילמד מנהל עסקים כמקצוע ראשי בהינתן שהוא גבר. תרשים ב תרשים ב’ :ממחיש את ההסתברות המותנית שסטודנט ילמד מנהל עסקים כמקצוע ראשי בהינתן שהוא גבר .Pr(B|M) ,במקרה זה אנו מגבילים את עצמנו לאחד מן המאורעות האפשריים B M בקטגוריה ‘מגדר’ :גבר .האזור המוכהה שבו חופפים המעגלים זה לזה מייצג את ההסתברות המותנית שסטודנט ילמד מנהל NB F עסקים כחוג ראשי בהינתן שהוא גבר .מרחב המדגם שלנו מוגבל למאורע אפשרי אחד עבור המשתנה ‘מגדר’ .אפשר לחשב את ההסתברות המותנית של )(B|M כחיתוך בין המשתנים )(B,Mחלקי ההסתברות השולית. שטח האזור המוכהה זהה לשטח המוכהה בדוגמה העוסקת בהסתברות משותפת .אך במקרה זה השטח איננו נמדד ביחס לתיבה כולה אלא ביחס למעגל המייצג את ההסתברות שסטודנט יהיה גבר .אנו מגבילים את מרחב המדגם שלנו עבור המשתנה ‘מגדר’ למאורע אפשרי אחד. בצורה מתמטית נחשב את ההסתברות המותנית של )(B|M ) (B,Mחלקי ההסתברות השולית ).(M 6 כחיתוך של ההסתברות המשותפת סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ן ושא ר קרפ ינאיסייב חו ת ינו תורבת ס ה בכתיב מתמטי: לדוגמה :אנו רוצים לדעת מה ההסתברות שסטודנט ילמד מנהל עסקים כמקצוע ראשי בהינתן שהוא גבר .אנו מבקשים לדעת את ) .Pr(B|Mאך המידע שיש בידינו ממשרדי מנהל הסטודנטים (טבלה )1.2נותן לנו רק את ההסתברות המשותפת שתלמיד יהיה גבר ושילמד מנהל עסקים כמקצוע ראשי .אם כך ,הבעיה שעומדת בפנינו היא המרת )Pr(B,M ל .Pr(B|M) -נמיר את ההסתברות באמצעות חלוקת ההסתברות המשותפת בהסתברות השולית ששאבנו מטבלה .1.2 התהליך מודגם בטבלה .1.3 טב לה :1 .3 (מקצוע ראשי | מגדר) הסתברות מותנית P r מגדר = מקצוע ראשי מקצוע ראשי מנהל עסקים אחר = מנהל עסקים אחר גבר 0.4/0.6 0.2/0.6 = 2/3 1/3 אישה 0.2/0.4 0.2/0.4 = 1/2 1/2 משפט בייס מעניק לנו מנגנון המאפשר להפוך את כיוון ההסתברות המותנית ,כלומר ,להחליף בין המשתנה הנתון למשתנה האקראי .כך נראית הנוסחה: )Pr(X|Y)=(Pr(Y|X) Pr(X))/Pr(Y תרשים ( 1בעמוד )18מראה בצורה גרפית מה יכול משפט בייס לעשות. הבה נניח שאנו רוצים לדעת מהי ההסתברות ) ,Pr(F|Bההסתברות לבחור סטודנטית אישה דווקא מבין הסטודנטים הלומדים מנהל עסקים כחוג ראשי .נניח גם שיש בידינו רק הנתונים מטבלה .1.3מטבלה זו אנו יודעים שההסתברות ( .Pr(B|F) = 1/2ראו התא השמאלי למטה בטבלה .)1.3אם כן ,בהנחה שאנו בוחרים רק סטודנטים הלומדים מנהל עסקים כמקצוע ראשי ,מהם הסיכויים לבחור תלמידה אישה דווקא מתוך הקבוצה? החישוב נעשה בארבעה צעדים פשוטים: סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 7 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ טב לה :1 .4 משפט בייס :כיצד לחשב הסתברות מותנית (מגדר מקצוע ראשי) מגדר גבר )(M אישה )(F הסתברות מגדרית לפני קבלת מידע נוסף (אפריורית) X הסתברות מותנית (מקצוע ראשי | מגדר) = הסתברות משותפת (מקצוע ראשי, מגדר) (משותפת ÷ שולית) הסתברות מותנית (מגדר | מקצוע ראשי) NB B NB B NB B 0.6 1/3 1/2 0.2 0.4 1/2 2/3 0.4 1/2 1/2 0.2 0.2 1/2 1/3 0.4 0.6 שולית שלב 2 שלב 1 שלב 3 שלב 4 טבלה :1.4נניח שאנו רוצים למצוא את ) ,Pr(F|Bההסתברות לבחור סטודנטית-אישה מבין הסטודנטים למנהל עסקים כמקצוע ראשי .נניח גם שרק הנתונים מטבלה 1.3נמצאים בידינו .לפי טבלה ( .Pr(B|F) = 1/2 ,1.3ראו התא השמאלי התחתון בטבלה .)1.3אם כך ,בהנחה שבחרנו את כל הסטודנטים הלומדים מנהל עסקים כמקצוע ראשי ,מהם הסיכויים לבחור דווקא סטודנטית מביניהם? ארבעה צעדים פשוטים יביאו אותנו אל התשובה. שלב :1תחילה עלינו למצוא את ההסתברות השולית של Mושל ,Fהמכונה הסתברות אפריורית M,F.לפי נתוני מנהל הסטודנטים ההסתברות היא כזוPr(M) = 0.6, Pr(F) = : .0.4אנו זקוקים גם להסתברות המותנית לבחירת סטודנט הלומד מנהל עסקים כמקצוע ראשי בהינתן מגדר מסוים. שלב :2לאחר מכן נכפול את ההסתברויות השוליות בהסתברויות המותנות .כך נקבל טבלת הסתברות משותפת. שלב :3כעת נסכום את עמודות ההסתברות המשותפת ונקבל את ההסתברות השולית של מנהל עסקים כמקצוע ראשי= 0.6 ,Pr(NB) = 0.4 , ).Pr(B שלב :4לבסוף ,נחלק את ההסתברויות המשותפות בהסתברויות השוליות בכל עמודה ,וכך נשלים את המרת ההסתברות ) Pr(B|Fלהסתברות ) .Pr(F|Bההסתברות שקיבלנו מכונה הסתברות אפוסטריורית. 8 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ן ושא ר קרפ ינאיסייב חו ת ינו תורבת ס ה תרג י ל מ ת ח ו ם ה ש י ו ו ק ניקח בעיה מן המציאות ,שכורים בה קבלת החלטות וניתוח בייסיאני .נניח ש = S-מכירות וE- = המצב הכלכלי בארה”ב .נגדיר את Egכתקופה של צמיחה כלכלית ,את Esכקיפאון ואת Er כמיתון .נגדיר את S aכמכירות שמתלווה אליהן מסע פרסום ,ואת S nכמכירות שאין בצידן מסע פרסום Pr(S|E) .משמעו ההסתברות למכירות בהינתן מצב כלכלי ,כאשר },E = {E g, E s, E r }.S = {S a, S n טב לה :1 .5 טבלת הכנסות (באלפי דולרים) Sn Sa Eg 50 200 Es 20 50 Er 0 100- טבלה :1.5נניח ש = S -מכירות ו = E -המצב הכלכלי בארה”ב .נגדיר את Egכתקופה של צמיחה כלכלית ,את Esכקיפאון ואת Erכמיתון .נגדיר את Saכמכירות שמתלווה אליהן מסע פרסום ,ואת Snכמכירות שאין בצידן מסע פרסום Pr(S|E) .משמעו ההסתברות למכירות בהינתן מצב כלכלי ,כאשר: }E = {Eg, Es, Er} S = {Sa, Sn טבלה 1.5היא טבלת הכנסות (באלפי דולרים) ,והיא מראה ש :אם נצא למסע פרסום )(Sa של צמיחה כלכלית ) ,(E gנרוויח .$200אם נצא למסע פרסום בזמן קיפאון ) (E sנרוויח ,$50 אך אם נפרסם בזמן מיתון ) (Erנפסיד .$100אם נחליט שלא לפרסם ) (Snבזמן צמיחה )(Eg נרוויח ,$50אם נמנע מפרסום ) (S nבזמן קיפאון כלכלי ) (E sנרוויח ,$20ואם נמנע מפרסום בזמן מיתון ) ,(E rלא נרוויח דבר .אם נפרסם אפוא אנו עשויים להרוויח עד $200אך אנו גם בזמן עלולים להפסיד .$100אם לא נפרסם ,לא נפסיד כסף בשום מצב אך נוכל להרוויח לכל היותר ( .$50אם ההפסד עבור ) (Erו (Sn)-היה ,-$100אז היה )(Sn קטנות מ (S a) -בכל המצבים האפשריים). הפתרון הנשלט ,מכיוון שההכנסות סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 9 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ שלושה עקרונות לקבלת החלטות ללא שימוש בהסתברות: .1 1מקסימקס .2 2מקסימין .3 3מינימקס חרטה לפני שנשתמש בסטטיסטיקה בייסיאנית נחזור על שלושת העקרונות לקבלת החלטות במצבי אי-וודאות ללא שימוש בהסתברות .לפי חוק המקסימקס ,אנו מניחים את הטוב ביותר וממקסמים את המקסימום ,כלומר ,בוחרים בפעולה שהמקסימום שלה הוא הגבוה ביותר .אנו מוסיפים שורה לטבלה ושואלים“ ,בהנחה שהתנאים הם הטובים ביותר ,מה המקסימום שנוכל להרוויח בכל מקרה?” אם נפרסם ,המקסימום שנוכל להרוויח הוא 200,000דולר .אם לא נפרסם ,המקסימום שנוכל להרוויח הוא 50,000דולר .לפי עקרון המקסימקס עלינו לבחור לפרסם ,מכיוון ש200,000- הוא סכום גדול יותר מ.50,000- טב לה :1 .6 טבלת הכנסות (באלפי דולרים) Sn Sa Eg 50 200 Es 20 50 Er 0 100- מקסימום הכנסה 50 200 טבלה :1.6ממחישה את עקרון המקסימקס .אנו מניחים את הטוב ביותר וממקסמים את המקסימום .לפי עקרון המקסימקס עלינו לפרסם ,משום ש 200,000-הוא סכום גדול יותר מ.50,000- לפי עקרון המקסימין ,אנו מניחים שהגרוע ביותר יקרה וממזערים את ההפסדים .נוסיף לטבלה שורה הבודקת מהן ההכנסות הקטנות ביותר בתרחיש הגרוע ביותר .לפי עקרון המקסימין נבחר שלא לפרסם משום שהחלטה זו תמזער את ההפסדים. 10 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ן ושא ר קרפ ינאיסייב חו ת ינו תורבת ס ה טב לה :1 .7 טבלת הכנסות (באלפי דולרים) Sn Sa Eg 50 200 Es 20 50 Er 0 100- מינימום הכנסה 0 100- טבלה :1.7לפי עקרון המקסימין אנו מניחים שהגרוע מכל יקרה וממזערים את ההפסדים .כאן נבחר שלא לפרסם מכיוון שההחלטה הזו תמזער את ההפסדים. בעזרת עקרון המינימקס חרטה אנו ממזערים את אובדן ההזדמנויות .לשם כך נבנה מטריצת חרטה .כדי לבנות את המטריצה נחשב את ההכנסה המרבית לכל מצב כלכלי וכמה רחוקה כל הכנסה מההכנסה המרבית של אותו מצב .בדוגמה שלנו ,אם ישנה צמיחה כלכלית )(Eg מפרסמים ) ,(S nנהיה במרחק 150,000דולר מההכנסה הגדולה ביותר ( .)200-50אם אכן נפרסם, ואיננו נהיה במרחק 0דולר מההכנסה המרבית .לפי עקרון המינימקס ומטריצת המינימקס שלנו נבחר לפרסם ) ,(S aמכיוון שהחרטה הגדולה ביותר שנגיע אליה אם לא נפרסם היא 150,000דולר, והחרטה הגדולה ביותר נגיע אליה אם נפרסם היא 100,000דולר .כדי למזער את החרטות ,כלומר, את ההזדמנויות האבודות ,אנו בוחרים בקטן מבין הסכומים ובוחרים לפרסם.(S a) , טב לה :1 .8 מטריצת חרטה (באלפי דולרים) טבלת הכנסות (באלפי דולרים) Sn Sa מקסימום Eg 50 200 200 Eg Es 20 50 50 Es 30 Er 0 -100 0 Er 0 100 מקסימום חרטה 150 100 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן Sn Sa 150 0 0 11 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ ק ב ל ת ה ח ל ט ו ת ת ו ך ש י מ ו ש ב כ ל ים ה סתב רותיי ם שלושת עקרונות קבלת ההחלטות הללו ,מקסימקס ,מקסימין ומינימקס חרטה אינם מביאים ו .(E r) -אם נחזור לטבלת ההכנסות המקורית בחשבון מדדים הסתברותיים עבור )(Es) ,(Eg שלנו ,מה שנרצה לדעת הוא האם ) (Es) ,(Egו (Er)-עומדים להתרחש .אם נחשוב ש(Eg)- או ) (E sעומדים להתרחש ,נפרסם .אם נחשוב ש (E r) -עומד להתרחש ,נמנע מלפרסם .במקרה זה נשתמש בהסתברות כדי לחשב את הסיכוי לכל מצב. טב לה :1 .9 טבלת הכנסות (באלפי דולרים) Sn Sa 0.2 Eg 50 200 0.7 Es 20 50 0.1 Er 0 -100 הסתברות )(Pr טבלה :1.9זהו מקרה שבו אפשר להשתמש בהסתברות ,וכאן בא לידי ביטוי העיקרון הרביעי: ערך צפוי .לפי עקרון הערך הצפוי ,אנו מכפילים את ההכנסה עבור כל מצב בהסתברות של המצב ואז סוכמים עבור כל ההחלטות .במילים אחרות ,בעזרת שימוש בעקרון הערך הצפוי אנו יכולים להביא בחשבון את ההסתברות להתרחשות של כל מצב כלכלי ואז לחשב את ההכנסה הכוללת הצפויה בכל החלטה. כאן בא לידי שימוש העיקרון הרביעי :עקרון הערך הצפוי .לפי עקרון הערך הצפוי אנו כופלים את ההכנסה בכל תוצאה בהסתברות של כל התוצאות וסוכמים את כל התוצאות .במילים אחרות, כאשר אנו משתמשים בעקרון הערך הצפוי אנו יכולים להביא בחשבון כל מצב כלכלי שעשוי להתרחש ולחשב את ההכנסה הכוללת הצפויה עבור כל החלטה .ההחלטה הטובה ביותר היא זו המניבה את ההכנסה הגבוהה ביותר (חוק לפלס מניח הסתברויות שוות לכל המאורעות). נניח שישנם שלושה מאורעות :קיפאון כלכלי ,צמיחה כלכלית ומיתון כלכלי .מומחה לחיזוי כלכלי סבור שישנה הסתברות של 70%לקיפאון כלכלי ) ,(Esהסתברות של 20%לצמיחה כלכלית )(Eg והסתברות של 10%למיתון )( .(E rחוק לפלס יעניק הסתברות שווה לכל אחד מהתרחישים). תחילה נכניס את ההסתברות לכל תרחיש לטבלת ההכנסות שלנו ,ולאחר מכן נחשב את סך הערך הצפוי עבור כל משתנה החלטה (S a ו )S n-בכל אחד מהתרחישים הכלכליים .כך תראה הנוסחה עבור מכירות ללא מסע פרסום: )EV(Sn) = $50 — Pr(Eg) + $20 — Pr(Es) + $0 — Pr(Er 12 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ן ושא ר קרפ ינאיסייב חו ת ינו תורבת ס ה הערך הצפוי של אי-הפרסום שווה להסתברות של צמיחה כלכלית כפול ההכנסה המתאימה לה 50,000 -דולר ,ועוד ההסתברות לקיפאון כפול ההכנסה הצפויה במצב זה 20,000 -דולר, ועוד ההסתברות למיתון כפול ההכנסה הצפויה במקרה זה .0 -מנגד ,הנה הנוסחה למכירות שמסע פרסום בצידן ( = EVערך צפוי): )EV(Sa) = $200 — Pr(Eg) + $50 — Pr(Es) + (-$100) — Pr(E r נציב את ערך ההסתברות לכל מצב בנוסחה: EV(Sn) = $50 — (0.2) + $20 — (0.7) + $0 — (0.1) = $24 EV(Sa) = $200 — (0.2) + $50 — (0.7) + (-$100) — (0.1) = $65 (לפי חוק לפלס ,EV(Sa) = 50 ,EV(Sn) = 23.3 ,ולפיכך נבחר ב).)Sa( - הערך הצפוי עבור אי פרסום ) (Snהוא 24,000דולר ,והערך הצפוי עבור פרסום )(Sa הוא 65,000 דולר .בהינתן הסתברויות אלו עבור שלושת התרחישים הכלכליים השונים ,ההחלטה לפרסם )(Sa תניב את הערך הצפוי הגבוה ביותר .לו היו ההסתברויות שונות היו גם הערכים הצפויים שונים, כמובן ,והחלטתנו הייתה עשויה להיות שונה .לדוגמה :נניח שחזאי כלכלי אחר סבור שההסתברות לקיפאון אינה 70%כי אם 10%בעוד ההסתברות למיתון היא .70% EV(Sn) = $50 (0.2) + $20 (0.1) + $0 (0.7) = $12 EV(S a) = $200 (0.2) + $50 (0.1) + (-$100) (0.7) = -$25 אם נציב את הערכים החדשים בנוסחאות ונחשב את הערך הצפוי ,הערך הצפוי הגבוה ביותר נקבל הוא 12,000דולר ,ולכן נבחר בהחלטה )(Sn -ונמנע מלפרסם .לפיכך ,אם נבחר בחזאי הראשון הטוען שהתרחיש המסתבר ביותר הוא מיתון ,נבחר לצאת במסע פרסום .לעומת זאת, אם נבחר בחזאי השני שלשיטתו התרחיש המסתבר ביותר הוא מיתון ,נמנע מלפרסם. כעת נניח שישנה חברה המתמחה במחקרי שוק ומעניקה ייעוץ למשווקים .החברה יכולה לחשב את ההסתברות של כל תרחיש ,אך תמורת תשלום ,ולא תיתן אף פיסת מידע לגבי העתיד לפני קבלת התשלום .עם זאת ,החברה מאפשרת לכם לעיין בתחזיות מהעבר ) .(Fהניתוח הבייסיאני מאפשר לנו להפיק תועלת מן התחזיות הללו .אנו יכולים לעיין בחזיות ולהשוות אותן למה שהתרחש בסופו של דבר ,וכך לגזור הסתברות מותנית של התחזית -המכונה F כלכלי ( .Pr(F|E) :)Eלמידע זה כמות שהוא אין ערך רב ,אך בעזרת חוק בייס אנו יכולים למצוא את ההסתברות ) ,Pr(E|Fההסתברות של מצב כלכלי בהינתן תחזית. -בהינתן מצב בדוגמה מציאותית זו עלינו לזכור שלא נדע מה חזה המומחה לחיזוי כלכלי עד שנשלם תמורת התחזית .כך נעשית השאלה מסובכת מעט יותר .עלינו גם לשקול כמה נסכים לשלם תמורת סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 13 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ התחזית .האם אנו זקוקים בהכרח לתחזית המדויקת ביותר? ככל שהתחזית מדויקת יותר כך היא מתייקרת ,וככל שנשלם בעדה מחיר גבוה יותר כך יקטנו רווחינו. אנו יכולים להשיג את ההסתברויות לתרחישים כלכליים עתידיים ממקורות אמינים .נניח שאנו ההסתברויות האפריוריות שלנו.)0.1 ,0.7 ,0.2( :לאחר מכן נוכל למצוא מידע היסטורי שלפיו נסיק כיצד חזה המומחה את ההסתברויות הללו ועד כמה דייק בתחזיתו .זוהי ההסתברות של התחזית בהינתן מצב כלכלי ,או ).Pr(F i|E i לאחר מכן נבנה טבלה שתיתן לנו את ההסתברות של התחזית עבור כל אחד מהמצבים הכלכליים שנחזו .לרוחב שורת התאים העליונה יופיעו הערכים של השכיחות היחסית של התחזית עבור ומיתון ) .(E rלאורך העמודה הקיצונית מימין נסדר את המצבים צמיחה ) ,(Egקיפאון )(Es הכלכליים השונים :צמיחה ) ,(E gקיפאון ) (E sומיתון ).(E r כעת נניח שהמספרים מתחזיות העבר נמצאים בידינו .לפי הטבלה שלנו ,ב 80%מן הפעמים שבהן חזה המומחה צמיחה אכן חלה צמיחה ,ב 10%-מן הפעמים חל קיפאון וב 10%-מן הפעמים חל מיתון .גם עבור התחזיות לקיפאון ומיתון היו התוצאות זהו -הן היו נכונות ב 80%-מהזמן. כעת יש לנו ההסתברות האפריורית של ) ,Pr(Eוההסתברות המותנית ,Pr(F|E) ,ואנו יכולים לחשב את ההסתברות האפוסטריורית ,או ) ,Pr(F i|E iההסתברות של התרחשות מצב כלכלי כלשהו בהינתן תחזית. כך נחשב (קראו מימין לשמאל): מותנית אפריורית )Pr(E Eg 0.2 Es 0.7 Er 0.1 X אפוסטריורית משותפת )Pr(Fi|Ei F r __ Fs __ Fg )Pr(Fi,Ei Fr __ Fs __ Fg )Pr(E i|Fi Fr __ Fs __ Fg 0.8 0.1 0.1 0.16 0.02 0.02 0.67 0.03 0.12 0.1 0.8 0.1 0.07 0.56 0.29 Pr(F ) 0.07 i 0.95 0.41 0.1 0.1 0.8 0.01 0.01 0.08 0.04 0.02 0.47 שולית ) 0.24 Pr(F i 0.59 0.17 1.00 1.00 1.00 = ÷ שלב :1נכפול את ההסתברות האפריורית בהסתברות המותנית כדי לקבל הסתברות משותפת. שלב :2נסכום כל עמודה כדי להגיע להסתברויות השוליות. שלב :3נחלק את הסכום שבכל תא בהסתברות השולית המתאימה לו כדי למצוא את ההסתברות האפוסטריורית. החזאי הכלכלי יחזה אחד משלושה מצבים Es ,E g - או ,E rאך אתם יכולים לבסס את החלטתכם על כל התחזיות האפשריות .נחזור לעקרון הערך הצפוי ,אך הפעם נציב את ערכי ההסתברות 14 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ן ושא ר קרפ ינאיסייב חו ת ינו תורבת ס ה האפוסטריורית עבור כל תחזית אפשרית .זכרו שתקבלו רק תחזית אחת -צמיחה ,קיפאון או מיתון. כך נחשב את הערך הצפוי של מכירות ללא מסע פרסום בצידן והערך הצפוי של מכירות עם מסע פרסום בצידן עבור כל מצב כלכלי אפשרי .נביט על תוצאות החישובים שלנו :אם המומחה יחזה צמיחה ,נבחר לפרסם ונרוויח 144,500דולר .אם התחזית היא קיפאון נבחר לפרסם משום שעדיין נרוויח 49,500דולר .אך אם התחזית היא מיתון ,נבחר שלא לפרסם משום שכך לא נפסיד ואף נרוויח 14,200דולר. הכנסה צפויה (באלפי דולרים) החלטה באלפי $ $144.5 Sa $51.5 Sa $14.2 Sn EV(Sn|Fg) = $50(0.67) + $20(0.29) + $0(0.04) = $39.3 EV(Sa|Fg) = $200(0.67) + $50(0.29) + (-$100)(0.04) = $144.5 EV(Sn|Fs) = $50(0.03) + $20(0.95) + $0(0.02) = $20.5 EV(Sa|Fs) = $200(0.03) + $50(0.95) + (-$100)(0.02) = $51.5 EV(Sn|Fr) = $50(0.12) + $20(0.41) + $0(0.47) = $14.2 EV(Sa|Fr) =$200(0.12) + $50(0.41) + (-$100)(0.47) = -$2.54 ער ך צפ ו י ש ל ה ח ז א י לבסוף נוכל לחשב את הערך הכולל של החזאי .עבור כל החלטה אפשרית נכפול את הערך הצפוי של ההחלטה לפרסם או לא לפרסם בהסתברות השולית שהתחזית תתגשם .לאחר מכן נסכום את הערכים הצפויים הללו .התוצאה שבידינו היא הערך הצפוי אם נבחר לעקוב אחר תחזיתו של המומחה = forecaster( .חזאי = no forecaster ,ללא חזאי): EV(forecaster) = $144,500 (0.24) + $51,500 (0.59) + $14,200 (0.17) = $67,479 1 EV(no forecaster) = $200,000(0.2) + $50,000(0.7) + (-$100,000)(0.1) = $65,000 כאשר נפחית את התוצאה שהגענו אליה ללא התייעצות עם חזאי מהתוצאה שהגענו אליה לאחר התייעצות עם החזאי נגיע לערך הצפוי של המידע הנוסף ) ,(EVAIערך שהוסיפה ההתייעצות עם החזאי .זהו הסכום הגבוה ביותר שנהיה מוכנים לשלם תמורת הייעוץ = net gain( .רווח נקי): EV(forecaster) = $67,479 EV(no forecaster) = $65,000 Net gain = $ 2,479 1ראו את החישוב תחת הכותרת ‘קבלת החלטות תוך שימוש בכלים הסתברותיים’ סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 15 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ הער ך ה צפ ו י ש ל מ י ד ע מ ו ש ל ם )(EVPI כדי למצוא את הערך האפשרי הגבוה ביותר של המידע הנוסף ,או מה הסכום הגבוה ביותר שכדאי לשלם לחזאי ,נשתמש בערכי ההסתברות האפריורית שלנו כפול הסכום הכספי הגבוה ביותר שנוכל להרוויח בכל תרחיש כלכלי .התוצאה שתתקבל היא הערך הצפוי של מידע מושלם, או .EVPI EVPI = $200,000(0.2) + $50,000(0.7) + $0(0.1) = $75,000 לאחר מכן נפחית מן הסכום הזה את הערך הצפוי ללא העזרות בשירותיו של חזאי.65,000$ , = EV - EVPIהסכום הגבוה ביותר שנשלם לחזאי עם מידע מושלם $75,000 - $65,000 = $10,000 תר גי ל I1 I2 I3 E1 50 20 10 E2 40 10 5 E3 10 5 50 יהי - Iמידת השקעהI ,I2 ,I1 , . 3 - Eמצב כלכליE ,E2 ,E1 , . 3 - Fתחזית למצב כלכלי ההסתברויות האפריוריות שלנו הןPr(E1) = Pr(E 2) = Pr(E 3) : תצ פי ת: 16 F1 F2 F3 E1 0.90 0.05 0.05 E2 0.05 0.90 0.05 E3 0.05 0.05 0.90 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ 2 שאלות : .1 האם חלופה I2 .2 האם ניתוח בייסיאני משנה את ההסתברות המותנית? מדוע או מדוע לא? .3 מהו הערך הצפוי של המידע הנוסף )?(EVAI .4 מהו הערך הצפוי של המידע המושלם )?(EVPI 2 התשובות בסוף הספר כדאית בכל מצב או האם היא פתרון שולט? מדוע? סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 17 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ ת ר שים :1יי צ ו ג ח ז ותי ש ל ח ו ק בייס אפריורית X משותפת מותנית אפוסטריורית שולית 18 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ן ושא ר קרפ ינאיסייב חו ת ינו תורבת ס ה חז ר ה כ י צ ד לע ד כ ן ה ס ת בר ו ת אפר י ור י ת בעז רת חוק ביי ס שלב :1קלט .4 4טבלת הכנסות .5 5הסתברות אפריורית עבור כל מאורע ,ערך צפוי עבור כל אסטרטגיה .6 6הסתברויות מותנות של הצלחת החזאי )(F|E שלב :2חישוב הסתברויות .1 1כפלו את ההסתברות האפריורית בהסתברות מותנית ( )F|Eהסתברות משותפת .2 2סכמו כל עמודה של הסתברות משותפת הסתברות שולית .3 3חלקו כל תא של ההסתברות המשותפת בהסתברות השולית הסתברות מותנית )(E|F שלב :3ערך צפוי (עם תחזית נתונה) .1 F11 א .פעולת כפל: Pr(E1|F1) xהכנסה עבור (S1|E1); Pr(E2|F1) xהכנסה עבור )(S1|E2 עבור כל המאורעות והסכומים ב .עשו אותה פעולה עבור S4 ,S3 ,S2 ג .בחרו את ההחלטה שבה ה E-הוא הגבוה ביותר )(Si|Fi .2 .3 2חזרו על כל התהליך עבור F2 3חזרו על כל התהליך עבור F3 “ “ “ “ “ “ “ “ “ “ “ “ “ Fn n “ שלב :4ערך צפוי (תחזית) כפלו את הכנסה F1 בהסתברות השולית );Pr(F 1 חזרו על התהליך עבור כל התחזיות האפשריות וסכמו סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 19 ינאיסייב חו ת ינו תורבת ס ה ן ושא ר קרפ שלב :5ערך צפוי של מידע נוסף ערך צפוי של מידע נוסף )(EVAI) = EV(forecast) - EV(no forecast ערך צפוי של מידע מושלם (נתון לבחירתכם) כפלו את ההכנסה המרבית עבור כל מאורע בהסתברותו של המאורע; סכמו הכנסה מרבית לתחזית = )EV(maximum payoff)3 - EV(no forecast 3 20 = Maximum payoffהכנסה מרבית סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן פרק שני מ א פ י ינ י מ י ד ע מ דע ה ש י ו ו ק -ס ק יר ה כ ל ל י ת מבוא אפשר לתאר עצמים ואנשים באמצעות נתונים .לדוגמא ,נניח שנרצה לתאר אדם שהוא זכר ,בוגר קולג' ,הגר בניו-יורק ,נשוי ורוכב לעבודה באופניים .מידע יכול לשמש לייצוג אובייקטים שונים ,כמו האדם שלעיל .נגדיר ארבעה משתנים X1 :ייצג אדם זכרX2 , בוגר קולג' X3 ,ייצג תושב ניו-יורק ו X4 -ייצג אדם שאינו רוכב לעבודתו באופניים .כל אחד מן המשתנים יניח שערך 1מייצג אם המאפיין מתקיים וערך 0מייצג אם המאפיין ייצג אינו מתקיים. האדם שהצגנו יכול להיות מזוהה כ X1 = 1( 1110 -משום שהוא זכרX2 = 1 , שהוא בוגר קולג' X3 = 1 ,משום שהוא תושב ניו-יורק ו X4 = 1 -משום שהוא כן משום רוכב לעבודתו באופניים) .נקבה בוגרת בי"ס תיכון המתגוררת בעיר פארגו ,צפון-דקוטה ושאינה רוכבת על אופניים תזוהה כ.0001 - אם היה לנו בסיס נתונים בעל כמה עשרות בני אדם ,היינו מקבלים כמה עשרות אלפי שורות של נתונים (שורות הן אופקיות ועמודות הן אנכיות) .וארבע עמודות צולבות, המייצגות עבור כל אדם מאפיינים של ארבעת המשתנים הנ"ל. מ י ד ע נ ו מ ינ ל י הדוגמא שלעיל מייצגת מידע נומינלי .הסיבה היא ,שהמספרים אינם מייצגים דבר מלבד קיומו או היעדרו של מאפיין מסוים .אם ניקח לדוגמא שני בני אדם ,האחד עם תוצאה של 0001והשני עם תוצאה של ,0010האם זה אומר שהאדם השני חשוב פי עשר מהראשון? כמובן שלא! זה יהיה כמו לומר ,שאם מספר המיקוד של מישהו גדול משלי ,אז הוא חשוב יותר ממני .ברור ,כי מספרים המייצגים את קיומו או היעדרו של מאפיין מסוים אינם יכולים לשמש למסקנות אחרות. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 21 עדימ ינייפאמ ינש קרפ מ י דע ס ד ור נניח כי חברה למילוי בקבוקים מבקשת לבדוק את העדפותיהם של בני נוער לגבי סוגי משקאות קלים .רננה ,המתגוררת בעיר ,מעדיפה משקאות קלים בסדר הבא :קוקה-קולה ,ספרייט ,ספרינג, בירת קרלסברג ופפסי .ורוניקה ,החיה בחווה ,מעדיפה משקאות קלים בסדר הבא :ספרינג ,ספרייט, קוקה-קולה ,פפסי ובירת קרלסברג. אנו יכולים להגדיר חמישה משתנים לגבי העדפות של משקאות קלים: V ייצג את קוקה-קולה כמשקה הקל המועדף W ייצג את פפסי כמשקה הקל המועדף X ייצג את ספרינג כמשקה הקל המועדף Y ייצג את ספרייט Z ייצג את בירת קרלסברג. כעת נציב את הערכים של ההעדפות :העדפה ראשונה = ,5העדפה שניה = ,4 העדפה שלישית = ,3העדפה רביעית = 2והעדפה חמישית = .1 העדפות של רננה יהיו )51342 (V = 5, W = 1, X = 3, Y = 4, Z = 2 ורוניקה – 32541 ) .(V = 3, W = 2, X = 5, Y = 4, Z = 1במקרה זה ,תוצאת ה 5 -של רננה ושל בהעדפת קוקה-קולה יהיה גבוה יותר מתוצאת ה 3 -של ורוניקה .היא מראה ,שההעדפה של רננה לגבי קוקה-קולה חזקה יותר מזו של ורוניקה .מכאן ,שסדר העדיפויות מיוצג בערכים של המשתנים הנתונים. סוג המידע הזה מוכר כמידע סדור ,משום שסדר הנתונים מייצג העדפות .מידע סדור מכיל יותר אינפורמציה ממידע נומינלי ,שמכיל רק אינפורמציה על קיומם או היעדרם של מאפיינים .למרות שמידע סדור מכיל יותר אינפורמציה ממידע נומינלי ,יש בו חסרון משמעותי – רמת החשיבות של ההעדפות אינה ידועה .בדוגמא של המשקאות הקלים אנחנו לא יודעים מה היו תוצאות התעדוף בפועל של המשקאות השונים. נניח שבסרגל של 100נקודות ,רננה ,שההעדפות המקוריות שלה היו ,51342דירגה כך את ההעדפות שלה :קוקה-קולה = ,90פפסי = ,80ספרינג = ,82ספרייט = ,83בירת קרלסברג = .81ורוניקה ,שההעדפות המקוריות שלה היו ,32541דירגה כך את ההעדפות שלה :קוקה-קולה = ,95פפסי = ,10ספרינג = ,97ספרייט = ,96בירת קרלסברג = .5 אם היינו רוצים להשוות את ההעדפות של מותגים שונים ,אנחנו נעשה טעות אם נאמר ,שמאחר וקוקה-קולה היתה העדיפות הראשונה של רננה ושלישית של ורוניקה ,רננה אוהבת קוקה-קולה יותר מאשר ורוניקה .בדוגמא שלנו ,ורוניקה נתנה לקוקה-קולה את הציון 95בעוד שרננה נתנה 22 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ינש קרפ עדימ ינייפאמ לקוקה-קולה מיון של ! 90כך שתיהם דירגו את ספרייט במקום השני ,כאשר רננה העניקה לספרייט מיון של 83בעוד שורוניקה העניקה לספרייט ציון של !96 לסיכום ,מידע סדור אינו מאפשר השוואה של העדפות בין אינדוידואלים שונים מאחר וההעדפות הן ייחודיות לכל אדם ואדם .בסעיף הבא נדון במידע מוחלט (קטגוריאלי). מ י דע ק ט ג ור י א ל י מידע יכול לשמש כדי לייצג סיגמנטים או קטגוריות שונות .לדוגמא ,במשתנה 'הכנסה' אדם אחד יכול להשתייך לקבוצת ההכנסה הנמוכה ,לקבוצת ההכנסה הבינונית או לקבוצת ההכנסה הגבוהה. אנחנו יכולים לקודד את משתנה ההכנסה כך =1 :הכנסה נמוכה =2 ,הכנסה בינונית =3 ,הכנסה גבוהה .נתוני ההכנסה בפועל לא תועדו כלל ,רק הקטלוג לקבוצת ההכנסה .לכן ,המושג מידע קטגוריאלי נועד לציין נתון המשויך לסיגמנט או לקבוצה. מידע קטגוריאלי יכול לשמש להגדרת רמת הדישון של שדה ,היקף ההוצאה על פרסום מוצרים חדשים ,היקף ההנחה הכלולה בהצעת מחיר ,ועוד. מ י דע א ינ טר ו ו ל י מידע אינטרוולי שונה מידע סדור וממידע קטגוריאלי .מידע אינטרוולי משתמש בתוצאות בפועל או במדידת ביצועים .לכן משתנה ה' -הכנסה' ימדוד את ההכנסה בפועל לבית-אב עבור אדם מסוים .זה מנוגד למשתנה הקטגוריאלי 'הכנסה' ,בו המידע מודד את רמת ההכנסה של משפחה ולא את ההכנסה בפועל של בית-האב .אם 'הכנסה' הוא משתנה קטגוריאלי ,ההבדל או האינטרוול בין המושאים יכול להיות גדול מאוד או קטן מאוד. נניח שהפער בין הכנסה גבוהה לבינונית הוא 75,000$והפער בין הכנסה בינונית לנמוכה הוא .25,000$אפשרי ,שהאינטרוול בין ההכנסה הבינונית לנמוכה יהיה 74,000$( 65,000$ו.)9,000$ - ייתכן גם שאינטרוול של 2.00$יבחין בין הכנסה בינונית ונמוכה (כאשר בית-אב אחד ירוויח 24,999$ובית-אב שני ירוויח .)25,001$האינטרוול בין ההכנסות לבית-אב הוא לא ידוע כאשר המשתנה מבוטא בצורה קטגוריאלית. בניגוד לכך ,מידע אינטרוולי מציג את נתוני ההכנסה המדויקים לבית-אב .ולכן האינטרוול בין בתי-אב הוא ידוע .מידע אינטרוולי הוא מידע בו האינטרוול המדויק בין שני מושאים הוא ידוע. כאשר בוחנים תוצאות רצויות ,התוצאות בפועל מוצגות כאשר החשיבות המקורית של התוצאות הרצויות מבוטאת באמצעות הנתונים .מידע סדור לעומת זאת אינו מבטא את החשיבות התוצאות הרצויות באמצעות הנתונים (ראה דוגמא קודמת). סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 23 עדימ ינייפאמ ינש קרפ מידע יחסי מידע יחסי דומה מאוד למידע אינטרוולי .אולם למידע יחסי יש יתרון נוסף – נקודת האפס איננה שרירותית .לדוגמא ,המשתנה המייצג את מספר הילדים לבית-אב הוא מידע יחסי ,משום שבית-אב ללא ילדים יקבל את הערך אפס .בטרמומטר קלווין ,אפס שווה ל 230 -מעלות (בערך 100מעלות) ,הטמפרטורה בה זכוכית הופכת לנוזלית .לכן נקודת האפס היא לא שרירותית ,אלא מייצגת סיטואציה פיזיקלית משמעותית ,שמתרחשת בטמפרטורה מסוימת -אפס. ממוצעי נקודות מרכזיות ) (GPAהם נתונים אינטרווליים משום שבית ספר אחד יכול להשתמש בסרגל בן ארבע נקודות ) (A=4, B=3, C=2, D=1, F=0בעוד שבית ספר שני יכול להשתמש בסרגל בן חמש נקודות )B=4, C=3, D=2, F=1 .(A=5,לכן אפס הוא ערך שרירותי .דוגמא נוספת למידע אינטרוולי היא תוצאות דירוג העדפות של צרכנים .בד"כ נעשה שימוש בסולם ליקרט ) ,(Likertבו העדפות הצרכנים נקבעים נקבעות בסולם של 1עד 5 -2עד ,+2כך ש -2הוא העדיפות הנמוכה ביותר 0 ,הוא העדפה מתונה ו +2הוא העדפה חזקה .הצגה שונה של תוצאות ההעדפות תהיה באמצעות סולם בו 1הוא העדיפות הנמוכה ביותר 3 ,הוא העדפה מתונה ו 5 -הוא ההעדפה החזקה .תוצאה של אפס היא שוב שרירותית, או והתוצאות הללו של ההעדפות הן נתונים אינטרווליים ולא יחסיים .בשיווק ,מידע מנותח מכיל משתנים שהם אינטרווליים במהותם. ה מ ש כ י ו ת ל ע ו מ ת א י -ר צ יפ ו ת כאשר בוחנים את כל הערכים שמשתנה יכול להכיל ,ישנם משתנים היכולים להכיל סט של ערכים .בדוגמא שהזכרנו של סרגל ההעדפות ( 1הוא העדיפות הנמוכה ביותר 3 ,הוא העדפה מתונה ו 5הוא ההעדפה החזקה) ,המשתנה 'תוצאות העדפה' יכול להכיל רק ערך אחד מתוך חמש אפשרויות – .1,2,3,4,5המשתנה הזה הוא לא-רציף ,משום שהוא יכול להכיל רק ערך מספרי אחד. לעומת זאת ,משתנים רציפים יכולים להכיל כל ערך שהוא מתוך רצף נתון של מספרים .לדוגמא, המספר הממוצע של ילדים לבית-אב הוא משתנה רציף .הערך יכול להיות כל מספר ,משום שאנחנו מחשבים את המספר הכולל של הילדים ומחלקים אותו בבתי-האב הכלולים במדגם. כמובן שמספר הילדים בכל בית-אב שהוא הוא ערך לא-רציף ,משום שהוא מתייחס רק למספרים שלמים (.)...3 ,2 ,1 בפרק זה הוצגו העקרונות הבסיסיים של מאפייני מידע .בחלקים הבאים נעסוק בנושא חשוב נוסף ,והוא איכות המידע .בהקשר זה נדון בהטיות ,תקפות ומהימנות של מידע. 24 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ינש קרפ עדימ ינייפאמ הטיות מידע הוא מוטה אם הוא אינו משקף במדויק את ערכי האמת של פרמטר נתון .לדוגמא ,טרמומטר, המציג קריאה של חמש מעלות יותר הוא מוטה כלפי מעלה או מוטה חיובית .אם הוא היה מציג קריאה של חמש מעלות פחות הוא היה מוטה כלפי מטה או מוטה שלילית. דוגמא להטיה חיובית במחקר שיווקי תהיה בשאלת ההכנסה ,בה המשיב מתבקש לבחור את הקטגוריה 'המשקפת בצורה הקרובה ביותר את ההכנסה השנתית של בית-האב שלך' .חלק מן המשיבים נוטים להגזים ברמת ההכנסה שהם מדווחים עליה ,בהנחה שבזה הם יעלו את הערך שלהם מבחינת נושא השאלה .בדומה ,חלק מן המשיבים עשויים להטות את התשובה שלהם מטה בשל הרתיעה שלהם למסור את הגיל האמיתי שלהם ,אפילו אם השאלון אנונימי (חלק מהסוקרים מצלם בהיחבא את המשיבים באולטרא-סגול כדי לגלות את הזהות האמיתית של המשיבים בסקר 'אנונימי' ,דבר שהוא לא אתי וייתכן שאף לא חוקי). במסגרת רשת הסתברות ,אנו יכולים להסביר הטיות באמצעות ערכים צפויים (ראה פרק ראשון). משתנה אקראי מניח ערכים הנובעים מניסיון אקראי .המשתנים 'גיל' או 'הכנסה' יכולים להיחשב למשתנים אקראיים אם תהליך בחירת הנתונים הוא אקראי .הטיה מתרחשת כאשר הערכים הצפויים של משתנה כלשהו אינם תואמים לאוכלוסיית המשתנה. מצב נוסף של הטיה הוא זה :נניח שאנו רוצים לחשב את ממוצע ההכנסה של ארבעה בתי-אב בשנת 1993במדינת אילינוי (משתנה זה הוא קבוע וידוע בשם 'פרמטר') .אנו יכולים לבחור מכל מחוז מדגם שהוא פרופורציונלי לגודל המחוז יחסית למדינה כולה (ידוע בשם 'מיקום פרופורציונלי') ולחשב מתוך המדגם את ההכנסה לבית-אב במדינה (אומדן זה הוא משתנה אקראי ,משום שהנתונים משתנים בהתאם לאוכלוסייה הנסחרת במדגם) .אם היינו חוזרים על התהליך פעמים רבות ,היינו מקבלים את הערכים הצפויים של ההכנסה הממוצעת לבית-אב ,הקרוב לממוצע ההכנסה האמיתי לבית-אב של המדינה .זוהי הערכה שאינה מוטית. לעומת זאת ,אם היינו בוחרים מדגם מתוך האוכלוסיה המבוססת של פרוורי שיקגו ,כמו ברינגטון, קנילוורט' ,ווילמט ,ההערכה שלנו היתה מוטית חיובית .ולהיפך – אם המדגם שלנו היה נבנה משכונות בשיקגו בעלות הכנסה נמוכה ,כמו קבריני גרין ,צפון לאונדיין ופארק גרפילד ,ההערה שלנו היתה מוטית שלילית. בחלק הבא נבחן את מושג התקפות. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 25 עדימ ינייפאמ ינש קרפ ת קפ ו ת מידע נאסף הוא תקף אם הוא מודד את מה שהוא אמור למדוד כלומר מה שתוכנן למדוד. לדוגמא :מבחן טעימה שבדק את ההעדפה בין קוקה-קולה ה'קלאסית' לקוקה-קולה החדשה זיהה העדפה ברורה לקוקה-קולה החדשה .מבחן זה תקף רק אם הוא בודק את ההעדפה של הטעם ולא מתייחס למשתנים נוספים ,תרבות הצריכה למשל .ישנם משתנים שונים המשפיעים על תרבות הצריכה ,כמו הנאמנות למשקה בן מאה-השנים ,שלא נבדקה בעבר. טופסי הערכה למורים יכולים לכלול דירוג תקף למורה אם התלמידים באופן עקבי מעניקים לו ציון טוב או לא טוב בלי קשר למוצע הציונים שלהם .לעומת זאת ,אם תלמידים בעלי ממוצע ציונים גבוה נתונים למורה ציון טוב ,ותלמידים בעלי ממוצע ציונים נמוך נותנים לאותו המורה ציון נמוך ,נתוני ההערכה אינן תקפים ,כי רמת שביעות הרצון מן המורה מושפעת מרמת שביעות הרצון של התלמידים מממוצע הציונים שלהם ולא מרמת ההוראה של המורה. בהקשר של שיווק ,תוצאות תעדוף של מותגים תקפה אם היא מביאה לידי ביטוי רק את ההעדפות של המותגים .תוצאות התעדוף לא יהיו תקפות לניתוח של תרבות צריכה .אין אפשרות לתמחר העדפה של מותג ,ניתן לקבוע מחיר רק לעלות הרכישה של המותג. עם סיום בחירות ,1948ה'שיקגו טריביון' פירסם בעמודו הראשי – 'דיואי ניצח' .אנשי סקרים רבים העריכו כי הוא ינצח בבחירות ,אך למרות זאת ,טרומן ניצח בבחירות .לסקרים אלו היתה בעיית תקפות .הבוחרים בסקר התבקשו להצביע על המועמד העדיף עליהם וכמובן שמבין אלו שהשתתפו בסקרים ,רובם העדיפו את דיואי .אולם הרוב העצל ,שלא השתתף בסקרים ,הצביע ברובו להארי טרומן .הסקרים הללו היו תקפים לפלח האוכלוסיה שנסקר אבל לא לאוכלוסיית המצביעים בכללותה .החלק הבא יעסוק במושג המהימנות. מ ה י מנ ו ת מידע הוא מהימן אם מדדים חוזרים ונשנים מפיקים את אותן התוצאות .מאוד אפשרי ,שתוצאות נתונות הן תוצאה אקראית של אירוע בדוי .לדוגמא ,סקר הבודק את רמת הביטחון של צרכן הכלכלה האמריקנית יכול לשקף אופטימיות יוצאת דופן במידה והסקר נערך ביום תשלום משכורות או מתן בונוסים .אותו הסקר יכול היה להפיק תוצאות שונות אם היה נערך שבועיים או שלושה אח"כ. מהימנות יכולה להימדד באמצעות נתוני של מבחנים חוזרים .אם ישנה סטייה נומינלית במידע שנאסף משמע שהמידע מהימן. ישנם מורים המהססים להשתמש במבחנים בעלי מספר תשובות אפשריות ('מבחן אמריקני') משום שהם אינם מהימנים .אם התשובה הנכונה לכל השאלות במבחן היא 'ב' או 'ג' (כאשר נתונות תשובות אפשריות 'א'' ,ב'' ,ג'' ,ד'' ,ה') ,ממוצע הכיתה ייטה להיות גבוה יותר ממבחן חוזר 26 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ינש קרפ עדימ ינייפאמ בו לשאלות ישנה רק התשובה הנכונה היא 'א' או 'ה' .ההסבר לכך הוא ,שתלמידים המנחשים את התשובות נוטים יותר לבחור ב ' -ב' או 'ג' מאשר 'א' או 'ה'. לפני שניגשים לניתוח של מידע ,הכרחי לוודא את איכותו :האם הוא אינו מוטה ,האם הוא אמין ותקף? יהיה זה בזבוז גדול של זמן אם לאחר ניתוח ופרשנות של המידע יתברר כי הוא מוטה ואינו אמין .חובה לוודא את איכות המידע לפני שמתחילים לנתח אותו. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 27 פרק שלישי מ ד י דות ס יכ ו ם ו מ דדי פיזור כאשר מתמודדים עם כמות גדולה של נתונים ,קיים קושי להשוות תוצאות להעריך סדרי-גודל בין קבוצות .למשל הדוגמא הבאה :נקבעה קבוצה בת עשרה סטודנטים במנהל עסקים (קבוצה ‘א’) וקבוצה שניה בת עשרה סטודנטים באמנות מודרנית (קבוצה ‘ב’) .אנו רוצים לזהות את הקבוצה בעלת ה GPA נקודות .קבוצה ‘א’ .4,1,2,3,1,4,2,2,3 :קבוצה ב’ .4,3,2,2,4,1,3,2,1,4 :איזו קבוצה הגבוה יותר באמצעות סרגל בן ארבע היא טובה יותר? כעת דמיין שכל קבוצה מכילה 100,000סטודנטים .איזו קבוצה היא טובה יותר? במחקר שנערך ע”י בוז ,אלן והמילטון נטען ,שהמוח האנושי יכול לעבד עד שבעה ביט של מידע בו-זמנית ±2 כדי לפרש מידע במהירות ,אנו משתמשים במדדי סיכום ,המספקים סיכום של נתונים לרוחב בסיסי הנתונים שונים .במקום לבחון מידע גולמי ,אנו פשוט משווים ומעמתים מדדי סיכום. הוא ...תצפית של המשתנה .Xבהנחה שמשתנה אנו משתמשים בסימון שלהלןX1 : Xמייצג את תוצאות GPAשל קבוצה א’ ,התצפית השלישית והחמישית יסומנו כך: .X 3=2 X 5=1בחלקים הבאים נציג שלושה מדדי סיכום :אמצעי ,תיכון ושכיח .לאחר מכן יוצגו שלושה מדדי פיזור :שונות ,סטיית-תקן ,סטיית ממוצע-חציון מוחלט ).(D.A.M אמצעי אמצעי הוא מדד סיכום הדורש תמצות של כל נקודות המידע חלקי מספר התצפיות .בביטוי מתמטי ( )X1 + X 2 + …. + Xnבו nמייצג את מספר התצפיותX , את המידע הנאסף והציון התחתי 1, 2, ...., n ,מייצג את התצפית הספציפית שנשמרה. האות היוונית µהיא פרמטר המייצג את אוכלוסיית האמצעי ,ו ̅ Xמייצג את מדגם האמצעי, הוא המשתנה המייצג שהוא משתנה אקראי. לאמצעי כמדד סיכום יש חסרון בולט בזה שכל הערכים הנצפים כלולים בחישוב של ערך האמצעי. לכן נתונים חריגים יכולים להשפיע על ערך האמצעי בצורה לא פרופורציונלית .לדוגמא ,אם אנחנו מבקשים להעריך את רמת ההכנסה בשכונה מסוימת ,מספר תושבים אמידים עשויים לעוות את רמת ההכנסה האמיתית של השכונה כולה .פתרון לחסרון הזה מצוי בתיכון כמדד סיכום. 28 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן רוזיפ ידד מ ו ם ו כיס תוד י דמ ישיל ש קרפ תיכון תיכון הוא מספר שלפחות 50%מן המדגם שווה או גבוה ממנו ולפחות 50%מן המדגם שווה או נמוך ממנו .לדוגמא ,נניח שאנחנו בוחנים את ההכנסה לפי בית-אב לחמישה אנשים ומקבלים את הנתונים הבאים (באלפים) .20 ,50 ,70 ,100 ,260 :האמצעי יהיה 100,000$ המחושב כך: ).((20 + 50 + 70 + 100 + 260) ÷ 5 = 100 החציון יהיה 70,000$המחושב כך :ל 50% -או יותר יש הכנסה של 70,000$או פחות ,ל- 50%או יותר יש הכנסה של 70,000$או יותר. מחלקת המסחר האמריקנית משתמשת בתיכון כמדד סיכום של הכנסות ולא באמצעי .תוצאת האמצעי בד”כ מוטית מעלה בשל ההכנסה הגבוהה של מספר פרטים .כאשר מאפיין כזה מחושב באמצעות תצפיות רבות הקרובות לערך הנתון ,וכאשר ישנם מספר פרטים בעלי ערכים הגבוהים בהרבה מכל השאר ,אזי הנתונים מוטים ימינה מצד שני ,אם הנתונים החריגים נמוכים בהרבה מן הרוב ,אזי הנתונים מוטים שמאלה. שכיח מידע יכול להימדד באמצעות שכיחות ,כלומר – איזה ערך מופיע הכי הרבה פעמים .השכיח הוא ערך המתאים לשכיחות הגבוהה ביותר של כל הערכים במדגם .לנתונים יכול להיות יותר משכיח אחד .ייתכן גם שלנתונים לא יהיה שכיח כלל .בחן את תוצאות ה – GPA הבאות של סטודנטים .איזו כיתה היא חד-גוונית ,רב-גוונית וללא שכיח? האם הממוצעים שונים? כיתה 5 ,4 ,3 ,2 ,1 :1 כיתה 5 ,5 ,3 ,1 ,1 :1 כיתה 5 ,5 ,3 ,3 ,1 :3 נבחן כעת מדדי פיזור. מ ד ד י פ י ז ור :ש ונ ו ת ו ס ט י י ת -ת ק ן החלקים הקודמים עסקו במדדי סיכום שונים ,המיועדים לאפיין קבוצות מידע .אולם מדדי סיכום אינם מספקים כשלעצמם .נמחיש זאת בדוגמא :ניקח שלושה חלקים של אותו הקורס שכל אחד מהם מורכב מאחד עשר סטודנטים .המידע מורכב מממוצע של כל סטודנט לפני הבחינה הסופית (תוך שימוש בסולם בעל ארבע נקודות) .המורה מתכנן אסטרטגיה כיצד להכין את הסטודנטים בצורה טובה ביותר לבחינת הגמר .הנתונים הקיימים הם: סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 29 רוזיפ ידד מ ו ם ו כיס תוד י דמ ישיל ש קרפ אמצעי חלק א2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 ,2 : 2 חלק ב4 ,4 ,3 ,3 ,2 ,2 ,2 ,1 ,1 ,0 ,0 : 2 חלק ג4 ,4 ,4 ,4 ,4 ,2 ,0 ,0 ,0 ,0 ,0 : 2 לכל חלק של הקורס יש אמצעי שווה .אולם במונחים של ביצוע ,לחלק א’ יש פיזור אפס ,חלק ב’ מבוזר בצורה כמעט אחידה בין הציונים א’ ,ב’ ,ג’ ,ד’ ,ה’ (נכשל) .בחלק ג’ הציונים הבולטים הם א’ ו -ה’ (נכשל) יחד עם תלמיד בודד בעל הציון ג’ .ברור אם כן ,שההיערכות לבחינה הסופית לא צריכה להיות זהה בכל חלקי הקורס ,זאת למרות שהאמצעי זהה בין כולם! שונות היא שיטת מדידה של פיזור נתונים סביב האמצעי. אנו מסכמים את השלבים של חישוב מדגם פיזור כך: .1 1חישוב האמצעי .2 2חיסור האמצעי מכל נקודת מידע .3 3העלה בחזקת שתיים את ההפרש הנ”ל של כל נקודת מידע וחבר את התוצאות .4 4חלק את חיבור התוצאות במספר התצפיות פחות אחד. אם המידע הנתון מייצג את כלל האוכלוסיה ,אזי סעיף ארבע צריך להתעדכן בזה שנחלק בסה”כ התצפיות .להלן השונות של שלושת החלקים שהוזכרו קודם לכן: טב לה :3.1ממוצ ע ציוני סטודנ טים חלק א’ חלק ג’ חלק ב’ נתון נתון חציון² נתון נתון חציון² נתון נתון חציון² 2 0 0 4 0 4 2 0 0 4 0 4 2 0 1 1 0 4 2 0 1 1 0 4 2 0 2 0 0 4 2 0 2 0 2 0 2 0 2 0 4 4 2 0 3 1 4 4 2 0 3 1 4 4 2 0 4 4 4 4 2 0 4 4 4 4 סה”כ 0 40 20 חילוק הסה”כ ב11-1 = 10: - שונות0 : 30 שונות2.0 : שונות4.0 : סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ישיל ש קרפ רוזיפ ידד מ ו ם ו כיס תוד י דמ חלק ג’ הוא בבירור בעל הפיזור הגבוה ביותר ,מאחר וישנן שתי קבוצות נפרדות מהותית מתוך הנתונים. המושג סטיית-תקן מתייחס בפשטות לשורש הריבועי של השונות.σ , סטיית-התקן תהיה שלוש .הסימן המקובל של סטיית-תקן הוא . σ 2 אם השונות היא תשע, מ ד ד י פ י ז ור :ס ט י י ת מ מ ו צ ע -ח צ י ו ן מו ח לט ( )M. A . D צורה נוספת למדידת פיזור היא סטיית ממוצע-חציון מוחלט ( .)M.A.Dכזכור ,בערך מוחלט מתעלמים מסימן המינוס .במילים אחרות ,למרות ש ,3-5= -2 :בערך מוחלט|3-5| = +2 : ~ אנו משתמשים בסימן הבא כדי לציין σ D.A.M:נשתמש בדוגמא הקודמת כדי להמחיש את מושג ה M.A.D: - ט ב לה :3.2ה ת פ ל גו ת ממוצ ע אמצ עי חלק א’ חלק ג’ חלק ב’ נתון נתון חציון² נתון נתון חציון² נתון נתון חציון² 2 0 0 2 0 2 2 0 0 2 0 2 2 0 1 1 0 2 2 0 1 1 0 2 2 0 2 0 0 2 2 0 2 0 2 0 2 0 2 0 4 2 2 0 3 1 4 2 2 0 3 1 4 2 2 0 4 2 4 2 2 0 4 2 4 2 סה”כ 0 20 12 חילוק הסה”כ ב:)11( - M.A.D: 1.09 M.A.D: 0 M.A.D: 1.82 חוקי סטיית הערך האמצעי המוחלט הם: .1 1חישוב האמצעי .2 2חיסור האמצעי מכל נקודת מידע תוך התעלמות מסימן המינוס .3 3חיבור ההפרש של כל נקודת מידע .4 4חלק את חיבור הסכום הנ”ל במספר התצפיות. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 31 רוזיפ ידד מ ו ם ו כיס תוד י דמ ישיל ש קרפ נ ת ונ י ם מק ו ב צ י ם נתון :קלט מידע רציף המחולק לקבוצות. כיצד נקבע את הממוצע ,את סטיית התקן ואת מקדם השונות (שמראה את הפיזור היחסי של הנתונים)? שלב ראשון :מצאו את נקודת האמצע של כל קבוצה( :גבול עליון +גבול תחתון) חלקי .2 כעת כפלו את שכיחות הקבוצה בנקודת האמצע ,וחלקו את התוצאה במספר התצפיות שהוא .n שלב שני :חשבו שני מספרים :הראשון -העלו את כל נקודות האמצע בריבוע עבור כל קבוצה, כפלו כל נקודת אמצע בריבוע בתדירות הקבוצה ופתרו .השני -כפלו את תדירות הקבוצה בממוצע הקבוצה ופתרו .כעת העלו את התוצאה בריבוע וחלקו ב .n-הפחיתו את המספר השני מן המספר הראשון וחלקו ב .)n - 1(-התוצאה שהתקבלה היא השונות. שלב שלישי :קחו את השורש הריבועי של המספר שקיבלתם בשלב השני .זוהי סטיית התקן. טעות תקן = סטיית תקן חלקי השורש הריבועי של .n שלב רביעי :מקדם השונות :חלקו את סטיית התקן (שלב שלישי) בממוצע המדגם (שלב ראשון). זוהי הסטייה היחסית ביחס לממוצע. דוגמה (ד"ר אהרמן ,ציונים סופיים באוניברסיטת אריאל:)2015 , נקודת האמצע של M FxM M2 F x (M)2 60-69 4 64.5 258.00 4160.25 16641.00 70-79 4 74.5 298.00 5550.25 22201.00 80-89 24 84.5 2028.00 7140.25 171366.00 90-99 15 94.5 1417.50 8930.25 133953.75 סך הכל 47 קבוצה תדירות של F ממוצע = 85.1 = 47 / 4001.5 4001.5 סטיית תקן = 59 344161.75 טעות תקן = 8.6 √ { (344161.75 – [4001.5]2/47}/ (47-1)=√ 3480.85=59 טעות תקן = 8.6 מקדם השונות = סטיית תקן חלקי הממוצע = 8.6 32 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 3480.85 פרק רביעי ב ח ינת ה ש ע רו ת מטרה :לוודא האם הקשר שהוצע בין המשתנים נכון או לא .חשוב להבדיל בין סיבתיות ובין קשר בין משתנים. סיבתיות מתרחשת בין 2משתנים ,נניח Xו ,Yאם שלושת התנאים הבאים מתקיימים Y .גורם ל X-להתרחש כאשר: Y1.1תמיד קודם ל;X- X2.2לעולם אינו קודם ל;Y- X3.3לעולם אינו יכול להתרחש ללא .Y לדוגמה ,בין מאורע ,Yהורדת הטמפרטורה של מים אל מתחת ל 0°-צלזיוס ,ומאורע ,Xהפיכת המים לקרח ,ישנו יחס סיבתי .לעומת זאת ,היחס בין פרסום ובין מכירות אינו יחס סיבתי אלא יחס של קשר ,מכיוון שאפשר למכור בלא לפרסם .כדי להוכיח האם קיים קשר בין משתנים אפשר למדוד ישירות את השפעתו של משתנה אחד על השני .לדוגמה ,אם אנו רוצים לבדוק האם גלולות הרזיה קשורות לירידה במשקל ,נוכל למדוד את המשקל לפני נטילת הגלולות ולאחריה ולבחון את ההבדל( .הדבר מכונה מערך ניסויי) בדומה לכך ,אם אנו רוצים למדוד האם מכירות קשורות לפרסום ,נוכל למדוד את היקף המכירות ללא פרסום והיקף המכירות כאשר מפרסמים ולבחון את ההבדל .ההליך יהיה מסורבל וקשה ליישום בכל מסע פרסום בפני עצמו. הוכחה כי קיים קשר תדרוש מדידות בכל פעם שנעשה שימוש במשתנה הנתון וללא המשתנה הקשור אליו .הוכחת הקשר ִת ָדחה אם למשתנה הקשור אליו אין כל השפעה ניתנת להערכה על המשתנה הנתון. זוהי דרישה שכמעט אי-אפשר לעמוד בה ,משום שיש לאסוף מידע על כל המקרים שבהם היו שני המשתנים נוכחים .זאת ועוד ,כמעט בלתי אפשרי להשיג הוכחת קשר ישירה ,משום שייתכן שישנה השפעה של משתנים נוספים. ישנה חלופה להוכחה ישירה של קשר בין משתנים .החלופה היא לטעון באמצעות השערת אפס )H(0 שהיחס המשוער אינו קיים .לדוגמה ,השערת האפס לקשר בין מכירות ופרסום היא שפרסום לא ישפיע על המכירות; שגלולות הרזיה אינן קשורות לירידה במשקל; שהשקיה סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 33 תורעשה תניחב יעיב ר קרפ אינה משפיעה על היבול ,וכו’ .המשתנה שאנו מתמקדים בו הוא המשתנה התלוי ,המשתנה או המשתנים שייתכן שיש להם השפעה על המשתנה התלוי מוגדרים משתנים בלתי תלויים. המטרה היא לדחות את השערת האפס ,כלומר ,כאשר אנו דוחים את השערת האפס אנחנו “מוכיחים” את ההפך ,כלומר ,שאכן ישנו קשר בין המשתנה התלוי והמשתנה הבלתי תלוי .הבסיס לדחיית השערת האפס הם הנתונים שנצפו .לאחר שנפריך את השערת האפס ,ממילא תתקבל ההשערה האלטרנטיבית )H(1 . צורת הוכחה זו -הוכחה שהקשר קיים באמצעות דחיית השערת האפס -קלה הרבה יותר ליישום .כדי לדחות או להפריך טענה ,קבוצת תצפיות אחת עשויה להספיק .מספיק להוכיח ש ) ,H(0הטענה שאין כל קשר בין משתנים ,כוזבת .כאשר הטענה הופרכה די בכך ,ואין צורך במדידות חוזרות כדי להוכיח זאת שנית. שג י א ו ת מ ס ו ג Iו מ ס ו ג I I החלטתכם תהיה אחת משתיים :לקבל את ) H(0או לדחות את ) .H(0ישנן שתי שגיאות שעלולות ליפול בהחלטה זו .השגיאות עשויות להיות חיובי שגוי ,כלומר ,לדחות את )H(0 כאשר היא נכונה .זוהי שגיאה מסוג .Iהשגיאות עשויות להיות גם שלילי שגוי ,כלומר ,לקבל את )H(0 כאשר היא שגויה .זוהי שגיאה מסוג .II ההחלטה שלכם: המציאות: לקבל את )H(0 לדחות את )H(0 ) H(0נכונה מצוין! שגיאה מסוג I ) H(0לא נכונה שגיאה מסוג II מצוין! מה גרוע יותר :שגיאה מסוג Iאו שגיאה מסוג II בפרסום ,שגיאה מסוג II ? (אתם בוחרים לא לפרסם משום שאתם מקבלים את השערת האפס האומרת שפרסום ומכירות אינם קשורים זה לזה) גורמת בדרך כלל לאובדן הזדמנויות ,אך לא להפסדים כספיים של ממש. לעומת זאת ,שגיאה מסוג I (אתם מוציאים כסף על פרסום כדי להגדיל את המכירות בעוד שבמציאות מכירות המוצר הנתון אינן מושפעות מן הפרסום) תביא להוצאות כספיות ללא רווח ממשי מהן .מבין שני סוגי השגיאות ,חלק מהאחראים על הפרסום בחברות השיווק יעדיפו יותר להימנע משגיאות מסוג ,Iהגורמות לחברה נזק בר-מדידה ,מאשר משגיאות מסוג ,IIהמביאות לאובדן הזדמנויות אך אינן מאיימות על כשירותו של המחליט בעיני אחרים. בתעשיית התרופות יש לבחון את תופעות הלוואי של תרופות חדשות .שגיאה מסוג I (אתם מחליטים לא למכור את התרופה משום שאתם מניחים שיש לה תופעות לוואי שליליות) מביאה לאובדן הזדמנויות .לעומת זאת ,שגיאה מסוג II 34 (אתם מחליטים לשווק את התרופה לאחר סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ר קרפ תורעשה תניחב שקיבלתם את השערת האפס האומרת שאין כל קשר בין התרופה ובין תופעות לוואי שליליות) עשויה לגרום למוות ולנזק חסר תקנה לחברת התרופות .בתרחיש זה ,שגיאה מסוג II הרבה יותר משגיאה מסוג .Iלפיכך ,ברור שחומרת השגיאה (מה גרוע יותר -סוג Iאו סוג )II גרועה תלויה במקרה הנתון. מ ד י ד ת שג י א ו ת מ ס ו ג I המונח פונקציית צפיפות ( )pdfמשמעו פונקציה בעלת התכונה הבאה .אם המשתנה X הרי שערך ה Yהתואם הוא ההסתברות ש Xיקבל את הערך הנתון .לדוגמה ,אם נטיל קובייה, Xייצג את מספר הנקודות שעל פני הקובייה X .יכול להיות ,6 ,5 ,4 ,3 ,2 ,1ו Yהוא 1/6עבור כל אחד מן הערכים הללו .אם נטיל מטבע X=1 ,לעץ X=2 ,לפאלי ,אז Y=1/2עבור כל אחד מהערכים הללו .כאשר משרטטים את פונקציית ה ,Yאחת הדרישות העיקריות היא שהתחום מתחת ל Yחייב להיות = .1בדוגמה הראשונה שלנו Y ,הוא מלבן שרוחבו = ,1/6אורכו =6 בדיד, ושטחו = .1בדוגמה השנייה ,גובהו = ,1/2אורכו = 2ושטחו =.1 אם Xהוא משתנה רציף ,אנו מודדים את ההסתברות להתרחשות בטווח של ערכים .לדוגמה, אם הגובה הממוצע של גברים במקום יישוב הוא 1.73מטרים ,וההתפלגות הנורמלית למשתנה זה מתבטאת כעקומת פעמון ,הרי ש 50%-מכל הגברים גובהם 1.73מטרים או יותר ,ו50%- מכל הגברים גובהם 1.73מטרים או פחות. בחינת השערות מתחלקת לשלושה שלבים: .1 1לקבוע טווח לטעות מסוג 1%( Iאו 5%או )10% .2 2להגדיר ערכים קריטיים שיש לעבור אותם כדי לדחות את ).H(0 .3 3לחשב את הסטטיסטי בהתבסס על הנתונים ,ולבדוק האם התוצאות עולות על הערכים הקריטיים .אם כן ,נדחה את ) .H(0אם לא ,נקבל את ).H(0 כך נחשב את ערך הסטטיסטי .#1 :Zנפחית את הממוצע לפי )H(0 .#2נחשב את סטיית התקן ) ,(p 0.25ונחלק בשורש הריבועי של גודל המדגם .לבסוף ,נחלק את ההפרש שקיבלנו בשלב #1במנה משלב .#2 מן הממוצע שחושב. ב ח ינ ת ערך מ מ ו צע ב ע זר ת ה ס ט טי סטי Z נניח שממוצע המכירות החודשי של משקה השוקו המוגז שלנו הוא ( 80באלפי יחידות) .אנו מחליטים לפרסם במשך חמישה חודשים ,ומוצאים שהממוצע החדש שלנו הוא .83סטיית התקן שלנו היא .5כדי לבחון את ההשערות ,נעקוב אחר שלושת השלבים כדלהלן: סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 35 יעיב ר קרפ .1 תורעשה תניחב H(0): μ=801 H(1): μ>80 טווח הטעות המקסימלי הוא 0.05 .2 2ערך קריטי )X̅-μ)÷√(Variance/n) :מתאים לפונקציית הצפיפות של .Zפונקציית הצפיפות של Z מתאימה לפונקציית ההתפלגות הנורמלית (עקומת פעמון) ,ממוצע ,n=0סטיית תקן = .1הערך הקריטי ל 0.05מטבלת ערכי ה Z הוא .1.645זהו מבחן חד זנבי; אנו רק רוצים לדעת האם ממוצע המכירות שלנו גדל במידה מספיקה לדחות את ) .H(0השטח הכולל מתחת לעקומת ההתפלגות הנורמלית מ 1.645-ומטה (כלומר ,שמאלה) = .0.95לפיכך ,אם נשווה ערך Zגדול מ ,1.645-טווח הטעות יהיה פחות מ 5%-ולכן נדחה את השערת האפס. .3 3נחשב את הסטטיסטי :Zהמשתנה ) )X̅-μ)÷√(Variance/nמתאים להתפלגות הנורמלית של (83-80)÷√(25/5) = 134 :Zערך Z הקריטי ,ולפיכך ,אנחנו מקבלים את ).H(0 שחישבנו קטן מן הערך ב ח ינ ת ה הפר ש ב י ן מ מ ו צע י ם ב ע ז רת ה סטטי סטי Z נניח שברשותנו שתי תצפיות של ציוני תלמידים במבחן המחצית .קבוצה א’ למדה בגישה שמרנית, הכוללת שיעור פרונטלי ,טקסטים ומטלות בית .קבוצה ב’ למדה בגישה יצירתית הכוללת דיונים ומשחקי תפקידים כדי להקיף נושאים .בקבוצה א’ היה הממוצע 80וסטיית התקן הייתה .5 בקבוצה ב’ היה הממוצע 85וסטיית התקן הייתה .2מספר התלמידים בכל קבוצה היה .100 נשתמש בשיטה הבאה כדי לדעת האם קבוצה א’ שונה מקבוצה ב’: .1 H(0): μ 1 - μ2 = 01 H(1): μ 1 - μ2 ≠ 0 .2 2נגדיר טווח טעות של 5%שהערך הקריטי שלו = ,1.96משום שזהו מבחן דו-זנבי. ההפרש בין הממוצעים מתאים להתפלגות הנורמלית ,ואנו יכולים לבדוק את טבלת ערכי ה Z-כדי למצוא את הערך ש 2.5%-משטח ההתפלגות גדולים ממנו .לפי ההשערה האלטרנטיבית (μ1 - μ2 ,))1(H עשוי להיות חיובי או שלילי ולכן זהו מבחן דו-זנבי .היות שזהו מבחן דו-זנבי עלינו לחלק את טווח הטעות לשני צידי ההתפלגות. לכן ,טווח הטעות הוא 0.025לערכים חיוביים ו 0.025-לערכים שליליים ,כך שהערך הקריטי הוא ±1.96על פי טבלת ( Zראו טבלה ,)1כלומר: Pr (Z > 1.96) = 0.025, Pr (Z < -1.96) = 0.025 וההסתברות המשותפת לטעות היא ,0.05שהוא טווח הטעות המותרת המקסימלי. .3 3נחשב את הסטטיסטי :Z √(Variance1/n1 + Variance2/n2) = (-5) ÷ √(25/100 + 4/100) = -9.28 התוצאה נמוכה משמעותית מהערך -1.96 36 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ÷ )Z = (X1 -X2 יעיב ר קרפ תורעשה תניחב החלטה: נדחה את ) ,H(0מכיוון שהסטטיסטי שחישבנו גדול (בערך מוחלט) מהערך הקריטי. ב ח ינ ת ה הפר ש ב י ן מ מ ו צ ע י ם ב א מצעות הת פ ל גות T נניח שוב שבידינו שתי תצפיות של ציוני תלמידים במבחן המחצית .קבוצה א’ למדה בגישה שמרנית הכוללת שיעור פרונטלי ,טקסטים ומטלות בית .קבוצה ב’ למדה בגישה יצירתית הכוללת דיונים ומשחקי תפקידים כדי להקיף נושאים .בקבוצה א’ היה הממוצע 80וסטיית התקן הייתה .5 בקבוצה ב’ היה הממוצע 85וסטיית התקן הייתה .2אך במקרה זה יש לנו רק חמישה תלמידים מכל קבוצה ,גודל מדגם קטן .כאשר אנו נתקלים בגודל מדגם קטן (בדרך כלל פחות מ,)35- נשתמש בהתפלגות ,Tהדומה מאד במראה להתפלגות ,Zאך אזורי הזנב בה עבים יותר .נבחן את ההשערות כך: .1 H(0): μ1 - μ2 = 01 H(1): μ1 - μ2 ≠ 0 נגדיר טווח טעות של .5%הערך הקריטי הוא ( 2.306מתוך טבלת T יש בידינו בסך הכל 10תצפיות ,ולכן ישנן n1 + n 2 - 2 = 8דרגות חופש .זהו מבחן דו-זנבי מכיוון שההשערה האלטרנטיבית ( ))H (1טוענת כי μ1 - μ 2עשוי להיות חיובי -ראו טבלה .)2 או שלילי .לפיכך ,טווח הטעות מוכרח להיות 0.025לערכים חיוביים ו 0.025-לערכים שליליים .הערך הקריטי הוא .±2.306 .2 2נחשב את ערך ה t -הסטטיסטי: X̅2) ÷ (Variance1/n1 + Variance2/n2) 0.5 = (-5) ÷ {(25/5 ÷ 4/5)0.5}= -2.058 T = (X̅1 - החלטה: נקבל את ) ,H(0משום שהסטטיסטי שחישבנו אינו גדול מהערך הקריטי. ב ח ינ ת ק שר ב י ן מ ש תנ י ם ש מ י י ם בעז רת מב ח ן χ 2 (כִ י ב ר יב וע) אם יש בידינו נתונים שמיים או קטגוריאליים ,אנו יכולים למדוד סיכוי לשגיאה מסוג Iבאמצעות מבחן .χ2לדוגמה ,חשבו על משתנה תלוי ,מיקום = 1( .עיר = 2 ,פרברים = 3 ,אזורים כפריים), ומשתנה בלתי תלוי ,מגדר ( = 1זכר = 2 ,נקבה) .אנו מעוניינים לדעת האם ישנה סבירות גבוהה יותר שגברים רווקים שבבעלותם בתים יגורו בפרברים או לא .המדגם שלנו כולל 7נשים ו 10-גברים המתגוררים בעיר 7 ,נשים ו 15-גברים המתגוררים בפרברים ו 6-נשים ו 5-גברים המתגוררים באזורים כפריים .הנה השלבים למבחן : χ2 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 37 תורעשה תניחב יעיב ר קרפ שלב 1 נבנה טבלת שכיחויות ,שמספר השורות בה מייצג את מספר הערכים האפשריים למשתנה אחד, ומספר העמודות בה מייצג את מספר הערכים האפשריים למשתנה השני .המספר המופיע בכל תא מייצג את השכיחות הנצפית (השכיחות היחסית) )(Of שבה מתרחשים ערכים אלו יחד. טבלת שכיחויות נתונה בהמשך. שלב 2 נבנה טבלת שכיחות צפויה ()ef שבה הערך עבור כל תא שווה ל[ :ערך כולל של השורה המתאימה * ערך כולל של העמודה] ÷ (הסכום הכולל) .ראו למטה( .שימו לב :על ≥5 ()ef להיות עבור רוב התאים). שלב 3 נחשב את ה Σ(Of - Ef) ÷ Ef , χ 2 2 ה לכל התאים. שלב 4 נחפש ערך קריטי ל = χ2ראו בטבלת ( χ2טבלה )3לערכים קריטיים עם שגיאת הסתברות מסוג ,Iבהתאם לדרגות החופש המתאימות. דרגות חופש = (מספר השורות בטבלת השכיחויות ( x )-1מספר העמודות בטבלת השכיחויות .)-1 הערה :הסבר למונח “דרגות חופש” נמצא בפרקים הקודמים. טבל ת שכי חויו ת שכיחות נצפית מגדר אזור זכר נקבה סך כל העמודה עיר 10 7 17 פרברים 15 7 22 כפרים ויישובים 5 6 11 סך כל השורה 30 20 50 הסך הכללי הוא .50 38 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ר קרפ תורעשה תניחב ט בל ת שכי חויו ת שכיחות צפויה מגדר ערך אזור זכר נקבה עיר x 30 ÷ 50 = 10.2 17 x 20 ÷ 50 = 6.8 17 פרברים x 30 ÷ 50 = 13.2 22 x 20 ÷ 50 = 8.8 22 כפרים ויישובים x 30 ÷ 50 = 6.6 11 x 20 ÷ 50 = 4.4 11 χ2 שחישבנו הוא: [(10 - 10.2)2 ÷ 10.2] + [(7 - 6.8) 2 ÷ 6.8] +[(15 - 13.2) 2 ÷ 13.2] + [(7 - 8.8)2 ÷ 8.8] + [(5 - 6.6)2 ÷ 6.6] + [(6 - 4.4)2 ÷ 4.4] = 1.59 ( χ2שתי דרגות חופש) 5%טעות =5.991 “ :H(0)1.1אזור :ו”מגדר” בלתי תלויים. )“ :H(1אזור” ו”מגדר” אינם בלתי תלויים. .2 2ערך קריטי של ( χ2שתי דרגות חופש) (טעות אלפא -שגיאה מסוג 5.991 = 5 )I .3 3ערך χ2שחושב = 1.59 היות שערך χ2 קטן מן הערך הקריטי ,אנו מקבלים את ) .H(0שימו לב :המונחים דרגתp- (ערך )p-ורמת מובהקות (או אלפא α - Iכאשר דוחים את השערת האפס .לדוגמה :אם דרגות חופש = ,4ואנו מניחים שטווח הטעות המותר של שגיאה מסוג ( Iהמכונה גם אלפא )α -הוא ,0.05אז הערך הקריטי= .7.815אם ערכי ) מתייחסים להסתברות של התרחשות שגיאה מסוג χ2 שחושבו גדולים מ ,7.815-אנו דוחים את השערת האפס .הערך הקריטי הוא המדד שלנו בבחינת השערות .את רמת המובהקות ,הסבירות ששגיאה מסוג I ) ,H(0מחשבים באמצעות 1-pאו .1-alpha לא תתרחש כאשר דוחים את לדוגמה: לבית הספר בית יעקב ברמת בית שמש התקבלו 10ילדות המשתייכות לקהילה החסידית ו5- ילדות המשתייכות לקהילה הליטאית .משרד החינוך טוען שישנה אפליה על רקע עדתי משום שמספר הילדות הבאות מבתים חסידיים כפול ממספר הילדות הבאות מבתים ליטאיים .למבחני הכניסה ניגשו 100ילדות 65 ,מבתים חסידיים ו 35-מבתים ליטאיים .משרד החינוך יזכה בתביעה אם יוכיח שישנה אפליה עדתית .האם תוכלו להוכיח באמצעות מבחן χ2האם ישנו סימן לאפליה, כלומר ,שהמשתנים “קבלה לבית הספר” ו”השתייכות קהילתית” אינם בלתי תלויים? סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 39 תורעשה תניחב יעיב ר קרפ .1 “ :H(0)1קבלה לבית הספר” ו”השתייכות קהילתית” בלתי תלויים. .2 2הערך הקריטי של ( χ2דרגת חופש אחת) ברמת מובהקות של ( 3.841 = 5%ראו טבלה .)3 .3 3ערך χ2שחושב = ( 0.02ראו טבלה) )“ :H(1קבלה לבית הספר” ו”השתייכות קהילתית” אינם בלתי תלויים. טבל ת שכי חויו ת שכיחות נצפית השתייכות קהילתית קבלה לבית הספר חסידי ליטאי סך כל העמודה התקבלו 10 5 15 לא התקבלו 55 30 85 סך כל השורה 65 35 100 הסך הכולל הוא .100 טבל ת שכי חויו ת שכיחות צפויה השתייכות קהילתית קבלה לבית הספר חסידי ליטאי התקבלו x 65 ÷ 100 = 9.75 15 x 35 ÷ 100 = 5.25 15 לא התקבלו x 65 ÷ 100 = 55.25 85 x 35 ÷ 100 = 29.75 85 ההבדל בין השכיחות הצפויה והשכיחות הנצפית הוא 0.25±לכל ארבעת התאים .אנו יכולים לחשב את 0.0625 = 0.252לכל התאים ,ולחשב את χ2למטה. χ2שחושב = {[0.0625 ÷ 9.75] + [0.0625 ÷ 5.25] + [0.0625 ÷ 55.25] + [0.0625 ÷ 29.75]} = 0.0215 χ2 ([ 2שורות מינוס 2[x]1עמודות מינוס = ]1דרגת חופש אחת) בטווח טעות של 3.841 = 5% החלטה: השתייכות קהילתית וקבלה לבית הספר אינם קשורים זה בזה ואין כל סימן לאפליה קהילתית. היחס בין חסידיות לליטאיות הוא של 2:1עבור הילדות שהתקבלו ,אך גם 2:1בקירוב עבור ילדות שלא התקבלו .לפיכך ,אין סימנים לאפליה קהילתית. 40 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ר קרפ תורעשה תניחב ת ו צ א ה נ ו ספ ת ל ' כִ י ' בר י ב וע כעת ,לאחר שאתם מכירים את מבחן X2 כיצד נקבע האם ההתפלגות נורמלית או לא? תחומי מחלקה = (גבול מחלקה עליון +גבול מחלקה תחתון של הקבוצה הבאה) חלקי .2 שלב ראשון :חשבו את ציון Z עבור תחומי המחלקה לכל קבוצה. ( = Zתחום מחלקה -ממוצע כולל) חלקי (סטיית תקן) חלקי √n שלב שני :השתמשו בטבלת ערכי Z כדי למדוד את ההסתברות לציון נמוך מתחום המחלקה. שלב שלישי :הפחיתו את ההסתברות לציון נמוך מתחום המחלקה התחתון מן ההסתברות לציון גבוה מתחום המחלקה העליון .התוצאה היא ההסתברות לציון בתוך תחומי המחקה .פתרו עבור כל הקבוצות. שלב רביעי :חשבו את השכיחות המצופה לכל קבוצה באמצעות הכפלת ההסתברות להימצא בכל קבוצה בגודל המדגם הכולל .n ,אם הנתונים מתפלגים נורמלית ,תקבלו מספרים אלו* עבור שכיחות קבוצה מצופה ,או .E f שלב חמישי :חשבו את :X2הפחיתו את השכיחות הנצפית(Of) , עבור כל קבוצה משכיחות הקבוצה המצופה .כעת העלו את ההפרש בריבוע וחלקו בשכיחות הקבוצה המצופה )(Ef כל קבוצה .פתרו משוואה זו עבור כל קבוצה .זהו ערך X 2שלנו. שלב ששי :בדקו את X2 עבור בטבלה עבור טווח טעות של .1%דרגות החופש שלכם = מספר הקבוצות ( 2 -אנו משתמשים בשני פרמטרים :ממוצע וסטיית תקן). כלל :אם ה X2-שחישבנו גדול מערך X2 אינם מתפלגים נורמלית .אם ה X 2-שחישבנו קטן מערך X 2בטבלה ,נקבל את השערת האפס בטבלה ,נדחה את השערת האפש ונחליט שהנתונים ונניח שהנתונים מתפלגים נורמלית. ראו דוגמה להלן. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 41 תורעשה תניחב יעיב ר קרפ דוגמה (ד"ר אהרמן ,ציונים סופיים באוניברסיטת אריאל:)2015 , ממוצע = ,85.1סטיית תקן = ,59 קבוצה טעות תקן של הממוצע = 8.6 תחום (גבול עליון +גבול תחתון של הקבוצה הבאה) 2 ערך Z (תחום - ממוצע) טעות תקן הסתברות ערך > Z Z0 59.5 -2.97 0.0015 60-69 ההסתברות Ef 47כפול Of47 להימצא ההסתברות הציונים בקבוצה להימצא שקבלו 47 נתונה בקבוצה סטודנטים 0.0337 69.5 -1.81 70-79 79.5 80-89 89.5 90-99 99.5 21 13 15 0.3 0.9525 סך הכל 47 X2 שחישבנו = 7.2 X2 בטבלה (טווח טעות של 2 ,1%דרגות חופש) = 9.21 מסקנה :הנתונים מתפלגים נורמלית .ואי אפשר לדחות את ).H(0 42 24 0.4 0.6950 0.2575 +1.67 11 4 4.5 0.2578 0.4372 +0.51 2 0.0352 0.2226 -0.65 2 4 χ^2 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 47 7.2 פרק חמישי נ יתו ח רג ר ס י ה מ ד ד י ק ש ר לנתונ ים רציפים ס קירה אנו מתעתדים ללמוד את הנושאים הבאים :הנחות בסיסיות בניתוח רגרסיה ,מקדמי משוואת הרגרסיה (או גזירה) ,ההיגיון העומד מאחורי ניתוח רגרסיה ,מבחני מובהקות ומבחני טיב התאמה .תינתנה דוגמאות לכל נושא. תוצאה נוספת ל'כִ י' בריבוע ב ד י ק ת הנ ח ו ת ( ה יפ ו ת י ז ו ת) המטרה :לוודא האם החיבור המוצע בין משתנים הוא מדויק או לא .ישנה חשיבות בהבחנה בין סיבתיות לבין חיבור בין משתנים .יחס של סיבתיות קיים בין שני משתנים ,למשל ,Y, Xבמידה ושלושת הדרישות הבאות מתקיימות: .1 .2 .3 תמיד מקדים את .X Y1 X2לעולם אינו יכול להקדים את Y X3אינו יכול להתקיים ללא .Y לדוגמא :אירוע Y -קירור מים לטמפרטורה מתחת לאפס מעלות צלסיוס ,ואירוע - Xהפיכת מים לקרח ,הם אירועים בעלי קשר סיבתי .לעומת זאת ,הקשר בין פרסום למכירות הוא קשר של חיבור ולא של סיבתיות ,משום שניתן לבציע מכירה ללא פרסום. כדי להוכיח כי קיים קשר של חיבור בין משתנים ניתן למדוד את ההשפעה של משתנה אחד על השני .לדוגמא :אם נרצה לבדוק את הקשר בין כדורי הרזייה לבין אובדן משקל ,נמדוד את המשקל לפני ואחרי נטילת הכדורים ונשווה בין התוצאות (פרוצדורה כזו ידועה כתכנון ניסוי). בדומה ,אם נרצה למדוד האם יש חיבור בין פרסום למכירות ,נוכל למדוד את רמת המכירות עם וללא פרסום ולהשוות בין התוצאות .הפרוצדורה תהיה מאוד מסורבלת וקשה אם ננסה למדוד כל קמפיין פרסומי. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 43 ה י סרגר חות י נ ישימ ח קרפ הוכחה של חיבור בין משתנים מחייב מדידה של כל אירוע ,כל הזמן ,של המשתנה ,עם ובלי הפעלה של המשתנה הקשור .הקשר המשוער בין המשתנים יישלל אם המשתנה Yאינו משפיע בצורה מהותית על המשתנה .X הדרישה הזו של המדידה היא כמעט בלתי אפשרית להשגה ,משום שהיא כוללת איסוף מידע של כל המופעים בהם מופיעים המשתנים .יותר מזה ,הוכחת הקשר בין שני משתנים היא כמעט בלתי אפשרית ,משום שקיימת אפשרות שלמשתנה שלישי גם כן יש השפעה. הנ ח ו ת ב ס י ס י ו ת בנ י ת ו ח ר גר ס י ה תרשים :2ר גר סיה לממוצ ע ג ו ב ה מ מוצע המונח 'ניתוח רגרסיה' ,או ניתוח נסיגה ,נטבע בידי סר פרנסיס גאלטון במחצית השנייה של המאה ה .19-הוא ביקש לחזות מה יהיה גובהו של אדם לפי גובהו של אביו .הוא אסף את נתוני הגובה של אבות ושל בניהם הבכורים ,וחישב את גובהם הממוצע .לאחר מכן בדק האם גובהו של הבן הבכור קשור לגובהו של אביו .הוא מצא תבנית המצביעה על הקשר הבא :לאבות נמוכים היו לרוב בנים נמוכים ,ולאבות גבוהים היו לרוב בנים גבוהים .נוסף לכך מצא גאלטון כי לאבות נמוכים יש לרוב בנים נמוכים אך גבוהים מהם ,ולאבות גבוהים יש לרוב בנים גבוהים הנמוכים מהם .תופעה זו של משיכה אל הממוצע מכונה רגרסיה לממוצע .לאבות נמוכים יש לרוב בנים גבוהים מהם משום שהבן קרוב יותר אל הממוצע .בדומה לכך ,לאבות גבוהים יש לרוב בנים 44 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ישימ ח קרפ ה י סרגר חות י נ נמוכים מהם משום שבניהם קרובים יותר אל הממוצע .כך ,גובהם של בנים להורים גבוהים נסוג אל הממוצע ,משום שגובהם נמוך יותר משל הוריהם וקרוב יותר אל הממוצע (שרטוט 2עמ.)41 . אחת מטרות החשובות של ניתוח רגרסיה היא להעריך האם אכן ישנו קשר בין משתנה תלוי מסוים ומשתנים בלתי תלויים אחרים .במילים אחרות ,אנו מודדים מנקודת מבט של הסתברות מה הסבירות שבעקבות עליה או ירידה בערך המשתנים הבלתי תלויים תהיה גם עליה או ירידה בערך המשתנה התלוי .אם סבירות הקשר גבוהה ,אנו דוחים את השערת האפס ומניחים שישנו קשר בין המשתנה התלוי למשתנה הבלתי תלוי. רגרסיה ליניארית מניחה כי ליחס בין שני משתנים ישנו שיפוע קבועY = a+bX , dהוא המקדם ,וערך המקדם הוא מידת ההשפעה של המשתנה הבלתי תלוי על המשתנה התלוי. המונחים ערך p -ורמת מובהקות (או ערך אלפא )α -כולם משמעם ההסתברות שתקרה שגיאה מסוג .Iכלומר ,הסיכויים שההחלטה לדחות את השערת האפס (ההחלטה שאין כל קשר בין המשתנה התלוי והמשתנה הבלתי תלוי) הייתה שגויה. לאחר שווידאנו שיש בידינו די מידע לדחות את השערת האפס בטווח הטעות שהגדרנו ,כמו ערךp- של 0.05או פחות ,אזי יש בידינו משוואת רגרסיה. נ ק ו ד ו ת ח ש ו ב ו ת ב ה ת א מ ת נ ת ונ י ם לקו י ש ר בניתוח רגרסיה אנו מתאימים את הנתונים שבידינו לקו ליניארי .ישנן שלוש נקודות שיש לתת עליהן את הדעת: A .Aזיהוי הקשר הפונקציונלי בין המשתנים B .Bמדידת עוצמת הקשר בין המשתנים C .Cזיהוי המשוואה המתאימה ביותר .1 1קשר פונקציונלי :האם קשרים עקומתיים יכולים להשתמש ברגרסיה ליניארית? נזכר בפונקציה הליניארית - משוואת הקו הישר .Y = aX+ b :חשבו על = aX b .Y משוואה זו אפשר להמיר למשוואה ליניארית באמצעות הוצאת הלוגריתמים משני האגפיםY = log a × b log X , ;log והצבה :יהי .V = log b ;T = log A ;W = log X ;Z = log Y .Zבדומה לכך, יש בידינו משוואת קו ישר -משוואה ליניארית= T÷bW : " Y= ab xנעשה )Z = T + VX, log Y = log a + X (log b הצבה אינה מתאימה תמיד .לדוגמה .Y = a ÷ X b ,דיאגרמת פיזור שבה נקודות סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 45 ה י סרגר חות י נ ישימ ח קרפ הנתונים ( )X,Yמצוינות על צירי ה X-והY- יכולה לסייע לנו לקבוע האם הנתונים ליניאריים (קוויים) .אף שייתכן שאיננו יודעים מה הקשר הפונקציונלי המדויק ,אנו יכולים לדעת מה הכיוון המסתמן -האם הנתונים ליניאריים או לא. .2 2עוצמת הקשר ( aהוא נקודת החיתוך עם ציר ה b ,Y -הוא מקדם ה ;X -ו b -הוא השיפוע של הקו של הרגרסיה ) הביטו במשוואות הבאות: ;Y =1÷X; Y= 1÷10X; Y =1÷100X ;. Y =1÷1000X Y =1÷10000X " ההשפעה של Xעל Y יכולה להיות ביחס של 1ל 1 ,1ל 10או 1ל !10,000מה שקובע מה תהיה עוצמת השפעתו של Xעל Y הוא ,bהמקדם של .X הקריטריון שבו משתמשים כדי לקבוע את היחס ה"טוב ביותר" בין Xל Y-הוא גורם הטעות ,כלומר ,ה Y-הנצפה מינוס ה Ŷ-המנובא. נתון :לכל ערך נצפה במשתנה הבלתי תלוי ,X ,ישנו ערך מנובא תואם במשתנה התלוי ,Ŷ ,שאליו מגיעים באמצעות הצבת ערך הX- ,X=5הערך המנובא ל Y -הוא .50 במשוואה .אם ,Y=10Xאם המונח ,RESIDUALשארית או סטיית תצפית ,משמעו ההבדל שבין ערך הY- וערך ה Y -המנובא .הבדל זה מגיע ממאגר הנתונים שלנו .בדוגמה שלנו,Y=10X , נניח שכאשר X =5העלתה התצפית שערך .45 = Yהשארית היא (נצפה -מנובא) = .5- = 45-50לו היינו בוחרים במשוואה ,Y=100Xכאשר ,X=5אז היה ערך הY- הנצפה המנובא ,500והשארית היא ( .-455 =)400 - 45לו היה עלינו לבחור משוואת רגרסיה, המשוואה הראשונה שבה גודל השארית הוא 5-טובה מן המשוואה השנייה שבה גודל השארית הוא .455-לפיכך ,שאריות (או סטיות תצפית) הן גורם מרכזי בבחירת משוואת הרגרסיה המתאימה ביותר. .3 3זיהוי המשוואה המתאימה ביותר כאשר מגיעים לקביעת יחס ליניארי בין משתנה תלוי Y לו ,Xישנן אינסוף משוואות רגרסיה של קו ישר אפשריות היכולות להסביר את הקשר בין ,Xהמשתנה הבלתי תלוי (בלתי נשלט או נשלט) ,ו ,Y -המשתנה התלוי (ובדרך כלל בלתי נשלט)( .כאשר ישנם כמה משתנים בלתי תלויים מסמנים אותם X1, X2... X iלמשתני ” .“iעם זאת ,התוספת בכתב תחתי ” “iמושמטת בדרך כלל לשם שמירה על פשטות Ŷ .הוא הערך המשוער ל.Y, Ŷ=a+bX - והמשתנה הבלתי תלוי התואם 46 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ישימ ח קרפ ה י סרגר חות י נ ש י ט ת הר י ב ו ע י ם הפ ח ו ת י ם שיטת הריבועים הפחותים ( )OLSמזהה משוואת רגרסיה ייחודית שתשמש להגדרת ,bהמקדם של ,Xו ,a-נקודת החיתוך עם ציר ה ,Y-באמצעות שני הכללים הבאים: .1 1סכום כל השאריות = E(Yi - Ŷi) = 0 ;0 .2 2סכום כל השאריות בריבוע = מינימום; = E(Yi - ŶI)2מינימום שימו לב :הקטע הבא משתמש בחשבון דיפרנציאלי ואפשר לדלג עליו ולהמשיך הלאה בלי לפגוע ברצף ההבנה. .3 3משוואות נורמליות -מראות מדוע לאומד הריבועים הפחותים ישנו גורם טעות בריבוע העומד על מינימום. דרך :השוו את הנגזרת הראשונה ל .0-פתרו .הפתרון ייתן את ערך המינימום. ∂∑(Yi-Ŷi)2 = 0; ∂∑(Y i- (a÷bXi))2 = 0; -2∑{X iYi - a - bxi)}=0 ∂b ∂b ∂∑(Y i-Ŷ)2 = 0; ∂∑(Y i- (a÷bXi))2 = 0; -2∑(Y i - a - bxi) = 0 ∂a ∂a מ ש ו ו א ו ת נ ו רמל י ו ת כפלו את שני האגפים ב ½����������������������������������� 1. -2∑{Xi(Yi - a - bXi )} = 0 כפלו את שני האגפים ב 2. -2∑ (Yi - a - bXi) = 0 ����������������������������������� -∑Xi/2n כעת הוסיפו לשני האגפים בכל משוואה את 1. ∑(XiYi) - a∑X i - b∑X2i =0 ���������� d 2. (∑Xi) (∑Yi) / n - a∑Xi - b(∑Xi)2 / n = 0 הפחיתו את המשוואה השנייה מן המשוואה הראשונה: }b(∑X - (∑X i) / n) = {∑(XiYi) - (∑X i) (∑Yi) / n 2 חלקו את שני האגפים במקדם :b (∑X )2 ) ÷ (∑X2i - n i } )(∑X i)(∑Yi )∑ (XiYin 2 i { = b אפשר לכתוב את המשוואה הזו גם כךb = ∑ (x i-X̅ )(Yi - Y̅ ) ÷ ∑(Xi - X̅ )2�����������: במשוואה ∑Yi - na - b∑Xi = 0 ��������������������������������������������������������������������������������������������2 פתרו עבור a = Y̅ - bX̅ ����������������������������������������������������������������������������������������������������������� a סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 47 ה י סרגר חות י נ ישימ ח קרפ ,R 2מקדם המובהקות ,מודד את כמות השונות המוסברת שמשוואת הרגרסיה מסבירה .לY- יש שונות משלו ,והיחס בין השונות המוסברת ובין השונות הכוללת הוא .R 2 שימו לב" :שונות מוסברת" מחשבים בכך שמפחיתים את השונות הבלתי מוסברת מן השונות הכוללת ,שהיא סכום ריבועי השאריות .ההפרש נקרא "שונות מוסברת" .מבחינה אלגברית :שונות כוללת = שונות מוסברת ÷ שונות בלתי מוסברת .יש בידינו אומד ליניארי לא מוטהbest( BLUE : .)linear unbiased estimatorזהו האומד האופטימלי .אופטימלי משמעו שאין כל אומד אחר שיכול להפיק מן הערכים שנצפו סכום ריבועי שאריות קטן יותר .אומד חסר הטיה משמעו שהערך הצפוי של האומד ייתן את הפרמטר .הערך הצפוי של ,bהמקדם המוערך של ,Xהוא הפרמטר ,Bוהערך הצפוי של a הוא הפרמטר .A ניתוח מתאם ,Rמקדם המתאם ,מודד את כיוון הקשר בין המשתנה התלוי והמשתנה הבלתי תלוי. גזירה למדד :R 2 סכום ריבועי ההפרשים מן הממוצע או אפשר להראות כי האיבר האמצעי שווה אפס ,כמו שמוסבר בהמשך. זכרו כיŶ = a + bX i ������������������������������������������������������������������������������������������������������������ : וa = Y̅ - bX̅������������������������������������������������������������������������������������������������������������������������: ולכן(Ŷi - Y̅ ) = b(Xi-X̅ )���������������������������������������������������������������������������������������������������: בדומה לזאת(Yi - Ŷi) = (Y i-Y̅ -b(Xi-X̅ )���������������������������������������������������������������������� : מכפלת האיברים הללו היא∑b(Xi - X̅ )(Yi - Y̅ )-∑b2(Xi - X̅ )2 ����������������������������������: מכיוון שb = ∑(X i - X̅ )(Yi -Y̅ ) ÷ ∑(Xi - X̅ )2�����������������������������������������������������������: האיבר הראשון הוא������������������������������������������������������������������������������������������∑b2 (Xi - X̅ )2 לפיכך ,האיבר האמצעי נופל משום שההפרש בין איברים זהים שווה אפס. כעת יש לנו צורה תמציתית יותר ל.SSY- 48 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ישימ ח קרפ ה י סרגר חות י נ אנו יכולים לפרק את השונות של Y (Y i - Ŷ i) 2מייצגת את סכום ריבועי השאריות בין ,Ŷ iהערך המשוער עבור Ŷ i|X iו,Y i - הערך הנצפה עבור .Ŷ i|X iהאיבר השני ,השונות המוסברת )Ŷi -Y̅)2מייצגת את השיפור של הערך המשוער של Ŷ iמהממוצע .הממוצע המדגמי כאומד הוא מספר נתון עבור המדגם לשני מרכיבים .האיבר הראשון ,השונות הבלתי מוסברת הנתון שאינו משתנה עם כל תצפית. טיב התאמה הוא הפרופורציה של השונות המוסברת באמצעות מודל הרגרסיה. בצורה מתמטית: R נותן לנו את חוזק המתאם ואת כיוון הקשר .מתאם יכול להיות חיובי (שעות לימוד ,ציונים בקורס) ויכול להיות שלילי (מחיר של מוצר צריכה ,מכירות ביחידות למוצר נתון) .מתאם שלילי יכול להיות משמעותי מאד. בקצרה אנו משתמשים בשיטת הכתיבה הבאה: סכום ריבועי ה– (ΣX) 2/n ����������������������������������������������������������������������� X- סכום ריבועי ה– (ΣY) 2/n ��������������������������������������������������������������������� Y- 2 i 2 i SSX = ΣX SSY = ΣijY סכום הריבועים בין XוSSXY = Σ(XY) – (ΣX)(ΣY)/n �������������������������������������������� Y- סכום ריבועי הסטיות הנובעות מן הרגרסיה ����������������������������������������SSR = (ssxy)2/ssx סכום ריבועי הטעות הנובעת מקו הרגרסיה ��������������������������������������������� SSE = ssy-ssr b = SSXY ÷ SSX ̅a = Y̅ – bX )R = SSXy ÷ √ (SSx) (ssy -1 < r < +1מסמל את כיוון היחס בין Xל Y )R 2 = SSXy2 ÷ (SSx) (ssy 0<r2 <+1מסמל את אחוז הפיזור של Y שמוסבר על ידי ,Xאם סכום העולה על ,40%יספיק. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 49 ה י סרגר חות י נ ישימ ח קרפ התאמת המודל מבחן R 2בודק את התאמת מודל הרגרסיה .השערת האפס טוענת שאין כל קשר ליניארי משמעותי בין המשתנה המנבא X והמשתנה המנובא .Yאם אנו מניחים שהתפלגות הטעויות נורמלית, יש בידינו מבחן שיסייע לנו לקבל או לדחות את השערת האפס המניחה שאין כל קשר ליניארי בין המשתנים. לפני שנפנה למבחן ,יש להכיר מושג חשוב המשמש במבחני מובהקות ,דרגות חופש. למשוואה יכול להיות יותר ממשתנה XאחדY= a ÷ b1X1 + b2X2… +bnXn : . כדי להבין ביתר קלות את המושג "דרגות חופש" ,הביטו בקבוצת המשוואות הבאה: כמה משתנים חופשיים לקבל כל ערך משוואה מספר משתנים 0 X1 = 5 1 1 X1 + X2 = 5 2 2 X1 + X2 ÷ X3 = 5 3 .......... X1 + X 2 ÷ X3…… + Xn = 5 n-1 N ככל שמספר המשתנים גדל יש לנו "חופש" רב יותר לשייך להם ערכים .לשימוש במספר מופרז של משתנים בלתי תלויים יש גם מחיר .מבחן המובהקות משתמש בn-k - = nמספר התצפיות ו = k-מספר המשתנים .כדי שהמבחן הסטטיסטי יניב תוצאות ,על n-k דרגות חופש ,כאשר להיות מספר גדול .חשבו למשל על מחקר הדורש גודל מדגם של 100תצפיות .אם ,k = 100 הרי שכל 100תצפיות שוות לתצפית אחת! לפיכך 100 ,התצפיות הנדרשות מתורגמות ל10,000- תצפיות .לעומת זאת ,אם ,k=2הרי ש 200-תצפיות תספקנה. ישנו קשר מוגדר בין מספר המשתנים ומספר התצפיות הנדרשות .הקיצור d.f. (degrees of )freedomמשמעו דרגות חופש. מבחן SSR/SST = R 2הוא יחס הדומה ליחס נתח השוק (המכירות שלכם ÷ סך המכירות); סכום הריבועים מוסבר באמצעות משוואת הרגרסיה ,חלקי סך כל סכום הריבועים ,הכולל את סכום הריבועים המוסבר וסכום הריבועים הבלתי מוסבר (סכום ריבועי הסטיות וסכום ריבועי הטעות). 50 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ישימ ח קרפ ה י סרגר חות י נ מבחן F מבחן ,Fניתוח שונות חד גורמי ,דומה למבחן יחס הסיכויים :כמה פעמים זכיתם ÷ כמה פעמים הפסדתם; F = {SSR/d.f.} ÷ {SSE/d.f.}.יש לנו kמשתנים וn - ) (d.f.במונה שווה ל ;k -דרגות החופש במכנה שווה .n-k -1ה F -הסטטיסטי הוא למעשה תצפיות .דרגות החופש היחס בין שני χ2 ודרגות החופש של כל אחד מהם; {χ 1 ÷ d.f.} ÷ {χ 2 ÷ d.f.} = F 2 2 (אנו מניחים שהטעויות מתפלגות נורמלית ,שהשערת האפס נכונה ושריבועי SSRוSSE- .)χ2נחשב את ערך ה F -שקיבלנו ונבדוק בטבלת ערכי ה .F -אם ערכי ה F -שהתקבלו נמוכים שניהם מדי ,כלומר ,טווח הטעות בדחיית השערת האפס גדול מ ,0.05-הרי שעלינו לקבל את השערת האפס .אם ה F-שחושב גדול מערך הF- בטבלה ברמת ה ,0.05-הרי שנדחה את שערת האפס, מכיוון שההסתברות לעלות על הערך הזה קטנה מ .0.05-טווח הטעות של 0.05הוא סובייקטיבי ונתון לבחירת החוקר; ,יהיו שיעדיפו 0.1ואחרים יעדיפו .0.01ראו את הדוגמה המובאת בהמשך. מבחן F משמש לדחות את השערת האפס האומרת כי מקדם Bשווה .0 ד וג מ א ו ת עשרה מדרגי אוכל התבקשו להעריך מותגים שונים של דגני בוקר .לכל מדרג נאמר מה שיעור הוויטמין D במוצר ,X 2 ,ומה כמות החלבונים ,X 1 ,בכל מוצר .ציוני ההעדפות שלהם ,Y ,היו בתוך הטווח של .10 - 1משתנה זה הוא המשתנה התלוי( .ראו טבלה .)5.1 אנו יכולים לבנות שתי משוואות רגרסיה נפרדות. ,Yהעדפת המותג היא פונקציה של תכולת החלבונים שבו. = f(X 1)1 .1 ,Y = f(X 2)2.2העדפת המותג היא פונקציה של תכולת הוויטמין Dבמותג .אנו יכולים לפתור את משוואת הרגרסיה לכל משתנה בנפרד. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 51 ה י סרגר חות י נ ישימ ח קרפ ת רג י לים טב לה :5 .1 דירוג העדפות הצרכנים של עשרה מותגי דגני בוקר בעלי ערכים תזונתיים שונים. דירוג העדפה כמות חלבונים כמות ויטמין D X ְמ ָד ֵרג Y X1 X2 Y2 1 3 4 2 9 16 2 7 9 7 49 81 63 3 2 3 1 4 9 6 1 4 1 1 2 1 1 1 4 2 5 6 3 3 36 9 18 9 18 9 6 2 4 4 4 16 8 16 8 16 7 8 7 9 64 49 56 81 72 63 8 3 3 2 9 9 9 4 6 6 9 9 8 7 81 64 72 49 63 56 10 2 1 3 4 1 2 9 6 3 סך הכל 43 43 40 261 255 247 226 232 229 2 1 X 1Y X 12 4 6 49 49 63 2 3 2 2 2 X 2Y X 1X 2 8 ממוצע: Y = 4.3 X 1 = 4.3 X 2 = 4.0 סטיית תקן 2.908 2.792 2.708 מידע להחלטות מחקריות ,פול א .גרין ,דונלד טול וג'רלד אלבאום .1986 ,פרנטיס הול בע"מ. באישור המחברים. 52 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ישימ ח קרפ ה י סרגר חות י נ תרג יל 1 בחנו את הקשר שבין כמות החלבונים בדגני הבוקר של מותג מסוים ומידת ההעדפה שלהם. סכום ריבועי ה– (ΣX i)2/n ���������������������������������������������������������������������� X- 2 i SSX = ΣX סכום ריבועי ה– (ΣY i)2/n ����������������������������������������������������������������������� Y- 2 i SSY = ΣY סכום הריבועים בין XוSSXY = Σ(X iYi) – (ΣX i)(ΣYi)/n ���������������������������������������� Y- סכום ריבועי הסטיות הנובעות מן הרגרסיה ����������������������������������������SSR = (ssxy)2/ssx סכום ריבועי הטעות הנובעת מקו הרגרסיה ��������������������������������������������� SSE = ssy-ssr b = SSXY ÷ SSX ̅a = Y̅ – bX )R = SSXy ÷ √ (SSx) (ssy משוואת הרגרסיהY = ������������������������������������������������������������������������������������������������������������ : מבחן (SSR/d.f.) ÷ (SSE/d.f.) = ��������������������������������������������������������������������������������� :F האם קיים קשר מובהק? תרג יל 2 בחנו את הקשר בין תכולת הוויטמין Dבמוצר ובין מידת ההעדפה כלפיו. סכום ריבועי ה– (ΣX i)2/n ���������������������������������������������������������������������� X- 2 i SSX = ΣX סכום ריבועי ה– (ΣY i)2/n ����������������������������������������������������������������������� Y- 2 i SSY = ΣY סכום הריבועים בין XוSSXY = Σ(X iYi) – (ΣX i)(ΣYi)/n ���������������������������������������� Y- סכום ריבועי הסטיות הנובעות מן הרגרסיה ����������������������������������������SSR = (ssxy)2/ssx סכום ריבועי הטעות הנובעת מקו הרגרסיה ��������������������������������������������� SSE = ssy-ssr b = SSXY ÷ SSX ̅a = Y̅ – bX )R = SSXy ÷ √ (SSx) (ssy משוואת הרגרסיהY = ����������������������������������������������������������������������������������������������������������� : מבחן (SSR/d.f.) ÷ (SSE/d.f.) = ��������������������������������������������������������������������������������� :F האם קיים קשר מובהק? סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 53 ה י סרגר חות י נ ישימ ח קרפ תרג יל 3 מדיד ת כמו ת ז פ ת בנח ל ( )Yבטמ פרטו ר ה ( )X תצפית מס. 1 2 3 4 5 6 7 8 9 Xi 1.5 1.8 2.4 3.0 3.5 3.9 4.4 4.8 5.0 Yi 4.8 5.7 7.0 8.3 10.9 12.4 13.1 13.6 15.3 הסתברות וסטטיסטיקה למדענים ולמהנדסים ,רונלד וולפול וריימונד מאיירס ,מקמילן .1989 ,באישור המחברים. חשבו: סכום ריבועי ה– (ΣX i)2/n ���������������������������������������������������������������������� X- סכום ריבועי ה– (ΣY i)2/n ����������������������������������������������������������������������� Y- 2 i 2 i SSX = ΣX SSY = ΣY סכום הריבועים בין XוSSXY = Σ(X iYi) – (ΣX i)(ΣYi)/n ���������������������������������������� Y- סכום ריבועי הסטיות הנובעות מן הרגרסיה ����������������������������������������SSR = (ssxy)2/ssx סכום ריבועי הטעות הנובעת מקו הרגרסיה ��������������������������������������������� SSE = ssy-ssr b = SSXY ÷ SSX ̅a = Y̅ – bX )R = SSXy ÷ √ (SSx) (ssy משוואת הרגרסיהY = ������������������������������������������������������������������������������������������������������������ : מבחן (SSR/d.f.) ÷ (SSE/d.f.) = ��������������������������������������������������������������������������������� :F האם קיים קשר מובהק? 54 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ישימ ח קרפ ה י סרגר חות י נ נ י ת ו ח ר גר ס י ה מר ו ב ה ,Yוהרגרסיה הנובעת ממנו תתי-הפרקים הקודמים עסקו במשתנה בלתי תלוי בודד= a+bX , מכונה רגרסיה ליניארית פשוטה .מרבית המקרים ה ישרודם ניתוח רגרסיה עוסקים בכמה משתנים בלתי תלויים ,Y = a+b 1X 1 + b 2X 2 + …. b nX n ,ובהם נשתמש ברגרסיה ליניארית מרובת משתנים .ניתוח רגרסיה ליניארית מרובה ללא סיוע מחשב היא פעולה קשה מאד. ישנן תוכנות רבות כדוגמת STATISTIX ,SYSTAT ,SAS BMDP, MINITAB, SPSS,ואחרות המספקות תוצאות מידיות .כל משתנה מקבל ציון ”( “tראו בפרקים הקודמים) וערךp- אם ערך ה p -קטן מן המקסימום שנקבע ( )10% ,5% ,1%כוללים את המשתנה במשוואה; אם תואם. לא ,אין כוללים אותו במשוואה .בטבלה 5.3תמצאו מאגר נתונים. תרג יל 4 טרנס אמריקה שרותי טלפון בע"מ נמצאת במצב פיננסי קשה .עליה למכור עוד קווי טלפון, ולא - תאבד את הזיכיון .שיעורי החדירה הממוצעים הם ( 30%מספר משקי הבית באזור הפעילות שירכשו קו של טרנס אמריקה ,חלקי מספר משקי הבית באיזור הפעילות) ,ובכל המדינה הוא קרוב יותר ל( .50%-אלו הם נתונים משנת .)1974 נניח שיש בידינו משאבים לפעול בחמישה אזורי פעילות .יש לנו מטרה כפולה :תחילה ,להגדיר את המשתנים הקשורים לחדירה באמצעות ≥ 0.05 ערך ;p -ושנית ,לקבוע באילו חמישה אזורי פעילות ישנה סבירות גבוהה למכירות חדשות (שאריות בעלות ערך שלילי גבוה מאד) .זכרו: שארית = (ה Y-הנצפה מינוס הŶ- המנובא) .ערך שלילי משמעו כי על שיעורי רכישת הקווים הנצפים להיות גבוהים הרבה יותר מהשיעור הנוכחי. הש לימו הנתונים נמצאים בטבלה בעמוד הבא ,השתמשו ב SPSSכדי לייצר את משוואת הריגרסיה ,ניתן להעשות 'העתק-הדבק' ל .SPSS בעמוד האחרון של הספר יש את הנתונים ב'אקסל' מימין לשמאל. הטבלה :כריסטופר לבלוק וצ'רלס ווינברג ,טרנס אמריקה קייבל ,בוסטון :בית הספר לעסקים של הארוורד ,מקרה מס .9-583-1450 .זכויות יוצרים .President and Fellows of Harvard College ,1983בספרם של כריסטופר לבלוק וצ'רלס ווינברג ,אתגרים בשיווק ,ניו יורק .McGraw Hill, 1988 :מובא באישור בית הספר לעסקים באוניברסיטת ארה"ב המשתנים הקשורים בשיעורי חדירה (הסתברות של טעות פחות מ )5%-הם: )1 )2 )3 )4 = p )1 = p )2 = p )3 = p )4 איזורי הפעילות ( )#IDשבהם השאריות השליליות הגבוהות ביותר הם: 1 2 3 4 5 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 55 ישימ ח קרפ #ID 101 102 103 104 105 106 107 108 109 110 111 201 202 203 204 205 206 207 208 209 210 211 212 301 302 303 304 305 306 401 402 403 404 405 406 407 406 409 410 411 412 413 414 415 416 501 502 503 504 505 506 601 602 603 701 702 703 704 705 706 56 ה י סרגר חות י נ %השחורים שיעור החדירה הכנסה חציונית משקי בית באוכלוסיה 38.8% $11.389 28.1% 364 6.1 20,058 31.1 4,980 99.3 21,233 36.5 1, 516 25.8 21,969 34.5 6, 026 88.3 31,205 38.0 1,444 96.9 31,461 44.9 1, 742 98.6 20,322 36. 8 2,364 94 .4 26,717 37.4 3,252 94 .4 22,184 50.1 2,624 98.4 22,441 37.9 2,722 94.7 28,981 35.2 2,576 99.0 13,385 27.0 1.464 99.9 13,162 28.3 3,419 99.7 14,632 30.1 1,892 97.2 16,391 43.1 2,580 84 .2 12.485 38.0 1,898 97.7 13,755 50.6 1,464 99.6 13,199 42.2 1,178 89.4 14.320 33.3 1,812 99.1 15,971 34.0 2,706 57.5 27,292 36.2 1,452 48.7 13,868 35.5 490 53.0 24,607 36.5 1,258 98.7 9,228 12.9 2,264 97.1 12,509 14 .6 1,664 32.3 23.323 15.0 2,160 28.0 6, 692 16 .6 641 35.5 18,716 16.3 64 0 65.8 12.313 15.0 603 7.4 15.761 23 .6 443 96.7 13,755 21.3 1,600 32.9 20,763 21.2 711 8.7 24,754 21.9 4, 458 10.9 28.576 15.0. 4,077 6.8 23,474 23.6 1,939 2.0 18,407 22.9 2.953 16.4 23.196 22.2 1.712 28.2 21,571 21.9 2,423 4 .3 27.542 13 .4 3,199 65.4 14,218 11.1 3,410 4.8 13,754 39.5 954 69.1 33,809 35.5 1,233 93.9 22,140 34.2 1,691 99.4 27,390 32.9 935 98.7 12.821 33.3 862 1.7 25,725 31.2 3,966 1.0 24,679 26 .7 4,728 0.8 28,662 23 .6 2,367 12.7 39.062 38.8 3.485 1.9 74,693 42.8 3,803 1.6 94,980 39.6 2,580 30.7 20,509 28.4 6,803 30.5 30,603 36.5 8,169 3.3 22,138 48.2 3,366 47.7 24,082 45.3 815 47.6 27,933 51.5 6,621 21.7 28,076 54.0 9,145 29.3 25,061 46.7 5,952 32.0 22.046 50.4 8,525 33.7 25.804 40.5 14,478 IDמ 101 -עד = 416קינגסטון ,מ 501 -עד = 506הוב ,מ 601 -עד גיל חציוני 49.3 54.1 26.8 49.2 32.4 34.2 28.5 28.1 27.9 30.6 26.0 16.1 18.0 29.6 19.1 24.8 28.2 28.0 24.2 25.4 43.3 29.4 38.2 17.9 45.2 40.4 22.3 59.7 34.1 42.5 35.4 20.6 29.2 43.9 41.6 48.6 48.3 41.4 39.9 32.5 31.1 38.4 32.2 33.0 26.4 44 .1 48.3 56.2 38.5 25.5 46.6 28.2 34.4 50.2 29.9 27.4 26.3 25.7 31.1 25 .4 = 706ברייטן סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן %מגורים בדירה 0.0% 8 .5 28.2 31.9 22.2 27.7 3.2 1.6 2 .2 19.6 7.4 20.6 13.6 2.6 26.2 22.2 1.0 4.6 15.2 11.0 14.4 2.3 0.0 44.5 5.4 87.1 37.5 0.0 0.0 12.6 3.6 55.3 58.2 54.9 61.5 37.4 15.3 28.9 29.2 13.8 31.1 38.4 32.2 33.0 26.4 28.5 6.6 48.8 1.8 3.5 9.9 7.4 36.2 3.5 0.0 12.1 16.3 0.0 0.8 21.0 ישימ ח קרפ ה י סרגר חות י נ ר גר ס י ה ק ד י מ ה ,ר גר ס י ה ל א ח ור ו ר ג ר סיה בצ ע די ם ברגרסיה מרובת משתנים אנו בוחנים כל משתנה בלתי תלוי כדי לזהות את ערך הp- ולהחליט האם יש לכלול את המשתנה במשוואת הרגרסיה או לא .דרך אחת היא לכלול את כל המשתנים הבלתי-תלויים במשוואה ולהתחיל להשמיט כל משתנה שערך הp- שלו גדול מהרמה שקבענו. גישה זו מכונה רגרסיה לאחור ,משום שאנו הולכים ומשמיטים משתנים ,או נעים "לאחור", מהמשוואה הראשונית שכללה את כל המשתנים. שיטה אחרת היא להכניס משתנה אחד בכל צעד ולבחון אותו כדי לקבוע האם ערך הp- שלו גדול מהערך שקבענו .גישה זו מכונה רגרסיה קדימה ,משום שאנו הולכים ומוסיפים משתנים שערך הp- שלהם מתאים. הגישה השלישית והמומלצת היא רגרסיה בצעדים .בשיטה זו אנו משלבים בין שתי הדרכים הראשונות .תחילה אנו בוחרים משתנה שרמת המובהקות שלו היא הגבוהה ביותר ,או במילים אחרות ,ערך הp- שלו הוא הנמוך ביותר .לאחר מכן אנו מוסיפים עוד משתנה וחוזרים לאחור לבדוק האם אנו עדיין מעוניינים במשתנה הראשון ,כלומר ,האם ערך הp- של המשתנה הראשון גבוה מדי לאחר שהכנסנו את המשתנה השני למשוואה? שיטת עבודה זו ,של שני צעדים קדימה וצעד אחורה ,נתנה לדרך זו את שמה -רגרסיה בצעדים .כדי להמשיך ,נוסיף משתנה שלישי, ולאחר מכן נבדוק האם אנו עדיין מעוניינים בשני המשתנים הראשונים ,לנוכח המשתנה השלישי. (בפרק 7תמצאו שיטה נוספת). אם ישנו מתאם בין המשתנים הבלתי תלויים נוצרת בעיה ושמה מולטיקוליניאריות .לדוגמה ,אם אנו מציבים את המכירות כמשתנה תלוי ,והכנסה ורמת השכלה הם המשתנה הבלתי תלוי ,הרי שלכאורה יש לנו שני משתנים .למעשה ,יש בידינו רק משתנה אחד ,משום שבין רמת הכנסה לרמת השכלה ישנו מתאם חיובי .זו בעיה מסובכת משום שלמעשה אנו סופרים משתנה אחד - מעמד סוציו-אקונומי -כשני משתנים ,הכנסה והשכלה .את בעיית המולטיקוליניאריות פותרים בעזרת ניתוח גורמים. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 57 פרק שישי נ יתו ח שונו ת A N O V A - בפרק הקודם עסקנו בקשרים בין המשתנה התלוי למשתנה הבלתי תלוי או למשתנים הבלתי תלויים .הכרנו מבחנים שונים המשמשים לבדוק את עוצמת הקשר ,את הסבירות לטעות וטעויות השמטה פוטנציאליות שונות. אחד התנאים החשובים בניתוח רגרסיה הוא שהמשתנה התלוי והמשתנה הבלתי תלוי יהיו שניהם נתונים רציפים .כאשר הן המשתנה התלוי והן המשתנה הבלתי תלוי הם משתנים שמיים או קטגוריאליים ,אפשר לבדוק ,באמצעות מבחן ,χ2האם אפשר לדחות את השערת האפס (האומרת כי אין כל קשר בין המשתנה התלוי והמשתנה הבלתי תלוי). אם טווח הטעות ,או ערך ה ,pקטן מטווח הטעות המקסימלי האפשרי בשגיאה מסוג ,I אנו יכולים לדחות את השערת האפס .אם טווח הטעות גדול מטווח הטעות המקסימלי האפשרי בשגיאה מסוג ,Iנקבל את השערת האפס. כאשר המשתנה הבלתי תלוי קטגוריאלי והמשתנה התלוי רציף ,ניתוח שונות הוא המבחן המתאים למדידת ערך p (ההסתברות לקבלת השערת האפס בטעות) .חשבו על טבלת אפשרויות .יש בה שורות שונות ועמודות שונות .ניתוח שונות חד גורמי מניח ש,X - המשתנה היחיד שמודדים ,נמצא בעמודות ,וכל עמודה מודדת מה קורה לY - ערכים שונים של .Xניתוח שונות דו-גורמי מניח שהן השורות והן העמודות משפיעות על .Y בנוכחות נ י ת ו ח ש ונ ו ת ח ד ג ור מ י הנה דוגמה לניתוח שונות חד גורמי .משתנה Yהוא שיעור הספיגה של לחות בבטון ,כפי שנמדדו בחמישה סוגי בטון שהוכנו מחמש תערובות חצץ שונות .השערת האפס אומרת שהספיגה הממוצעת זהה. H(0): μ 1 = μ 2 = μ3 = μ 4 = μ 5 μi ≠ μjלפחות מקרה אחד שלH(1): הנתונים שלנו מורכבים מ 6-תצפיות עבור כל סוג בטון ,סך הכל 30תצפיות .אנו יכולים להציג את הנתונים במטריצה (או טבלה) שבה 6שורות ו 5-עמודות. 58 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן -תונוש חות י נ חותינ ישיש קרפ טב לה :6 .1 שיעורי ספיגה של לחות בתערובות בטון תערובת (%משקל) 1 2 3 4 5 סוג 551 595 639 417 563 457 580 615 449 631 450 508 511 517 522 731 583 573 438 613 499 633 648 415 656 632 517 677 555 679 סך הכל 3,320 3,416 3,663 2,791 16,854 3,664 ממוצע 553.33 569.33 610.50 465.17 561.80 610.67 (הסתברות וסטטיסטיקה למדענים ולמהנדסים ,וולפול ומאיירס ,מקמילן ,1989 ,מובא ברשות המחברים). הערך בכל תא הוא ,Yשהוא משתנה רציף .כל עמודה מייצגת ערך אחר עבור ,Xהמשתנה בלתי תלוי ,ובו X יכול לקבל את הערכים ,5 - 1או פשוט .X = 1,2,3,4,5הפרשי סכום הריבועים מהממוצע של ,Y, SSTהיא נוסחת הSSY- 2 שהובאה בפרק הקודם– (ΣY) /n , 2 i .SSY = ΣY סכום הריבועים של :Y Y = 5512 + 4572 + … +6972 – (16854)2/30 = 9677954 - 9468577 = 209,377 אנו יכולים לפרק את סכום הריבועים לשני חלקים :סכום הריבועים בין סכומי העמודות וסכום הריבועים בתוך סכומי העמודות .לפי השערת האפס ,ההבדלים בין תערובות הבטון אינם משמעותיים ועל סכומי העמודות להיות דומים זה לזה .ההשערה האלטרנטיבית )H(1 אומרת כי ישנו הבדל משמעותי בין תערובות הבטון .לכן ,על סכומי העמודות להיות שונים זה מזה אך המספרים בתוך העמודות יהיו דומים ,מכיוון שכל הפריטים בכל עמודה עברו מניפולציה זהה. המבחן לניתוח שונות הוא היחס{ :סכום הריבועים הממוצע של ההפרשים בין העמודות} ).d.f ( / ÷ {סכום הריבועים הממוצע בתוך העמודות} .).d.f ( /המונה הוא אפקט המניפולציה (כלומר, התהליך) הנובע מ ,X-והמכנה הוא אפקט הטעות שאפילו ההשערה האלטרנטיבית )H(1 מסבירה אותה .טבלת ערכי Fתספק את הערך הקריטי ,בהתבסס על ערך ה p -שנקבע או ההסתברות המקובלת לשגיאה מסוג ,Iעל דרגות החופש למונה ,לפי מספר העמודות מינוס 1 (מספר המניפולציות שנעשו מוגדר כ ,)k -ועל דרגות החופש למכנה לפי מספר השורות מינוס,1 אינה כפול מספר המניפולציות שנעשו: סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 59 -תונוש חות י נ חותינ ישיש קרפ ) .k(n-1בהמשך מובא חישוב ערכים אלו עבור הדוגמה של ספיגת לחות בבטון שהובאה קודם. צורת הכתיבה בניתוח שונות היא כזו: כותרות השורות עושות שימוש בציון התחתי ,i: i = 1, 2, …, nוTi - לשורת ה .i -כותרות העמודות עושות שימוש בציון התחתי ,j: j = 1, 2, … kו T j -הוא סכום העמודה לעמודה ה .j -האות Tמציינת את הסכום הכולל של כל התאים בטבלה .הנה הנוסחאות הנחוצות למבחן :F הוא סכום השורה 2 אפקט המניפולציה = סכום הריבועים שבין העמודות SSA = ΣjT j/n - T2/nk 2 סך סכום הריבועים של = Yסכום הריבועים של SST = ΣiΣj (Y ij) - T2/nk Y 2 2 סכום הריבועים בתוך כל עמודה = אפקט הטעות SSE = ΣiΣj (Y ij) - ΣjT j/n שימו לב= SST - SSA : ,SSEיש בידינו מספר שווה של תצפיות עבור כל עמודה. כך נפתור את הדוגמה שעסקנו בה: SSA = (3,3202 + 3,4162 + … +3,6642)/6 – 16,8542/30 = 85,356 SST = 5512 + 4572 + … + 6792 – (16,854)2/30 = 9677954 – 9468577 = 209,377 SSE = SST - SSA = 209,377 – 85,356 = 124,021 מבחן = (SSR/d.f.)/SSE/d.f.) :Fממוצ ע אפ קט ה מנ י פ ו ל צ י ה /מ מ ו צ ע א פ ק ט הט ע ו ת דרגות החופש )(d.f. במונה = (מספר העמודות ,)1 -כלומר.k - 1 , דרגות החופש במכנה = (מספר השורות )1 -כפול .k כאשר נחלק את סכום הריבועים בדרגות החופש המתאימות ,נקבל את ערך ממוצע הריבועים. לפיכךF = MSA ÷ MSE , כך תראה ט ב ל ת ני תו ח שונו ת ( )A N O V A ע ב ו ר ד וג מ ת הל חות ב ב ט ו ן: מקור השינוי סכום הריבועים דרגות חופש ממוצע הריבועים ערך ה F-שחושב תערובות בטון 85,356 4 21,339 4.30 טעות 124,021 25 4.961 סך הכל 209,377 29 Fבטבלה = ,2.76נדחה את השערת האפס. 60 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן -תונוש חות י נ חותינ ישיש קרפ נ י ת ו ח ש ונ ו ת ד ו -ג ור מ י חשבו על מצב שבו שני משתנים בלתי תלויים עשויים להיות קשורים במשתנה תלוי אחד .לדוגמה, נניח שהמשתנה התלוי שלנו הוא הכנסתם השנתית של מנהלים בחברה נתונה .לכל המנהלים הללו תואר במנהל עסקים ,והם התמחו באחד מתוך ששה תחומים אפשריים :שיווק ( ,)1ניהול ( ,)2ראית חשבון ( ,)3כלכלה ( ,)4מדעי הניהול ( )5ומשאבי אנוש ( .)6בדומה לכך ,המנהלים ההלו נחלקים לארבע קבוצות לפי איכות התפקוד שלהם ומכאן דירוגם בחברה :הרביעון העליון ( 25%הראשונים בקבוצת הדירוג) ,רביעון שני ,רביעון שלישי ורביעון עליון .השאלה שלנו היא האם להתמחותו ולדירוגו של המנהל יש השפעה על הכנסתו( .שימו לב שהנתונים היפותטיים ומובאים כאן למטרות הדגמה בלבד). שלושה שלבים נחוצים לפתרון הבעיה .בשלב הראשון נגדיר את ההנחות ,בשלב השני נחשב את הערכים הסטטיסטיים הנדרשים ובשלב השלישי נבנה טבלת ניתוח שונות דו-גורמי .הטבלה תיתן לנו את ערך ה .F-אם יהיה ערך ה F-גדול מהערך הקריטי שלנו ,נדחה את השערת האפס. אם יהיה קטן מן הערך הקריטי ,נקבל את השערת האפס. נזכור שכעת יש לנו שני אפקטים עיקריים הנובעים מהמניפולציה :שורה (דירוג) ועמודה (התמחות). SSAהוא סכום הריבועים בין השורות SSB ,הוא סכום הריבועים בין העמודות SSE ,הוא סכום הריבועים של גורם הטעות ו SST-הוא סכום הריבועים הכולל של משתנה .Yלפי )SSA ,H(1 מודד את אפקט המניפולציה ,והיינו מצפים למצוא שוני גדול בין סכומי השורות (אפקט מניפולציה .)Aלפי )’ SSB ,H(1מודד את אפקט המניפולציה והיינו מצפים למצוא שוני גדול בין סכומי העמודות (אפקט מניפולציה .)Bלפי ) H(1ו ,H(1’) -גורם הטעות ,SSE ,אמור להיות קטן יחסית, משום שהוא מייצג טעות אקראית .מבחן Fהוא יחס הסיכויים :למניפולציה ,Aיחס הסיכויים הוא { .}.SSA/d.f.} ÷ {SSE/d.fדרגות החופש במונה = ( .)n - 1) (k - 1למניפולציה ,Bיחס הסיכויים הוא { ,}.SSB/d.f.} ÷ {SSE/d.fדרגות החופש במונה = ,k - 1דרגות החופש במכנה = ()n - 1 .)(k - 1החישובים מובאים להלן: ט ב לה 6.2 הכנסה שנתית של מנהלים (באלפים) התמחות המנהל בלימודי התואר דירוג בתוך הקבוצה 1 2 3 4 5 6 סך הכל רביעון ראשון 42.5 39.3 39.6 39.9 42.9 43.6 247.8 רביעון שני 39.8 40.1 40.5 42.3 42.5 43.1 248.3 רביעון שלישי 40.2 40.5 41.3 43.4 44.9 45.1 255.4 רביעון רביעי 41.3 42.2 43.5 44.2 45.9 42.3 259.4 סך הכל 163.8 162.1 164.9 169.8 176.2 174.1 1010.9 (הסתברות וסטטיסטיקה למדענים ולמהנדסים ,וולפול ומאיירס ,מקמילן ,1989 ,מובא ברשות המחברים). סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 61 -תונוש חות י נ חותינ ישיש קרפ שלב א': ממוצעי השורות H(0) = μ1 = μ2 = μ3 = μ4 = 0 ממוצעי העמודות H(0’) = μ1 = μ2 = μ3 = μ4 = μ5 = μ6 = 0 )H(1 = לפחות אחד μi ≠ μiאחר = אפקט השורות מובהק )’H(1 = לפחות אחד μj ≠ μjאחר = אפקט העמודות מובהק שלב ב': חישוב הסטטיסטיים הנחוצים: סך סכום הריבועים של = Yסכום הריבועים של SST = ΣiΣj (Y2) – T2/nk Y אפקט המניפולציה = סכום הריבועים שבין השורות SSA = ΣiT2/k – T2/nk אפקט המניפולציה = סכום הריבועים שבין העמודות SSB = ΣjT2/n – T2/nk אפקט הטעות = SSE = Σ i Σj (Y2) – ΣjT2/k – ΣjT2/n + T2/nk דרגות חופש ל ;n-1 = A-דרגות חופש ל,.k – 1 = B-דרגות חופש ל (n – 1)(k–1) = E והנה חישוב הבעיה: SST = 42.52 + 39.82 + … +42.32 – 1010.92/24 = 81.86 SSA = (247.82 + 248.32 + … + 259.42)/6 – 1010.92/24 = 15.93 SSB = (163.82 + 162.12 + … + 174.12)/4 – 1010.92/24 = 42.09 SSE = SST – SSA – SSB = 81.86 – 15.93 – 42.09 = 23.84 ערך Fקריטי ל 3 ,p = 0.05( A-דרגות חופש במונה 15 ,דרגות חופש במכנה) = 3.29 ערך Fקריטי ל 5 ,p = 0.05( B-דרגות חופש במונה 15 ,דרגות חופש במכנה) = 2.90 שלב ג' טב ל ת ני תו ח שונו ת דו -גורמי 62 מקור סכום הריבועים דרגות חופש ממוצע הריבועים ערך F דירוג 15.93 3 5.31 3.34 התמחות 42.09 5 8.42 5.30 טעות 23.84 15 1.59 סך הכל 81.86 23 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן -תונוש חות י נ חותינ החלטה :נדחה את )H(0 ישיש קרפ ואת )’.H(0 ערך Fעבור מניפולציה 3.29 > 3.34 = A ערך Fעבור מניפולציה 2.90 > 5.30 = B בתת הפרק הבא נעסוק במדידת אפקט האינטראקציה .כלומר ,האם לאפקט של שני המשתנים הבלתי תלויים יחד תהיה השפעה שונה על המשתנה התלוי מאשר לכל משתנה לחוד? סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 63 -תונוש חות י נ חותינ ישיש קרפ אפק ט ה א ינ טר א ק צ י ה חשבו על התרחיש הבא .חקלאי מעוניין להגדיל את תנובת שדותיו .אחת הדרכים לעשות זאת היא לדשן את השדות .עם זאת ,הדשן עשוי לפעול רק חלקית משום שהשדות באיזור זה אינם זוכים לדי גשם בדרך כלל .מכאן ,חלופה אפשרית לדישון היא התקנת מערכת השקיה שתגדיל את היבול משמעותית. אם ישלב החקלאי בין דישון ובין התקנת מערכת השקיה ,יהיה הגידול הנקי ביבול גדול יותר מאשר מידת ההשפעה של הדישון לבדה יחד עם מידת ההשפעה של מערכת השקיה לבדה .הדשן יהיה אפקטיבי הרבה יותר בנוכחות השקיה וההשקיה תהיה אפקטיבית הרבה יותר בנוכחות דשן. הנה דוגמה מתחום השיווק :בדרך כלל ,פרסום מביא לגידול במכירות .גם מבצעי קידום בחנויות מביאים לגידול במכירות .שילוב בין פרסום (המגביר את המודעות למותג) ומבצעי קידום בחנויות (המושכים תשומת לב למוצר בשעת התנהגות רכישה) עשויים לגרום לאפקט גדול יותר על המכירות מאשר סכום האפקטים של כל פעולה בפני עצמה .אפקט זה מכונה אפקט האינטראקציה. את אפקט האינטראקציה מודדים באמצעות תהליך זהה לזה של ניתוח שונות דו-גורמי ,בתוספת משוואה חדשה ,SSAB ,האינטראקציה של מניפולציה Aעם מניפולציה .Bנשתמש באותה שיטת כתיבה כמקודם ,ונדגים את התהליך: אנו מדפיסים שלוש פרסומות שונות ופותחים בארבעה מבצעי קידום שונים בחנויות .אנו רוצים לבדוק האם ישנו הבדל משמעותי בין הפרסומות ,המבצעים ואפקט האינטראקציה מבחינת המכירות .אנו מקצים פרסומות ומבצעי קידום ל 24-חנויות שונות ברשת באופן אקראי .הנתונים מובאים בטבלה .6.3 ט ב לה 6.3 נתוני מכירות למבצעי הקידום השונים מבצעי קידום בחנויות סך כל השורות/ לפרסומת מסע פרסום b1 b2 b3 b4 a1 34.0 32.7 30.1 32.8 29.8 26.7 29.0 28.9 244.0 a2 32.0 33.2 30.2 29.8 28.7 28.1 27.6 27.8 237.4 a3 28.4 29.3 27.3 28.9 29.7 27.3 28.8 29.1 228.8 סך הכל 189.6 179.1 170.3 171.2 710.2 (הסתברות וסטטיסטיקה למדענים ולמהנדסים ,וולפול ומאיירס ,מקמילן ,1989 ,מובא ברשות המחברים). 64 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן -תונוש חות י נ חותינ ישיש קרפ שלב א': אפקט השורות H(0) = μ1 = μ2 = μ3 = 0 אפקט העמודות H(0’) = μ1 = μ2 = μ3 = μ4 = 0 כל ממוצעי התאים שווים :אפקט האינטראקציה )”H(0 אחר = אפקט השורות מובהק μi ≠ μiלפחות אחד = )H(1 אחר = אפקט העמודות מובהק μj ≠ μjלפחות אחד = )’H(1 אפקט האינטראקציה מובהק )”:H(1 ;i,את העמודות נסמן בעזרת האות כך נסמן :את השורות נסמן בעזרת האות i = 1,2,…n ;j: j = 1,2,…kאת הערכים שבתוך התאים נסמן בעזרת האות m: m = 1,2,…r. Tהוא הסך הכולל .נגדיר את Tijכסך כל התאים לשורה מספר iולעמודה מספר .jלדוגמהT 11 = : ,66.7, T 22 = 60.0, T 33 = 57.0דרגות חופש לאפקט ,A = n – 1דרגות חופש לאפקט ,B = k – 1דרגות חופש לאפקט ,)AB = (n – 1)(k – 1דרגות חופש לגורם הטעות = (.)nk)(r – 1 שלב ב' :חישוב ערך F תחילה נציג את הנוסחאות ולאחר מכן נציב בהן את הערכים מהדוגמה שלנו X( .משמעו פעולת כפל). סכום הריבועים הכולל SST = Σ i Σj Σm Yijm2 – T2/nkr אפקט מניפולציה SSA = Σ i T2/kr – T2/nkr A אפקט מניפולציה SSB = Σ j T2/nr – T2/nkr B אפקט מניפולציה של אינטראקציה SSAB = Σj Σj Tij2/r – Σi T2/kr – Σj T2/nr + T2/nkr AB אפקט הטעות SSE = Σ i Σj Σm Yijm2 – Σj Σj Tij2/r כעת נחשב את הערכים: SST = 34.02 + 32.72 + … + 29.12 – 710.22/24 = 91.68 SSA = (244.02 + 237.42 + 228.82)/8 – 710.22/24 = 21,030.52 – 21,016.00 = 14.52 SSB = (189.62 + 179.12 + 170.32 + 171.22)/6 – 710.22/24 = 21,056.08 – 21,016.00 = 40.08 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 65 -תונוש חות י נ חותינ ישיש קרפ SSAB = ((34.0 + 32.7)2 + (32.0 + 33.2)2 + … + (28.8 + 29.1)2/2 – 21,030.52 – 21,056.08 + 710.22/24 = 22.17 SSE = SST – SSA – SSB – SSAB = 91.68 – 14.52 – 40.08 – 22.17 = 14.91 ערך Fקריטי ל 2 ,p=0.05( A-דרגות חופש במונה 12 ,דרגות חופש במכנה) = 3.89 ערך Fקריטי ל 3 ,p=0.05( B-דרגות חופש במונה 12 ,דרגות חופש במכנה) = 3.49 ערך Fקריטי ל 6 ,p=0.05( AB-דרגות חופש במונה 12 ,דרגות חופש במכנה) = 3.00 ש ל ב ג ' :טב ל ת ני תו ח שונו ת דו -גורמ י מקור השונות סכום הריבועים דרגות חופש ממוצע הריבועים ערך Fשחושב מסע פרסום 14.52 2 7.26 5.58 40.08 3 13.36 10.77 22.17 6 3.70 2.98 טעות 14.91 12 1.24 סך הכל 91.68 23 אפקט המבצעי קידום בחנויות אפקט האינטראקציה אפשר לראות שערך Fשחישבנו גדול מערך Fהקריטי בטבלה עבור האפקטים העיקריים של Aו B-אך לא עבור אפקט האינטראקציה .לכן אנו מסיקים ש: נדחה את )H(0 ,שינויים במסע הפרסום אכן משפיעים על המכירות נדחה את )’ ,H(0שינויים במבצעים בחנויות אכן משפיעים על המכירות נקבל את )” ,H(0האינטראקציה אינה משפיעה על המכירות תרגיל :איזה שילוב בין מבצעים לפרסום הוא הטוב ביותר? אף שהתרגיל עשוי להיות מייגע ,ישנן תכנות רבות שיגיעו לתוצאות בן רגע ,MINITAB .למשל, יוצרת טבלת ניתוח שונות דו גורמי בלחיצה על פקודת .ANOVA תכנות אחרות ,כגון SAS , BMDP, SPSS, SYSTAT ,ואחרות יתנו גם הן פתרון מידי .עם זאת ,המשתמש מוכרח להבין את ההנחות ואת ההיגיון הטמון בבסיסן של הטכניקות לניתוח סטטיסטי לפני שילחץ על לחצנים ויקבל את התוצאות .אנו מקווים שהחומר שנלמד בפרק זה יסייע ללומדים להבין את עקרונות ניתוח השונות הדו-גורמי. 66 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן פרק שביעי נו ש א י ם מת ק דמ י ם בפרקים הקודמים הוצגו טכניקות חשובות שבהן משתמשים במדעי השיווק לצורך ניתוח נתונים .עם זאת ,כדי שיהיה אפשר להשתמש בטכניקות אלה יש לענות על מספר דרישות בסיסיות .כך למשל ברגרסיה לינארית יש צורך בנתונים רציפים (מסולם רווח ומעלה) הן עבור משתנים בלתי-תלויים והן עבור משתנים תלויים .בפרק זה יבואר כיצד להמיר נתונים סידוריים (שמיים או קטגוריאליים) לנתונים רציפים באמצעות טכניקת סילום המכונה סולם תורסטון ).(Thurstone’s Case V Scaling זיהינו את χ2 כשיטה המשמשת לניתוח נתונים קטגוריאליים ,את הרגרסיה הלינארית כשיטה המשמשת לניתוח נתונים כאשר הן המשתנה התלוי והן המשתנה הבלתי-תלוי הם נתונים רציפים ,ואת ניתוח השונּות כשיטה המתאימה כאשר המשתנה התלוי הוא רציף והמשתנה הבלתי-תלוי או המשתנים הבלתי תלויים הם קטגוריאליים .עם זאת, כאשר המשתנה הבלתי תלוי הוא קטגוריאלי והמשתנים הבלתי-תלויים הם רציפים נוצרת בעיה .האם ישנה טכניקה של ניתוח נתונים שאפשר להשתמש בה במצב מעין זה? הטכניקה המתאימה במקרה זה היא ניתוח מבחין ובפרק זה נראה מדוע יש להשתמש דווקא בה. בפרק זה נראה תחילה כיצד אפשר להמיר נתונים סידוריים (קטגוריאליים או שמיים) לנתונים רציפים .אחר כך נציג מושג הנקרא ניתוח גורמים .ניתוח גורמים מעבד נתונים לצורך ניתוח נוסף שייעשה בהמשך .דבר זה עשוי להועיל מאוד ברגרסיה לינארית ,שבה משתמשים בציוני גורמים ) (factor scoresולא בנתונים מקבוצת המשתנים המקורית כדי להריץ את הרגרסיה .לאחר מכן נדון בניתוח אשכולות ,והפרק האחרון יעסוק בניתוח מבחין. ה מר ת נ ת ונ י ם ס י ד ור י י ם לנ ת ונ י ם רצי פי ם חשבו על המקרה שלהלן :משווק מעוניין לזהות בקרב שוק יעד מסוים את דירוג ההעדפה של משקאות קלים שונים .כדי להשיג נתונים רציפים חייבים לדרג כל משקה בנפרד .תהליך זה הוא מסורבל ואיננו יעיל כאשר מספר סוגי המשקאות העומדים למבחן הוא גבוה ,כמו למשל עשרה או חמישה-עשר סוגים .לנתונים סידוריים יש יתרון גדול כשמדובר באיסוף נתונים .כל שהמשתתפים סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 67 םימדקתמ םיאשונ יעיב ש קרפ בסקר צריכים לעשות הוא ְלמספר את העדפתם הראשונה ,השנייה והשלישית ,וכן הלאה .עם זאת ,במונחים של ניתוח נתונים ,מספר המבחנים שאפשר לערוך לנתונים סידוריים מוגבל. סולם תורסטון הוא כלי שימושי שבאמצעותו אפשר להמיר בקלות נתונים סידוריים המוצגים כהשוואות זוגיות לנתונים רווחיים .זהו תהליך בן חמישה שלבים. שלב :1הצגת הנתונים כהשוואות זוגיות והגדרת האלכסון כ( .0.5-שלב זה הכרחי שכן אי אפשר להשוות פריט לעצמו). שלב :2שימוש בטבלת Zכדי להמיר את כל הנתונים המוצגים כאחוזים לציוני תקן שבהם ההסתברות שהתוצאה תהיה נמוכה מהערך שקולה לשיעור המקורי (הערך באחוזים) .שימו לב: כל ערכי ה 0.5-הופכים כעת ל 0.0-משום שההסתברות שהתוצאה תהיה נמוכה מ 0.0-שקולה ל.0.5- שלב :3חיבור כל ציוני התקן על פי העמודות. שלב :4התאמת סכומי הערכים של כל העמודות .יש למצוא את המספרים השליליים הנמוכים ביותר מבין תוצאות סיכום ערכי העמודות ,ולהוסיף מספר זה לכל אחד מסכומי ערכי העמודות. תהליך זה מבטל את האפשרות לדירוג העדפה "שלילי". שלב :5ארגון הסכומים המותאמים בסדר יורד .מספרים אלה מייצגים נתונים רווחיים של דירוג העדפה בין הפריטים המתחרים. להלן מוצגת דוגמה הממחישה את התהליך( .מישל רוג'רס סייעה באיסוף הנתונים). דו גמה בית ספר למנהל עסקים מעוניין לזהות מהו תחום המחקר העיקרי שבוחרים סטודנטים הלומדים מנהל עסקים במסלול דו-ראשי .דבר זה הכרחי משום שמקצוע ראשי אחד בלבד מופיע על תעודת הסיום של הסטודנט .מחקר נערך בקרב יותר ממאה ושניים סטודנטים בסיינט מרי קולג', ובו התגלו הממצאים שלהלן. בקרב הסטודנטים שסיימו את לימודיהם בסיינט מרי קולג' ,מאה ושניים למדו במסלול דו-ראשי. הסטודנטים נדרשו לבחור מקצוע ראשי אחד שיירשם בתעודה שלהם .במונחים של השוואה זוגית, כאשר נדרשו לבחור בין שיווק ובין מנהל עסקים ,ארבעים אחוזים בחרו במנהל; בין שיווק ובין ראיית חשבון – שמונים אחוזים בחרו בראיית חשבון; בין מנהל ובין ראיית חשבון – ארבעים אחוזים בחרו בראיית חשבון; בין מנהל ובין כלכלה – חמישים אחוזים בחרו בכלכלה; בין מנהל ובין עסקים בין-לאומיים – שישים אחוזים בחרו בעסקים בין-לאומיים; בין ראיית חשבון ובין כלכלה – עשרים ושמונה אחוזים בחרו בכלכלה; בין ראיית חשבון ובין עסקים בין-לאומיים – חמישים אחוזים בחרו בעסקים בין-לאומיים; בין כלכלה ועסקים בין-לאומיים – ארבעים ושלושה אחוזים בחרו בעסקים בין-לאומיים. 68 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ מנהלת האוניברסיטה עמדה בפני בעיה :האם ישנה דרך ליצור דירוג של ההעדפה למקצוע ראשי אחד בקרב קבוצת הלומדים במסלול דו-ראשי? סולם תורסטון פותר בעיה זו. ט ב לה 7.1 שיעור התלמידים הלומדים מנהל עסקים במסלול דו-ראשי ,שנדרשו לבחור תחום אחד והעדיפו את השדות שלמטה בהשוואה לשדות שמימין שיווק מנהל ראיית חשבון כלכלה בינ”ל שיווק 0.50 0.40 0.80 0.50 0.20 מנהל 0.60 0.50 0.40 0.50 0.60 ראיית חשבון 0.20 0.60 0.60 0.28 0.50 כלכלה 0.50 0.50 0.72 0.50 0.43 בינ”ל 0.80 0.40 0.50 0.57 0.50 ציוני התקן של התלמידים הלומדים מנהל עסקים במסלול דו-ראשי ,שנדרשו לבחור שדה מחקר אחד והעדיפו את השדות שלמטה בהשוואה לשדות שמימין שיווק מנהל ראיית חשבון כלכלה בינ”ל שיווק 0.00 -0.25 0.84 0.00 -0.84 מנהל 0.25 0.00 -0.25 0.00 0.25 ראיית חשבון -0.84 0.25 0.00 -0.58 0.00 כלכלה 0.00 0.00 0.58 0.00 -0.18 בינ”ל 0.84 -0.25 0.00 0.18 0.00 סכום 0.25 -0.25 1.17 -0.40 -0.77 ממוצע 0.05 0.05 0.23 -0.08 *-0.15 התאמה +0.15 +0.15 +0.15 +0.15 +0.15 ציונים רווחיים 0.20 0.10 0.38 0.07 0.00 *המספר השלילי הנמוך ביותר .מוסיפים מספר זה לממוצע של כל עמודה. אנחנו רואים כעת שלראיית חשבון יש את דירוג ההעדפה הרציף הגבוה ביותר ,ואחריו שיווק; מנהל עסקים וכלכלה מתחרים על המקום השלישי ,ולעסקים בין-לאומיים יש את הציון הנמוך ביותר. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 69 םימדקתמ םיאשונ יעיב ש קרפ תרג יל 1 יצרן משקאות קלים מעוניין לייצר נתוני העדפה רציפים מנתוני השוואות זוגיות .נתונים אלה מובאים להלן .חשבו את ציוני ההעדפה הרציפים של משקאות א ,ב ,ג ,ד ו-ה .שימו לב :טבלה 7.2איננה מציינת ציוני תקן .עליכם לחפש אותם בטבלה I ואחר כך לחשב את הסכום. ט ב לה 7.2 העדפת מותג ( Xבראש הטבלה) ביחס למותג ( Yבצד ימין של הטבלה) העדפת מותג X ביחס למותג Y א ב ג ד ה א 0.50 0.82 0.69 0.25 0.35 ב 0.18 0.50 0.27 0.07 0.15 ג 0.31 0.73 0.50 0.16 0.25 ד 0.75 0.93 0.84 0.50 0.59 ה 0.65 0.85 0.75 0.41 0.50 סכום ציוני Z לכל מותג ממוצע התאמה ציונים רווחיים (מתוךResearch for Information Decisions, Green, Tull and Albaum, Prentice Hall, : .1984באישור המחברים). נ י ת ו ח מפ ל ה מולטיקולינאריות (רב-קוויות) כדי להעריך נכון את ניתוח הגורמים חשוב להבין מדוע ניתוח גורמים הוא חשוב ומהן הבעיות שהוא מנסה לפתור .נסביר מהי מולטיקולינאריות באמצעות דוגמה. 70 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ תהא המשוואה שלהלן: Y = a + B 1X1 + B2X2 + B3X3 +B4X4 =Yמכירות=X 1 ,פרסום=X 2 ,קידום=X 3 ,תל"ג=X 4 ,הכנסה פנויה נניח שכל משתני Xנמדדים בדולרים .אי אפשר להשתמש במקדמים B i - -כדי להשוות את עוצמתו או את כוחו של אחד המשתנים למשתנה אחר .למשל ,בשנת X3 ,1990 דולר 10,000 = X 2 ,דולר .מובן מאליו שהמקדם של X 3צריך להיות קטן ביותר ,בסדר גודל של 10 -9כדי שתהיה אחידות ביחידות בין המשתנים. = 5,513מיליארד עם זאת ,ישנה אפשרות להמיר את כל המשתנים ליחידות משותפות באמצעות תקנּון של כל משתנה .מחשבים את הממוצע ואת סטיית התקן של כל משתנה; מחסרים את הממוצע מכל תצפית ומחלקים בסטיית התקן שלה בהתאמה .ממירים כל Xi באופן מתמטי לנוסחה הזו: (סטיית תקן ÷ (Xממוצע X'i = ) Xi - נניח שהמרנו את כל ערכי Xלערכי 'Xמתוקננים. Y' = a + B 1X’1 + B2X’2 + B3X’3 +B4X’4 אחרי שלכל ערכי X’i יש קנה מידה משותף :ממוצע = ,0סטיית תקן = ,1אפשר למדוד את עוצמת הקשר של כל המשתנים ב Y-באמצעות הערך של .Biאם למשל ערכו של B 1 פי שניים מערכו של ,B 2הרי שכוחו של הפרסום בהגברת מכירות גדול פי שניים מכוחו של הקידום .באופן דומה ,אם ערכם של B 1ו B 2-יחד גדול פי שלושה מערכו של ,B 3הרי שפרסום גדול וקידום משפיעים על המכירות פי שלושה יותר מאשר התל"ג. עם זאת ,סביר להניח שישנו ִמ ְת ָאם בין קידום ובין פרסום .כלומר ,כאשר נמדוד את ,B 2שהוא ההשפעה של הכסף שהושקע בקידוםB1 , -המאמץ שהושקעה בפרסום -ישפיע על יעילות מאמצי הקידום .ברור למדי שמסע קידום מכירות המתנהל בתוך החנות בלבד ,ללא כל מסע פרסום ,לא יהיה יעיל כפי שעשוי להיות מסע קידום מכירות בתוך החנות המלווה במסע פרסום. משום כך הכסף שהושקע בפרסום ויעילות מסעי קידום המכירות אינם בלתי-תלויים אחד בשני. מסיבה זו ,כאשר משווים את כוחם של הקידום והפרסום לעומת התל"ג אנחנו סופרים למעשה "ספירה כפולה" את השפעת הפרסום .בעיה זו של ספירה כפולה היא תוצאה של מולטיקולינאריות; ישנו מתאם בין המשתנים הבלתי-תלויים לבין עצמם. ישנה בעיה נוספת העלולה להיווצר בגלל המולטיקולינאריות .כאשר ההשפעה הבסיסית של משתנה מתפזרת על פני כמה משתנים ,לכל משתנה עלול להיות ערך p-גבוה מדי ,והוא יישמט ממשוואת הרגרסיה .זוהי תוצאה של דילול ההשפעה של משתנה אחד ,המתרחש כאשר כוללים מספר משתנים שיש מתאם בינם ובין המשתנה הראשון. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 71 םימדקתמ םיאשונ יעיב ש קרפ עניין נוסף הוא שישנן משוואות רגרסיה שיש בהן מספר משתנים רב מדי ,ודבר זה יוצר בעיה של עומס ושל עודפות .ניתוח גורמים פותר את הבעיות הללו. בניתוח גורמים משתמשים בסכום משוקלל של כל המשתנים הבלתי-תלויים ,ומייצרים גורמים בלתי-תלויים אחד בשני. ג ור מ י ם ב ל ת י -ת ל ו י י ם נקודת ההתחלה של ניתוח גורמים היא המודל השלם -מספר הגורמים זהה למספר השורות, וכל גורם הוא הסכום המשוקלל של כל המשתנים בעמודות .המשקלים מחושבים כדי להביא למקסימום את הׁשֹונּות הנכללת בגורם הראשון ,וכן לגבי הגורם השני ,הגורם השלישי וכן הלאה. נתון :ישנם mמשתנים ו nתצפיות לכל משתנה .אם כן ,ישנם m גורמים במודל השלם ,כל גורם הוא סכום לינארי משוקלל ייחודי של כל המשתנים ,והמשקלים הם ערכי האלפא הייחודיים לכל גורם ,כדי לכלול את הׁשֹונּות המירבית האפשרית (ראה להלן). מוד ל ש לם ( iשורות j ;i=1,…..,m ,עמודות)j=1,……,m , ⍺1mXm ⍺2mXm ⍺3mXm ⍺mmXm + ... + + ... + ⍺13X3 + ... + • ⍺33X3 • • • • • • • • • • + ... + ⍺23X3 ⍺m3X3 + ⍺12X2 + ⍺32X2 • • • + + ⍺22X2 ⍺m2X2 + ⍺11X1 + ⍺31X1 • + + ⍺21X1 ⍺m1X1 = F1 = F2 = F3 = Fm בחירת הגורמים :באילו גורמים אנחנו מעוניינים? למעשה ,יצרנו m + mתצפיות עבור כל משתתף m .המשתנים הראשונים הם קבוצת המשתנים המקורית ,והקבוצה השנייה היא הגורמים שנוצרו מהבאה למקסימום של הׁשֹונּות המוסברת על ידי קבוצת הנתונים המקורית .יתר על כן ,כל הגורמים מתוקננים (ממוצע אפס ,שימוש ביחידות סטיית תקן) ובלתי תלויים האחד בשני. 72 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ המשתנים המקוריים* הגורמים שנוצרו* X 1 X2 X3 … X m F1 F2 F3 … Fm תצפיות • • • • • • • • 1 • • • • • • • • 2 • • • • • • • • 3 • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • • N • • • • • • • • * כל נקודה מייצגת תצפית כדי להתאים בין המשתנים ובין הגורמים יש לבדוק את המתאם בין כל גורם ובין כל משתנה .אם המתאם בין גורם ובין משתנה שווה ל 0.4-או גדול ממנו ,הוא גבוה דיו להקצות את המשתנה לגורם הנתון .כל משתנה מוקצה לגורם אחד בלבד (אלא אם יש שוויון). טעינות הגורמים ) (factor loadingsהיא המתאם בין המשתנים ובין הגורמים .קומיונליות ) (communalityהיא שיעור השונות של המשתנה המוסברת על ידי הגורם הנתון .ציון גורם ) (factor scoreהוא פשוט הנתון החדש שנוצר מהסכום הלינארי המשוקלל של כל המשתנים הכלולים בגורם .מספר הגורמים שבהם משתמשים נקבע על פי שיעור השונות המוסברת .כש- 50אחוזים מהשונות של כל משתני X מוסברת על ידי הגורמים ,יש בידינו מספר מספיק של גורמים( .ערכים עצמיים ) 1 ≥ (eigenvalueגם הם קריטריונים לבחירת גורמים ,אך לא נדון כאן בנושא זה משום שהוא מחייב היכרות עם חשבון מטריצות) .מטרתו של ניתוח הגורמים הוא לצמצם את העודפות של המשתנים .מובן שאיננו מעוניינים להשתמש במודל השלם ,משום שמטרתנו היא להקטין ככל האפשר את מספר הגורמים. א יך ל הענ יק ש ם ל ג ור מ י ם :נ י ת וח ט עי נות גו ר מי ם אחרי שזיהינו את מספר הגורמים שבהם נשתמש ,אנחנו בוחנים מחדש את טעינות הגורמים. אנחנו חייבים לשיים כל גורם על סמך המשתנים בעלי הטעינות הגדולה מ 0.4-או השווה ל.0.4- להלן דוגמה לשיום גורמים. דוגמה :מודדים את פעילויות קידום המכירות שנעשו בחנות כלשהי ,על פי סוגיהן השונים .מאגר הנתונים שלנו מודד את התדירות של ארבע פעילויות קידום מסוימות :מחירים נמוכים ,הצעת סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 73 םימדקתמ םיאשונ יעיב ש קרפ קופונים ,הנחות ומגוון רחב של מוצרים .ערכנו ניתוח גורמים למאגר הנתונים המקורי ויש בידינו כעת את טעינות הגורמים בין המשתנים ובין ציוני הגורמים (טבלה )7.3 טב לה :7.3ט עינו ת גורמים בין פ עי ל ו י ו ת ק י ד ו ם ו ב י ן ג ו ר מי ם משתנים מחירים נמוכים הצעת קופונים הנחות תדירות מגוון מוצרים רחב X1 X2 X3 X4 גורמים F1 *0.7 0.3 0.1 -0.1 F2 *-0.6 *0.7 0.01 *0.6 F3 *-0.4 0.3 0.3 *0.9 * טעינות הגורמים ≥|.|0.4 במונחים של שיום גורמים ,אנחנו מעוניינים לזהות אילו חנויות מבין "סוגי החנויות" השונים נוקטות צעדים אלה לצרכי קידום המכירות .ברור למדי שגורם 1הוא חנויות המוכרות מוצרים בהנחה (הדגש מושם על המחיר הנמוך) ,גורם 2הוא חנויות בוטיק (הדגש מושם על מגוון רחב ועל קופונים ,ללא הנחות במחיר) ,וגורם 3הוא מחסני עודפים (מחיר נמוך ומגוון רחב) .נעצור כאן ,משום שלמעלה מ 50-אחוזים מהשונות של משתני Xמוסברת על ידי הגורמים הללו. אנחנו מקצים לגורם כל משתנה שהטעינות שלו ביחס לגורם גדולה מ |0.4|-או שווה ל.|0.4|- גורם 1הוא חנות "מחירים נמוכים"; לגורם 2יש מגוון רחב וקופונים רבים ,אבל מחירים גבוהים יותר (שימו לב למתאם השלילי ביחס למחיר הנמוך); בגורם 3המחירים אינם גבוהים מאוד ,ויש בו מגוון רחב של מוצרים .משום כך אנו מגדירים את גורם 1כחנויות המוכרות מוצרים בהנחה, את גורם 2כחנויות בוטיק ואת גורם 3כמחסני עודפים .זכרו שאין להקצות משתנה לשני גורמים אלא אם טעינות הגורמים שקולה. ס י ב ו ב (ר ו ט צ י ה) בעת יישום ניתוח גורמים יש לעיתים צורך לסובב את הגורמים (או לעשות להם רוטציה) .סיבוב זה עשוי להיות הכרחי משום שלגורם הראשון עשויה להיות טעינות גבוהה עבור כל המשתנים. כשדבר מעין זה מתרחש ,ואין זה נדיר ,אנחנו חייבים לסובב את הצירים .אם לא עושים זאת לא יהיה אפשר להבין את גורם 1משום שכמעט כל המשתנים מוקצים לו כי המתאם עולה על .0.4באמצעות הסיבוב אנחנו מחלקים את המשתנים לגורמים האחרים והתוצאות נעשות בעלות משמעות רבה יותר. 74 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ סיבוב בשיטת varimaxהוא טכניקה שמשתמשים בה לעיתים קרובות לסיבוב הצירים ,וישנן גם אפשרויות נוספות .תוכנת SPSSמשתמשת בשיטת varimaxכברירת המחדל לסיבוב צירים. החישוב של מקדמי אלפא ,סיבוב הצירים ,ציוני הגורמים וטעינות הגורמים נעשה על ידי המחשב. חישובים אלה מסורבלים מכדי לעשותם ללא שימוש במחשב .מטרתה של יחידה זו היא להכיר לקורא את התהליכים שבהם משתמשת התוכנה כדי לערוך ניתוח גורמים .כך יש בידי הקורא הכלים להחליט מתי להשתמש בניתוח גורמים ומתי לא; אילו משתנים יש להקצות לאילו גורמים; וכיצד יש לפרש את טעינות הגורמים .בין התוכנות העורכות ניתוח גורמים ניתן למנות את ,BMDP , SAS, SPSSו.SYSTAT - דוגמה לניתוח גורמים להלן מוצגת דוגמה לניתוח גורמים שבה חמישים ושישה משתנים (טבלה .)7.4מחקר שנערך בקרב עקרות בית בדק כיצד הן מתארות את אופיין ואת אורח החיים שלהן .הסולם שבו נעשה שימוש במחקר הוא סולם של 1עד .5 הממוצעים וסטיות התקן מוצגים עבור כל חמישים ושישה המשתנים .טעינות הגורמים מוצגת עבור גורם 1בלבד .בחרנו את המשתנים שלהם מתאם מובהק לגורם .1העניקו שם לגורם .1 טב לה :7 .4 ממוצעים ,סטיות תקן וטעינות גורמים עבור "תיאורים של אופי ושל אורח חיים" מספר המשתנה שם ממוצע סטיית תקן טעינות גורם 1 1 אני אוהבת להזמין חברים לארוחה 2.04 1.02 .3181 2 אני מעדיפה ירקות טריים על פני ירקות משומרים או קפואים 2.23 1.15 -0.0005 3 אני נזהרת בצריכת הקלוריות שלי 3.17 1.31 .0222 4 אני אוהבת לחיות חיים פשוטים 3.22 1.17 ..1522 5 אינני מבשלת היטב 3.60 1.29 -.4790 6 אני מאמינה במה שההורים שלי האמינו 2.68 0.91 .0026 7 אני אדם לחוץ מטבעי 3.09 1.28 -.0962 8 אני נוהגת לפגוש את המשפחה בסעודות חג 1.73 1.04 -0.0224 9 כשאני רואה משהו שמוצא חן בעיני אני קונה אותו 2.65 1.02 0.0163 10 אני מעדיפה מוצרים טבעיים על פני מוצרים שיש בהם רכיבים מלאכותיים 1.95 1.06 -0.0274 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 75 םימדקתמ םיאשונ יעיב ש קרפ מספר המשתנה שם ממוצע סטיית תקן טעינות גורם 1 11 אני אוהבת מאוד לאכול 1.63 0.88 0.3798 12 אינני חשה בטוב ,אבל אינני יודעת מה הבעיה 4.30 1.03 0.0591 13 אני אוהבת להיות בחברת אנשים רבים 2.43 1.07 0.0576 14 אני נחמדה לעצמי 2.44 0.9 -0.0359 15 אני אוהבת לבשל תבשילים חדשים 2.08 1.05 0.5778 16 בדרך כלל אני מכינה כמה תוספות מיוחדות בחגים 1.70 0.87 0.2069 17 אני אוהבת להכין לילדים שלי את מה שהם אוהבים לאכול 2.01 1.00 0.0666 18 אני אוהבת לתכנן/לארגן את הארוחות שלי מראש 2.16 1.10 0.1351 19 אני קונה לעיתים את מוצרי הרשת במקום מותגים 2.91 1.17 -0.0125 20 אני אוהבת לחפש מבצעים כשאני עורכת קניות 1.92 1.10 -0.0444 21 אני בדיאטה לעיתים קרובות 3.25 1.35 0.0629 22 אני חושבת שיום ראשון הוא יום מסורתי 2.38 1.24 -0.0020 23 אני סובלת מכאבים מעטים 3.20 1.40 0.0866 24 אני אוהבת לעשות “על האש” 2.19 1.16 0.2609 25 המשפחה שלי מעריכה את המאמץ שאני משקיעה בהכנת הארוחות 2.05 0.97 0.3921 26 אני אוהבת להכין תבשילים מיוחדים אף שזה אורך זמן רב 2.70 1.30 0.5584 27 אני בריאה יותר מרוב חברי 2.67 1.15 0.0945 28 האוכל שאני מכינה משקף את מצב הרוח שלי 2.86 1.14 0.1781 29 אני אוהבת להעסיק את עצמי גם בזמני מנוחה 2.03 1.06 0.0059 30 בדרך כלל אני מבשלת בשביל בעלי 1.88 1.19 0.1188 31 אני מתכננת את חיי בתשומת לב 2.79 1.10 0.0052 32 אני אוהבת לבשל בשביל אורחים יותר משאני אוהבת לבשל בשביל משפחה 3.47 1.25 -0.0747 33 אני אוהבת ארוחות מאוזנות ואני דואגת שהן יהיו מזינות 1.84 0.87 0.0713 34 אני אוהבת להכין סלטים צבעוניים 2.15 1.04 0.1572 76 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ מספר המשתנה שם ממוצע סטיית תקן טעינות גורם 1 35 בניהול הבית -אני חושבת כיצד אמי הייתה עשויה לנהוג 3.50 1.19 0.0830 36 אני אוהבת לארח בביתי 2.10 1.04 0.2865 37 הייתי רוצה להיות ביישנית פחות 3.57 1.33 -0.0482 38 אני מנסה ליצור ניגוד בטעמים ובצבעים בארוחות המרכזיות 2.00 0.97 0.1051 39 אני מגישה לשולחן שאריות לעיתים רחוקות 3.32 1.225 0.0970 40 פרסומות למוצרי מזון מעניינות אותי 2.56 1.22 -0.0651 41 אני אוהבת להקדיש זמן להכנת ארוחות 2.28 1.03 0.6165 42 אני מכינה פשטידות רבות למדי 2.90 1.05 0.0987 43 אני דואגת שתמיד יהיו בבית פירות 1.51 0.75 0.0274 44 אנחנו מעדיפים מאכלים פשוטים 2.19 0.90 -0.3540 45 אנחנו מאמינים שנועדנו ליהנות מהחיים 2.23 0.95 -0.0569 46 אני אוהבת לבשל 1.84 1.01 0.7470 47 אני חושבת שהבשר הוא החלק החשוב בארוחה 1.78 0.85 0.1416 48 אני אוהבת להיות פעילה 1.63 0.73 0.0265 49 אני אוהבת מאכלים מתובלים היטב 2.89 1.11 0.4987 50 הכנת ארוחות היא דרך לבטא רגשי חיבה כלפי המשפחה 2.11 1.05 0.4555 51 אני חשה אשמה כשאני משליכה אוכל לפח 1.84 1.12 0.1326 52 רטבים :מרבה/ממעטת להשתמש .52 0.50 -0.1613 53 גיל :צעיר/מבוגר .39 0.49 -0.0679 54 בשר :מרבה/ממעטת לאכול .43 0.50 -0.0393 55 פירות :מרבה/ממעטת לאכול .51 0.50 -0.0539 56 השכלה :תיכונית+/ .65 0.48 0.0460 Jan Erik Modig and F. Stewart DeBruicker, Ocean Spray Cranberries, Inc (A), Boston: Harvard Business School, Case #9-575-039. Copyright © 1974 by the President and Fellows of Harvard College. In F. Stewart DeBruicker, John Quelch and Scott Ward, Cases in Consumer Behavior, Englewood Cliffs, N.J.: Prentice Hall, 1986. Reprinted by permission of Harvard Business School. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 77 םימדקתמ םיאשונ יעיב ש קרפ ט ב לה :7 .5ט עינו ת גורם 1 ( 5.9אחוזים מהשונות מוסברת) מספר המשתנה טעינות שם 46 0.7470 אני אוהבת לבשל 41 0.6165 אני אוהבת להקדיש זמן להכנת ארוחות 15 0.5778 אני אוהבת לבשל תבשילים חדשים 26 0.5584 אני אוהבת לבשל תבשילים מיוחדים אף שזה אורך זמן רב 49 0.4987 אני אוהבת להגיש מאכלים מתובלים היטב 5 -0.4790 אינני מבשלת היטב 50 0.4555 הכנת ארוחות היא דרך לבטא רגשי חיבה כלפי המשפחה *25 0.3921 המשפחה שלי מעריכה את המאמץ שאני משקיעה בהכנת ארוחות *11 0.3978 אני אוהבת מאוד לאכול *44 -0.3540 אנחנו מעדיפים מאכלים פשוטים *24 0.2609 אני אוהבת לעשות “על האש” *16 0.2069 בדרך כלל אני מכינה כמה תוספות מיוחדות בחגים *מוקצים לגורם 1אף שהטעינות קטנה מ |0.40|-וגדולה מ.|0.2|- Jan Erik Modig and F. Stewart DeBruicker, Ocean Spray Cranberries, Inc (A), Boston: Harvard Business School, Case #9-575-039. Copyright © 1974 by the President and Fellows of Harvard College. In F. Stewart DeBruicker, John Quelch and Scott Ward, Cases in Consumer Behavior, Englewood Cliffs, N.J.: Prentice Hall, 1986. Reprinted by permission of Harvard Business School. תרג יל 2 השם שתעניקו לגורם 1הוא היחידה הבאה עוסקת בניתוח אשכולות. 78 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ ניתוח אשכולות בתת-היחידה הקודמת ,הוצג ניתוח הגורמים כשיטה המאפשרת "לנקות" מולטיקולינאריות ועודפות בקרב משתנים .הגורמים מחליפים את המשתנים; כל גורם הוא בלתי-תלוי בגורמים האחרים, הממוצע שווה לאפס וסטיית התקן שווה לאחד. המדגם שסיפק את הנתונים למשתנים המקוריים הוא הטרוגני; כל משתתף במדגם עשוי לייצג מערך ייחודי של דעות ,העדפות ,סדרי עדיפויות וערכים .עם זאת ,לעיתים ישנו דמיון מסוים בין חלק ממשתתפי המדגם בכמה משתנים מרכזיים. מטרתו של ניתוח האשכולות הוא לאגד או לקבץ יחד את המשתתפים במדגם באופן כזה שהשונות המחושבת מהמשתתפים במדגם הנכללים בכל קבוצה היא מינימלית; השונות בין הקבוצות, כלומר ,השונות המחושבת מממוצעי הקבוצות היא מקסימלית .במילים אחרות ,המטרה היא לייצר קבוצות שמשתתפי המדגם המרכיבים אותן דומים מאוד זה לזה ,וכל קבוצה שונה מאוד מהקבוצות האחרות .מספר הקבוצות נקבע באמצעות מבחן scree test.מגדירים את Y כשונות הפנים-קבוצתית הממוצעת ואת Xכמספר הקבוצות .ערך Yאמור לרדת ירידה חדה, ואז קו הגרף אמור להתיישר ככל שמספר הקבוצות גדל (דבר זה מכונה גם "אפקט המרפק"). כשהשונות הפנים-קבוצתית הממוצעת מתקרבת למינימום (ה"עיקול" במרפק) ,מפסיקים את התהליך( .להמחשת עניין זה ראה ,Green, Tull and Albaum :עמ' .)578 אפשר להשתמש במבחן scree testגם ברגרסיה לינארית מרובה .המשתנה Yהוא ערך SSE (סכום ריבועי הטעות) והמשתנה Xהוא מספר המשתנים ברגרסיה .אף שערך R2 נוטה לגדול ככל שמספר המשתנים הבלתי-תלויים גדל ,מבחן scree testיתמקד במספר המשתנים הגורם לירידה החדה בערך ,SSEממש ב"עיקול" במרפק ,ויעצור בנקודה זו. לכל קבוצה יש מרכז או ממוצע קבוצתי עבור כל המשתנים הנכללים בניתוח .מדד לדמיון ,המאפשר להחליט אילו פרטים לכלול בקבוצה ,הוא מרחק מינימלי בין התצפית ובין ממוצע הקבוצה (או המרכז) .אפשר לחשב את המרחק בין ממוצעי הקבוצות (או המרכזים שלהן) באמצעות המרחק משתנים ,ואנחנו מעוניינים למדוד את ,d j,kהמרחק בין הממוצע של האוקלידי .נניח שישנם i קבוצה מספר jובין הממוצע של קבוצה מספר .)k (j≠k ] dj,k = √[∑i(Xij - Xik)2 רצוי לתקנן את כל משתני ,iוָ לא ,משתנה שלו מספר גבוה יותר של יחידות יהיה בעל משקל נוסף בקביעת המרחק הכולל בין הקבוצות .מדד למרחק שבו אפשר להשתמש עבור משתנים בלתי-מתוקננים הוא המרחק המשוקלל ,המשוקלל בהתאם למספר היחידות של כל משתנה .כדי להימנע מבעיה זו רצוי לתקנן את כל המשתנים ,כלומר ,להמיר כל תצפית Xלנוסחה (X-µ)/σ עבור כל משתתף במדגם .אפשר לקבץ ציוני גורמים אם ישנו מתאם בין המשתנים. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 79 םימדקתמ םיאשונ יעיב ש קרפ נ י ת ו ח ק ב ו צ ו ת ( א ש כ ו ל ו ת) מרחק מינימלי מציון הממוצע של כל האשכול ,ומודדים אחוז מכירות של כל קבוצה ניקח לדוגמה תשע מקומות מ"ברייטן" מספרים # IDחדשים מהמחשב קבוצות 6 קבוצות 4 קבוצות 3 קבוצות 2 אחוז מכירות קבוצות 9 705 46 50.40 46 46, 50 46, 50, 51 46, 50, 51, 47, 48, 49 46, 50, 51, 47, 48, 49 603 47 48.20 47 47, 48, 49 47, 48, 49 46, 50, 51, 47, 48, 49 46, 50, 51, 47, 48, 49 701 48 45.30 48 47, 48, 49 47, 48, 49 46, 50, 51, 47, 48, 49 46, 50, 51, 47, 48, 49 704 49 46.70 49 47, 48, 49 47, 48, 49 46, 50, 51, 47, 48, 49 46, 50, 51, 47, 48, 49 702 50 51.50 50 46, 50 46, 50, 51 46, 50, 51, 47, 48, 49 46, 50, 51, 47, 48, 49 703 51 54.00 51 51 46, 50, 51 46, 50, 51, 47, 48, 49 46, 50, 51, 47, 48, 49 601 52 28.40 52 52 52 52 52, 53, 54 706 53 40.50 53 53 53, 54 53, 54 52, 53, 54 602 54 36.60 54 54 53, 54 53, 54 52, 53, 54 איור של דנדוגרם 80 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ תפ ע ו ל נ י ת ו ח א ש כ ו ל ו ת החישובים הנדרשים לעריכת ניתוח אשכולות מסורבלים מכדי שאפשר יהיה לעשותם ללא מחשב. במקום זה ,התהליך שבו המחשב מקצה תצפיות לקבוצות יוסבר להלן. בפסקה הקודמת הגדרנו את המרחק האוקלידי כמדד למרחק .בכל קבוצת נתונים אפשר למדוד ביחס לכל משתתף את המרחק בין הממוצע של אותו משתתף ובין ממוצעי כל הקבוצות (או מרכזיהן) .המשתתף משוייך לקבוצה שמרחקו ממנה הוא הקטן ביותר. הליך זה מוכר כתהליך "מקבץ" ,משום שמתחילים עם מספר קבוצות הזהה למספר המשתתפים, ובהמשך משייכים משתתפים לקבוצות השונות .הקבוצה הראשונה מורכבת משני המשתתפים שהמרחק האוקלידי מכל תצפית אחרת שאיננה שייכת לקבוצה .אם תנאי זה איננו נענה נוצרת קבוצה חדשה המורכבת מתצפית זו ומהתצפית הקרובה ביותר שאיננה חלק מקבוצה .תהליך זה יכול להמשיך עד שתהיה בידינו קבוצה אחת בלבד .תוכנת יצירת הקבוצות מבקשת מהמשתמש לקבוע את מספר הקבוצות המבוקש. "מ ָפ ֵרק" ,שבו כל המשתתפים מצורפים לקבוצה אחת ,ובהמשך גישה חלופית ידועה כתהליך ְ מחלקים את הקבוצה לקבוצות קטנות יותר ויותר .אפשר להמשיך תהליך זה עד שכל משתתף שייך לקבוצה נפרדת. לדוגמה ,נשתמש בנתונים של טבלה ,5.3ונייצר שלשה נתונים מקובצים הציון הממוצע של כל קבוצה נקרא באנגלית "סנטרויד": אחוז מכירות = Values at Group Centroids Descriptive Statistics Std. Deviation Mean Statistic Std. Error Statistic Minimum Maximum N Statistic Statistic Statistic 3.87646 1.11904 47.4833 54.00 42.20 12 4.35096 1.02553 18.4500 23.60 11.10 3.95646 .72235 34.3867 40.50 26.70 12 18 18 30 30 Cluster Number of Case penetrat 1 )Valid N (listwise penetrat 2 )Valid N (listwise penetrat 3 )Valid N (listwise ישנן שיטות חלופיות רבות לעריכת ניתוח אשכולות .לדוגמה ,מרחק אוקלידי הוא דרך אחת בלבד שבאמצעותה משייכים משתתפים לקבוצות .דרך נוספת למדוד דמיון היא באמצעות ממוצע סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 81 םימדקתמ םיאשונ יעיב ש קרפ הסטיות המוחלטות בין מרכזי הקבוצות .ישנם iמשתנים ,ואנחנו מודדים דמיון בין הקבוצות j ו .)j≠k( k-כל תצפית מצורפת לקבוצה שלה ממוצע הסטיות המוחלטות ) (MADהנמוך ביותר בין התצפית ובין ממוצע הקבוצה .ממוצע הסטיות המוחלטות מחושב כך: |MADj,k = ∑ i |Xij - Xik ש י מ ו ש בנ י ת ו ח א ש כ ו ל ו ת ניתוח אשכולות הוא כלי יעיל ביותר באסטרטגיית שיווק .באמצעות ניתוח אשכולות אפשר לזהות פלחי שוק שונים במידה כזו שהפרטים המרכיבים כל פלח שוק יהיו דומים מאוד האחד לשני, ופרטים מפלחי שוק שונים יהיו שונים מאוד האחד מהשני. חשבו על הדוגמה הזאתְ :מתאם העובד במנהלת האוניברסיטה מבקש להגביר את ההרשמה לאוניברסיטה .מספר סקרים נערכו בקרב תלמידי כיתה י"ב ,ובהם התלמידים התבקשו לזהות את המשתנים העיקריים המשפיעים על החלטתם להירשם לאוניברסיטה מסוימת .בסקרים הוזכרו המאפיינים שלהלן: .1 1איכות תכנית הלימודים .2 2המוניטין של המרצים .3 3איכות האוכל וקיום תכנית ארוחות .4 4אווירה "כפרית" בקמפוס .5 5הזדמנות לפגוש חברים לספסל הלימודים ולהכיר חברים חדשים .6 6אחוות סטודנטים .7 7קבוצות ספורט (כדורסל ,פוטבול) .8 8הסיוע הכלכלי המוצע .9 9שכר לימוד נמוך 1010קירבה לאזור עירוני גדול 1111שירותי השמה טובים 1212תכנית מוכוונת קריירה תלמידים אינם מביאים בחשבון גורם אחד בלבד בעת בחירת אוניברסיטה .עם זאת ,הם יכולים לדרג את מידת החשיבות של כל גורם עבורם באמצעות שימוש בסולם ליקרט (=10חשוב ביותר, =5חשוב במידת מה=1 ,כלל לא חשוב). ניתוח אשכולות מודד את התוצאות של כל שנים-עשר המשתנים ,ויקבץ יחד תלמידים בעלי העדפות דומות .למשל ,משתתפים שהעניקו ציון נמוך לגורם מספר 11עשויים להיות מעוניינים 82 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ בלימודים לתארים מתקדמים ,או שלמשפחתם יש עסק משפחתי שהחליטו להשתלב בו בתום הלימודים. מידע זה שימושי ביותר בעת כתיבת עלון מידע המפליג בשבחי האוניברסיטה .אין טעם לדבר על מעלותיה של מחלקת ההשמה באזני קהל יעד שאיננו מעוניין בשירות השמה .באמצעות ניתוח אשכולות ,מנהלת האוניברסיטה יכולה לזהות אילו אנשים שייכים לכל קבוצה ולהתאים את העלון לצרכיהם ,כלומר ,להדגיש בו נושאים החשובים לקבוצה זו או לפלח שוק זה. ניתוח אשכולות הוא כלי כמעט הכרחי עבור אסטרטג שיווק המעוניין ליישם את עקרון השיווק. אפשר לזהות את המאפיינים הדמוגרפיים הייחודיים של כל קבוצה באמצעות מרכז הקבוצה .זכרו שהנתונים צריכים להיות מתוקננים (ממוצע שווה לאפס ,שונות שווה לאחד) .אם כן ,ממוצעי הקבוצות או מרכזי הקבוצות הרחוקים מאפס ,בין אם הם חיוביים או שליליים ,מייצגים נטייה חזקה מהממוצע לטובת המשתנה המדובר (כאשר הממוצע חיובי) או נגדו (כאשר הממוצע שלילי). לניתוח אשכולות יש חסרון משמעותי ,והוא שקשה להרחיב את מסקנותיו מעבר למשתתפים שהשתתפו בפועל במדגם .כמובן ,ישנם מקרים שבהם האוכלוסייה כולה נכללת בניתוח האשכולות. למשל ,גרין וטול (1984, p.594 )Green and Tull ,מזכירים מחקר שבו נעשה שימוש בניתוח אשכולות ) (Green and Larsen, 1985שבו כל מדינות העולם נכללו במחקר .כדי לקבץ את המדינות לקבוצות נעשה שימוש במשתנים הללו :תוצר מקומי גולמי ,שיעור האוריינות, צריכת אנרגיה ,ייצוא נפט וחובות בין-לאומיים .במחקר זה נכללה כל אוכלוסיית העולם ,ואין צורך להכליל את תוצאות המחקר אל מעבר לטווח המחקר שנעשה בפועל. עם זאת ,במקרים רבים המדגם איננו כולל את כלל האוכלוסייה .חשבו על הדוגמה שהובאה למעלה ,שבה תלמידי תיכון קובצו לקבוצות על פי החשיבות שהם ייחסו למשתנים שונים העשויים להשפיע על בחירת אוניברסיטה .ברור למדי שהתלמידים שנכללו במדגם אינם מייצגים את כל תלמידי כיתות י"ב .עולה אפוא השאלה כיצד אפשר לזהות בכלל האוכלוסייה איזה תלמיד שייך לאיזו קבוצה או לאיזה פלח? איך אפשר לזהות שייכות לקבוצה בקרב אנשים שלא השתתפו במדגם? חסרון נוסף של ניתוח אשכולות הוא שאין כל ערך p-או אומדן טעות .הקבוצות הן מונְ חות-נתונים ,ואין מדד שאפשר לדחות לפיו את השערת האפס שמשתתף מסוים איננו שייך לקבוצה מסוימת .עניין נוסף הוא שניתוח אשכולות רגיש מאוד לשיטת המדידה שבה משתמשים כדי לייצר את הקבוצות .מדידה על פי המרחק האוקלידי יוצרת קבוצות שונות מאוד מאלו הנוצרות באמצעות שיטת ממוצע הסטיות המוחלטות .תת-היחידה הבאה תספק פתרונות לבעיות אלה. ניתוח מבחין בפרק שעסק ברגרסיה לינארית הודגשה העובדה שהן המשתנה הבלתי-תלוי והן המשתנה התלוי צריכים להיות נתונים רציפים .ניתוח מבחין מיועד לקבוצות נתונים שבהן המשתנה התלוי הוא סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 83 םימדקתמ םיאשונ יעיב ש קרפ קטגוריאלי והמשתנים הבלתי-תלויים מסודרים על פי סולם רווח ומעלה (רציפים) .המשוואה הבסיסית נשארת כפי שהיא ברגרסיה לינארית: Y = a + B 1X1 + B2X2 + … +BnXn כמו ברגרסיה לינארית ,ישנן שתי השערות: השערת אפסB1 = B 2 … = Bn = 0 : השערה אלטרנטיבית ) : H(1קיים לפחות Biאחד השונה מאפס )(Bi≠0 אפשר לחשב באמצעות הסטטיסטי Fאת ההסתברות לשגיאה מסוג ,Iכלומר את ההסתברות לדחיית השערת האפס כאשר לאמיתו של דבר היא נכונה .אם הסטטיסטי Fשחּושב גדול מהערך הקריטי שקבע החוקר ,כלומר ,הערך בטבלת Fנמצא ברמה המותרת לשגיאות מסוג ,0.05 ,0.1( I ,)0.01הרי שדוחים את השערת האפס .אם המצב איננו כזה מקבלים את השערת האפס .נוסף על כך ,אפשר להכניס את משתני Xi למשוואה באמצעות שיטת רגרסיה בצעדים ( ,)Stepwise כפי שהיא הוסברה למעלה בפרק הדן ברגרסיה לינארית .הפונקציה המבחינה מייצרת ציון מבחין לכל משתתף במדגם .נניח שהמשתנה התלוי הוא הכנסה ,וישנן שתי קטגוריות" :מתחת להכנסה החציונית" (קבוצה )1ו"מעל להכנסה החציונית" (קבוצה .)2הפונקציה המבחינה תיתן ציון מבחין לכל אחד מהמשתתפים .כל המשתתפים שציוניהם נמוכים מהפונקציה המבחינה שייכים לקבוצה ,1וכל המשתתפים שציוניהם מעל לפונקציה המבחינה שייכים לקבוצה .2מרכז הקבוצה של קבוצה 1הוא פשוט הציון המבחין הממוצע של כל החברים בקבוצה זו ,וכך גם בקבוצה .2 נניח של ,Y-המשתנה התלוי ,יש שלוש רמות :הכנסה נמוכה ,הכנסה בינונית והכנסה גבוהה. כעת יש צורך בשתי פונקציות מבחינות שייצרו שני ציונים מבחינים עבור כל משתתף במדגם. מאחר שיש שלוש קבוצות ,יהיו כעת גם שלושה מרכזי קבוצות ,שכל אחד מהם מתבסס על הציון המבחין הממוצע בקבוצה .ייתכן שלקבוצה 1יהיה מרכז חיובי גבוה על פי הפונקציה המבחינה הראשונה ,ומרכז שלילי גבוה בפונקציה השנייה .לקבוצה השנייה עשויים להיות מרכזים הקרובים שניהם לאפס ,ולקבוצה השלישית עשוי להיות מרכז שלילי גבוה בפונקציה המבחינה הראשונה ומרכז חיובי גבוה בפונקציה המבחינה השנייה. הפונקציה המבחינה מאפשרת לנו לנבא השתייכות לקבוצות .אם מוצאים פרט שלא השתתף במדגם המקורי ,אפשר לנבא את השתייכותו לקבוצה זו או אחרת באמצעות הכנסת ערכי הX - שלו לפונקציה המבחינה (או הפונקציות המבחינות) וניתוח הציונים שמתקבלים .אם הם קרובים למרכזים של קבוצה ,1הרי שפרט זה שייך לקבוצה ,1וכן לגבי קבוצה 2וקבוצה .3 בהנחה שהנתונים שבהם אנחנו משתמשים הם נתונים מתוקננים ,המקדם B i עוצמת החשיבות -איזה משתנה תורם יותר להבחנה בין קבוצות. 84 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן מספק מידע על יעיב ש קרפ םימדקתמ םיאשונ מדד נוסף המורה אילו משתנים חיוניים להבחנה בין קבוצות הוא ,Rשהוא המתאם בין הציונים המבחינים ובין המשתנים .אם ערך Rגדול מחמש או שווה לו ,ברור למדי שישנה מידה משמעותית של מתאם בין המשתנה ובין הפונקציה המבחינה .זכרו שהשתמשנו ברגרסיה בצעדים כדי לבחון אם ראוי לכלול את המשתנה בפונקציה המבחינה. האם הניתוח המבחין שלכם יעיל? בניתוח רגרסיה השתמשנו ב R2-כמדד לטיב ההתאמה .חישבנו את השונות של Y בידי משוואת הרגרסיה ,וחילקנו אותה בשונות הכוללת של .Yחישבנו גם את שיעור השונות המוסברת הנובעת ממשוואת הרגרסיה .אם R 2הוא מספר גבוה (קרוב ל ,)1.00-הרי שרובה של השונות של Yמוסברת באמצעות משוואת הרגרסיה ,ואם המצב איננו כזה יש צורך להוסיף המוסברת משתנים. לרוע המזל ,מתודולוגיה זו איננה ישימה בניתוח מבחין .המשתנה Y "השונות של " Yהוא חסר משמעות ביחס לנתונים קטגוריאליים. הוא קטגוריאלי ,והמונח במקום זאת משתמשים במדד חלופי כדי להעריך את יעילותה של הפונקציה המבחינה .ברוב המקרים שבהם מריצים פונקציה מבחינה במחשב ,המחשב מספק את מקדמי Bשל הפונקציה המבחינה ,את המתאם בין המשתנים ובין הפונקציה המבחינה ומדד של שיעור המקרים שסווגו נכון .אם בכל קטגוריה יש מספר זהה של משתתפים ,שיעור המקרים שסווגו נכון הוא מדד חשוב ,בתנאי שהוא עולה על = G( G/1מספר הקבוצות) .עם זאת ,אם מספר המשתתפים איננו זהה בכל הקבוצות" ,המודל הנאיבי" משייך את כל המשתתפים לקבוצה הגדולה ביותר (דבר זה שווה ערך להשערת האפס). למשל ,בהנחה שישנן שתי קבוצות ומספר החברים בכל קבוצה זהה ,המודל הנאיבי מדייק בחמישים אחוזים מהמקרים" .שיעור מקרים שסווגו נכון" השווה ל 0.55-איננו מרשים .בדומה לכך ,אם ישנן שלוש קבוצות ,המודל הנאיבי יסווג נכון שלושים ושלושה אחוזים מהמקרים, וכשיש ארבע קבוצות – עשרים וחמישה אחוזים" .שיעור המקרים שסווגו נכון" חייב להיות גבוה מהציון המינימלי ,המתקבל מהמודל הנאיבי. אם גודלי הקבוצות אינם זהים המודל הנאיבי משייך את כולם לקבוצה הגדולה ביותר .למשל, אם התקבל "שיעור מקרים שסווגו נכון" השווה ל ,0.7-ושבעים אחוזים מהמדגם שייכים לקבוצה הגדולה ,הרי שמידת ההצלחה של הפונקציה המבחינה זהה לזו של המודל הנאיבי .ברור למדי שדבר זה איננו טוב מבחינת הניתוח המבחין. לדוגמה ,נשתמש בנתונים של טבלה ,5.3ונייצר שלשה נתונים מקובצים נתקנן את אחוז המכירות שציון הממוצע הוא ,0פחות מהממוצע הוא שלילי ,וגבוה מהממוצע, הוא חיובי. הציון הממוצע של כל קבוצה נקרא באנגגלית סנטרויד אנחנו רוצים להשתמש בנתונים אלו לתת תחזית לאיזה קבוצה שייך כל ID כמובן ,לכל קבוצה יש הסתברות שווה לכל קבוצה. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 85 םימדקתמ םיאשונ יעיב ש קרפ Prior Probabilities for Groups Cluster Number of Case Prior 1 Cases Used in Analysis Unweighted Weighted .333 12 12.000 2 .333 18 18.000 3 .333 30 30.000 Total 1.000 60 60.000 ; 33% הוא אחוז טוב יותר מ47% מכיוון ש, הניתוח המבחין שלנו הוא נכון,התוצאה היא Classification Results a Cluster Number of Case Total Original % Predicted Group Membership 1 2 3 Count 1 9 2 1 2 4 11 3 18 3 13 9 8 30 1 75.0 16.7 8.3 100.0 2 22.2 61.1 16.7 100.0 3 43.3 30.0 26.7 100.0 12 a 46.7% of original grouped cases correctly classified : המשוואה היא, חוץ מדירות5% הסתברות של טעות גבוהה מ , וגבוה מהממוצע, פחות מהממוצע הוא שלילי,0 נתקנן את אחוז המכירות שציון הממוצע הוא .הוא חיובי Canonical Discriminant Function Coefficients Function 1 apt .059 (Constant) -1.178 Unstandardized coefficients אהרמן.סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ 86 יעיב ש קרפ םימדקתמ םיאשונ Functions at Group Centroids Function Cluster Number of Case -.693 1 .784 2 -.193 3 1 Unstandardized canonical discriminant functions evaluated at group means לסיכום ,המונח "שיעור המקרים שסווגו נכון" הוא כלי דיאגנוסטי נוסף המשמש לבדיקת הפונקציה המבחינה .הוא מורה לנו באיזו מידת הצלחה הפונקציה מסוגלת להבחין בין פרטים ולסווג אותם על סמך הציון המבחין שלהם .יש להשוות מספר זה ל"מודל הנאיבי" המשייך את כולם לקבוצה הגדולה ביותר .אם שיעור המקרים שסווגו נכון קרוב מאוד לתוצאת המודל הנאיבי ,הרי שהפונקציה המבחינה איננה עדיפה על מודל זה ויש לשקול הוספת משתנים חדשים ולערוך ניתוח מבחין נוסף. בנתונים שלנו אחוז הגבוה ביותר היא קבוצה #1והוא ,75%אם הסתברות של כל הקבוצות שווה ל ,33%תחזית של ,47%היא חיובית .אבל מכיוון שהנתונים שלנו הם :קבוצה ,75% - #1 היה יותר טוב לנו לשכוח מניתוח מפלה לגמרי ,ולהחליט שכולם שייכים לקבוצה ,#1שב75% - אנחנו צודקים ,מה שיותר טוב מ .47% ניתוח מבחין הוא כלי עבודה שימושי ביותר לפילוח השוק .למעשה ,זיהוי חברי שוק היעד נעשה באמצעות שילוב של ניתוח גורמים ,ניתוח אשכולות וניתוח מבחין. גישה זו היא בת שלושה שלבים: .1 1עריכת ניתוח גורמים למשתנים המסבירים הבלתי-תלויים ,כלומר ,המשתנים הקשורים לצריכת המוצר. .2 2קיבוץ המשתתפים לקבוצות על סמך ציוני הגורמים. .3 3עריכת ניתוח מבחין לקבוצות .שייכות לקבוצות היא המשתנה התלוי ()n....,1,2 ומשתנים דמוגרפיים הם המשתנים הבלתי-תלויים בניתוח המבחין. ניתוח מבחין מאפשר לנבא השתייכות לקבוצה על סמך המשתנים הבלתי-תלויים המובהקים (כלומר ,שערך p-שלהם מקובל) .המשווק יכול לזהות חברים בשוק היעד שלו באמצעות הפונקציה המבחינה ,המנבאת השתייכות לקבוצה( .להמחשת עניין זה ראה Ocean Spray CaseוGreg- Advertising Caseבתוך .)1982 ,Cases in Consumer Behavior, DeBruicker and Ward סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 87 םימדקתמ םיאשונ יעיב ש קרפ נ י ת ו ח ה עד פ ו ת )(Conjoint Analysis בספרות המקצועית של תחום השיווק ניתנת תשומת לב מיוחדת למודלים של בחירת מותגים. משווקים המוציאים לשוק מוצרים חדשים מעוניינים בתחזית אמינה לנתח השוק הצפוי של המוצר החדש .מידע זה הכרחי לקבלת ההחלטה אם לשווק את המוצר או לא .אם נתח השוק הצפוי קטן מהמינימום שדורשים הקריטריונים של תשואה להשקעה של החברה ,מחליטים שלא להוציא את המוצר לשוק .ולהפך ,אם נתח השוק הצפוי גדול מהמינימום הנדרש ,מחליטים להוציא את המוצר לשוק. לרוע המזל ,משווקים רבים מגלים שהמוצר החדש שלהם נכשל ,כלומר ,שנתח השוק שלו קטן בהרבה מהמינימום שדורשת החברה ,רק אחרי שהשקיעו מאות אלפי דולרים בפרסום המוצר ובקידומו .ידע זה הוא תוצאה של ניתוח שלאחר מעשה. מודלים רבים של בחירת מותגים מיועדים לנבא את המכירות ואת נתח השוק הפוטנציאליים בשלב מוקדם של הוצאת המוצר לשוק .כדי להעריך נכון את תרומתו של ניתוח ההעדפות לעולם המודלים של בחירת מותגים יש לתאר בקצרה כמה מודלים כאלה. על פי ספרות השיווק (ראה למשל ,).Robertson et alנראה שאפשר להגדיר את חקר העמדות כתהליך היררכי בן שלושה שלבים: תרשים :7.1גישה ִמבנית כלפי עמדות .1 1השלב ההכרתי (קוגניטיבי) זהו השלב שבו נוצרות אמונות בנוגע למוצר או לשירות .מידע אודות תפקוד המוצר, איכותו ,מחירים ,אחריות וכן הלאה נאסף בשלב זה. .2 2השלב הרגשי בשלב זה נוצרים דעות ,רגש חיובי או רגש שלילי כלפי המוצר או השירות .עמדה היא מדד של רגש חיובי או שלילי. .3 3השלב ההתנהגותי זהו שלב הפעולה .אם מתבצעת רכישה ,היא מתבצעת כעת ,בשלב השלישי. "אימוץ" מוצר חדש הוא תהליך היררכי (כלומר ,אי אפשר להגיע לשלב השלישי בלי לעבור את השלב הראשון והשלב שני לפני כן) ,ומשום כך אנשים העוסקים בתחזיות מודדים את עמדת הצרכנים בשלב השני ,השלב הרגשי .אחת הגישות הידועות לכך היא המודל הליניארי המפצה ( )LCMהמוכר גם בשם מודל פישביין. עמדות נמדדות באמצעות איסוף דירוג הצרכנים לאיכותה המצופה של פעילות המוצר ,על פי מספר מאפיינים מרכזיים ,ודירוג של רמת החשיבות שמייחסים למאפיינים אלה (למשל ,באיזו מידה משפיע המאפיין "יכולת תמרון" בעת רכישת מכונית חדשה?) .הציון הכולל של העמדות 88 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ מחושב באמצעות הכפלת ציוני דירוג ה"אמונות" בציוני החשיבות של כל המאפיינים המרכזיים, וחיבור המכפלות יוצר את הציון הכולל .המותג בעל העמדה שזכתה לציון הגבוה ביותר הוא המועדף ביותר .אפשר להציג זאת כך באופן מתמטי :נניח שBij- מותג מספר iבמאפיין מספר Ij ;jהוא מידת החשיבות של jבבחירת המותג. הוא ציון ה"אמונה" של תפקוד )i = ∑j (Bij x Iiעמדה מחקרים הראו שמודל זה מנבא בחירת מותגים במידה רבה של הצלחה .עם זאת ,תקפות המודל יוצרת בעיה .ההחלטות שמקבלים הצרכנים מתבססות על המוצרים המוצעים למכירה .דבר זה ידוע כבחירה מאולצת -אי אפשר לקנות את המוצר שמעוניינים לקנות אם הוא איננו נמכר בחנות שבה עורכים קניות .עם זאת ,המודל הליניארי המפצה מודד את דירוג ההעדפה והחשיבות של כל המאפיינים של המוצר .אין כל אילוץ במודל המגביל את הבחירה לפריטים המוצעים למכירה. יתר על כן ,המודל הליניארי המפצה מתייחס לכל מאפיין בנפרד כשהוא מודד את נתוני העדפות הצרכנים ,אף שישנם מאפיינים רבים שאי אפשר להפריד ביניהם .למשל ,שני מאפיינים של חברת תעופה -טיסות תכופות ומחירי כרטיסים גבוהים -קשורים זה לזה .למרות זאת ,המודל הלינארי המפצה אוסף נתונים לגבי כל מאפיין בנפרד ,בלי להתייחס לקשרים שייתכן שיש לו למאפיינים אחרים .נוסף על כך ,המודל הלינארי המפצה איננו מביא בחשבון שקלול תמורות ( )tradeoffבין אפשרויות הבחירה השונות .לסיכום ,ההפרדה בין המאפיינים ובעיית הבחירה המאולצת מעודדים לחפש מודל חלופי. ניתוח העדפות יכול להתגבר על החסרונות האלה .משתתפים נשאלים על שקלול התמורות בין אפשרויות הבחירה ,ואינם מתבקשים לדרג העדפת מאפיינים .תהליך איסוף נתונים זה מגדיל את התקפות של דפוסי ההתנהגות בעת קבלת החלטות .גישה זו משחזרת את תהליך קבלת ההחלטות שהצרכנים מבצעים בפועל :בחירה הכוללת שקלול תמורות בין המותגים המתחרים. מבין היתרונות הרבים שיש לניתוח ההעדפות ,הן במישור המחקרי והן בפועל ,ברצוני להתמקד בשלושה תחומים חשובים שבהם יש לשיטה זו תרומה חשובה: 1 .1דירוג ההעדפה של האפשרויות השונות נשמר באמצעות ערכי התועלת (Utility .)Valuesערך תועלת הוא מספר בין 0.0ל "1" ;1.0-מייצג רמה גבוהה של תועלת או של שביעות רצון כשהמאפיין מוגדר ברמה זו ,ו "0"-מייצג חוסר תועלת או חוסר שביעות רצון. 2 .2סימולטור יכול לנבא העדפת מותגים בקרב מוצרים בעלי צירופי מאפיינים שאינם קיימים במוצרים הקיימים בשוק .הסימולטור יכול לנבא גם את פלח השוק הצפוי של מוצר ישנּו את מאפייניו ,וכן לגבי מוצרים חדשים. מסוים אם ַ סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 89 םימדקתמ םיאשונ יעיב ש קרפ 3 .3מערכי ניסוי פקטוריאליים חלקיים ) .(fractional factorial designעשויים להיות שילובים אפשריים רבים בין רמות שונות של מאפיין מסוים .למשל ,חמישה מאפיינים שכל אחד מהם בעל שלוש רמות (גבוהה ,בינונית ונמוכה) עשוי לייצר סך כולל של מאתיים ארבעים ושלושה צירופים ) .(3x3x3x3x3=243אין זה סביר שהצרכן ימלא סקר המתייחס למאתיים ארבעים ושלושה צירופי מאפיינים שונים של מוצר או של שירות .ניתוח העדפות מצמצם את מספר צירופי התכונות למספר נוח יותר .הדוגמה שלהלן מדגימה שימוש אפשרי בניתוח העדפות. דוגמה: דוד עשיר החליט לתגמל את אחיינו ,הסטודנט החרוץ .הוא החליט להציע לו מכונית חדשה במתנה. אחד ממכריו היה סוכן מכוניות ,והוא ביקש ממנו להמליץ על מכונית טובה .הסוכן אמר לו שעליו לבחור בין מכונית אמריקאית ובין מכונית יפנית .לכל אחת מאלה יש שלושה גדלים אפשריים: מכונית מסחרית ,מכונית משפחתית או מכונית מנהלים .נוסף על כך ,ישנן שתי קטגוריות שיש לבחור ביניהן בנוגע לצריכת הדלק :קילומטראז' גבוה לליטר או קילומטראז' נמוך לליטר .כרגע אין ברשות סוכן המכונית את כל הצירופים האפשריים .יש ברשותו רק מכונית מנהלים יפנית בעלת קילומטראז' גבוה לליטר ומכונית מסחרית אמריקאית בעלת קילומטראז' נמוך לליטר. הדוד החליט שבמקום לבקש מאחיינו לבחור בין שתי האפשרויות העומדות בפניו כרגע הוא יבקש ממנו לדרג את כל שתים-עשרה האפשרויות הקיימות ) .(2x3x2באופן כזה הוא ידע מיד את דירוג ההעדפות של האחיין אם תגיע לידי סוכן המכוניות מכונית חדשה .טבלה 7.6מתארת את העדפותיו של האחיין .ניתוח העדפות מעניק משקל לתועלת של כל צירוף אפשרי (utility )weightתוך שמירה על דירוג ההעדפות .טבלה 7.7מציגה דוגמה היפותטית לחלוקת משקל תועלת שבה נשמר דירוג ההעדפות .כשיודעים את משקל התועלת אפשר לדעת מהן העדפות הצרכנים גם ביחס למוצרים שאינם מוצעים למכירה בעת עריכת הסקר. ט ב לה :7.6סדר ה עדי פויו ת ש ל סטוד נ ט קילומטראז’ גבוה לליטר 90 קילומטראז’ נמוך לליטר סוג המכונית מכונית יפנית מכונית אמריקאית מכונית יפנית מכונית אמריקאית מסחרית 1 3 2 5 משפחתית 4 8 6 10 מנהלים 7 11 9 12 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן יעיב ש קרפ םימדקתמ םיאשונ נניח תועלת של מסחרית = 1.0 תועלת של משפחתית = 0.5 תועלת של מנהלים = 0.2 תועלת של קילומטראז’ גבוה לליטר = 0.4 תועלת של קילומטראז’ נמוך לליטר = 0.2 תועלת של מכונית יפנית = 0.6 תועלת של מכונית אמריקאית = 0.2 אם נסכם את ערכי התועלת של כל שנים-עשר הצירופים האפשריים תתקבל התוצאה שלהלן: ט ב לה :7 .7ערכי ה תו ע ל ת ש ל הה עד פו ת של ס ט ו ד נ ט מ סו ים קילומטראז’ גבוה לליטר קילומטראז’ נמוך לליטר סוג המכונית מכונית יפנית מכונית אמריקאית מכונית יפנית מכונית אמריקאית מסחרית 2.0 1.6 1.8 1.4 משפחתית 1.5 1.1 1.3 0.9 מנהלים 1.2 0.8 1.0 0.6 שימו לב :סיכום ערכי התועלת משמר את סדר ההעדפות של הצרכן .דבר זה מאפשר לסימולטור לאמוד העדפה בבחירות אחרות. ישנם מודלים רבים המבוססים על מחשבים המסוגלים לאמוד את ערך התועלת מניסוי שאיננו מתייחס ל"פרופיל שלם" (כלומר ,כל הצירופים האפשריים נבדקים כדי לברר העדפת חלופות). ניתוח העדפות מתואר כמודל "מפרק" משום שמסיקים בו ערכי תועלת מתוך ההעדפות בין אפשרויות הבחירה השונות .כלומר ,בניתוח העדפות מפרקים את שקלול התמורות בין האפשרויות השונות להעדפות של רמות הביצוע של המאפיינים שלהן .לעומת זאת ,המודל הליניארי המפצה שהוזכר למעלה הוא מודל "מחבר" .הצרכן נשאל אודות העדפת מאפיינים מסוימים ,ועורך המחקר מרכיב או מחבר את התוצאות של העדפות המאפיינים לעמדה ,שהיא מדד ליחס חיובי או שלילי. ישנן מספר תוכנות המיועדות לשימוש במחשב ביתי העורכות ניתוח העדפות ,וביניהן SYSTAT (גרסת SPSS ,)PCשל חברת ברטון קלארק (ניו יורק) ו( Sawtooth Software -אוונסטון, אילינוי) .חברות תוכנה רבות מציעות בחינם דיסקט הדגמה כדי להדגים שימוש בניתוח העדפות. (מומלץ לקוראים המתעניינים בכך לבקש מהחברות גרסת הדגמה) .הפרק הבא עוסק באומדן. סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 91 פרק שמיני ה ע רכ ה בפרק זה נעסוק בהערכת פרמטרים .נזכור שהערך האמיתי של סטטיסטי נתון הוא קבוע המכונה פרמטר .לדוגמה ,אם ההכנסה השנתית הממוצעת למשק בית במדינת אילינוי, ארה"ב ,בשנת 1993הייתה ,$35,000אז .µ = $35,000הפרמטרים מזוהים באותיות יווניות. נניח שאנו רוצים לאמוד את ההכנסה הממוצעת למשק בית באמצעות איסוף דגימות של הכנסה למשק בית במחוזות המרכזיים באילינוי .הביטוי ̅X שלנו הוא ,$34,000הרי ש = .X̅ $34,000אנו משתמשים באותיות רומיות לסמן משתנים מבטא את ממוצע המדגם .אם ממוצע המדגם אקראיים ,היות שהערך שלהם משתנה בהתאם למשתתפים במדגם. אמידה נקודתית היא שיטת אמידה שבה ערך מדגמי משמש כהערכה לפרמטר .בדוגמה שהובאה קודם ,האמידה הנקודתית לµ - תהיה .$34,000זה אינו הערך המדויק אך הוא אינו רחוק מהערך האמיתי של הפרמטר. אמידה מרווחית (רציפה) משמשת גם היא משום שאמידה נקודתית המבוססת על מדגם קטן כמעט אף פעם אינה מדויקת .אמידה נקודתית משתמשת ב ,X̅ -משתנה אקראי עם טווח ערכים, כדי לאמוד את הפרמטר µ המדגמי X̅ , ,פלוס ומינוס ) (±רווח ,כך שב 95%-מן הזמן אנו כוללים את כל הערכים האפשריים שהוא ערך בודד מסוים .אמידה מרווחית עושה שימוש בטווח :הערך לפרמטרים שלנו .הטווח הזה מכונה רווח בר סמך .בכתיבה מתמטית: Pr(lower limit< µ<upper limit) = 0.95 - Prסבירות - Lower limitגבול תחתון - Upper limitגבול עליון אומדנים שמרניים משתמשים ברווח בר סמך של ,99%שלהם טווח ערכים גדול יותר בהשוואה לרווח בר סמך של 95%או .90% שימוש ברווח בר סמך גדול עשוי להקשות :אם אנו רוצים לאמוד הכנסה ממוצעת ,טווח של $20,000עד $80,000אינו שימושי במיוחד .טווח קטן יותר יהיה נוח ושימושי הרבה יותר. 92 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ינימ ש קרפ הכרעה טע ו ת ת ק ן בפרקים הקודמים השתמשנו בסטיית תקן כדי למדוד את הפיזור של התצפיות .בהערכת פרמטרים נשתמש בממוצע המדגם ̅ .Xטעות התקן מודדת את הפיזור של ̅ .Xבמדגמים אקראיים טעות התקן שווה לסטיית התקן חלקי השורש הריבועי של - nגודל המדגם .בכתיבה מתמטית: σX̅ = σ/√n דוגמה: בחרנו באקראי תשעה משקי בית בישוב קטן במדינת אילינוי כדי להעריך את ההכנסה השנתית הממוצעת למשק בית במחוז. ט ב לה 8.1 הכנסה ממוצעת למשק בית (באלפים) (2נתונים -ממוצע) X̅ 1 = 32 X̅ 2 = 36 X̅ 3 = 34 X̅ 4 = 34 X̅ 5 = 30 X̅ 6 = 28 4 4 0 0 16 36 X̅ 7 = 40 X̅ = 348 0 X̅ 9 = 38 16 סך הכל = 306 112 ממוצע = 34 112/(n - 1) = 14 36 סטיית תקן = √14 = 3.74 טעות תקן = 1.25 = 1.247 = 3.74/3 הפיזור של ̅X מתאים לעקומת הפעמון הרגילה .נניח שאנו רוצים רווח בר סמך של 95%התחום שמתחת לעקומה מהגבול העליון של הרווח ומטה מוכרח להיות ,0.975והתחום שמתחת לעקומה מן הגבול התחתון של הרווח ומטה מוכרח להיות ,0.025כך ,התחום שמתחת לעקומה הנכלל ברווח בר הסמך הוא .)0.95 = 0.025 - 0.975( 95% סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 93 הכרעה ינימ ש קרפ נחפש בטבלה א' את הערך ,0.975ונמצא את נקודת הציון Z של .1.96רווח בר הסמך מוגדר כך: - ±(Z coordinate)(standard error). Z coordinateנקודת הציון standard . Z - errorטעות תקן. רווח ַ ּבר סמך לµ- = )Z value. X̅ ± (Z value)(standard error -ערך .Z בדוגמה שלנו ,הרווח בר סמך של 95%להכנסה שנתית ממוצעת למשק בית הוא: 31,560$ = )1.25()1.96(± 34עד 36,440$ כך הרווח ַ ּבר סמך צר יותר ובעל ערך רב יותר עבור התחזית. באמצעות אמידה רווחית (רציפה) ,מי שמבקש לחזות דבר מה בכלים סטטיסטיים משתמש בערך המבוסס על המדגם עבור פרמטרים אלו ומוסיף רווח נתון (פלוס ומינוס) סביב לאומד .בהמשך מובא סיכום של המרווחים עבור הערכת פרמטרים .הוכחות וגזירות אפשר למצוא בספרם של וולפול ומאיירס ,1989 ,מכיוון שספר זה מיועד לשמש כמדריך חזרה לסטודנטים שלמדו לפחות קורס סטטיסטיקה אחד .מבחינת הכתיבה המתמטית n ,הוא גודל המדגם או מספר הפריטים הכלולים במדגם .d.f .הן דרגות החופש ,שהן n - 1עבור התפלגות ( tטבלה ב') וχ2- (טבלה ג') µ ,הוא ממוצע האוכלוסיה σ ,הוא סטית התקן ו σ2-הוא השונות α ,היא הסבירות לשגיאה מסוג Iאו ערך pשהוזכר קודם (המכונה גם 1מינוס רמת מובהקות); α/2משמש כאשר בידינו מבחן דו-זנבי. המבחנים להערכת פרמטרים של ממוצע מסוכמים כדלהלן (תרשים ,)8.1בהנחה של טווח טעות מקסימלי של ( 5%לשגיאה מסוג .)Iבתרשים 8.2מובאים גם רווחים בני סמך של 95%לפרמטרים של רגרסיה. 94 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ינימ ש קרפ הכרעה תרשים :8.1רווחים בני סמ ך ש ל 9 5%ל ה ע ר כ ת מ מ וצ ע .1 1הערכת ממוצע אם nפחות מ ,30-שונות ידועה; ממוצע מדגם }X̅ ± {1.96 σ/√n .2 2הערכת ממוצע אם nפחות מ ,30-שונות בלתי ידועה; ממוצע מדגם }X̅ ± {td.f.s/√n דרגות חופש )n - 1 = (d.f. .3 3הערכת הפרש ממוצעים אם ( )n2 + n1יותר מ ,30-ושונות ידועות אינן שוות בין הממוצעים; הפרש בין ממוצעי המדגמים }])X̅1 -X̅2 ± {1.96√ [{σ12/n1) + (σ 22/n2 .4 4הערכת הפרש ממוצעים אם ( )n2 + n1פחות מ ,30-ושונות לא ידועות אם שוות או שאינן שוות בין הממוצעים; משתמשים ב- pooled 2 s הפרש בין ממוצעי המדגמים, })]X̅1 -X̅2 ± {td.f. (√s2pooled /[1/n1 + 1/n 2 ;)+ n2 - 2 (S2pooled = {(n1 - 1)s²¹ + (n 2 - 1)s²}/(n 1 ² דרגות חופש ))n1 + n2 - 2( = (d.f. S 2הוא הערכת עבור ;σ 2הוא מחושב עבור כל קבוצה בנפרד. . 5הערכת הפרש ממוצעים אם ( )n2 + n1פחות מ ,30-ושונות בלתי ידועות אבל ידוע שאינן שוות בין הממוצעים; הפרש בין ממוצעי המדגמיםX̅1-X̅2±{td.f.(√ [(s 1/n1)+(s 2 /n2)])} - , S 2הוא הערכה עבור ;σ 2הוא מחושב עבור כל קבוצה בנפרד. דרגות חופש )= (d.f. 2 2 2 2 2 })[s 1/(n1) + s 2 /(n2)] / {[(s 1/n1) ]/(n1 - 1)+[(s 22/n2)2]/(n2 - 1 2 2 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 95 הכרעה ינימ ש קרפ תרשים 8.2 הערכים למשוואת הרגרסיה Y = a + bX 1 .1הערכה של Y | X0 כאשר מציבים ערך במקומו של ה X-במשוואת הרגרסיה ,ערך המכונה ,X0מקבלים ,Ŷ ערך מנובא ל .Y-הרווח ַ ּבר הסמך ל Y-הוא: )}Ŷ ± tα/2 d.f. (S √ {1 + 1/n+(x0 -X̅)2/SSX דרגות חופש ( S ;n - 2 = ).d.fהוא הערכה עבור SSX ; σהוא סכום הריבועים עבור המשתנה ( Xעיינו בפרק העוסק ברגרסיה)S2 = SSE/n-2 , 2 .2הערכה של µˠ | X0 כעת נאמוד ערך ממוצע עבור ,µˠ | X0כלומר הממוצע עבור Yבהינתן ערך Xמסוים.X0 , )}Ŷ ± tα/2 d.f. (S√{1/n+(x0 - X̅)2/SSX דרגות חופש ) S ;n -2 = (d.f.הוא הערכה עבור SSX ;σהוא סכום הריבועים עבור המשתנה ( Xעיינו בפרק העוסק ברגרסיה).S 2 = SSE/n - 2 , .3 3הערכה של הפרמטר ,βהמקדם של ,Xמבוסס על ערך bהמנובא. )}b ± tα/2 d.f. (S/√{SSX דרגות חופש ) S ;n - 2 = (d.f.הוא הערכה עבור SSX ;σהוא סכום הריבועים עבור המשתנה ( Xעיינו בפרק העוסק ברגרסיה).S 2 = SSE/n - 2 , .4 4הערכת הפרמטר ,αנקודת החיתוך עם ציר ה ,y-המבוסס על הערך המנובא .a })a ± tα/2 d.f. S√{(ΣiX )/(√n⋅SSX )S2 = SSE/ (n-2 דרגות חופש ) S ;n - 2 = (d.f.הוא הערכה עבור SSX ;σהוא סכום הריבועים עבור המשתנה ( Xעיינו בפרק העוסק ברגרסיה). 2 i שימו לב :כאשר אומדים (או מנבאים) פרמטרים לבעיית רגרסיה מרובה ,תוכנת המחשב תספק מעצמה רווחים בני סמך לפרמטרים הנתונים. תרגיל :חשבו רווחים בני סמך של 95%לβ ,µˠ | X0 ,Y | X0 - ו ,α -בעזרת הנתונים שהובאו בתרגיל חישוב תכולת הזפת במים לפי טמפרטורת המים (היעזרו בטבלה בתחילת הפרק העוסק בניתוח רגרסיה). 96 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן ינימ ש קרפ הכרעה ג ו ד ל ה מ ד ג ם הנ דר ש לנ י ב ו י מ מ ו צע כאשר עוסקים באמידת רווח בר סמך ,אם גודל הרווח ידוע (± רווח נתון מהערך המנובא) ורמת המובהקות ידועה ,אפשר לאמוד את גודל המדגם הנדרש תוך שימוש בשיטת הציון הבאה: = ϵהסכום הנדרש להוספה לערך ̅ Xולחיסור ממנו ,כך שישנה סבירות של 1 - α/2 זה )95%שהפרמטר נמצא בתוך הרווח n .הוא גודל המדגם הנדרש. (במקרה אם ,α = 0.05הנוסחה שלהלן תקפה. n = {1.96 σ/ ϵ}2 אם α הוא מספר אחר ,היעזרו בטבלה א' כדי למצוא את ערך ה Z-המתאים .לדוגמה, אם ,α = 0.01אז = 2.575 ,α/2 = 0.005 α/2 . Z כדי לסכם נושא זה ,נציג את נושא המודלים של מרקוב לתלמידים השולטים בכפל מטריצות. מ ו ד ל י ם ש ל מר ק ו ב נניח שיש בידינו נתוני נתח שוק לזמן ,tואנו רוצים לנבא נתוני נתח שוק לזמן t+1 בעזרת התנהגויות רכישה משתי הזדמנויות קודמות כאינדיקטור להתנהגות רכישה עתידית .מודל זה מתאים למוצרים בעלי מעורבות נמוכה ,כלומר ,מוצרים זולים הנקנים בתדירות גבוהה ,והצרכן כמעט אינו משקיע מאמץ בחיפוש אחר קניה משתלמת (לדוגמה ,חלב ,גומי לעיסה וכדומה). ישנם ארבעה תאים בטבלה: •נ"מ -נאמנות למותג ,הצרכן קנה את המותג שאתם משווקים פעמיים רצופות. •מ -משנה ,הצרכן קנה את המותג שלכם אך בקניה הבאה החליט לשנות ולרכוש מותג אחר. •ח -מתנסה בחידושים ,הצרכן קנה מותג אחר בקניה הראשונה ובקניה הבאה החליט לרכוש את המותג שלכם. •א -אינו משתמש ,הצרכן אינו רוכש את המוצר שלכם אף פעם. כך נבנה את המטריצה: רכיש ת המו ת ג ב זמן t +1 רכישת המותג בזמן t המותג שלכם כל המותגים האחרים המותג שלכם נ”מ מ כל המותגים האחרים ח א סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 97 הכרעה ינימ ש קרפ אפשר להשתמש במטריצה זו עבור גודל מדגם גדול ,ואפשר לפרש אותה כמטריצה סטוכסטית, כלומר ,כיצד עובר נתח השוק מזמן t לזמן .t+1ניקח את נתח השוק הנוכחי שלנו ,נכפיל אותו במטריצה הסטוכסטית ונקבל את נתח השוק המנובא עבור זמן .t+1 נניח שלמותג שלנו יש בזמן t נתח שוק של ( 0.3מזה נובע שנתח השוק של כל המותגים האחרים הוא ,)0.7והמטריצה הסטוכסטית נותנת לנו ערכים של 0.6עבור נ"מ ו 0.7-עבור א .אנו יודעים שסכום האיברים בכל שורה מוכרח להיות = ,1מכיוון שזוהי הסתברות מותנית לזמן t+1 המבוססת על המתרחש בזמן .tנפתור את הבעיה בעזרת בנית וקטור שורה של נתח שוק :המותג שלכם וכל המותגים האחרים .לאחר מכן נכפול את וקטור השורה הזה במטריצה הסטוכסטית כדי לנבא את נתח השוק לזמן .t+1הערך המנובא שקיבלנו לזמן t+1 ] = [0.39 ]0.61 0.4 0.7 [0.6 0.3 הוא ,0.39ראו בהמשך. [0.3 0.7] x אנו יכולים להשתמש במטריצה הסטוכסטית שלנו גם כדי לנבא הסתברות מצב יציב .במצב יציב נעשים המספרים הדינמיים והמשתנים של נתח השוק יציבים והופכים לפרמטרים .האות המסמנת הסתברויות מצב יציב היא .πנשתמש באותה שיטת ציון למטריצה הסטוכסטית שלנו: נציב π1לנתח השוק של המותג שלנו במצב יציב ,וπ2 - לנתח השוק של כל המותגים האחרים במצב יציב. וזמן .t+1לפיכך: מכיוון שאנו מנבאים נתח שוק במצב יציב ,נתח השוק לא ישתנה בין זמן t ] - Transition matrix .[π 1 π 2] x [transition matrix] = [π 1 π 2מטריצה סטוכסטית. כמו כן ,אנו יודעים ש+ π2 = 1 : יכולים למצוא את π 1ואת .π 2 ]π 2 ] = [π 1 [0.6 0.3 0.4 0.7 .π 1לפיכך ,יש בידינו שני נעלמים ושתי משוואות ואנו [π1 π2] x π1 + π2 = 1 לאחר שפתרנו שתי משוואות אלו הגענו למשוואה: 1-π 2 =π1 0.6π1 + 0.3π 2 = π 1 נציב את 1-π2 עבור π1 ונקבל: .π1= 3/7, π2 = 4/7 כך אפשר להשתמש בהערכה (ניבוי) פרמטרים למציאת נתח שוק במצב יציב בעזרת מטריצה סטוכסטית. 98 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן דבר המחבר אני מקווה שספר זה יעודד את הלומדים להמשיך ולעסוק בסטטיסטיקה ובמדעי השיווק ,הן כחוקרים והן כאנשי מקצוע. שיטות כמותיות עשויות להיות כלים רבי ערך בפתרון בעיות בעולם העסקים. טבלאות תואלבט התחום שמתחת לעקומת ההתפלגות הנורמלית area טב לה 1 102 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 z .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 -3.80 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 -3.70 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0001 .0002 .0002 -3.60 .0002 .0002 .0002 .0002 .0002 .0002 .0002 .0002 .0002 .0002 -3.50 .0002 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 .0003 -3.40 .0003 .0004 .0004 .0004 .0004 .0004 .0004 .0005 .0005 .0005 -3.30 .0005 .0005 .0005 .0006 .0006 .0006 .0006 .0006 .0007 .0007 -3.20 .0007 .0007 .0008 .0008 .0008 .0008 .0009 .0009 .0009 .0010 -3.10 .0010 .0010 .0011 .0011 .0011 .0012 .0012 .0013 .0013 .0013 -3.00 .0014 .0014 .0015 .0015 .0016 .0016 .0017 .0018 .0018 .0019 -2.90 .0019 .0020 .0021 .0021 .0022 .0023 .0023 .0024 .0025 .0026 -2.80 .0026 .0027 .0028 .0029 .0030 .0031 .0032 .0033 .0034 .0035 -2.70 .0036 .0037 .0038 .0039 .0040 .0041 .0043 .0044 .0045 .0047 -2.60 .0048 .0049 .0051 .0052 .0054 .0055 .0057 .0059 .0060 .0062 -2.50 .0064 .0066 .0068 .0069 .0071 .0073 .0075 .0078 .0080 .0082 -2.40 .0084 .0087 .0089 .0091 .0094 .0096 .0099 .0102 .0104 .0107 -2.30 .0110 .0113 .0116 .0119 .0122 .0125 .0129 .0132 .0136 .0139 -2.20 .0143 .0146 .0150 .0154 .0158 .0162 .0166 .0170 .0174 .0179 -2.10 .0183 .0188 .0192 .0197 .0202 .0207 .0212 .0217 .0222 .0228 -2.00 .0233 .0239 .0244 .0250 .0256 .0262 .0268 .0274 .0281 .0287 -1.90 .0294 .0301 .0307 .0314 .0322 .0329 .0336 .0344 .0351 .0359 -1.80 .0367 .0375 .0384 .0392 .0401 .0409 .0418 .0427 .0436 .0446 -1.70 .0455 .0465 .0475 .0485 .0495 .0505 .0516 .0526 .0537 .0548 -1.60 .0559 .0571 .0582 .0594 .0606 .0618 .0630 .0643 .0655 .0668 -1.50 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן תואלבט 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 z .0681 .0694 .0708 .0721 .0735 .0749 .0764 .0778 .0793 .0808 -1.40 .0823 .0838 .0853 .0869 .0885 .0901 .0918 .0934 .0951 .0968 -1.30 .0985 .1003 .1020 .1038 .1056 .1075 .1093 .1112 .1131 .1151 -1.20 .1170 .1190 .1210 .1230 .1251 .1271 .1292 .1314 .1335 .1357 -1.10 .1379 .1401 .1423 .1446 .1469 .1492 .1515 .1539 .1562 .1587 -1.00 .1611 .1635 .1660 .1685 .1711 .1736 .1762 .1788 .1814 .1841 -0.90 .1867 .1894 .1922 .1949 .1977 .2005 .2033 .2061 .2090 .2119 -0.80 .2148 .2177 .2206 .2236 .2266 .2296 .2327 .2358 .2389 .2420 -0.70 .2451 .2483 .2514 .2546 .2578 .2611 .2643 .2676 .2709 .2743 -0.60 .2776 .2810 .2843 .2877 .2912 .2946 .2981 .3015 .3050 .3085 -0.50 .3121 .3156 .3192 .3228 .3264 .3300 .3336 .3372 .3409 .3446 -0.40 .3483 .3520 .3557 .3594 .3632 .3669 .3707 .3745 .3783 .3821 -0.30 .3859 .3897 .3936 .3974 .4013 .4052 .4090 .4129 .4168 .4207 -0.20 .4247 .4286 .4325 .4364 .4404 .4443 .4483 .4522 .4562 .4602 -0.10 .4641 .4681 .4721 .4761 .4801 .4840 .4880 .4920 .4960 .5000 -0.00 .5359 .5319 .5279 .5239 .5199 .5160 .5120 .5080 .5040 .5000 0.00 .5753 .5714 .5675 .5636 .5596 .5557 .5517 .5478 .5438 .5398 0.10 .6141 .6103 .6064 .6026 .5987 .5948 .5910 .5871 .5832 .5793 0.20 .6517 .6480 .6443 .6406 .6368 .6331 .6293 .6255 .6217 .6179 0.30 .6879 .6844 .6808 .6772 .6736 .6700 .6664 .6628 .6591 .6554 0.40 .7224 .7190 .7157 .7123 .7088 .7054 .7019 .6985 .6950 .6915 0.50 .7549 .7517 .7486 .7454 .7422 .7389 .7357 .7324 .7291 .7257 0.60 .7852 .7823 .7794 .7764 .7734 .7704 .7673 .7642 .7611 .7580 0.70 .8133 .8106 .8078 .8051 .8023 .7995 .7967 .7939 .7910 .7881 0.80 .8389 .8365 .8340 .8315 .8289 .8264 .8238 .8212 .8186 .8159 0.90 .8621 .8599 .8577 .8554 .8531 .8508 .8485 .8461 .8438 .8413 1.00 .8830 .8810 .8790 .8770 .8749 .8729 .8708 .8686 .8665 .8643 1.10 .9015 .8997 .8980 .8962 .8944 .8925 .8907 .8888 .8869 .8849 1.20 .9177 .9162 .9147 .9131 .9115 .9099 .9082 .9066 .9049 .9032 1.30 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 103 104 תואלבט 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00 z .9319 .9306 .9292 .9279 .9265 .9251 .9236 .9222 .9207 .9192 1.40 .9441 .9429 .9418 .9406 .9394 .9382 .9370 .9357 .9345 .9332 1.50 .9545 .9535 .9525 .9515 .9505 .9495 .9484 .9474 .9463 .9452 1.60 .9633 .9625 .9616 .9608 .9599 .9591 .9582 .9573 .9564 .9554 1.70 .9706 .9699 .9693 .9686 .9678 .9671 .9664 .9656 .9649 .9641 1.80 .9767 .9761 .9756 .9750 .9744 .9738 .9732 .9726 .9719 .9713 1.90 .9817 .9812 .9808 .9803 .9798 .9793 .9788 .9783 .9778 .9772 2.00 .9857 .9854 .9850 .9846 .9842 .9838 .9834 .9830 .9826 .9821 2.10 .9890 .9887 .9884 .9881 .9878 .9875 .9871 .9868 .9864 .9861 2.20 .9916 .9913 .9911 .9909 .9906 .9904 .9901 .9898 .9896 .9893 2.30 .9936 .9934 .9932 .9931 .9929 .9927 .9925 .9922 .9920 .9918 2.40 .9952 .9951 .9949 .9948 .9946 .9945 .9943 .9941 .9940 .9938 2.50 .9964 .9963 .9962 .9961 .9960 .9959 .9957 .9956 .9955 .9953 2.60 .9974 .9973 .9972 .9971 .9970 .9969 .9968 .9967 .9966 .9965 2.70 .9981 .9980 .9979 .9979 .9978 .9977 .9977 .9976 .9975 .9974 2.80 .9986 .9986 .9985 .9985 .9984 .9984 .9983 .9982 .9982 .9981 2.90 .9990 .9990 .9989 .9989 .9989 .9988 .9988 .9987 .9987 .9987 3.00 .9993 .9993 .9992 .9992 .9992 .9992 .9991 .9991 .9991 .9990 3.10 .9995 .9995 .9995 .9994 .9994 .9994 .9994 .9994 .9993 .9993 3.20 .9997 .9996 .9996 .9996 .9996 .9996 .9996 .9995 .9995 .9995 3.30 .9998 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 3.40 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 3.50 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9998 .9998 3.60 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 3.70 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 3.80 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן תואלבט התחום שמתחת להתפלגות t tα טבלה ב 0.005 63.567 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.576 0 α 0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.326 0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 1.960 0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.645 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 0.10 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.365 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.282 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 Inf. 105 תואלבט התחום שמתחת להתפלגות χ2 aהוא האזור שמימין ל χ 2a טבלה ג a 106 V χ2α הוא דרגת החופש 0 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן תואלבט התחום שתחת התפלגות ,Fערך -p=0.05 טבלה ד - d1דרגות החופש במונה - d2דרגות החופש במכנה a fα 0 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 107 תואלבט ט בלה ד -המש ך 108 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן תשובות לתרגילים םיליגרת ל תובושת פר ק ר א ש ון שאלה .1האם חלופה I2 תשובה I2 :מושלט ב I1 כדאית בכל מצב או האם היא פתרון שולט? מדוע? שאלה .2האם ניתוח בייסיאני משנה את ההסתברות המותנית? מדוע או מדוע לא? תשובה :לא ,משום שההסתברויות האפריוריות שלהם שוות שאלה .3מהו הערך הצפוי של המידע הנוסף )?(EVAI תשובה132.25/3-100/3=32.25/3 : שאלה .4מהו הערך הצפוי של המידע המושלם )?(EVPI תשובה140/3-100/3 =40/3 : פר ק חמ י ש י תר גי ל 1 סכום ריבועי ה��������������� X- סכום ריבועי ה(ΣY) /n ���������������� Y- – (ΣX) 2/n 2 – 2 i 2 i = ΣX 70.1 =................................ SSX = ΣY 76.1 =................................ SSY סכום הריבועים בין Xו= Σ(XY) – (ΣX)(ΣY)/n :Y- 62.1 =................................SSXY סכום ריבועי הסטיות הנובעות מן הרגרסיה = (ssxy)2/ssx 55.0 =. ........................... SSR סכום ריבועי הטעות הנובעת מקו הרגרסיה��� = ssy-ssr 21.1 =. ............................. SSE 0.89 =. ...............................b = SSXY ÷ SSX ̅0.47 =. ............................... a = Y̅ – bX )= SSXy2 ÷ (SSx) (ssy 0.72 =. .............................. R 2 משוואת הרגרסיהY = 0.47+0.89(X1)��������������������������������������������������������������������������������������: מבחן (SSR/d.f.) ÷ (SSE/d.f.) = 20.85�����������������������������������������������������������������������������������:F Fבטבלה = 5.32 האם קיים קשר מובהק? :כן 110 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן םיליגרת ל תובושת תר גי ל 2 סכום ריבועי ה– (ΣX) 2/n ����������������������������� X- סכום ריבועי ה– (ΣY) 2/n ����������������������������� Y- 2 i 2 i = ΣX 66.0 =................................ SSX = ΣY 76.1 =................................ SSY סכום הריבועים בין Xו= Σ(XY) – (ΣX)(ΣY)/n :Y- 60.0 =................................ SSXY סכום ריבועי הסטיות הנובעות מן הרגרסיה �����= (ssxy)2/ssx סכום ריבועי הטעות הנובעת מקו הרגרסיה ��� = ssy-ssr 54.5 =........................ SSR 21.6 =................................ SSE 0.91 =................................ b = SSXY ÷ SSX ̅0.66 =.................................. a = Y̅ – bX )= SSXy2 ÷ (SSx) (ssy 0.72 =................................ R 2 משוואת הרגרסיהY = 0.66+0.91(X2)�������������������������������������������������������������������������������������� : מבחן (SSR/d.f.) ÷ (SSE/d.f.) = 20.19����������������������������������������������������������������������������������� :F Fבטבלה = 5.32 האם קיים קשר מובהק? :כן תר גי ל 3 סכום ריבועי ה– (ΣX) 2/n ����������������������������� X- סכום ריבועי ה– (ΣY) 2/n ����������������������������� Y- 2 i 2 i = ΣX 13.1 =................................ SSX = ΣY 114.52 =............................ SSY סכום הריבועים בין Xו= Σ(XY) – (ΣX)(ΣY)/n :Y- 38.39 =.............................. SSXY סכום ריבועי הסטיות הנובעות מן הרגרסיה ���= (ssxy)2/ssx סכום ריבועי הטעות הנובעת מקו הרגרסיה ��� = ssy-ssr 112.5 =......................... SSR 2.02 =................................ SSE 2.9305 =.........................b = SSXY ÷ SSX ̅0.2561 =.........................a = Y̅ – bX )= SSXy2 ÷ (SSx) (ssy 0.98 =.............................R 2 משוואת הרגרסיהY = 0.2561+2.93059(X)����������������������������������������������������������������������������� : מבחן (SSR/d.f.) ÷ (SSE/d.f.) = 389.0��������������������������������������������������������������������������������������� F Fבטבלה = 10.56 האם קיים קשר מובהק? :כן סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 111 םיליגרת ל תובושת תר גי ל 4 משתנים לשאלת קווי הטלפון המשוואה היא: גיל ( ;)p = 0.007דירה ( ,)p = 0.000סכום משפחות ( ,)p = 0.038הכנסה ()p = 0.013 אזורי פעילות שלהם השאריות השליליות הגבוהות ביותר: שארית אזורי פעילות -21.48463 411 -17.05434 306 -16.03600 410 -14.97168 301 -13.68935 302 רגרסיה בצעדים Coefficientsa הסתברות של טעות Sig t .000 19.393 .001 -3.494 .000 14.087 Standardized Coefficients Beta Unstandardized Coefficients Model Std. Error B 1.912 37.071 )(Constant .070 -.245 apt 2.352 33.127 )(Constant .001 -3.611 -.410 .067 -.241 apt .010 2.647 .301 .050 .131 HH_00 .000 8.948 4.728 42.310 )(Constant .001 -3.673 -.404 .064 -.237 apt .013 2.568 .283 .048 .124 HH_00 .031 -2.215 -.244 .119 -.264 med_age .000 8.598 4.618 39.702 ()Constant .000 -3.799 -.398 .061 -.233 דירה apt .038 2.128 .228 .047 .100 משפחות HH_00 .007 -2.803 -.301 .116 -.325 גיל med_age .013 2.582 .281 .089 .230 הכנסה Income_000 -.417 1 2 3 4 אחוזי מכירות = a. Dependent Variable: penetrat 112 סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן םיליגרת ל תובושת פר ק שב י ע י תר גי ל 1 בעיית מותגי המשקאות העדפת מותג X ביחס למותג Y א ב ג ד ה א 0.50 0.82 0.69 0.25 0.35 ב 0.18 0.50 0.27 0.07 0.15 ג 0.31 0.73 0.50 0.16 0.25 ד 0.75 0.93 0.84 0.50 0.59 ה 0.65 0.85 0.75 0.41 0.50 תשובות סכום ציוני Zלכל מותג -0.36 4.05 1.55 -3.37 -1.87 ממוצע -0.072 0.810 0.310 -0.674 -0.374 מתוקנן +0.674 +0.674 +0.674 +0.674 +0.674 תשובה +0.744 +1.594 +0.984 +0.000 +0.300 תר גי ל 2 בעיית תיאור אופי ואורח חיים תשובה :חובבת בישול נלהבת סטטיסטיקה ומדעי השיווק ◇ ד"ר חיים מ .אהרמן 113 56 נספח לעמוד % Live ל inםיליגרת תובושת Apartment 0 8.5 28.2 31.9 22.2 27.7 3.2 1.6 2.2 19.6 7.4 20.6 13.6 2.6 26.2 22.2 1 4.6 15.2 11.0 14.4 2.3 0 44.5 5.4 87.1 37.5 0 0 12.6 3.6 55.3 58.2 54.9 61.5 37.4 15.3 28.9 29.2 13.8 31.1 38.4 32.2 33 26.4 28.5 6.6 48.8 1.8 3.5 9.9 7.4 36.2 3.5 0 12.1 16.3 0 0.8 21 Median Age Percent Minority Income Sales Percentage Households ID# 49.3 54.1 26.8 49.2 32.4 34.2 28.5 28.1 27.9 30.6 26 16.1 18 29.6 19.1 24.8 28.2 28 24.2 25.4 43.3 29.4 38.2 17.9 45.2 40.4 22.3 59.7 34.1 42.5 35.4 20.6 29.2 43.9 41.6 48.6 48.3 41.4 39.9 32.5 31.1 38.4 32.2 33 26.4 44.1 48.8 56.2 38.5 25.5 46.6 28.2 34.4 50.2 29.9 27.4 26.3 25.7 31.1 25.4 38.8 6.1 99.3 25.8 88.3 96.9 98.6 94.4 94.4 98.4 94.7 99 99.9 99.7 97.2 84.2 97.7 99.6 89.4 99.1 57.5 48.7 53 98.7 97.1 32.3 28 35.6 65.8 7.4 96.7 32.9 8.7 10.9 6.8 2 16.4 28.2 4.3 65.4 4.8 69.1 93.9 99.4 98.7 1.7 1 0.8 12.7 1.9 1.6 80.7 30.5 3.3 47.7 47.6 21.7 29.3 32 33.7 11389 20058 21233 21969 31205 31461 20322 26717 22184 22441 28981 13385 13162 14632 16391 12485 13755 13199 14320 15971 27292 13868 24607 9228 12509 23323 6692 18716 12313 15761 13755 20763 24754 28576 23474 18407 23196 21571 27542 14218 13754 38809 22140 27390 12821 25725 24679 28662 39062 74693 94980 20509 30603 22138 24082 27933 28076 25061 22046 25804 28.1 31.1 36.5 34.5 38 44.9 36.8 37.4 50.1 37.90 35.20 27 28.30 30.10 43.10 38 50.60 42.20 33.3 34.0 36.2 35.5 36.5 12.9 14.6 15 16.6 16.3 15 23.6 21.3 21.2 21.9 15 23.6 22.9 22.2 21.9 13.4 11.1 39.5 35.5 34.2 32.9 33.3 31.2 26.7 23.6 38.8 42.8 39.6 28.4 36.6 48.2 45.3 51.5 54 46.7 50.4 40.5 364 4980 1516 6026 1444 1742 2364 3252 2624 2722 2576 1464 3419 1892 2580 1898 1464 1178 1812 2706 1452 490 1258 2264 1664 2160 641 640 603 445 1600 711 4458 4077 1939 2953 1712 2423 3199 3410 954 1233 1691 935 862 3966 4728 2367 3485 3803 2580 6803 8169 3366 815 6621 9145 5952 8525 14478 101 102 103 104 105 106 107 108 109 110 111 201 202 203 204 205 206 207 208 209 210 211 212 301 302 303 304 305 306 401 402 403 404 405 406 407 408 409 410 411 412 413 414 415 416 501 502 503 504 505 506 601 602 603 701 702 703 704 705 706 = ברייטן706 עד601 מ, = הוב506 עד501 מ, = קינגסטון416 עד101 מID 114
© Copyright 2024