אמידה סטטיסטית נקודתית

דיברנו על הגשר מתורת ההסתברות אל הההסקה הסטטיסטית .
כעת נרצה לדבר על התאוריה שמשתמשת בתורת ההסתברות כדי להסיק מסקנות לגבי האוכלוסייה מתוך התוצאות של מדגם תצפיות.
אחד הנושאים המרכזיים של הסקה סטטיסטית הוא, אמידה של מאפיינים שונים של האוכלוסייה שבוא נתעסק בסיכום זה.

עקרונות של אמידה

במקרים רבים נרצה לדעת את ערכו של פרמטר מסוים באוכלוסייה. בגלל גודלה של האוכלוסייה איננו יכולים לחשב אותו ואנו נאלצים להתבסס על הסטטיסטי המתאים במדגם מקרי מתוך אותה אוכלוסייה. תהליך זה נקרא אמידה.

דוגמה לבעיה של אמידה היא למשל , אמידה של ההסתברות להצלחה של טיפול רפואי באמצעות מדגם של חולים שיקבלו את הטיפול.

בכל בעיית אמידה נרצה לאמוד מדד מסוים של המשתנה המקרי הנבדק או של האוכלוסייה הנבדקת. מדד זה נקרא פרמטר.

הגדרה

פרמטר של פונקציית ההתפלגות של מ״מ הוא ערך הנקבע על ידי התפלגות זו, ומהווה אחד המאפיינים שלה.

הפרמטרים החשובים ביותר של מ״מ שדיברנו עליהם הינם התוחלת והשונות של משתנה מקרי: E(X),V(X) .
פרמטר חשוב נוסף שנאמוד בקורס הוא הפרמטר p שציין את ״ההסתברות להצלחה״.

כיצד אומדים פרמטר?

בעזרת סטטיסטי מתאים.

הגדרה

סטטיסטי הוא ביטוי מתמטי מוגדר (פונקציה) של תצפיות המדגם X1,,Xn

נסמן ב θ את הפרמטר שיש לאמוד ואת הסטטיסטי המשמש לאמידתו θ^ .
במקרה זה נאמר כי θ^ הוא אומד נקודתי ל θ.
הכוונה היא שהערך שיקבל המשתנה המקרי Θ^ עבור מדגם מסוים יהווה עבורנו אומדן לפרמטר θ שנסמנו ב θ^.

למשל, עבור התוחלת μ שהוא בעצם פרמטר כבר ראינו שממוצע המדגם X הוא האומד הנקודתי לתוחלת.
הערך ש X יקבל עבור מדגם מתוך אוכלוסייה בעלת תוחלת μ, שאותה אנו רוצים לאמוד, יהווה אומדן ל μ, במקרה זה θ=μ . סך הכל יתקיים Θ^=X ועבור המדגם המסויים θ^=x .

הבחנה

פרמטר הוא מספר קבוע, ואילו האומד שלו Θ^ הוא משתנה מקרי, וערכיו מהווים אומדנים לפרמטר.

נזכיר ש התפלגות הדגימה היא פונקציית ההסתברות של סטטיסטי כלשהו. גם לאומד Θ^ יש התפלגות דגימה.
Screenshot 2023-08-03 at 15.15.17.png
כלומר, מתוך אוכלוסייה בעלת הפרמטר θ נוציא מדגם בגודל n, ונחשב בו את האומד Θ^ . אומד זה הוא מ״מ אשר יכול לקבל ערכים שונים בהסתברויות שונות (למשל, יכלנו להוציא אינסוף מדגמים בגודל n ובכל אחד מהם לחשב את הממוצע, התפלגות הערכים השונים הייתה מתבטאת בהתפלגות ההסתברויות).

שגיאת אמידה:
כיוון שאומד הוא משתנה מקרי והוא מקבל ערכים שונים אז ברור שבניסויי דגימה שונים נוכל לקבל ערכים שונים לאומד. נגדיר שגיאת אמידה להיות θ^θ כלומר ההפרש בין האומדן הנקודתי לפרמטר עצמו.

תכונות האמד

א. עקביות- ככל שהמדגם גדול יותר ההסתברות שהאמד יתכנס לפרמטר האמיתי θ^nθ .
ב. אי הטיה- התוחלת של האמד שווה לפרמטר

נשים לב אלו תכונות לקביעה של אמד תקין, הם לא חייבים בהכרח להתקיים.

אומד חסר-הטיה

ננסה לענות על השאלה: כיצד נבחר איזה סטטיסטי יש לחשב במדגם שנוציא, כדי לאמוד את הפרמטר בצורה הטובה ביותר.

אנחנו מחפשים סטטיסטי שיקיים E(Θ^)=θ .
כלומר, נחפש סטטיסטי כזה שאילו היינו מוציאים אינסוף מדגמים בגודל שהחלטנו עליו, ובכל מדגם היינו מחשבים את הסטטיסטי שבחרנו, אז ממוצע ההתפלגות של כל הערכים הללו הייתה שווה בידיוק לפרמטר.

הגדרה

סטטיסטי Θ^ ייקרא אומד חסר הטיה לפרמטר θ אם E(Θ^)=θ
אומד ייקרא מוטה אם השיוויון אינו מתקיים.

אם כן, ממוצע המדגם הוא דוגמה לאומד חסר הטיה עבור הפרמטר התוחלת.
שכן התוחלת שלו שווה בידיוק לתוחלת של הפרמטר.

במצב שבו Θ^ הוא אומד חסר הטיה ל θ , אזי, אם נתבונן בשגיאת האמידה (שאף היא משתנה מקרי כי היא צירוף ליניארי של משתנה מקרי) נקבל כי

E(Θ^θ)=E(Θ^)θ=θθ=0

כלומר התוחלת של שגיאת האמידה היא 0.
Screenshot 2023-08-03 at 16.12.34.png
למשל , ההתפלגות הראשונה היא חסרת הטייה ביחס ל θ בעוד ההתפלגות השנייה הינה מוטה.

אומדים חסרי הטיה לתוחלת ושונות

ממוצע המדגם

הראנו כבר שממוצע המדגם , ללא תלות בגודלו וללא תלות בהתפלגות של X תקיים

E(X)=μ=E(X)

כפי שכבר אמרנו, המתבקש מכך הוא שממוצע המדגם הוא אומר חסר הטיה לתוחלת μ.

אומד לשונות

ננסה לבנות אומד חסר הטיה לשונות V(X)=σ2 . נזכור כי σ2=V(X)=E(Xμ)2 , לכן אומד טבעי ל σ2 על פי המדגם {Xi} יהיה

1ni=1n(Xiμ)2

זה מאוד דומה לשונות המדגם אם כי ההבדל הוא שכאן מודדים את המרחק מהתוחלת ולא ממוצע המדגם.
נוכיח שזהו אומד חסר הטייה על ידי חישוב תוחלתו

E(1ni=1n(Xiμ)2)=1ni=1nE(Xiμ)2

לפי ההגדרה של מדגם מקרי, לכל Xi יש את אותה ההתפלגות כמו המשתנה המקרי שממנו דוגמים X ולכן

=1nnE[(Xμ)2]=E[(Xμ)2]=σ2

ולכן הנ״ל הוא אומד חסר הטייה לשונות.

החסרון העיקרי של אומד זה הוא התלות בתוחלת שהרבה פעמים לא ידועה לנו, לכן הפתרון הטבעי ביותר העולה על הדעת הוא להחליף את התוחלת באומד שלו X ולנסות לאמוד את σ2 בעזרת הביטוי 1ni=1n(XiX)2 אך במהרה אם ננסה לחשב את התוחלת של הביטוי הזה נקבל אומד מוטה. נקבל שהתוחלת היא (n1n)σ2 . נוכל לתקן את האומד הזה ולהפוך אותו לחסר הטייה כך

1n1i=1n(XiX)2

באופן הזה התוחלת תהיה 1n1(n1)σ2=σ2 .

נסמן את הביטוי הנ״ל S2^ . בעצם זה מ״מ המקבל ערכים שונים שיסומנו s2^. הוא מתאים לכל n>1 .

ביטוי השונות עד כה:
א. השונות באוכלוסייה או במ״מ (בהתפלגות הסתברותיות) היא

σ2=i=1n(xiμ)2P(xi)=E(Xμ)2

ב. השונו במדגם מסוים (בהתפלגות שכיחויות) היא

s2=1ni=1n(xix)2

בשני המקרים השונות היא מדד פיזור, המבוטא על ידי ממוצע ריבועי הסטיות מן הממוצע של האוכלוסייה או המדגם

ג. אומד חסר הטיה לשונות של האוכלוסייה על סמך מדגם

S2^=1n1i=1n(XiX)2

ד. במדגם מסוים נקבל את הערך

s2^=1n1i=1n(XiX)2

קיים כמובן קשר בין s2^ ל s2 והוא

s2^=(nn1)s2

כלומר נוכל לקחת את האומדן לשונות של האוכלוסייה ולתאר איתו את מידת הפיזור של הסטטיסטי בתוך המדגם.

המסקנה : ככל שהמדגם גדול יותר כך ההבדל בין האומדן לבין שונות המדגם קטנה יותר ולכן שונות המדגם מהווה אומד כמעט חסר הטיה ל σ2 .

שיטות אמידה

שיטת המומנטים

שיטת המומנטים היא שיטת אמידה לפרמטרים שמאפיינים התפלגות של אוכלוסייה מסויימת.
נגדיר את המומנט הk באמצעות ממוצע החזקה הk של המ״מ X ממנו נדגום.

μ1=E[X1]μ2=E[X2]μ3=E[X3]

נניח שיש לנו התפלגות עם פרמטרים לא ידועים θ1,,θk . כעת נבצע מדגם ועל סמך המומנטים של המדגם נאמוד את הפרמטרים.

בהינתן המדגם בגודל n ותצפיות המדגם x1,x2,,xn . המומנטים של המדגמים יהיו

1in:μ^i=j=1nxjin

בעצם הרעיון הוא:

  1. נשווה כל מומנט מסדר k לאומדן שלו במדגם.
  2. נפתור מערכת של k משוואות עם k נעלמים עבור האומדנים כדי לקבל אומדן עבור כל פרמטר באוכלוסייה.

חשוב לשים לב שאנחנו עושים את זה עבור מדגם בודד מגודל כלשהו.

למה מומנטים?

המומנטים בעצם נותנים לנו את מידע על ההתפלגות כפי שהיינו יכולים להניח אם היה לנו את פונקציית ההסתברות מצויירת.
Screenshot 2023-08-03 at 18.26.12.png

השיטה פשוטה וקלה לחישוב, אך יכולה לפעמים לתת אומדנים מוטים. בדרך כלל עדיף את שיטת הנראות המירבית עליה נדבר בהמשך.

נסתכל על הדוגמה הבאה

f(x)={xθ1x[0,1]0else

נרצה למצוא אומד לפי שיטת המומנטים לθ . נחשב תוחלת על משתנה רציף :

E(x)=01xxθ1=01xθ=1θ+1θ+10θ+1θ+1=1θ+1

כעת זהו ממוצע המדגם x=1θ+1
נוכל אם כן להסיק ש θ^=1x1 . וזהו האומד לθ.

דוגמה 2:
בכד 100 כדורים וידוע ש 50 מהכדורים הם בצבע כחול והשאר בצבעים שונים.
נדגמו n כדורים עם החזרה ונמצא שעשרה מהם בצבע כחול. נרצה לחשב אומד על סמך שיטת המומנטים למספר הכדורים שהוציאו מהכד.

ההסתברות להוציא בצבע כדור כחול היא p=50100=12
מספר הכדורים בצבע כחול X זה מ״מ מתפלג בינומית XBIN(n,p) .
התוחלת של משתנה בינומי היא E(X)=np.
כלומר המומנט הראשון שהוא התוחלת יקיים שערכו הוא n2 .
ממוצע הכדורים הכחולים במדגם שלנו הוא 10 , נציב זאת כתוחלת ונקבל

10=n^2n^=20

כעת, חזרו על הניסוי פעמיים נוספות והפעם התקבלו 8 ו 11 כדורים, ונרצה לאמוד את מספר הכדורים שהוציאו מהכד על סמך שלושת המדגמים. נגדיר אם כן

Y=X1+X2+X3

מליניאריות התוחלת נקבל

E[X1+X2+X3]=E[X1]+E[X2]+E[X3]=3np
הבחנה

סכום של בינומי מתפלג בינומי YBIN(3n,p)

דוגמה 3:
נסתכל על התפלגות מעריכית Xexp(θ) .
התוחלת שהיא המומנט מסדר ראשון שווה ל E(X)=1θ.
כעת נבצע מדגם Xi כאשר i[1,n] .
האומד לתוחלת על סמך המדגם יהיה μ^1=i=1nX11n נשווה את זה עם התוחלת ונקבל אומדן לθ שהוא:

1θ^=i=1nxinθ^=nx

דוגמה 4:
נסתכל על התפלגות אחידה XU(0,b)
התוחלת היא E(X)=0+b2 באותו אופן נוכל לקבל אומדן לb :

b^=2x2

נשים לב להטייה שיכולה לקרות לנו כאן, אם XU(0,5) עבור מדגם של 10 תצפיות: 4,0,5,3,5,4,2,4,2,1 נקבל שהאומדן b^ יהיה 6.

מצב שבו יש לנו שתי נעלמים:
Screenshot 2023-08-03 at 19.08.41.png

אמד נראות מקסימלית

בהינתן פרמטר לא ידוע θ משתנה מקרי X ופונקציית הסתברות התלויה ב X,θ : f(X,θ).

נבצע מדגם בגודל n: X1,X2,,Xn
אומד נראות מקסימלית θ^ יהיה הערך של θ מבין כל הערכים האפשריים כך שההסתברות הגבוהה ביותר שנקבל את המדגם שלנו.

פונקציית הנראות תהיה

L(θ)=i=1nf(Xi,n)

נמצא את הערף θ שמביא את הפונקצייה לערך מקסימלי.
כדי לקבל את הערך המקסימלי נוכל לגזור ולהשוות ל 0 ולוודא מקסימליות עם בדיקה עבור הנגזרת השנייה כלומר

L(θ)=0L(θ)<0
אינטואיצייה

באופן אינטואיטיבי הגישה אומרת שכדי לנבא היטב את הפרמטר האמיתי על-סמך מדגם מקרי מסוים, יש לבדוק איזה פרמטר מתוך כל האפשרויות הוא זה ש"יסביר" בצורה הטובה ביותר את המדגם. כלומר אומד הנראות המרבית הוא הפרמטר שאילו היינו מציבים בפונקציית ההתפלגות מראש, הוא היה נותן את ההסתברות הגבוהה ביותר לקבל את המדגם שאכן התקבל

דוגמה 1:
ישנם 3 כדים עם כדורים כחולים וסגולים.
Screenshot 2023-08-03 at 19.26.07.png
בחרנו באופן מקרי כד והוצאנו ממנו 3 כדורים ללא החזרה, בנה אומדן נראות מקסימלית לכד הנבחר, אם הכדור הראשון ושני יצאו כחולים, והשלישי סגול.

נחשב את ההסתברות לקבל את התוצאה הרצויה בכל כד:
כד א:

352423=0.2

כד ב:

453413=0.2

כד ג:
0 כי אין כדורים סגולים.

בעצם נרצה את ההסתברות המקסימלית מבין הכדים שזה אומר ש אנ״מ - כד א׳ או כד ב׳.
כאשר אין תלות באיזשהו פרמטר פשוט ניקח את ההסתברות המקסימלית בהתפלגות.

דוגמה 2:
מספרי קלפי Vmax בחבילת קלפים של פוקימון מתפלג לפי ההתפלגות הבאה:
Screenshot 2023-08-03 at 19.33.11.png
המספר קלפים יכול להיות {1,2,3} וההסתברויות תלויות ב θ.

נרצה למצוא אומדן נראות מקסימלית ל θ על סמך מדגם מקרי של 3 חבילות
x1=1,x2=2,x3=1 .

נרשום את פונקציית הנראות

L(θ)=f(x1,θ)f(x2,θ)f(x3,θ)=θ(13θ)θ=θ23θ3

נגזור ונשווה ל0:

L=2θ9θ2=θ(29θ)

כמובן ש θ לא יכול להיות 0 ולכן θ=29=0.222 . נבדוק את הנגזרת השנייה כדי לוודא מקסימום

L(θ)=218θ21829=3.33

ולכן זאת נקודת מקסימום.

Screenshot 2023-08-03 at 19.42.09.png

תכונה

אם θ^ אנ״מ לθ אזי פונקצייה f ח״ע של θ^ תהיה אנ״מ ל f(θ)

למשל, אם נרצה את אומדן נראות מקסימלית לקבל 3 קלפים. כלומר ל 2θ .
מהתכונה הנ״ל אנחנו יודעים ש f(θ^)=2θ^ היא ח״ע ולכן האנ״מ יהיה 229=49 .

דוגמה 3:
נתונה פונקציית הצפיפות הבאה, מצא אנ״מ על סמך 10 תצפיות ב״ת

f(x)={1θx(0,θ]0else

המכפלה תהיה

L(θ)=1θn

מתקיים שככל שערכה של θ קטן יותר אז הפונקצייה גדולה יותר ולכן נבחר בערך הקטן ביותר האפשרי לפי תוצאות המדגם θ^=max(xi) .

דוגמה 4:
זמן ההמתנה בדקות לנציג מתפלג מעריכית עם פרמטר λ נרצה למצוא אנ״מ להסתברות ששלושה לקוחות יחכו כל אחד מהם פחות מ5 דקות תחת הנחת אי תלות.

f(x)={λeλxx00elseF(x)={1eλxx00else

נצטרף גם P(X5)=F(X=5)=1eλ5
פונקציית המכפלה תהיה

L(λ)=λ3eλxi

למקסם פונקציה שקול ללמקסם את הln ולכן :

lnL(λ)=3ln(λ)λxi

מכאן כבר לא בעיה לגזור...

דוגמה 5:
נניח הטלת מטבע מזויף אשר בו בהסתברות p=0.7 נקבל עץ.
מה ההסתברות לקבל 7 פעמים עץ במדגם בגודל 10.
התפלגות הטלת המטבע היא בינומית BIN(0.7,10) אנחנו יודעים שפונקציית ההסתברות של משתנה מתפלג בינומית היא

P(X=k)=(nk)pk(1p)nk

לרוב היינו רוצים לחשב את ההסתברות ולכן הנעלם היה k . כעת אנחנו רוצים לאמוד את ההסתברות, נרצה למצוא את p . פונקציית המכפלה במקרה הזה שקולה לפונקצייה ההסתברות L(p)=P(X=k) רק שמתייחסים לנעלם כ p ולא ל k.

גם כאן נוכל להשתמש בפונקציית הln ולקבל את האומדן להסתברות p^=kn . הרעיון הוא שבעצם האומדן נותן לנו הסתברות למטבע שבקירוב טוב התנהגות המטבע ״באוכלוסייה״ עם ההסתברות הזאת תיתן מדגם כמו שלנו.

לסיכום:
Screenshot 2023-08-03 at 20.31.07.png

משפט:
האנ״מ לתוחלת יהיה ממוצע המדגם.
האנ״מ לשונות תהיה השונות במדגם הוא מעט מוטה כפי שכבר הראנו והוא לא האומדן חסר הטייה שבו מחלקים ב n1 . S2^=(xix)2n

יעילות של אמדים

כאשר יש לי Θ1 ו Θ2 אמדים חסרי הטיה עבור θ נעדיף את האמד בעל השונות הקטנה ביותר .
Screenshot 2023-08-04 at 12.04.17.png|400

MSE

במקרה הכללי של הנ״ל במצב שבוא האמדים אינם חסרי הטיה, נרצה לחשב את

MSE(Θ^)=1ni=1n(θ^iθ)2=E[ (Θ^θ)2 ]

אמידה סטטיסטית עבור קשר בין 2 משתנים

נניח שיש לנו שני משתנים מקריים X,Y שיש בינהם קשר ליניארי כלומר

Y=aX+b

נשאלת השאלה איך בוחרים קו מגמה?
נזכיר שקו מגמה הוא האומד את הקשר בין שני המשתנים האלה למרות שלפי מקדם המתאם של פירסון יש בינהם קשר ליניארי שאינו חזק בהכרח.

האינטואיצייה תהיה לבחור גרף ישר שהכי קרוב לנקודות בדיאגרמה לשם כך נשתמש ב אמד ריבועים פחותים. בעצם אנחנו רוצים לאמוד את הקשר הליניארי הנ״ל

Y^=a^X+b^

Screenshot 2023-08-04 at 12.22.55.png|350
אם כן, העקרון הריבועים הפחותים מבקש שנבחר את הישר שיקיים :
א. i=1nei=0
ב. min(i=1nei2) כלומר סכום ריבועי הסטיות מינימלי.

כדי לחשב את הקו השיקיים את הנ״ל:
שיפוע הקו:

a^=(xx)(yy)(xx)2

החותך:

b^=yax

נוכל לחשב גם בדרך נוספת:

a=rSySx

כלומר מקדם המתאם כפול סטיית התקן של y חלקי סטיית התקן של x

דרך נוספת:

a=cov(x,y)Sx2

וגם

a=xynxyx2nx2

טיב הקו, איכות ההסבר:
ברגרסיה אנחנו מדברים על להסביר את Y על ידי X . יותר נוכן לומר שאנחנו מדברים על להסביר את השונות של Y עם השונות של X

Screenshot 2023-08-04 at 12.32.06.png|359
כדי להסביר נרצה לחשב את אורך הכו הכחול. שבודק את השונות של ערך האומדן y^ מהממוצע. ונרצה את החלק האדום שהוא בעצם e ובמילים אחרות את השונות של e, זאת נקראת השונות הלא מוסברת על ידי קו הרגרסייה.

Screenshot 2023-08-04 at 12.32.48.png|250
Screenshot 2023-08-04 at 12.33.18.png

כעת נגדיר את אחוז השונות המוסברת להיות על ידי

R2=Sy^2Sy2=r2

לא אוכיח את המעבר האחרון