קונבולוצייה, שונות משותפת , פונקציות על מ״מ ועוד

נרצה לגעת בסוגיות נוספות שעולות כשמדברים על משתנים מקריים בין היתר

א) חישוב פונקציות הצפיפות של פונקצייה על מ״מ או כמה.
ב) חישוב סכום של משתנים מקריים בלתי תלויים
ג) כימות מידת התלות בין שני משתנים אקראיים

כשיש לנו את המטרות האלה בראש, נכיר מספר כלים שיעזרו לנו כמו טרנפוסמצייה וקונבולוצייה, כמו כן נבין יותר לעומק את המשמעות של תוחלת מותנת.

פונקציות על מ"מ

נניח ש Y=g(X) כאשר X הוא משתנה מקרי רציף נרצה לחשב את ה PDF של Y בהינתן זה של X . שתי השלבים הדרושים כדי לבצע את התהליך הזה:

א) חישוב ה CDF של Y :

FY(y)=P(g(x)y)={x | g(x)y}fX(x)dx

ב) חשב לפי חוק הגזירה

fY(y)=dFYdy(y)

דוגמה 1:
יהי X משתנה אחיד ב [0,1] ו Y=X . יתקיים בקטע הנתון:

FY(y)=P(Yy)=P(Xy)=P(Xy2)=y2

אין כלל צורך לחשב את האינטגרל כיוון שאנחנו יודעים ש בכל הקטע [0,1] יקיים את הנ״ל ולכן אנחנו פשוט מבצעים אינטגרצייה על fX=1 בקטע הזה ונקבל כמובן x=y2 .

כעת לאחר גזירה נקבל

fY(y)=FY(y)=2y     0y1

מחוץ לקטע הזה מתקיים ש FY(y)=0 עבור y0 ועבור y1 מתקיים :FY(y)=1 מכאן ש fY(y)=0 מחוץ לקטע.

דוגמה 2:
ג׳ון האיטי נוסע מבוסטון לניו יורק , מרחק של 180 קילומטר במהירות קבועה שהערך שלה מתפלג באופן אחיד בין 30 ל 60 קילומטר לשעה (כלומר יש התפלגות אחידה בין המהירות שיכולות להיות לו בטווח הזה). נרצה לחדשה את ה PDF של זמן הנסיעה.
נסמן את X כמהירות ו Y=g(X) ונסמן את Y=g(X) כמשך הזמן של הטיול כלומר

g(X)=180X

כדי לחשב את ה CDF של Y עלינו לחשב

P(Yy)=P(180Xy)=P(180yX)

נשים לב שאנחנו יודעים לחשב את פונקציית צפיפות ההסתברות של X בקלות בגלל שהיא מתפלגת בצורה אחידה

fX(x)={130x[30,60]0else

וה CDF של X יהיה

FX(x)={0x30x3030x[30,60]1x60

אם כן :

P(180yX)=1P(X<180y)=1FX(180y)

נוכל להתאים את הערך 180y לטווחים הרצויים ונקבל

{0y18060=31180y3030y[18060,18030]=[3,6]1else

האמצעי זה שקול ל 16y ולכן אם נבצע גזירה נקבל

fY(y)={0y36y2y(3,6)0y6

Pasted image 20230126193716.png|350

דוגמה 3:
נגדיר Y=g(X)=X2 כאשר X הוא עם PDF ידוע. יתקיים שלכל y0 :

FY(y)=P(Yy)=P(X2y)=P(yXy)=FX(y)FX(y)

אם נבצע גזירה נקבל

fY(y)=12yfX(y)+12yfX(y)

פונקציות ליניאריות

נתמקד במקרה המיוחד שבו Y היא פונקצייה ליניארית של X

Pasted image 20230126194008.png|450

ה PDF של ax+b במונחים של ה PDF של X . בתמונה למעלה a=2,b=5 . בשלב הראשון מוצאים את PDF של Y=aX . יתקיים כתוצאה מכפל בסקלר ש Y מקבל טווח ערכים רחב יותר מהטווח של X בפקטור a . כלומר ישנה ״מתיחה״ לאורך ציר ה x אבל בגלל שצריך לשמור על תכונת הנורמליזצייה צריך לנרמל את הערכים החוזרים מהפונקצייה ולכן ה״גובה״ שלה קטן. הוספת הערף b לא תשפיע על הטווח של הפונקצייה אלא רק תזיז את ערכיו לאורך ציר ה x ב b . בסופו של דבר יתקבל הביטוי המתמטי

fY(y)=1|a|fX(yba)

בהינתן ש a שונה מ0 כמובן

הוכחה:
בלי הגבלת הכלליות נניח a>0 כאשר המקרה על a<0 דומה

FY(y)=P(Yy)=P(aX+by)=P(Xyba)=FX(yba)

על ידי גזירה נקבל

fY(y)=dFYdy(y)=1afX(yba)

המקרה ש a<0 פשוט יוביל לכך שהסימן למעלה יתהפך ונגזיר את 1FX אבל החיסור לא ישפיע על הנגזרת (אומנם נקבל מינוס לפני התוצאה אבל בגלל ש a שלילי זה יקזז את זה וכאן נכנס הערך המוחלט מלמעלה).

פונקצייה על ליניארית על משתנה מקרי מעריכי

נניח ש X הוא משתנה מתפלג מעריכית עם λ>0 שמקיים

fX(x)={λeλxx00else

נניח ש Y=aX+b אזי לפי מה שהראנו למעלה

fY(y)={λ|a|eλ(yba)yba00else

נשים לב שאם b=0 ו a חיובי אזי Y הוא גם כן משתנה מתפלג מעריכית כאשר λy=λa . באופן כללי אבל, Y אינו מתפלג מעריכית למשל אם a<0 ו b=0 אז טווח הערכים של Y הוא ציר ה x השלילי .

פונקצייה ליניארית על משתנה מקרי נורמלי

נניח ש X הוא משתנה מקרי נורמלי עם תוחלת μ ושונות σ2 ויהי Y=aX+b עם סקלרים a0,b אזי

fX(x)=12πσe(xμ)22σ2

סך הכל נקבל

fY(y)=1|a|fX(yba)==12π|a|σe(ybaμ)22a2σ2

שזה גם כן משתנה מתפלג נורמלי עם תוחלת aμ+b ושונות a2σ2 .

פונקציות מונוטוניות

נוכל להכליל את המקרה הליניארי עבור המקרה ש g היא מונוטונית. יהי X משתנה מקרי רציף שתחום הערכים שלו מוכל ב I אינטרוול כלשהו, כלומר xIfX(x)=0 .
כעת נגדיר Y=g(X) כך ש g מונוטונית ממש (עולה או יורדת) ונגדיר אותה גם כגזירה (נשים לב שהנגזרת בהכרח תהיה אי שלילית במקרה העולה ו אי חיובית במקרה היורד).

נוכל להוכיח באמצעות עוצמות שפונקציות אלה הן הפיכות תמיד כלומר קיימת פונקצייה הופכית ל g כך

y=g(x)x=h(y)

ו h היא ההופכית.

אם h היא גזירה גם כן אז ה PDF של Y באזור שבו fY(y)>0 תהיה

fY(y)=fX(h(y))|dhdy(y)|

המשמעות של מה שבתוך הערך המוחלט היא שגוזרים את h לפי המשתנה y .

ההוכחה לכך נובעת מהעובדה ש

FY(y)=P(g(X)y)=P(Xh(y))=FX(h(y))

קל לראות בתמונה למטה למה המעבר השני נכון

Pasted image 20230126205419.png|450

כעת אם נבצע גזירה על הנ״ל נקבל מכלל השרשרת

fY(y)=fX(h(y))h(y)=fX(h(y))|dhdy(y)|

הסיבה לערך המוחלט היא בגלל הטיפול במקרה שבו הפונקצייה מונוטונית יורדת ולכן הנגזרת היא אי חיובית אבל זה טיפול דומה למקרה להוכחה על הפונקצייה הליניארית, פשוט עובדים עם 1FX(h(y)) ומבצעים על זה גזירה.

Info

אם נרצה להסתכל על PDF במונחים של הסתברויות של אינטרוולים קטנים מאוד ששואפים ל0 אז הנוסחה הנ״ל נראת כבר יותר אינטואיטיבית
Pasted image 20230126211027.png|350

קונבולוצייה

ישנם מקרים שבהם מפעילים פונקצייה Z על שתי משתנים מקריים X,Y , גם במצב זה התהליך של שתי השלבים שדיברנו עליו לא משתנה באופן משמעותי.
אנחנו נגע במקרה פרטי של מצב כזה שהוא הסכום של שתי משתנים מקריים בלתי תלויים . כלומר במצב שבו

Z=X+Y

עבור X,Y בלתי תלויים.

המקרה הבדיד

כדי לקבל תובנה יותר עמוקה של הסוגייה הזאת, נכנס קודם כל למקרה הבדיד כלומר נבין מה קורה ל PMF במצב הזה.

במקרה הבדיד המתאר את הנ״ל יתקיים

pZ(z)=P(X+Y=z)=(x,y)|x+y=zP(X=x,Y=y)=xP(X=x,Y=zx)=xpX(x)pY(zx)

המעבר השני נובע בגלל איך שהגדרנו חישוב של פונקציות על מספר משתנים מקריים בדידים .

התוצאה הסופית שקיבלנו על pZ נקראת קונבולוצייה של ה PMF של X,Y .

Pasted image 20230126212911.png|400
ההסתברות pZ(3) היא בעצם סכום כל הנקודות במרחב שסכומן הוא 3 שאלה הנקודות שנמצאות למעלה. ההסתברות של נקודה כללית כזאת היא:

pX,Y(x,3x)=pX(x)pY(3x)

הקונבולוצייה מאפשרת לנו בעצם לקבל ערך בודד שמייצג את ההתפזרות של הנקודות הרצויות שלנו לכן זה גם נקרא קונבולוצייה- סוכמים את כל ההסתברויות שמקיימות נתון רצוי לכדי תוצאה בודדת שתמודל ב Z כערך כלשהו.

Info

דוגמה קלאסית לזה היא בעיבוד תמונה כאשר סוכמים קבוצת ערכים של פיקסלים לכדי ערך בודד שמייצג מידע מסויים על הפיקסלים שסכמנו.

המקרה הרציף

המקרה הרציף ייראה אומנם כתהליך מורכב יותר, אבל בסופו של דבר נרצה להגיע לאותה תוצאה, סכימה של נקודות שמקיימות תנאי מסויים, כלומר נרצה למצוא את ה PDF של Z=X+Y , תיכף גם נראה שלמעשה נגיד לאותה התוצאה בידיוק פשוט בתצורה של אינטגרל ולא בתצורה של סכום.

אם כן עבור X,Y משתנים רציפים בלתי תלויים יתקיים

P(Zz|X=x)=P(X+Yz|X=x)=P(x+Yz|X=x)=P(x+Yz)=P(Yzx)

המעבר השלישי נובע מ אי תלות של משתנים רציפים. נשים לב שזה אומר ש FZ|{X=x}(z|x)=FY(zx) ולכן בביצוע אינטגרצייה על שני האגפים נקבל fZ|X(z|x)=fY(zx) . נשתמש ב חוק הכפל :

fX,Z(x,z)=fX(x)fZ|X(z|x)=fX(x)fY(zx)

וסך הכל מהחילוץ של ה PMF השולי נקבל

fZ(z)=fX,Z(x,z)dx=fX(x)fY(zx)dx
Info

דרך נוספת להוכיח את זה היא על ידי הנוסחה fX+b(x)=fX(xb) אבל לא אפרט את ההוכחה כאן שכן היא מאוד דומה לנ״ל. כמו כן מהמשפט הנ״ל משתמע שגם הפרש של משתנים מקריים מתנהג באופן דומה לחיבור שכן XY יקיים ש fY(y)=fY(y) כלומר אפשר להסתכל על Z=X+(Y) ולהשתמש במשפט כדי לקבל במקום fY(zx) את fY(xz)

שימו לב שזה מאוד דומה לנוסחה במקרה הבדיד פשוט מחליפים סכום באינטגרל ו PMF ב PDF . כיוון שהמשמעות היא די זהה, במקום לסכום מספר בדיד של נקודות סוכמים מספר אינסופי של נקודות שמקיים את זה.

Pasted image 20230127000716.png|350
מההבנה שההסתברות של הקו הזה היא המאורע P(zX+Yz+δ)fZ(z)δ כפי שכבר ראינו בעבר שימוש בדומה במקומות אחרים. נוכל לחלץ את הנוסחה הנ״ל.

דוגמה:
עבור X,Y משתנים בלתי תלויים שמתפלגים באופן אחיד באינטרוול [0,1] הסכום Z=X+Y יהיה:

fZ(z)=fX(x)fY(zx)dx

האינטגרנל fX(x)fY(zx) הוא שונה מ0 ושווה ל 1 עבור 0x1  and  0zx1 .על ידי קיבוץ של שתי אי השיוויונות האלה האינטגרנד יהיה שונה מ 0 עבור

max(0,z1)xmin(1,z)

באמצעות המידע שיש לנו אנחנו יודעים להגיד ש z[0+x,1+x]=[0,2] כלומר זה הטווח המקסימלי של ערכי z.

סך הכל יתקיים

fZ(z)={min(1,z)max(0,z1)z[0,2]0else

כאשר

fX(x)fY(zx)dx=max(0,z1)min(1,z)fX(x)fY(zx)dx=max(0,z1)min(1,z)11dx=[x]max(0,z1)min(1,z)=min(1,z)max(0,z1)

הצורה המתקבלת היא המשולש הנ״ל
Pasted image 20230127012058.png|400
הגרף הזה בעצם מתאר לנו פונקצייה שהשטח שלה הוא בידיוק ״סכימת הנקודות״ שמקיימות את הדרוש והשטח זה ההסתברות של נקודה (x,y) לקיים שסכומה הוא מספר ב [0,2].

סכום של שתי משתנים נורמליים

יהי X,Y משתנים מתפלגים נורמלית בלתי תלויים עם תוחלת μx,μy ושונות σx2,σy2 בהתאמה ויהי Z=X+Y נקבל :

fZ(z)=12πσxe(xμx)22σx212πσy2e(zxμy)22σy2dx

לא אפרט את הליך החישוב את התוצאה הסופית תהיה

fZ(z)=12π(σx2+σy2)e(zμxμy)22(σx2+σy2)

מה שחשוב לשים לב כאן היא שהתוצאה היא משתנה מתפלג נורמלית עם תוחלת μx+μy ושונות σx2+σy2 . כלומר הסכום של שתי משתנים נורמלים הוא משתנה נורמלי בעצמו . מהמסקנה שהגענו עליה על הפעלת פונקצייה ליניארית על משתנה נורמלי נקבל סך הכל ש

aX+bY

הוא גם כן משתנה נורמלי עבור a0 וסקלר b.

חישוב גרפי של הקונבולוצייה

נרצה להבין באופן גרפי מה קורה ב fZ(z) בהינתן קלט כלשהו z ביחס לגרפים שממנה היא בנויה. אם כן נשתמש במשתנה סתמי t כקלט של שתי הפונקציות ונסתכל על fX(t),fY(t) . עבור ערך z אנחנו יודעים שהערך שלה בגרף יהיה.

fZ(z)=fX(t)fY(zt)dt

החישוב הגרפי יבוצע בשלבים הבאים:

א) נסתכל על fY(zt) כפונקצייה של t ונבנה לה גרף. הצורה שלה תהיה זהה כשל fY(t) חוץ מהעובדה שהיא מתהפכת בציר ה x ואז היא עוברת הזזה לפי z. אם z>0 היא זזה לימין אחרת היא זזה לשמאל.

ב) נשים את הפונקצייה הנ״ל ואת fX(t) אחד על השני ובונים את ההרכבה שלהם.

ג) מחשבים את הערך של fZ(z) על ידי חישוב האינטגרל של פונקציית ההרכבה משתי ההגרפים שבנינו.

Pasted image 20230127115659.png|400
בהינתן ערך של z כלשהו השטח שנמצא בשרטוט התחתון ביותר ייתן את ערך הפונקצייה fZ(z)

שונות משותפת ומתאם

נרצה להשתמש בכלי מדיד שיאפשר לנו לאמוד את ה״עוצמה״ וה״כיוון״ של קשר בין שתי משתנים מקריים.

השונות המשותפת של X,Y מוגדרת להיות

cov(X,Y)=E[(XE[X])(YE[Y])]

כאשר cov(X,Y)=0 נומר ש X,Y הם בלתי משוייכים. הסימן של ה cov עונה על השאלה האם XE[X] ו YE[Y] הם עם אותו סימן או סימן הפוך.

Pasted image 20230127122045.png|450
עבור X,Y כמו בתמונה, שמתפלגים באופן אחיד באליפסות הנתונות (כל אליפסה מייצגת ניסוי אחר) ניתן לראות שבתמונה השמאלית X הסטייה ממרכז המסה של X,Y הם באותו כיוון כלומר ככל ש X גדל מהתוחלת שלו כך גם Y גדל מהתוחלת שלו, במצב זה ה שונות המשותפת תהיה גדולה מ0. במצב השני בתמונה הימנית זה הפוך, ככל ש X גדל ממרכז המסה שלו שלו ככה Y הולכים וקטנים ממרכז המסה שלהם ולכן השונות המשותפת תהיה שלילית. הסיבה שההתפזרויות הנ״ל הן שליליות או חיוביות נובע ישירות מההגדרה שמבקשת את הכפל של מרחק של משתנה מסויים מהתוחלת כפול המרחק של השני ולכן האופן שבו הנקודות מתפזרות הוא קריטי.

נוסחה שקולה תהיה

cov(X,Y)=E[XY]E[X]E[Y]

הוכחה:

E[(XE[X])(YE[Y])]=E[XYXE[Y]YE[X]+E[Y]E[X]]=E[XY]E[Y]E[X]E[Y]E[X]+E[Y]E[X]=E[XY]E[Y]E[X]

Pasted image 20230129225130.png|300
כאן ניתן לראות שגם פיזור הנקודות על גבי הרבעים משפיע על E[XY] שיכול להשפיע על הסימן של התוחלת הנ״ל. הדוגמה זהה בתכליתה לתמונה למעלה רק שכאן זה מצב שבו התוחלת של X או של Y או של שניהם היא 0 ואז מה שמשפיע על הסימן הוא הכפל בין ערכי הנקודות והפיזור שלהם לאורך הרבעים של הציר האנכי והאופקי..

תכונות השונות המשותפת

cov(X,Y)=cov(Y,X)cov(X,X)=var(X)cov(X,aY+b)=acov(X,Y)cov(X,Y+Z)=cov(X,Y)+cov(X,Z)cov(X+Y,Z)=cov(X,Z)+cov(Y,Z)cov(X,a)=0cov(X,aX+b)=avar(X)

כמו כן בהינתן ש X,Y בלתי תלויים אנחנו יודעים ש E[XY]=E[X]E[Y] ולכן יתקיים cov(X,Y)=0 . כלומר אם X,Y בלתי תלויים הם גם בלתי משוייכים. נשים לב שההפך לא בהכרח נכון , נראה זאת בדוגמה:

הזוג של המשתנים המקריים (X,Y) לוקח את הערכים (1,0),(0,1),(1,0),(0,1) . כל אחד בהסתברות 14 .

Pasted image 20230127135920.png|200

אם כן קל לראות שה PMF השולי של X,Y סימטרי סביב 0 ולכן התוחלת של שתי המשנים היא 0 . כמו כן נשים לב שלכל נקודה שנבחר יתקיים XY=0 ולכן E[XY]=0 , לכן

cov(X,Y)=E[XY]E[X]E[Y]=0

כלומר X,Y הם בלתי משוייכים. עם זאת, X,Y תלויים אחד בשני , אין סיבה כלל לבצע פה הליך חישובי כדי לראות זאת שכן

P(X=0)=12

אבל

P(X=0|Y=1)=1
התפזרות הערכים כאשר השונות המשותפת היא 0:

Pasted image 20230127150330.png|200

מקדם המתאם של פירסון

נגדיר את מקסם המתאם ρ(X,Y) של שתי משתנים מקריים עם שונות שונה מ0 על ידי:

ρ(X,Y)=cov(X,Y)var(X)var(Y)

זאת מעין גרסה מנורמלת של השונות המשותפת ולמעשה לא נוכיח זאת כאן אבל ρ מקבל ערכים בין 1,1 . ההתנהגות של מקדם המתאם כאשר הוא שונה מ0 זהה במשמעותה למה שהשונות המשותפת הייתה מראה לנו ההבדל הוא שהיא נותנת לנו מידע ללא תלות ביחידות מידע למשל אם X,Y נמדדים במטרים אז השונות המשותפת נמדדת ב מטר מרובע ולכן זה יכול להפריע לתהליכים חישוביים שמשלבים בין השניים, לעומת זאת מקדם המתאם אינו תלוי ביחידות מידה , הוא יישאר במטרים.

באופן דומה נשמרת התכונה שאם המשתנים בלתי תלויים אז ρ=0 ולכן הם בלתי משוייכים .

אם כן, הגודל |ρ| מספר לנו גרסה מנורמלת של השונות המשותפת בהינתן שאין לאף אחד מהמשתנים שונות ששווה ל0 (במצב זה המשתנה המקרי שקול לקבוע ואז מקדם המתאם אינו מוגדר היטב).

משפט:
ρ=±1 אם ורק אם קיים קבוע c כך ש

YE[Y]=c(XE[X])

המקרה הכי קל יהיה

ρ(X,X)=cov(X,X)1var(X)=var(X)var(X)=1

וכמו ש

XE[X]=1(XE[X])

(באופן דומה על ρ(X,X)=1)

דוגמה:
נניח שמטילים מטבע n הטלות עם הסתברות ל head ששווה ל p . יהי X,Y מספר ה heads וה tails בהתאמה. נחפש את השונות המשותפת של X,Y כאשר X+Y=n וגם E[X]+E[Y]=n (כי כל אחד מהם מתפלג גיאומטרית) .

דרך אחת להוכיח את זה:

E[X+Y]=E[n]=n  and  E[X]+E[Y]=E[X+Y]

דרך נוספת:

E[X]+E[Y]=np+n(1p)=np+nnp=n

אם כן יתקיים מהעברת אגפים סטנדרטית :

XE[X]=(YE[Y])

כעת נחשב את השונות המשותפת של שניהם :

cov(X,Y)=E[(XE[X])(YE[Y])]=E[(XE[X])2]=var(X)

לאחר נרמול נקבל כמובן ρ(X,Y)=1 .

השונות של סכום של משתנים מקריים

נוכל להשתמש בשונות המשותפת כדי לקבל נוסחה על השונות של סכום של מספר משתנים מקריים.
נניח ש X1,X2,,Xn הם משתנים מקריים עם שונות סופית אזי :

var(X1+X2)=var(X1)+var(X2)+2cov(X1+X2)

הוכחה:

ויתקיים

var(X+Y)=cov(X+Y,X+Y)=cov(X,X)+cov(X,Y)+cov(Y,X)+cov(Y,Y)=var(X)+2cov(X,Y)+cov(Y,Y)

ובאופן כללי יותר

var(i=1nXi)=i=1nvar(Xi)+{(i,j) | ij}cov(Xi,Xj)

הוכחה:

נסמן Xi^=XiE[Xi] ויתקיים

var(i=1nXi)=E[(i=1nXi^)2]=E[i=1nj=1nXj^]=i=1nj=1nE[Xi^Xj^]=i=1nE[Xi2^]+(i,j) | ijE[Xi^Xj^]=i=1nvar(Xi)+(i,j) | ijcov(Xi,Xj)

דוגמה:
נניח ש n אנשים זורקים את הכובכים שלהם בקופסה ומוציאים את הכובע מהקופסא באקראי. נמצא את השונות של X על ידי מידול של n ניסויי ברנולי

X=X1++Xn

כאשר Xi מקבל 1 אם האדם ה i הוציא את הכובע שלו בהסתברות 1n ואחרת 0.

נקבל אם כן

E[Xi]=1n  var(Xi)=1n(11n)

עבור ij נקבל

cov(Xi,Xj)=E[Xi,Xj]E[Xi]E[Xj]=P(Xi=1 and Xj=1)1n2=P(Xi=1)P(Xj=1|Xi=1)1n2=1n1n11n2=1n2(n1)

וסך הכל:

var(X)=var(i=1nXi)=i=1nvar(Xi)+{(i,j) | ij}cov(Xi,Xj)

נציב את מה שקיבלנו

n1n(11n)+n(n1)1n2(n1)=1