#probability #computer_science

איחוד PDF ו CDF של מספר משתנים רנדומיים

JOINT PDF

בדומה ל Joint PMF נרצה להרחיב את המודל של משתנים מקריים רציפים למספר משתנים רנדומיים.

נאמר ששתי משתנים מקריים רציפים שמקושרים לאותו ניסוי הם רציפים באופן מאוחד. ניתן לתאר אותו כ joint PDF ומסומן גם $f_{X Y}$ בהינתן שזאת פונקצייה אי שלילית שמקיימת לכל תת קבוצה של $B$ במישור הדו מימדי:

P ((X, Y) \in B) = \int_{(x, y) \in B} \int f_{X Y} (x, y) d x d y

האנוטציה הזאת מגיעה מ אינטגרלים כפולים וזה אומר שהפונקצייה אינטגרבילית בקטע הזה. במקרה הספציפי שיש לנו מרובע מהצורה

B = {(x, y) | a \leq x \leq b, c \leq y \leq d}

יתקיים :

P (a \leq X \leq b \cap c \leq Y \leq d) = \int_{c}^{d} \int_{a}^{b} f_{X, Y} (x, y) d x d y

אם נרצה ש $B$ יהיה כל המישור הדוד מימדי נקבל מתכונת הנורמלזיצייה

\int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x d y = 1

Pasted image 20230111194920.png|200
כמו שבמקרה הרציף של משתנה בודד היינו אומרים שהסתברות היא שטח, פה הסתברות היא נפח. כלומר השטח במישור למטה הוא הקבוצה שאנחנו מחפשים והערכים שמקבלים , מה שלמעלה זה ערכי הפונקצייה והנפח זה ההסתברות
כדי לקבל אינטואצייה על ה PDF המשותף, נגיד $δ$ להיות מספר חיובי קטן מאוד ונסתכל על ההסתברות של מלבן קטן

P (a \leq X \leq a + δ, c \leq Y \leq c + δ) = \int_{c}^{c + δ} \int_{a}^{a + δ} f_{X, Y} (x, y) d x d y ≃ f_{X, Y} (a, c) \cdot δ^{2}

אם כן, נוכל להסתכל על $f_{X, Y} (a, c)$ כ ״הסתברות ביחס ליחידת שטח״ בסביבה של $(a, c)$ .
הPDF המשותף מכיל את כל המידע ההסתברותי הרלוונטי על המשתנים המקריים $X, Y$ והתלויות שלהם.
זה מאפשר לנו לחשב את ההסתברות של כל מאורע שיכול להיות מוגדר במונחים של שתי המשתנים המקריים האלו. נוכל גם לחשב את הPDF השולי כלומר של כל אחד מהמשתנים הללו בנפרד על ידי:

P (X \in A) = P (X \in A a n d Y \in (- \infty, \infty)) = \int_{A} \int_{- \infty}^{\infty} f_{X, Y} (x, y) d y d x

השיוויון השני נובע מתכונת הנורמליזצייה שהמאורע $P (Y \in (- \infty, \infty)) = 1$ ולכן אין באמת חשיבות בחיתוך שתי המאורעות. אם כן, נוכל להשוות את הנ״ל עם

P (X \in A) = \int_{A} f_{X} (x) d x

ונקבל שה PDF השולי $f_{X}$ הינו

\int_{A} f_{X} (x) = \int_{A} \int_{- \infty}^{\infty} f_{X, Y} (x, y) d y

כלומר הביטויים שבתוך האינטגרל שקולים (נובע מ המשפט היסודי) לכן:

f_{X} (x) = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d y

באופן דומה נקבל

f_{Y} (y) = \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x

מה הרעיון מאחורי ההוכחה הנ״ל?

אנחנו מבצעים ״אינטגרצייה החוצה״ של ערכי $x$ או $y$ תלוי מה נרצה לקבל. זה כמו שבעולם הבדיד סכמנו את כל הזוגות $(x, y)$ שהתאימו לנו כדי לקבל הסתברות של אחד מהם. אז כאן מבצעים אינטגרצייה של כל ערכי $x$ האפשריים (מסתכלים עליהם כקבוע) עם הנעלם $y$ כלומר מסתכלים עליה כפונקצייה במישור הדו מימדי ומחשבים את השטח בהינתן ש $x$ קבוע. אפשר לדמיין את זה קצת כמו for loop ממינוס אינסוף עד אינסוף שאוסף את כל הקטעים שאנחנו מצליחים למצוא לאורך $x$ מסויים.
למשל:
Pasted image 20230112204451.png|200
אם נרצה לחשב מהו $f_{X}$ עבור ערך $x$ כלשהו בין $1, 2$ נרוץ על הקו שציירנו ואיפה שיש ״אפור״ אנחנו מתחילים לסכום את השטח לכן רק מלהביט בציור אנחנו יכולים להגיד שהצבירה של השטח לאורך הקו הנ״ל יהיה $\frac{3}{4}$ ולכן זה יהיה ערך $f_{X} (x)$ כאשר $x \in [1, 2]$ .

PDF משותף אחיד

רומאו ויוליה יוצאים לדייט בזמן כלשהו, כל אחד מהם יגיע למקום המפגש באיחור קל של בין $0$ ל $1$ שעות (תרגיל דומה הוצג ב התפלגות אחידה רציפה).
יהי $X, Y$ מהווים את האיחוד של רומאו ויוליה בהתאמה. בהנחה שכל זוג $(x, y)$ הוא שווה הסתברות לזוג אחר, מודל הסתברותי עם pdf משותף ייראה ככה

f_{X, Y} (x, y) = {\begin{cases} c & 0 \leq x \leq 1 a n d 0 \leq y \leq 1 \\ 0 & e l s e \end{cases}

כאשר $c$ הוא קבוע כלשהו. נבדוק מה צריך להיות ערכו בהינתן שתכונת הנורמליזצייה תתקיים:

\int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f_{X, Y} (x, y) d x d y = \int_{0}^{1} \int_{0}^{1} c \cdot d x d y = 1

זה יתקיים רק אם $c = 1$ .
אם כן קיבלנו דוגמה לPDF אחיד משותף.
באופן כללי, לכל תת קבוצה $S$ במישור הדו מימדי, הPDF המשותף האחיד על S יהיה

f_{X Y} (x, y) = {\begin{cases} \frac{1}{area(S)} & (x, y) \in S \\ 0 & e l s e \end{cases}

ולכל $A \subset S$ ההסתברות ש $(X, Y)$ נמצא ב $A$ תהיה

P ((X, Y) \in A) = \int_{(x, y) \in A} \int f_{X, Y} (x, y) d x d y = \frac{1}{area(S)} \int_{(x, y) \in A} \int d x d y = \frac{area(A)}{area(S)}

בעצם נוכל להסתכל על זה באופן כזה ש $S$ הוא השטח הנמצא במשטח הדו מימדי ועלינו למצוא קבוע ככה שהנפח במישור התלת מידי יהיה 1. הסיבה שעלינו למצוא קבוע כזה היא שאנחנו יודעים שמתכונת הנורמליזצייה הנפח תמיד חייב להיות אחד וההתפלגות אחידה לכל אורך השטח הזה לכן לא משנה איזה מקטע ניקח הגובה שנצטרך לחשב כדי לקבל 1 תמיד יהיה אותו דבר והוא יהיה $\frac{1}{area(S)}$ .
Pasted image 20230112201428.png|200
באופן דומה נוכל לדמיין את ההסתברות של $X, Y$ להיות בשטח מסויים $A$ באופן הויזואלי הבא
Pasted image 20230112201746.png|200
כלומר $area (A \cap S) / area(S)$ (זוהי הכללה למה שאמרנו למעלה עבור קבוצה שמוכלת ב $S$ ) .

דוגמה נוספת:
נניח ואנחנו יודעים שה PDF המשותף של שתי משתנים מקריים $X, Y$ הוא קבוע $c$ כאשר הערכים הם על הקבוצה $S$ במישור הדו מימדי שנראה כך
Pasted image 20230112200115.png|250
אחרת הפונקצייה מחזירה $0$ . כלומר לפי ההתפלגות האחידה שדיברנו עלי $f_{X, Y} (x, y) = c = \frac{1}{4}$ לכל $(x, y) \in S$ .
במרחב התלת מידי אנחנו בעצם מגביהים את הצורה שיצרנו באופן כזה שהנפח יהיה $1$ .
Pasted image 20230112202141.png|200
כעת אם נרצה לחשב את ה PDF השולי של $X, Y$ למשל $f_{X} (x)$ עבור $x$ כלשהו ננסה לחשב לפי הנוסחה על האינטגרל של הPDF המשותך ממינוס אינסוף עד אינסוף ביחס ל dy.
אם כן כאשר $y$ שואף לאינסוף ומינוס אינסוף נוכל לחלק את השטח $S$ לשתיים ונקבל
Pasted image 20230112204451.png|200
כלומר כאשר $x$ הוא בתחום שבין 1,2 השטח יהיה $3$ כלומר הוא מהווה $\frac{3}{4}$ מהשטח של $S$ .
כאשר $x$ הוא בתחום שבין 2,3 נקבל תרומהשל $1$ לשטח של $S$ כלומר השטח היה $\frac{1}{4}$ .
בכל שאר המקרים השטח הוא $0$ . אם כן זה ייראה כך :
Pasted image 20230112204826.png|200
באופן דומה אם נבחן מה קורה עבור ה PDF השולי של $y$ , נשאיף את $x$ לאינסוף ומינוס אינסוף ונקבל שהאינטגרל של הPDF המשותף בטווח לפי dx ימודל כך
Pasted image 20230112204953.png|200
כלומר כאשר $y$ הוא בתחום שבין $1$ ל $2$ נקבל תרומה של $1$ לשטח כלומר השטח הוא $\frac{1}{4}$ כאשר אנחנו בין $2 - 3$ נקבל $\frac{2}{4}$ ובין 3 ל 4 שוב $\frac{1}{4}$
סך הכל זה ייראה ככה
Pasted image 20230112205156.png|200

נשים לב למשהו לא אינטואיטיבי שככל שהשטח שאנחנו עובדים איתו קטן יותר בהתפלגות אחידה, ככה נקבל שהערך שפונקציית הצפיפות תחזיר גדולה יותר! הסיבה נובעת מתכונת הנורמליזצייה שדורשת שהנפח יהיה 1 כלומר על מנת שזה יתקיים ככל שהשטח קטן יותר ערך הפונקצייה המוחזר חייב להיות גדול יותר . זה מאוד דומה גם לנוסחה של התפלגות אחידה רציפה עם משתנה אחד $\frac{1}{b - a}$ ככל שהקטע קטן יותר ככה ההסתברות שהפונקצייה תחזיר גדולה יותר.

Buffon's Needle

זאת דוגמה מפורסמת , שמדגימה גם את המקור של הסוגייה הקשורה בהסתברות גיאומטרית. כלומר, הניתוח של קונפיגורצייה גיאומטרית של אובייקטים שממוקמים באופן רנדומי במרחב.
על משטח מסומנים ישרים מקבילים במרחק $d$ אחד מהשני. נניח שאנחנו זורקים מחט באורך $l$ על המשטח במיקום אקראי, מה הסיבוי שהמחט תיחתך עם אחד הקווים?
Pasted image 20230118003657.png|300
נניח גם ש $l < d$ כדי שהמחט לא תחתוך את שתי הישרים ביחד. נגיד את $X$ להיות המרחק האנכי מאמצע המחט לקו הכי קרוב. נגדיר את $Θ$ להיות הזווית החדה הנוצרת בין המחט לקו המקביל.
נמדל את זוג המשתנים המקריים $(X, Θ)$ עם PDF משותף המוגדר על הקבוצה המלבנית:

{(x, θ) | 0 \leq x \leq \frac{d}{2}, 0 \leq θ \leq \frac{π}{2}}

כמו כן נשים לב שמדובר בהתפלגות אחידה שכן בחירה של $x$ ו $θ$ נבחרים בהתפלגות אחידה בתוך התחומים שלהם.
סך הכל מהגדרה של התפלגות אחידה נקבל

f_{X, Θ} (x, θ) = {\begin{cases} \frac{4}{d π} & 0 \leq x \leq \frac{d}{2}, 0 \leq θ \leq \frac{π}{2} \\ 0 & e l s e \end{cases}

נשים לב מהשרטוט למעלה שהמחט תיחתך עם אחד הקווים אם ורק אם

X \leq \frac{1}{2} l \cdot \sin Θ

Pasted image 20230118012334.png|300

אם כן נחשב

\begin{matrix} P (X \leq \frac{l}{2} \sin Θ) = \int_{x \leq \frac{l}{2} \sin θ} \int f_{X, Θ} (x, θ) d x d θ \\ = \frac{4}{d π} \int_{0}^{\frac{π}{2}} \int_{0}^{\frac{l}{2} \sin θ} d x d θ \\ = \frac{4}{π \cdot d} \int_{0}^{\frac{π}{2}} \frac{l}{2} \sin θ d θ \\ = \frac{2 l}{d π} (- \cos θ) |_{0}^{\frac{π}{2}} = \frac{2 l}{d π} \end{matrix}

נשים לב שע"פ החישוב מתקיים:

P = \frac{2 l}{d π} \to π = \frac{2 l}{d}

מכאן מתקבל קירוב אמפירי ל $π$ .

CDF משותף

אם $X, Y$ הם שתי משתנים מקריים שמשוייכים לאותו ניסוי, נגדיר את ה CDF המשותף שלהם כך

F_{X, Y} (x, y) = P (X \leq x, Y \leq y) = \int_{- \infty}^{x} \int_{- \infty}^{y} f_{X, Y} (s, t) d t d s

אם כן מהמשפט היסודי של האינטגרל אנחנו יכולים להסיק ש

f_{X, Y} (x, y) = \frac{\partial^{2} F_{X, Y}}{\partial x \partial y} (x, y)

כאשר $\partial$ זה מסמן נגזרת חלקי והחזקה ריבועית סך הכל אומר שמבצעים נגזרת חלקית פעמיים, פעם אחת לפי $x$ ולאחר מכן לפי $y$ .

לדוגמה: אם יתקיים ש $\forall_{0 \leq x, y \leq 1} : F_{X, Y} (x, y) = x y$ אזי

f_{X, Y} (x, y) = \frac{\partial^{2} F_{X, Y}}{\partial x \partial y} = \frac{\partial^{2} (x y)}{\partial x \partial y} = \frac{\partial}{\partial y} y = 1

Pasted image 20230123143853.png|300

תוחלת משותפת

אם $X, Y$ הם משתנים מקריים רציפים מאוחדים ו $g$ היא פונקצייה כלשהי על משתנים אלו.
יתקיים ש $Z = g (X, Y)$ היא גם משתנה מקרי.
התוחלת של $Z$ תהיה

E [g (X, Y)] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} g (x, y) f_{X, Y} (x, y) d x d y

וזה כמובן מוביל למקרה הפרטי של הפונקצייה הליניארית:

E [g (X, Y)] = E [a X + b Y + c] = a E [X] + b E [Y] + c

הכללה למספר משתנים מקריים

ה PDF המשותף של שלושה משתנים מקריים $X, Y, Z$ מוגדר באופן דומה למקרה של שתי משתנים מקריים רציפים:

P ((X, Y, Z) \in B) = \underset{(x, y, z) \in B}{\int \int \int} f_{X, Y, Z} (x, y, z) d x d y d z

באופן דומה למקרה של שתי משנים נוכל לחלץ את הפונקציות השוליות

\begin{matrix} f_{X, Y} (x, y) = \int_{- \infty}^{\infty} f_{X, Y, Z} (x, y, z) d z \\ f_{X} (x) = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} f_{X, Y, Z} (x, y, z) d y d z \end{matrix}

התוחלת תקיים:

E [g (X, Y, Z)] = \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} \int_{- \infty}^{\infty} g (x, y, z) f_{X, Y, Z} (x, y, z) d x d y d z

והמקרה הפרטי הליניארי:

E [g (X, Y, Z)] = E [a X + b Y + c Z] = a E [X] + b E [Y] + c E [x]

כמובן שנוכל להכליל את הנוסחה של התוחלת הנ״ל באופן ברור עבור $X_{1}, X_{2}, \dots, X_{n}$ משתנים מקריים רציפים:

E [\sum_{i = 1}^{n} a_{i} X_{i}] = \sum_{i = 1}^{n} a_{i} E [X_{i}]