#probability #computer_science

CDF פונקציית ההתפלגות המצטברת

נרצה דרך לחבר בין משתנים מקרים בדידים לבין משתנים מקרים רציפים כי עד כה התייחסנו אליהם באופן שונה עם הגדרת ה PMF וה PDF .
כאן נכנסת לתמונה פונקציית ההתפלגות המצטברת. הCDF של משתנה רנדומי $X$ מוגדרת על ידי $F_{X}$ ומספקת לנו את ההסתברות $P (X \leq x)$ . היא מוגדרת להיות כך

F_{X} (x) = P (X \leq x) = {\begin{cases} \sum_{k \leq x} p_{X} (k) & if X is discrete \\ \int_{- \infty}^{x} f_{X} (t) d t & if X is continuous \end{cases}

נשים לב ש $x \in R$ כלומר הוא ערך ממשי כלשהו ולא רק ערך של הפונקצייה $X$ .

באופן מופשט למדי, ה CDF ״צוברת״ את ההסתברות ״עד ל״ ערך $x$ .
כל משתנה רנדומי שמשוייך למודל הסתברותי מקיים שיש לו CDF, בלי קשר להיותו רציף או בדיד. כמובן שזה בגלל ש ${X \leq x}$ זה מאורע בכל מודל הסתבורתי ויש לו הסתברות מוגדרת היטב.

כאן ניתן לראות איך פונקציית ההתפלגות המצטברת נראת עבור משתנים רנדומיים בדידים.
Pasted image 20221218025342.png|350
ניתן לראות שיש לה מאין צורת מדרגות כזאת, כאשר הקפיצות מתרחשות כל פעם שבפונקציית מסת ההסתברות מצטרף ערך חדש. הקפיצה מתארת את התוספת של חיבור ההסתברות שמתקבלת מפונקציית מסת ההסתברות עבור הערך הזה, אם כן כשנחבר את כולם תמיד נסיים ב $1$ כלומר $1$ הוא חסם עליון/מקסימום של הפונקצייה. קל גם לראות שזאת פונקצייה מונוטונית עולה שאינה רציפה עם נקודות אי רציפות מסוג קפיצה.

נסתכל גם מה קורה במקרה הרציף על התפלגות אחידה והתפלגות נוספת..
Pasted image 20221218025737.png|350

ה CDF של התפלגות אחידה

ניתן לראות שזה בעצם השטח מנקודת ההתחלה $a$ עד הערך שאותו רוצים לחשב בפונקציית ה $C D F$ כלומר $x$ כלשהו.. ולכן אם נציב בנוסחה נקבל

\int_{a}^{x} f_{X} (t) d t = \frac{x - a}{b - a}

נשים לב שבמקרה הרציף פונקציית ה CDF היא בעצם הפונקצייה הקדומה ל $f_{X} (x)$ כלומר פונקציית השטח כמו כן ניתן לראות מהגרפים למעלה שאכן היא מתארת את השטח שגדל ככל שמכניסים עוד ערכים של $x$ .
נוכל להשיג את $f_{X} (x)$ על ידי גזירה של $F_{X} (x)$ , נובע מהמשפט היסודי .

תכונות

$F_{X}$ היא מונוטונית עולה כלומר $x \leq y \to F_{X} (x) \leq F_{X} (y)$
$F_{X} (x)$ שואפת ל $0$ כאשר $x \to - \infty$ ושואפת ל $1$ כאשר $x \to \infty$ .
אם $X$ הוא משתנה רציף אז $F_{X} (x)$ היא פונקצייה רציפה של $x$ כלומר רציפה מימין. זה גם כן נובע מהמשפט היסודי ומהאינטגרל הלא מסויים.
אם $X$ הוא בדיד ומקבל ערכים טבעיים, נוכל לחלץ את ה CDF וה PMF על ידי סכימת ההפרשים כלומר

F_{X} (k) = \sum_{i = - \infty}^{k} p_{X} (i)

p_{X} (k) = P (X \leq k) - P (X \leq k - 1) = F_{X} (k) - F_{X} (k - 1)

אם $X$ הוא רציף, ה $P D F$ וה $C D F$ מתקבלים אחד מהשני על ידי גזירה ואינטגרצייה.
$P (a \leq X \leq b) = F_{X} (b) - F_{X} (a)$

הוכחה לסעיף 6:

P (a \leq X \leq b) = 1 - P ({X < a} \cup {X > b}) = 1 - P (X < a) - P (X > b) = 1 - F_{X} (a) - 1 + F_{X} (b) = F_{X} (b) - F_{X} (a)

המעבר השלישי נובע בגלל שאם $a = b$ אז ההסתברות היא 0 ואם הם שונים אז אלו קבוצות זרות מהנתון ש $a \leq b$ .
אינטואיטיבית המשפט הזה נכון כי ההפרש המתואר הוא בידיוק השטח הכלוא בין a לb בפונקציית הצפיפות

PMF ו CDF

לעתים כדי לקבל את פונקציית מסת ההסתברות או פונקציית הצפיפות נוח יותר לחשב את CDF קודם. נתבונן בדוגמה הבאה
נניח ויש לנו אישור לגשת לבחינה 3 פעמים, והתוצאה הסופית תהיה המקסימום מבין ה3 ציונים כלומר

X = max {X_{1}, X_{2}, X_{3}}

כאשר $X$ הוא הציון הסופי וכל אחד מהאיברים הוא הציון במבחן המתאים לו. נניח שהתוצאה של כל מבחן נעה בין 1 ל 10 בהסתברות שווה של $\frac{1}{10}$ , באופן בלתי תלוי בתוצאות המבחן האחרות. מהו ה $P M F$ של הציון הסופי?

יהיה לנו במקרה הזה יותר נוח לחשב את ה cdf קודם

p_{X} (k) = F_{X} (k) - F_{X} (k - 1) where k= 1...10

אם כן

F_{X} (k) = P (X \leq k) = P (X_{1} \leq k, X_{2} \leq k, X_{3} \leq k) = P (X_{1} \leq k) P (X_{2} \leq k) P (X_{3} \leq k) = {(\frac{k}{10})}^{3}

המעבר השלישי נובע מתכונות האי תלות . אם כן, נקבל שפונקציית מסת ההסתברות היא

p_{X} (k) = {(\frac{k}{10})}^{3} - {(\frac{k - 1}{10})}^{3}

CDF של משתנה גיאומטרי ומשתנה מעריכי

בגלל ש CDF מוגדרת עבור כל סוג של משתנה רנדומי, הוא נותנת לנו אמצעי נוח בשביל לבדוק קשרים בין משתנה אקראי בדיד למשתנה אקראי רציף.
מקרה מעניין הוא הקשר בין משתנה גיאומטרי והקשר בין משתנה מקרי מעריכי .
עבור $X$ משתנה גיאומטרי עם פרמטר $p$ , כלומר, מספר ניסויי הברנולי בלתי תלויים עד הצלחה ראשונה בהסתברות $p$ .
אנחנו יודעים שעבור $k \in N$ פונקציית מסת ההסתברות תהיה $P (X = k) = p (1 - p)^{k - 1}$ וה CDF יהיה

F_{g e o} (n) = \sum_{k = 1}^{n} p (1 - p)^{k - 1} = p \cdot \frac{1 - (1 - p)^{n}}{1 - (1 - p)} = 1 - (1 - p)^{n}

כעת נניח ש $X$ הוא משתנה מקרי מעריכי עם פרמטר $λ > 0$ . ה CDF יהיה

F_{e x p} (x) = \int_{0}^{x} λ e^{- λ t} d t = e^{- λ t} |_{0}^{x} = 1 - e^{- λ x}

ננסה להבין מה הקשר בינהם על ידי השווה, נגדיר $δ = \frac{- \ln (1 - p)}{λ}$ כך שיתקיים

e^{- λ δ} = 1 - p

כעת ניתן לראות, שהפונקציות שוות לכל $x = n \cdot δ$ בעבור n טבע כלומר

F_{e x p} (n \cdot δ) = F_{g e o} (n)

ויתרה מכך הם מאוד קרובים אחד לשני עבור ערכים אחרים של $x$
Pasted image 20230103224425.png|300
ניתן לראות שככל ש $δ$ שואף ל $0$ ככה ״הגבול״ של משתנה מקרי גיאומטרי מתקרב להיות בעצם משתנה מקרי מעריכי.
נוכל לתאר זאת באופן מוחשי יותר על ידי כך שנניח שאנחנו מטילים מטבע בזמן מאוד מהיר $δ << 1$ והמטבע הוא מוטה למספר קטן מאוד עבור H: $p = 1 - e^{- λ δ}$
כעת נוכל להגיד שהזמן הראשון שבו נקבל H הוא קירוב של משתנה רנדומי מעריכי עם פרמטר $λ$ .

אם כן , נוכל לסכם את הנ״ל ולומר שיש קשר של גבול בין ההתפלגויות, כמו כן יש גם קשר תיאורתי בין השניים :
המשתנה הגיאומטרי מתאר מספר טבעי של ניסויים כושלים עד להצלחה כלשהי.
המתנה המעריכי מתאר את משך הזמן (רציף) שעבר עד להצלחה כלשהי.

כמו כן, חשוב לשים לב ששני המשתנים הם חסרי זכרון מה שמחזק עוד יותר את הקשר התאורתי בין השניים .

משתנה מקרי מעורב

מודלים הסתברותיים לרוב מערבים משתנים רנדומים שמערבים בתוכם מעין מיקס של משתנה בדיד $Y$ ומשתנה רציף כלשהו $Z$ . בכך אנחנו מתכוונים שהערך של $X$ מורכב מהחוקים ההסתברותיים הפועלים תחת $Y$ עם הסתברות $p$ ומהחוקים ההסתברותיים הפועלים תחת $Z$ עם הסתברות משלימה של $1 - p$
הרעיון הוא שיש אזורים נקודתיים במרחב שלנו שיש בהם נקודות אי רציפות ואז במקום שההסתברות של ערך בודד תהיה 0 במקרה רציף יהיה שם ערך מסויים וסכום כל ההסתברויות של הנקודות האלה יהיה המשלים של שאר השטח.

במצב זה $X$ ייקרא משתנה מקרי מעורב. וה CDF שלו ניתן לחישוב באמצעות נוסחת ההסתברות השלמה

F_{X} (x) = P (X \leq x) = p P (Y \leq x) + (1 - p) P (Z \leq x) = p F_{Y} (x) + (1 - p) F_{Z} (x)

באמצעות משפט התוחלת השלמה נקבל

E [X] = p E [Y] + (1 - p) E [Z]

נתבונן על הדוגמה הבאה:
תחנת המוניות ותחנת האוטובוס הקרובה לבית של סער נמצאים באותו המקום. סער הולך בזמן כלשהו ואם יש מונית בתחנה (זה קורה בהסתברות $\frac{2}{3}$ ) אז הוא עולה עליה. אחרת, הוא מחכה למונית או לאוטובוס, מי שמגיע ראשון. זמן ההגעה של מונית מתפלג אחיד בין $0$ ל $10$ דקות בעוד שהאוטובוס יגיע בידיוק בעוד 5 דקות.
נרצה למצוא את ה CDF והתוחלת של זמן ההמתנה של סער.

נסמן $A$ את המאורע שסער יראה מונית שמחכה בתחנה בעת הגעתו או שיעלה על האוטובוס לאחר 5 דקות. בגלל שההתפלגות אחידה על המונית אנחנו יודעים שההסתברות שהוא יעלה על האוטובוס היא שקולה להסתברות שסער יחכה יותר מחמש דקות למונית שזה $\frac{1}{2}$ בגלל שזמן ההמתנה הוא בין 0 ל 10 דקות.

אם כן אם נסתכל על האפשרויות כעץ החלטות $P (A)$ יהיה מורכב מההסתברות שהוא עלה למונית בעת הגעתו (ענף אחד בעץ) בחיבור ההסתברות שהוא לא עלה על מונית בעת הגעתו וגם חיכה יותר מ5 דקות למונית הבאה (שברור שאלו מאורעות זרים) ולכן

P (A) = \frac{2}{3} + \frac{1}{3} \cdot \frac{1}{2} = \frac{5}{6}

כעת נוכל להגדיר משתנה $Y$ בדיד שמחזיר עבור הערכים $0, 5$ את ההסתברות שסער יעלה על הסעה בזמן $0$ או $5$ אם כן נשים לב שמתקיים :

p_{Y} (0) = P (Y = 0 | A) = \frac{P (Y = 0, A)}{P (A)} = \frac{2}{3} \cdot \frac{1}{P (A)} = \frac{12}{15}

הסיבה שאנחנו רוצים לחשב בהינתן ש $A$ מתקיים היא שאנחנו חיים תחת העולם שבו עלינו או על האוטובוס לאחר חמש דקות או על המונית בידיוק איך שהגענו כלומר רצינו ששתי הערכים $0, 5$ של הפונקצייה ישלימו אחד את השני , לפי תכונות ה PMF. אם כן כיוון שאין עוד ערכים יתקיים

p_{Y} (0) + p_{Y} (5) = 1 \to p_{Y} (5) = \frac{3}{15}

כמובן ש $p_{Y} = 5$ זה ההסתברות $P (Y = 5 | A)$ ..

נשים לב ש $1 - P (A)$ זה הסתברות שממודלת כמשתנה רציף בהתפלגות אחידה נסמנו $Z$ (מייצג את זמן העלייה למונית כאשר זמן ההמתנה הוא בין $0$ ל $5$ דקות ).

כעת נחשב את פונקציית ההתפלגות המצטברת בהינתן $x$ זמן ההמתנה

F_{X} (x) = P (A) F_{Y} (x) + (1 - P (A)) F_{Z} (x)

נחשב את ערכי הפונקצייה הנ״ל לפי תחומי ה $x$ :

F_{X} (x) = {\begin{cases} 0 & x < 0 \\ \frac{5}{6} \cdot \frac{12}{15} + \frac{1}{6} \cdot \frac{x}{5} & x \in [0, 5] \\ 1 & x \geq 5 \end{cases}

האמצעי נובע מחישוב ה CDF לפי סוג המשתנה, למשל האגף הימני של החישוב יהיה

\int_{- \infty}^{x} f_{X} (t) d t = \int_{0}^{x} f_{X} (t) d t = \int_{0}^{x} \frac{1}{5} d t = \frac{t}{5} |_{0}^{x} = \frac{x}{5}

הימני נובע מכיוון שאם חיכינו יותר מ5 דקות בוודאות עלינו על הסעה כלשהו וכמובן שזמן ההמתנה לא יכול להיות שלילי.

את התוחלת נחשב באופן דומה :

E [X] = P (A) E [Y] + (1 - P (A)) E [Z] = \frac{5}{6} \frac{3}{15} 5 + \frac{1}{6} \cdot \frac{5}{2} = \frac{15}{12}