#probability #computer_science

משתנה מקרי נורמלי

נגיד שמשתנה מקרי $X$ הוא נורמלי או גאוסייני אם יש לו $P D F$ מהצורה

f_{X} (x) = \frac{1}{\sqrt{2 π} σ} e^{\frac{- (x - μ)^{2}}{2 σ^{2}}}

כאשר $σ, μ$ הם 2 פרמטרים סקלרים שמאפיינים את ה $P D F$ . כמו כן, עבור $σ$ נניח שהוא חיובי.
אפשר להוכיח את תכונת הנורמליזצייה ושיתקיים

\frac{1}{\sqrt{2 π} σ} \int_{- \infty}^{\infty} e^{\frac{- (x - μ)^{2}}{2 σ^{2}}} d x = 1

Pasted image 20230104003317.png|300
בתמונה זה גרף ה pdf ו cdf סביב $μ = 1$ ו $σ^{2} = 1$ . ניתן לראות שהpdf סימטרי סביב $μ$ במקרה זה והוא מעין גרף פעמון. ככל ש $x$ מתרחק מ $μ$ הערך $e^{\frac{- (x - μ)^{2}}{2 σ^{2}}}$ קטן משמעותית.

כמו כן, התוחלת והשונות של משתנה כזה יהיו

E [X] = μ v a r (X) = σ^{2}

נהוג לסמן משתנה נורמלי $X$ כ $N (μ, σ^{2})$

כדי לראות את זה נשים לב שה PDF סימטרית סביב $μ$ (זאת נקודת קיצון מוחלט של הפונקצייה וכל שאר הערכים קטנים ממנה באופן סימטרי בגלל החזקה הריבועית).
Pasted image 20230103232059.png|300
הכחול זה גרף הפונקצייה והאדום זה גרף החזקה.

עבור השונות נקבל

v a r (X) = \frac{1}{\sqrt{2 π} σ} \int_{- \infty}^{\infty} (x - μ)^{2} e^{\frac{- (x - u)^{2}}{2 σ^{2}}} d x

נוכל להשתמש בשיטת ההצבה $y = \frac{x - μ}{σ}$ כדי לקבל

\begin{matrix} v a r (X) = \frac{σ^{2}}{\sqrt{2 π}} \int_{- \infty}^{\infty} y^{2} e^{\frac{- y^{2}}{2}} d y \\ = \frac{σ^{2}}{\sqrt{2 π}} (- y e^{\frac{- y^{2}}{2}}) |_{- \infty}^{\infty} + \frac{σ^{2}}{\sqrt{2 π}} \int_{- \infty}^{\infty} e^{\frac{- y^{2}}{2}} d y \\ = \frac{σ^{2}}{\sqrt{2 π}} \int_{- \infty}^{\infty} e^{\frac{- y^{2}}{2}} d y \\ = σ^{2} \end{matrix}

המעבר האחרון נובע מהעובדה ש

\frac{1}{\sqrt{2 π}} \int_{- \infty}^{\infty} e^{\frac{- y^{2}}{2}} d y = 1

שזה בידיוק תכונת הנורמליזצייה של משתנה PDF נורמלי עבור $μ = 0$ ו $σ = 1$ .

מה החשיבות של משתנה נורמלי?

משתנה נורמלי משחק תפקיד מרכזי בהרבה מאוד מודלים הסתברותיים. הסיבה לכך היא שבאופן כללי הם ממדלים מאוד טוב אפקטים נלווים לגורמים בלתי תלויים בתחום ההנדסה,פיזיקה וסטטיסטיקה. באופן מתמטי המפתח הוא שסכום של כמות גדולה מאוד של משתנים רנדומיים בלתי תלויים או שווי התפלגות מקורבים מאוד לCDF של המשתנה הנורמלי, בלי קשר כלל ל CDF של כל משתנה בנפרד. הקונספט הזה יותר מורכב ויסוכם ב משפט הגבול המרכזי שמה באמת נבין את הכוח שלה.

משתנה נורמלי ופונקצייה ליניארית

למשתנה רנדומי נורמלי יש מספר תכונות מאוד חשובות נוכיח את תכונה זאת בהמשך אבל היא מהחשובות ביותר.
משתנה נורמלי שומר על טרנספורמצייה ליניארית . הכוונה:
אם $X$ הוא משתנה נורמלי עם תוחלת $μ$ ושונות $σ^{2}$ נגדיר עבור $a \neq 0$ ו $b$ סקלרים:

Y = a X + b

אזי, $Y$ הוא משתנה נורמלי ומקיים

E [Y] = a μ + b v a r (Y) = a^{2} σ^{2}

משתנה נורמלי סטנדרטי

משתנה נורמלי $Y$ עם תוחלת 0 ושונות באורך 1 מוגדרת כ נורמלי סטנדרטי . ה CDF שלה מסומן כ $Φ$ והיא מקיימת

Φ (Y) = P (Y \leq y) = P (Y < y) = \frac{1}{\sqrt{2 π}} \int_{- \infty}^{y} e^{\frac{- y^{2}}{2}} d t

המעבר השני נובע בגלל שאנחנו יודעים שהסתברות לקבל נקודה מסויימת על גרף רציף היא $0$ ולכן אין לה תרומה לשטח המצטבר.
התוצאות של הפונקצייה הזאת מתועדות בטבלה, בגלל הקושי החישובים של הפונקצייה הזאת. נשים לב שהטבלה נותנת ערכים בהינתן $y \geq 0$ בגלל הסימטריה שהראנו בגרף ה PDF . למשל אם $Y$ הוא משתנה נורמלי סטנדרטי אז

Φ (- 0.5) = P (Y \leq 0.5) = P (Y \geq 0.5) = 1 - P (Y < 0.5) = 1 - Φ (0.5) = 1 - 0.6915 = 0.3085

באופן כללי יש לנו

Φ (- y) = P (Y \geq y) = 1 - Φ (y)

זה שקול ללהגיד:

P (Y > a) = P (Y < - a)

Pasted image 20230104022744.png|300
דיאגרמה שמסבירה את הסימטריה הנ״ל עבור $2, - 2$ אפשר לראות שהשטחים שווים בגלל הסימטריה ולכן השיוויון הנ״ל מתקיים. (הערך 0.4 הוא הערך המתקבל עבור משתנה סטנדרטי נורמלי כאשר $x = 0$ וכפי שדיברנו כבר זה הערך המקסימלי).

הבחנה

נשים לב שמתקיים $P (a < Z < b) = Φ (b) - Φ (a)$ כאשר $Z$ מ״מ נורמלי סטנדרטי

טבלת הערכים:
Pasted image 20230104022924.png|600
כפי שאמרנו ישנה טבלה שניתן להסתכל עליה כאשר מחשבים את הערכים עד טווח מסויים של $Φ$ הסיבה שזה עד אזור $3.5$ היא כמובן בגלל שלאחר מכן התמורה לשטח המצטבר היא מאוד מאוד קטנה.
הטבלה הזאת מתארת בעצם ציר מספרים בצורה דו מימדים כאשר צד שמאל מתאר את הציר בקפיצות של $0.1$ ונוכל להשתמש בעמודות כדי לחשב את הערכים של הפונקצייה בטווח המספרים בין $t, t + 0.1$ אבל בקפיצות של $0.01$ כלומר אם היינו צריכים לצייר את הטבלה על ציר מספרים היא הייתה נראת ככה:
Pasted image 20230104023436.png|500
וככה זה ממשיך לפי ערכי הטבלה.
לדוגמה, אם נרצה למצוא את $ϕ (1.71)$ נרצה לחפש את השורה של $1.7$ ולנוע קפיצה שתי קפיצות ימינה שזה $0.01$ מ $1.7$ , סך הכל נקבל $0.9563$ .
אם הערך של $y$ הוא שלילי נוכל לחפש את ההופכי לו ולחסר את זה מ $1$ לפי הנוסחה למעלה.

אם כן, נבין רגע את המשמעות של המשתנה הנורמלי הסטנדטי. אם ניקח $X$ משתנה נורמלי עם תוחלת $μ$ ושונות $σ^{2}$ הנורמליזצייה שלו תהיה

Y = \frac{X - μ}{σ}

מליניאריות הנורמלי אנחנו נקבל

E [Y] = \frac{E [X] - μ}{σ} = 0

v a r (Y) = \frac{v a r (X)}{σ^{2}} = 1

אם כן קיבלנו $Y$ משתנה מקרי נורמלי סטנדרטי. אם כן , העובדה הזאת נותנת לנו את היכולת לחשוב את ההסתברויות שמוגדרות במונחים של $X$ באמצעות הגדרה מחדש של המאורע במונחים של $Y$ ואז משתמשים בטבלה הנ״ל

Pasted image 20230104150341.png|300
נשים לב להגיון ויזואלי מאחורי העובדה למעלה, הגרפים של המשתנה הנורמלי (אלה בתמונה פה) זהים בתצורתם לגרפים שהראנו למעלה בתחילת הסיכום עבור שונות 1 ותוחלת 1 רק שבעקבות תכונת הנורמליזצייה הגרך זז לאורך ציר ה x. המשמעות של זה היא שחישוב של ה CD לאחר הנורמליזצייה יהיה זהה לחישוב של השטח לפני נורמליזצייה רק עבור ערכים שונים.

נראה שימוש בטבלה:
מדד ירידת השלג השנתית באיזור כלשהו ממודל באמצעות משתנה רנדומי נורמלי עם תוחלת $μ = 60$ אינצ׳ים של שלג וסטיית תקן של $σ = 20$ .
מהי ההסתברות שמדד השלג השנה יהיה לפחות 80.
אם נסמן את ההתפלגות הנ״ל כמשתנה מקרי רנדומי $X$ נוכל לבצע עליו נורמליזצייה על ידי

Y = \frac{X - μ}{σ} = \frac{X - 60}{20}

כעת נרצה לבדוק מתי $X \geq 80$ שזה שקול ל $\frac{X - 60}{20} \geq \frac{80 - 60}{20} = 1$ אם כן, נרצה לחשב את

P (X \geq 80) = P (Y \geq 1) = 1 - Φ (1)

לפי הטבלה נקבל ש $Φ (1) = 0.8413$ וסך הכל נקבל

P (X \geq 80) = 1 - 0.8413 = 0.1587

אם כן נוכל להכליל את התהליך הנ״ל באופן הבא

בהינתן משתנה מקרי $X$ עם תוחלת $μ$ ושונות $σ^{2}$ , נבצע תהליך בין 2 שלבים:
א) ״נירמול״ $X$ והגדרת משתנה נורמלי סטנדרטי $Y = \frac{x - μ}{σ}$
ב) חישוב ה CDF באופן הבא

P (X \leq x) = P (\frac{X - μ}{σ} \leq \frac{x - μ}{σ}) = P (Y \leq \frac{x - μ}{σ}) = Φ (\frac{x - μ}{σ})

signal detection

משתנים נורמלים לרוב נפוצים בקרב עיבוד אותות והנדסת תקשורת על מנת למדל רעשים והפרעות בלתי צפויות של תדרים. נראה דוגמה חשובה בנושא
הודעה בינארית מועברת כתדר $s$ , התדר יכול להיות $- 1$ או $1$ . ערוץ התקשורת משחיט את המסר עם תוסף של רעש בהתפלגות נורמלית עם תוחלת $0$ ושונות $σ^{2}$ .
הקולטן מסיק שהתדר הועבר אם הערך המתקבל $< 0$ או $\geq 0$ . מהי ההסתברות לשגיאה?
Pasted image 20230104153738.png|300
ניתו לבין מהתמונה שנרצה שהסטיית תקן שהרעש מוסיף יקיים שאם התדר הוא $- 1$ אז לאחר תוספת עדיין נשאר שליליים ואם התדר הוא $1$ לאחר תוסף נשאר חיוביים.
אם כן, נבין מתי מתרחשת שגיאה:

error occur when: {\begin{cases} s = - 1 & s + N = - 1 + N \geq 0 \\ s = 1 & s + N = 1 + N < 0 \end{cases}

בהינתן $N$ שמייצג משתנה נורמלי של הרעש. סך הכל קל לראות שאנחנו רוצים ש $N < - 1 \lor N \geq 1$ על מנת שנהיה שגיאה, בגלל הסימטריה אנחנו יודעים שזה שקול ולכן נוכל לחשב את אחד מהם ולהכפיל ב 2

P (N \geq 1) = 1 - P (N < 1) = 1 - P (\frac{N - μ}{σ} < \frac{1 - μ}{σ}) = 1 - Φ (\frac{1 - μ}{σ}) = 1 - Φ (\frac{1}{σ})

כעת בהינתן $σ$ נוכל פשוט לחשב לפי הטבלה להחסיר את זה מ $1$ ולהכפיל 2 כדי להגיע לתוצאה הרצויה.