#statistics #cs_biu

סטטיסטיקה תיאורית

סטטיסטיקה - תחום ידע העוסק באיסוף,תיאור ועיבור נתונים ובניתוח והצגת מסקנות מהנתונים.
עיבוד הנתונים וניתוחן יכול להעשות בשתי רמות:

סטטיסטיקה תיאורית: איסוף, ארגון, סיכום והצגת הנתונים.
סטטיסטיקה היסקית: הסקה מנתוני מדגם לאוכלוסייה כולה, תוך שימוש בתורת ההסתברות.

בסטטיסטיקה תיאורית נרצה לזהות ולהבליט תכונות המאפיינות את אוסף הנתונים, כגון: היכן הם מתרכזים ומהו הפיזור שלהם.

סולמות מדידה

מדידה היא ייצוג מערכת אמפירית על ידי מערכת של ערכים מספריים, כאשר הקשרים בין העצמים המיוצגים חייבים להשתקף ביחסי המספרים המותאמים להם (הקלאסי ביותר הוא יחס סדר). זה נקרא עקרון הייצוגיות.

ישנם מספר מערכות מספריות ולא כולם הם בגדר ״מדידה״. ישנם סולמות מדידה שמנחים אותנו בבחירת המערכת המספרית.

סולם שמי
הצמדה של מספר מזהה לכל יישות במערכת. למשל תיאור של מכונית לפי מספר לוחית הרישוי.

סולם סדר
סולם שמי שיש בין המספרים גם יחס סדר כשלהו. למשל, דרגות בצבא.
נשים לב שאומנם יש יחס סדר בדרגות בצבא אבל אין בין דרגות הפרש מספרי כלשהו כלומר פשוט אנחנו יודעים ש״סרן״ יותר גבוה מ ״טוראי״ אבל לא יודעים בכמה.

סולם רווחים
סולם רווחים הוא סולם סדר שבו לכל שני מספרים ביחס סדר יש פער ברור. למשל במדידות טמפרטורה אנחנו יודעים שאם במדידה הראשונה $60^{\circ}$ ובמדידה השנייה $70^{\circ}$ אז הפער בינהם הוא $10^{\circ}$ .

סולם מנה
סולם רווחים, שיש לו נקודת אפס קבועה מוחלטת, המבטאת את היעדך התכונה.

הבחנה

נשים לב שבסולם זה כל רמה בסולם מקיימת את כל התכונות של הסולמות שנמוכים יותר ממנה

הצגת התפלגות נתונים בטבלאות ובעקומות

מספר מושגים שחשוב להגדירם:

קבוע- גודל שערכו אינו משתנה.
משתנה בדיד- משתנה שיכול לקבל מספר סופי של ערכים
משתנה רציף- משתנה שיכול לקבל מספר אינסופי של ערכים.

הצגה בטבלאות

נניח שאנחנו מודדים את הטמפרטורה בכל יום במשך חודש וקיבלנו את המדידה הבאה
Pasted image 20230802105119.png|400
אומנם זה נראה לנו יחסית נוח לקריאה, אבל אם היינו אוספים דגימות בכמות גבוהה יותר כבר לא היינו מצליחים להבין את המדדים שלנו ולכן נרצה לארגן אותם בצורה נוחה יותר.

טבלת שכיחויות

דרך נוחה לארגן את הנתונים היא ב טבלת שכיחויות
נרשום את ערכי המשתנים מהקטן לגדול בסדר עולה בעמודה אחת ובעמודה השנייה את השכיחות שלהם, כמה פעמים הם הופיעו במדידה שלנו.
אם נסמן את הטמפרטורה כ $x$ . אז השכיחות תסומן כ $f (x)$ והטבלה תייצג את התפלגות השכיחויות.

Pasted image 20230802105325.png|400
אומנם זה מקל עלינו אבל עדיין, כאשר לוקחים מספר רב של דגימות נקבל טבלה ענקית ולא נוכחה ולכן נגדיר מחלקות של ערכי $x$ שזה בעצם טווחים ואת השכיחות של $x$ בטווח הזה.

Pasted image 20230802105445.png|400

מספר חוקים על מחלקות

מחלקות חייבות להיות זרות כלומר בלי איברים משותפים
החלוקה חייבת להיות ממצה כלומר לכל ערך $x$ ניתן לשייך למחלקה כלשהי

נשים לב

אנחנו משלמים פה מחיר של דיוק במדידה כאשר אנחנו ממירים את טבלת המדידה שלנו מערכים בודדים לטבלה של מחלקות אבל מקבלים תמונה מגובשת ותמציתית יותר של הנתונים
למשל זאת חלוקה שתוביל למדידות לא מדויקות
Pasted image 20230802105726.png|400

לכל מחלקה יש:
גבול עליון - המספר הגדול ביותר בטווח.
גבול תחתון - המספר הקטן ביותר בטווח.

כאשר הגבול העליון של מחלקה מסויימת אינו זהה לגבול התחתון של המחלקה הבאה, זה נקרא מצב של גבול מדומה.

ניתן לקבל טבלה עם גבולות אמיתיים פשוט על ידי שינוי הטווחים, הקטנת כל גבול תחתון ב $0.5$ והגדלת כל גבול עליון ב $0.5$ למשל בטבלה הנ״ל זה ייראה כך.

הגדרות על מחלקות

נסמן את נקודת האמצע של המחלקה כממוצע בין הגבול העליון לגבול התחתון שלה. למשל בטבלה שלנו, במחלקה האחרונה נקודת האמצע תהיה $\frac{33 + 34}{2} = \frac{32.5 + 34.5}{2} = 33.5$
לעתים נתקל במחלקות פתוחות בקצוות הטבלה שבהן חסר להן את אחת הגבולות, למשל מחלקה של $95 +$ עבור ציוני בחינה גבוהים מ $95$ .
רוחב של מחלקה $a$ מוגדר להיות ההפרש בין הגבול העליון לגבול התחתון.

כללים לבניית טבלת שכיחויות עם מחלקות ברוחב שווה

הגדר מספר רצוי של מחלקות $k$ , בהתאם לפיזור הנתונים ובאופן כזה שאיכות החישוב לא תפגע.
נחשב את רוחב המחלקה על ידי $a ≃ \frac{max (x) - min (x)}{k}$ . כלומר, הערך הגבוה ביותר של $x$ פחות הערך הנמוך ביותר של $x$ חלקי מספר המחלקות הרצוי.
$max (x)$ יהיה הגבול העליון המדומה במחלקה הגבוהה ביותר.
יש להפחית מערך זה את $a$ ולרשום את הערך שמתקבל כגבול העליון המדומה של המחלקה שמתחתיו, וכן הלאה.
יש להוסיף יחידה (לא תמיד זה $1$ תלוי לפי מה מגדירים) לכל גבול עליון מדומה ולרשום מה הערך שהתקבל כגבול התחתון המדומה של המחלקה שמעליו.

למשל נבנה את הטבלה הנ״ל של נתוני הטמפרטורה ,
נחשב את $a$ כאשר נרצה $k = 5$ נקבל $a = \frac{34 - 25}{5} ≃ 2$ .
נתחיל מ $34$ ונתחיל לחסר ממנו את $a = 2$ , $5$ פעמים.

\begin{matrix} 34 \\ 32 \\ 30 \\ 28 \\ 26 \\ 24 \end{matrix}

נשים לב ש $24 < min (x) = 25$ ולכן נעצור כאן. כעת נוסיף יחידה אחת ונקבל את הגבולות התחתונים של כל מחלקה סך הכל קיבלנו

\begin{matrix} 33 - 34 \\ 31 - 32 \\ 29 - 30 \\ 27 - 28 \\ 25 - 26 \end{matrix}

את $24$ אפשר להשמיט וכעת יש לנו את כל המחלקות הדרושות ונוכל לשים אותם בטבלת שכיחויות

x	f(x)
$25 - 26$	4
$27 - 28$	6
$29 - 30$	$16$
$31 - 32$	$3$
$33 - 34$	2

שכיחות מצטברת

לעתים, בנוסף לשכיחות של כל מחלקה, נרצה לדעת גם מהי השכיחות של הנתונים שהתקבלו מתחת לערך מסויים.
לשם כך אנחנו מגדירות את התפלגות שכיחויות מצטברות. זה מסומך ב $F (x)$ ומסמן כמה ערכים נמדדו שקטנים או שווים לערך $x$ .
למשל עבור הטבלה שלנו נקבל

Pasted image 20230802113959.png|400
נוכל להעזר ב $F (x_{i})$ כדי לחשב את $f (x_{i})$ :

f (x_{i}) = F (x_{i}) - F (x_{i - 1})

כלומר השכיחות המצטברת של אותה מחלקה פחות השכיחות המצטברת של המחלקה הקודמת לה.

נשים לב שמתקיים

F (x_{k}) = n

כאשר $n$ זה מספר התצפיות הכולל.

שכיחות יחסית

התפלגות השכיחות יחסית מוגדרת להיות $\frac{f (x)}{n}$ ויש גם התפלגות שכיחות מצטברת יחסית שמוגדרת להיות $\frac{F (x)}{n}$ .

Pasted image 20230802114553.png|300

הצגה חזותית של התפלגות נתונים

דיאגרמת עמודות

תרשים במערכת צירים כאשר באופקי נמצאים ערכי המשתנה $x$ ובציר האנכי $f (x)$ השכיחויות.

Pasted image 20230802114826.png|400
וכמובן שאפשר גם לתאר דיאגרמה דומה עבור מחלקות.

היסטוגרמה

זהה לדיאגרמת עמודות רק שטח המלבן מייצג את שכיחות המחלקה
Pasted image 20230802115052.png|350

דיאגרמת עוגה

Pasted image 20230802115144.png|300
דיאגרמה זו נוחה לתיאור של שכיחויות יחסיות כאשר העיגול הכולל מייצג $100 %$ מהשכיחויות.

הבחנה

בדיאגרמת מקלות נהוג לחבר בקטעים ישרים את ראשי המקלות, ובהיסטוגרמה נהוג לחבר את מרכזי הבסיסים העליונים של המלבנים. הקו השבור המתקבל נקרא מצולע
המטרה היא להגיע לעקומה כמה שיותר חלקה, זה יקרה ככל שההיסטוגרמה מפורטת יותר.
Pasted image 20230802115452.png|400

סוגי עקומות

כאשר מציירים עקומה רציפה לתיאור נתוניפ אמפיריים, מהווה הקו הרציף רק קירוב טוב למצולע. הקירוב יהיה טוב ככל במספר הנתונים במדגם גדול יותר ורוחב המחלקות קטן יותר.

נהוג להבחין בין סוגי עקומות שונות:
עקומה סימטרית פעמונית: מצב בו רוב התצפיות מצטופפות במרכז ערכי $x$ ומעט מהן בקצוות
Pasted image 20230802115834.png|250

עקומה אסימטרית חיובית/ימנית: מצב בו הסטיות הגדולות הן כלפי ערכים גבוהים של $x$ , מצב אסימטרי הוא מצב שבו רוב הערכים מרוכזים בקטע מסויים ויש גם תצפיות חריגות , רובן לכיוון אחד.
Pasted image 20230802120119.png|250

עקומה אסימטרית שלילית/שמאלית: הסטיות הגדולות הן כלפי ערכים נמוכים של $x$
Pasted image 20230802120207.png|250

עקומה אחידה: כאשר ערכי $x$ מתפלגים באופן שווה בין כל ערכי $x$ .
Pasted image 20230802120245.png|250

עקומת U: מרבית התצפיות נמצאות בשוליים.
Pasted image 20230802120349.png|250

מדדי מיקום מרכזי

כעת שאנחנו יודעים לתאר את הנתונים באופן חזותי, נרצה לענות על שאלות העוסקות במיקום הנתונים ובערכים מסויימים שסביבם הם מתרכזים.
מדדי מיקום מרכזי הם מדדים המצביעים על מיקומו של ״המרכז״ והנטייה למרכז.

קיימים ארבעה מדדים כאלה:

שכיח $M o$ - הערך השכיח ביותר בהתפלגות
אמצע הטווח $M R$ - ממוצע שני הערכים הקיצוניים בהתפלגות.
חציון $M d$ - הערך המחלק את ההתפלגות לשניים, כלומר, לפחות מחצית מהתצפיות מקבלות ערך זה או גבוה ממנו ולפחות מחצית מקבלות ערך זה או נמוך ממנו.
ממוצע $\overset{―}{x}$ - סכום ערכי התצפיות מחולק במספרן.

נרצה לדעת אילו מהמדדים הללו יהיה ההולם ביותר לייצר את ה״מרכז״ בהתאם לנתונים שלנו. לשם כך מקובל להעזר פונקציית הפסד או ב פונקציית סיכון והמדד ההולם יהיה המדד שיפחית את ההפסד או הסיכון למינימום.

פונקציות הפסד

מתייחסים למדד $\tilde{x}$ כאילו הוא מייצג קבוצת מספרים (תצפיות) $x_{1}, x_{2}, \dots, x_{n}$ , או ״מנבא״ של תצפיות.
נגיד שהניבוי/ייצוג יהיה קולע יותר ככל ש $\tilde{x}$ יהיה קרוב יותר למספרים $x_{1}, \dots, x_{n}$ כלומר, ככל המרחקים $| x_{i} - \tilde{x} |$ יהיו קטנות יותר.

לא נוכל בעזרת בחירה מתאימה אחת להקטין את כולן גם יחס וכן נכנס לתמונה פונקציית ההפסד או פונקציית הסיכון. שאלו פונקציות שהקלט שלהן הוא סדרת ההפרשים $(x_{1} - \tilde{x}), (x_{2} - \tilde{x}), \dots, (x_{n} - \tilde{x})$ והפלט הוא מניפולצייה כלשהי עליהן. בהתאם למדד אנחנו נראה אילו פונקציות מביאות את המספר המינימלי ביותר.

מספר שגיאות

פונקציית ההפסד היא סה״כ מספר השגיאות כאשר שגיאה מוגדרת להיות מצב שבו $x_{i} \neq \tilde{x}$ .
קל לראות, שבמצב הזה השכיח הוא המדד הטוב ביותר מבין כל המדדים האפשריים.

גודל שגיאה מקסימלית

נגדיר את פונקציית ההפסד להיות

max (| x_{i} - \tilde{x} |)

כלומר המרחק המקסימלי מהמדד.
במצב זה, אמצע הטווח $\frac{x_{m a x} + x_{m i n}}{2}$ הוא המדד הטוב ביותר עם ההפסד הקטן ביותר.

סכום השגיאות המוחלטות

לגבי כל תצפית בודקים מהו גודל השגיאה ונגדיר את ההפסד להיות סכום כל השגיאות כלומר

\sum_{i = 1}^{n} | x_{i} - \tilde{x} |

במצב זה, החציון הוא המדד הטוב ביותר לניבוי.

סכום ריבועי השגיאות

באותו אופן נגדיר את פונקציית ההפסד להיות

\sum_{i = 1}^{n} (x_{i} - \tilde{x})^{2}

במצב זה, הממוצע הוא המדד הטוב ביותר לניבוי מבין כל המדדים האפשריים.

לסיכום:

$\tilde{x}$	פונקציית הפסד
$M o$	מינימום מספר שגיאות
$M R$	מינימום שגיאה מקסימלית
$M d$	מינימום סכום שגיאות מוחלטות
$\overset{―}{x}$	מינמום סכום ריבועי השגיאות

חישוב המדדים

שכיח

שכיח הוא פשוט הערך שיקיים $max (f (x))$ כלומר השכיחות שלו היא הגבוהה ביותר. ניתן למצוא אותו בקלות מטבלת השכיחויות.

אמצע הטווח

M R = \frac{x_{m a x} + x_{m i n}}{2}

חציון

כאשר נתונה רשימת תצפיות שסודרו בסדר עולה, החציון הוא ערך התצפית המרכזית אם מספר התצפיות הוא אי זוגי. אם מספרן זוגי, החציון הוא ממוצע ערכיהן של שתי התצפיות המרכזיות.

למשל עבור סדרת התצפיות הבאות

4, 5, 5, 6, 7, 8, 9, 10, 10

מספר התצפיות הוא אי זוגי ויתקיים ש $n = 9$ ולכן ערך התצפית המרכזית הוא במיקום ה $\frac{9}{2} = 4.5 ≃ 5$ . כלומר במיקום ה $5$ ערך התצפית הוא $7$ ולכן זה החציון.

עבור סדרת התצפיות

4, 4, 5, 5, 6, 7, 8, 9, 10, 10

סדרת התצפיות כעת היא $10$ ולכן מספר התצפיות הוא זוגי כלומר, החציון ייקבע לפי התצפיות במיקום ה $5$ ובמיקום ה $6$ .
ערכי התצפיות במיקום אלו הם $6, 7$ בהתאמה ולכן החציון יהיה $\frac{6 + 7}{2} = 6.5$

באופן כללי:

M d = {\begin{cases} \frac{x_{\frac{n}{2}} + x_{\frac{n}{2}}}{2} & 2 | n \\ x_{\frac{n + 1}{2}} & e l s e \end{cases}

חציון כאשר נתונה טבלת שכיחויות

כאשר נרצה למצוא את החציון בהינתן טבלת שכיחויות עם מחלקות, המקרה קצת מורכב יותר. החציון הוא אותה נקודה בהיסטוגרמה אשר השטח משמאלה שווה לשטח מימינה.

M d = L_{0} + \frac{\frac{n}{2} - F (x_{m - 1})}{f (x_{m})} (L_{1} - L_{0})

כאשר:
$n$ - מספר התצפיות הכולל
$x_{m}$ - המחלקה שבה נמצא החציון
$L_{1}$ - הגבול האמיתי העליון של מחלקה זו
$L_{0}$ - הגבול האמיתי התחתון של מחלקה זו
$x_{m - 1}$ - המחלקה הקודמת ל $x_{m}$ .

לדוגמה עבור טבלת השכיחויות הבאה
Pasted image 20230802125227.png|400

נשים לב שישנן $45$ תצפיות ולכן צריך החציון צריך להיות אותו ערך שמעליו $22.5$ תצפיות ומתחתיו גם כן.

כדי לדעת באיזה מחלקה נמצא ערך זה נשתמש בהתפלגות מצטברת
עד ל $x = 64.5$ יש כבר $24$ תצפיות ולכן החציון חייב להימצא בין $54.5$ לבין $64.5$ , זאת המחלקה $x_{m}$ .

ברגע שמצאנו את המחלקה, כבר קל להציב את כל מה שצריך בנוסחה.

M d = 54.5 + \frac{\frac{45}{2} - 10}{14} (64.5 - 54.5) = 63.4

נשים לב

ניתן להכליל את הנוסחה עוד יותר כדי למצוא את $Q_{x %}$ כלומר האיבר שיקיים ש $x %$ ערכים גדולים ממנו, כל שצריך הוא למצוא את המחלקה המתאימה, ובמקום לבצע $\frac{n}{2}$ לבצע $n \cdot x %$ , נראה זאת בהמשך.

ממוצע

ממוצע בהינתן $n$ תצפיות מחושב על ידי

\overset{―}{x} = \frac{\sum_{i = 1}^{n} x_{i}}{n}

כלומר סכימה של התצפיות וחלוקה במספרן.

במצב של טבלת שכיחויות/שיכחות יחסית שבה לכל מחלקה יש רק ערך אחד $x_{i}$ , הנוסחה תיראה ככה

\overset{―}{x} = \frac{\sum_{x} x f (x)}{n}

כאשר ישנם $k$ מחלקות כלומר כל מחלקה מכילה מספר ערכי $x$ נשתמש בנקודת האמצע של כל המחלקה $m_{x}$ כייצוג מספרי של המחלקה כולה והממוצע מחושב כסכום מכפלת ערכי נקודות האמצע של המחלקות בשכיחות שלהן חלקי מספר התצפיות

\overset{―}{x} = \frac{\sum_{x} m_{x} f (x)}{n}

אנחנו משלמים פה מחיר של סטייה כלשהי מהממוצע שכן לא בהכרח שנקודת האמצע היא מדד אמין למה קורה בתוך המחלקה. אך זה מחיר שאנחנו מוכנים לשלם.

משפט סכום הסטיות מהממוצע

סכום הסטיות מהממוצע הוא $0$ כלומר $\sum_{i = 1}^{n} (x_{i} - \overset{―}{x}) = 0$ .
למעשה זאת גם ההגדרה של הממוצע, הממוצע הוא אותו ערך שסכום הסטיות ממנו שווה לאפס

רגישות לערכים קיצוניים של מדדים

כבר דיברנו על תכונה אחת של מדדים שהיא הפחתת פונקציית ההפסד המתאימה לו למינימום.
כעת נסתכל כיצד המדדים משתנים בהתאם להתפלגויות השונות.

כאשר ההתפלגות פעמונית
כל המדדים שווים אחד לשני ומתלכדים באותה נקודה.

כאשר ההתפלגות אסימטרית חיובית
הממוצע ואמצע הטווח גדולים מהחציון ומהשכיח כלומר

M d \leq M o \leq M R \leq \overset{―}{x}

כאשר ההתפלגות אסימטרית שלילית
הממוצע ואמצע הטווח קטנים מהחציון ומהשכיח כלומר

\overset{―}{x} \leq M R \leq M o \leq M d

הדבר נובע מכך שהשכיח והחציון נשענים יותר על השכיחות של ערכים ואילו הממוצע ואמצע הטווח נשענים יותר על הערכים עצמם. כלומר האחרונים יותר מושפעים מערכים קיצוניים.

לכן גם יש סולמות מדידה שבהם לא ניתן לחשב בכלל ממוצע ואמצע טווח כמו סולם שמי.

Pasted image 20230802134219.png

ממוצע וטרנספורמציה ליניארית

טרנספורמציה ליניארית מ $x$ ל $y$ מוגדרת על ידי $y = b x + a$ כאשר $b, a \in R$ .
האיפיון העיקרי של טרנספורמציה כזו היא שייצוגה הגרפי הוא קו ישר בעל שיפוע $a$ . למשל עבור $y = 5 x + 3$
Pasted image 20230802134542.png|250

משפט
בהינתן משתנה $x$ עם ממוצע $\overset{―}{x}$ , ויהי משתנה $y$ המוגדר על ידי טרנספורמציה ליניארית על $x$ מתקיים ש

\overset{―}{y} = b \overset{―}{x} + a

מדדי פיזור

בהתפלגויות מבוססות שכיחויות, מלבד המיקום המרכזי של מרכז ההתפלגות חשוב מאוד גם לעקוב אחר מידת הפיזור. למשל ההתפלגויות בתמונה למטה מתלכדות באותו מיקום מרכזי אך במידת פיזור שונה.

Pasted image 20230802134846.png|250

מדדים אלו נועדו לתאר את מידת השוני או האחידות בין נתונים.
הביטוי ״פיזור״ משמש אותנו לציון מרחק הערכים השונים של המשתנה ומרחק ממדד כלשהו למיקום מרכזי.

חוקי מדדי הפיזור
א. מדד פיזור חייב להיות בעל ערכים אי שליליים
ב. מדד הפיזור מתאפס אמ״מ כל התצפיות זהות זו לזו.
ג. הוספת קבוע לכל התצפיות לא תשנה את ערכו של מדד הפיזור.

אחוז השגיאות

אחוז התצפיות שבהן מתקבל ערך שונה מערך השכיח.
מבוסס על פונקציית ההפסד המוגדרת על פי מספר השגיאות.

גודל השגיאה המקסימלית

זהה לפונקציית ההפסד עליה כבר דיברנו. מוגדר על ידי $max | x_{i} - \tilde{x} |$ כלומר המרחק המקסימלי ממדד מרכזי.
מדד זה מינימלי כאשר אם המדד למיקום המרכזי הוא אמצע הטווח $M R$ .

הטווח

נגדיר את $r a n g e$ להיות המרחק בין הערך הגדול ביותר בהתפלגות לבין הערך הקטן ביותר בה.
מדד זה דומה בטבעו למדד הפיזור הקודם, אך מקובל יותר. כלומר

r a n g e = x_{m a x} - x_{m i n}

נשים לב שגודל הסטייה המקסימלי מאמצע הטווח הוא $\frac{r a n g e}{2}$ .

חסרון

נשים לב שגם הטווח וגם גודל השגיאה המקסימלית מורכב רק מערכים קיצוניים ולכן שגיאות אלו יכולות להיות בעיתיות כאשר הצפיפות היא רובה במרכז ויש מיעוט בקצוות מרוחקים

הטווח הבינרבעוני

נסמן את הטווח הבינרבעוני כ $I Q R$ . זה הטווח שבו נמצאים $50 %$ הערכים המרכזיים של ההתפלגות.
כלומר, כדי לחשב את מדד הפיזור, רושמים את ההפרש בין הערך ש $75 %$ מן התצפיות קטנות ממנו (הקרוי רבעון עליון ומסומן $Q_{3}$ ) לבין הערך ש $25 %$ מהתצפיות קטנות ממנו (קרוי רבעון תחתון ומסומן $Q_{1}$ ).

$Q_{3} - Q_{1}$ ייתן לנו את טווח $50 %$ התצפיות שבמרכז ההתפלגות בלי להתחשב בצדדים. נסתכל על הנוסחאות לחישוב הרבעונים

\begin{matrix} Q_{1} = L_{1_{0}} + \frac{\frac{n}{4} - F (x_{m_{1} - 1})}{f (x_{m_{1}})} (L_{1_{1}} - L_{1_{0}}) \\ Q_{3} = L_{3_{0}} + \frac{\frac{3 n}{4} - F (x_{m_{3} - 1})}{f (x_{m_{3}})} (L_{3_{1}} - L_{3_{0}}) \end{matrix}

בעצם זה זהה לנוסחה של מציאת החציון רק שהפעם אנחנו עובדים עם המחלקה הרלוונטית לאותו רבעון, המחלקה הקודמת לה, והגבולות הרלוונטים.

את הטווח הבינרבועני אפשר לתאר באמצעות דיאגרמת boxplot

Pasted image 20230802144641.png

כאשר הקו המקווקו זה החציון. והקצוות זה המינימום והמקסימום של המדידות.

ממוצע הסטיות המוחלטות

המדדים שהצגנו לעיל, התחשבו או בקצוות או רק בחלק מהתצפיות. נרצה מדדי פיזור שלוקחים בחשבון את כל התצפיות אך יהיה מסוכן לקחת לדוגמה את סכום מרחקי השגיאות ממדד מיקום מרכזי שכן מרחקים שליליים ומרחקים חיוביים יתקזזו.

לכן, נוכל לסכום בערך מוחלט וכדי לאפשר השוואה של פיזור בהתפלגויות בעלות מספר תצפיות שונה נשתמש בממוצע הסטיות כלומר

\frac{\sum_{i = 1}^{n} | x_{i} - \tilde{x} |}{n}

כאמור, מדד זה מינימלי כאשר $\tilde{x} = M d$ .

ממוצע ריבועי הסטיות

באותו אופן נוכל לעבוד עם

\frac{\sum_{i = 1}^{n} (x_{i} - \tilde{x})^{2}}{n}

מדד זה מבוסס על פונקציית ההפס שהיא סכום ריבועי השגיאות והוא מינימלי כאשר $\tilde{x} = \overset{―}{x}$ .

לסיכום מדדי השגיאות
Screenshot 2023-08-02 at 14.11.52.png

שונות וסטיית תקן

ממוצע ריבועי הסטיות מהממוצע מכונה variance
השונות במדגם בהתפלגות שכיחויות מסומנת $s_{x}^{2}$ ובאוכלוסייה מסומנת $σ_{x}^{2}$ .

שונות של מדגם מוגדרת להיות

s_{x}^{2} = \frac{\sum_{x} (x - \overset{―}{x})^{2} f (x)}{n}

במילים, השונות היא ממוצע הריבעוים פחות ריבוע הממוצע.

בגלל ההעלאה בריבוע יחידות המידה של התצפיות מתעוותות לנו ולכן נגדיר גם סטיית תקן שהיא השורש של השונות.

s_{x} = \sqrt{\frac{\sum_{x} (x - \overset{―}{x})^{2} f (x)}{n}}

כאשר אין שכיחויות:

s^{2} = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \overset{―}{x})^{2}

הבחנה

סכום כל ערכי התצפיות שווה לממוצע כפול מספר התצפיות

\sum_{i = 1}^{n} x_{i} = n \overset{―}{x}

טרנספורמצייה ליניארית על משתנה $x$ עם שונות $s_{x}^{2}$ תקיים ש

y = a x + b \to s_{y}^{2} = b^{2} s_{x}^{2}

ממוצע משוקלל ושונות מצורפת

לעתים מידע נאסף ממקורות רבים, הדיווח על ממוצע ועל שונות של משתנה מסוים מגיע לעתים קרובות מכל מקוד בנפרד. למשל מנהל בית ספר מקבל את ממוצע הציונים במתמטיקה ועל שונותם בכל אחת מכיתות י״א שבבית ספרו.
סביר להניח שהמנהל ירצה גם את ממוצע הציונים של כל התלמידים בשכבה זו בלי ההבחנה בין הכתות.

לשם כך ישנם כלים שעוזרים לנו לחשב כאשר ישנה החשיבות של גודל כל קבוצה ביחס לכלל הקבוצות.

נסמן:
$k$ - מספר הקבוצות
$n_{j}$ - מספר האנשים בקבוצה ה $j \in [k]$
$i$ - מספר סידורי של אדם בקבוצה ה $j$
$x_{i, j}$ - ציונו של האדם ה $i$ בקבוצה ה $j$
$N$ - הסכום של כל גדלי הקבוצות השונות.
${\overset{―}{x}}_{T}$ - ממוצע כל הציונים בכל הקבוצות.
$s_{T}^{2}$ - שונות כל הציונים בכל הקבוצות

ממוצע משוקלל

חישוב הממוצע המשוקלל יהיה פשוט סכימה של הציונים במתמטיקה של כל תלמידי הכתות ואת התוצאה נחלק במספר התלמידים הכולל. כלומר

{\overset{―}{x}}_{T} = \frac{\sum_{j = 1}^{k} \sum_{i = 1}^{n_{j}} x_{i j}}{N}

אנחנו יודעים ש $\sum_{i = 1}^{n_{j}} x_{i j} = {\overset{―}{x}}_{j} n_{j}$ נוכל להציב זאת ולקבל סך הכל שהממוצע המשוקלל הוא

{\overset{―}{x}}_{T} = \frac{\sum_{j = 1}^{k} \overset{―}{x_{j}} n_{j}}{N}

משפט

אם כל גדלי הקבוצות שווים כלומר $\forall_{i, j \in [k]} : n_{i} = n_{j}$ אזי ${\overset{―}{x}}_{T} = \frac{\sum_{j = 1}^{k} {\overset{―}{x}}_{j}}{k}$

שונות מצורפת

חישוב השונות של ציוני כל התלמידים יהיה

s_{T}^{2} = \frac{\sum_{j = 1}^{k} \sum_{i = 1}^{n_{j}} (x_{i j} - {\overset{―}{x}}_{T})^{2}}{N}

נוכל לפשט ולקבל

s_{T}^{2} = \frac{\sum_{j = 1}^{k} n_{j} s_{j}^{2}}{N} + \frac{\sum_{j = 1}^{k} n_{j} ({\overset{―}{x}}_{j} - {\overset{―}{x}}_{T})^{2}}{N}

כלומר החיבור בין ממוצע משוקלל של השונויות לבין פיזור הממוצעים של הכתות שונות לפי מרחק ריבועי.

הבחנה

אם הממוצעים שווים בכל הכתות אז השונות המצרופת בין הכתות קטנה יותר ומושפעת רק על ידי הממוצע המשוקלל של השונויות. שכן המחובר השני מתבטל לגמרי

מדדי מיקום יחסי

נרצה לבטא את ערכי ההתפלגות כערכים יחסיים (ביחס להתפלגות) וטהורים (שאינם תלויים ביחידות מידה) כאשר נרצה להשוות התפלגויות שונות.
נגדיר מדדי מיקום יחסיים מאון ו ציון תקן.

מאון

המאון ה $k$ שנסמנו $C_{k}$ מוגדר כערך אשר $k %$ מן התצפיות קטנות ממנו והיתר גדולות ממנו.

ראינו שמתקיים ש

\begin{matrix} C_{25} = Q_{1} \\ C_{75} = Q_{3} \\ C_{50} = M d \end{matrix}

כעת נראה כיצד לחשב את $C_{k}$ באופן כללי

C_{k} = L_{0} + \frac{n \cdot k % - F (x_{m - 1})}{f (x_{m})} (L_{1} - L_{0})

הסימון $k % = \frac{k}{100}$
נוכל לחלץ את $k$ בהינתן מאון $C_{k}$ כלשהו:

k = (F (x_{m - 1}) + \frac{(C_{k} - L_{0})}{(L_{1} - L_{0})} f (x_{m})) \cdot \frac{100}{n}

ציון תקן

ציון תקן של $x$ יסומן ב $z_{x}$ והוא המרחק של $x$ מממוצע ההתפלגות $\overset{―}{x}$ כאשר מרחק זה נמדד ביחידות של סטיית התקן $(s_{x})$ כלומר

z_{x} = \frac{x - \overset{―}{x}}{s_{x}}

במצב זה נוכל להשוות כל ערך של משתנה בהתפלגות כלשהו לערך של משתנה בהתפלגות אחרת ולקבוע את היחס בינהם בהתאם ליחידות של סטיית תקן.

משפט

ממוצע התפלגות ציוני התקן $\overset{―}{z}$ הוא תמיד $0$
שונות התפלגות ציוני התקן $s_{z}^{2} = s_{z} = 1$

מדדי קשר

נרצה דרך לחשב את עוצמת הקשר בין נתונים. כלומר באיזה מידע ערך של משתנה $x$ עוזר בניבוי של ערך של משתנה אחר $y$ .
נדון במדדי קשר מבוססים סכום ריבועי השגיאות, כל פונקציית הפסד כזאת או אחרת הייתה יכולה לעזור לנו אך נתמקד בפונקציית ההפסד הנ״ל.
כלומר, אם לכל ערך $x$ ננבא ערל $\tilde{y}$ נדון בקשר בין

\sum_{i = 1}^{n} (y_{i} - {\tilde{y}}_{i})^{2}

ונרצה שככל שהערך גדול יותר ככה הקשר חלש יותר.
נתמקד במדד המתאים למשתנים $x, y$ שהם על סולם מנה ולמקרה שבו הקשר בינהם הוא ליניארי.
הדרך לניבוי היא חישוב $\tilde{y}$ מתוך $x$ היא באמצעות טרנספורמציה ליניארית.
מדד זה נקרא מקדם המתאם של פירסון ונסמנו $r$ .

נסתכל על גרף המתאר את ערכי $x$ השונים ובהתאמה ערכי $y$ שהתקבלו עבור הערך הזה. מיקום הנקודות הללו נקרא דיאגרמת פיזור

Pasted image 20230802154135.png|350

ניתן לראות שישנו קשר ליניארי קווי לא מושלם בין $x$ לבין $y$ .

קשר ליניארי מושלם

כאשר הקו הוא ישר לגמרי הקשר נקרא ליניארי מושלם
Pasted image 20230802154249.png|350

דוגמאות לקשרים:

Pasted image 20230802154338.png

אומנם באופן ויזואלי קל לראות מתי הקשר שלילי (ה) חלקי או חיובי חלקי (ב) או בכלל חזק לגמרי(א,ד) או שבכלל אין קשר (ג)
אבל נרצה לבטא זאת באופן מתמטי כך

r = \frac{\sum_{i = 1}^{n} z_{x_{i}} z_{y_{i}}}{n} = \frac{\sum_{i = 1}^{n} (x_{i} - \overset{―}{x}) (y_{i} - \overset{―}{y})}{n s_{x} s_{y}}

מקדם המתאם של פירסון נע בין $1$ (כשהקשר חיובי מושלם) לבין $- 1$ (כשהקשר שלילי מושלם).

השונות המשותפת

השונות המשותפת של שני משתנים מוגדרת על ידי

c o v (x, y) = \frac{\sum_{i = 1}^{n} (x_{i} - \overset{―}{x}) (y_{i} - \overset{―}{y})}{n}

השם נובע מכך שאיברי הסכום הם מכפלות הסטייה של $x$ מהממוצע שלו בסטייה של $y$ מהממוצע שלו. בעצם נוכל להגדיר את מקדם המתאם כך

r = \frac{c o v (x, y)}{s_{x} s_{y}}

ולכן $r$ ו $c o v$ הם בעלי קשר ישר כלומר

\begin{matrix} c o v (x, y) > 0 \to r > 0 \\ c o v (x, y) < 0 \to r < 0 \\ c o v (x, y) = 0 \to r = 0 \end{matrix}

אפשר לפתח את השונות המשותפת ולקבל ביטוי קצת יותר נוח:

c o v (x, y) = \frac{\sum_{i = 1}^{n} x_{i} y_{i}}{n} - \overset{―}{x} \overset{―}{y}

שזה בעצם ממוצע המכפלות פחות מכפלת הממוצעים.

תאוריית צבישב והחוק האמפיקי

עבור עקומת פעמון

* $68 %$ מהערכים הם במרחק של עד סטיית תקן אחת מהממוצע.
$95 %$ מהערכים הם במרחק של עד 2 סטיות תקן מהממוצע

באופן כללי

$75 %$ מהערכים הם במרחק של עד 2 סטיות תקן מהממוצע
$88.89 %$ מהערכים הם במרחק של עד $3$ סטיות תקן מהממוצע