לדלג לתוכן

רגרסיה ליניארית

מתוך ויקיפדיה, האנציקלופדיה החופשית

רגרסיה ליניארית היא שיטה מתמטית למציאת הפרמטרים של הקשר בין משתנה בלתי תלוי X למשתנה תלוי Y, בהנחה שהקשר ביניהם ליניארי, כלומר מהצורה .

השיטה משמשת לניתוח מדגמים סטטיסטיים. נוסחת הרגרסיה הליניארית מחשבת את הקו הישר שעובר דרך הנקודות שבמדגם. במצב של קשר ישיר מדויק כל הנקודות במדגם יימצאו על הקו עצמו. במציאות גורמים נוספים משפיעים על המדגם והנקודות לרוב מפוזרות מסביב לקו. הקו מחושב בצורה כזאת שסכום ריבועי המרחקים של הנקודות מהקו הוא הקטן ביותר. רגרסיה ליניארית מרובה מחשבת קשר בין מספר משתנים בלתי תלויים יחד, למשתנה תלוי אחד.

רגרסיה ליניארית עם משתנה מסביר יחיד

[עריכת קוד מקור | עריכה]

המקרה הפשוט ביותר הוא זה שבו קיימים שני משתנים: משתנה בלתי תלוי X שהוא המשתנה המסביר, ומשתנה תלוי Y שהוא המשתנה המוסבר. לדוגמה, אפשר לנסות להסביר ולנבא באמצעות המודל את גובהו של עץ תפוחים (Y, במטרים), על פי משקלו של הזרע שממנו הוא צומח (X, בגרמים).

בבסיס השיטה עומדת ההנחה כי המודל המסביר את הקשר בין המשתנים הוא מודל ליניארי, כלומר, שמשוואה מסוג תתאר נכונה את הקשר. ליתר דיוק, מניחים שבמדגם הכולל n דגימות , מתקיים הקשר , כאשר a ו-b הם פרמטרים קבועים (שאינם ידועים), ואילו גורמי השגיאה הם משתנים בלתי תלויים שווי התפלגות, שהתוחלת שלה 0, והשונות שלה, , קבועה (אבל אולי בלתי ידועה). לעיתים רבות מניחים גם כי ההתפלגות של גורמי השגיאה היא נורמלית.

המטרה הראשונה של הרגרסיה הליניארית היא לסייע באמידת Y, כאשר X ידוע. לדוגמה, אם ידוע שגובהם הממוצע של עצי תפוח הוא 6 מטרים, אז ההערכה הטובה ביותר שאפשר לתת לגובהו העתידי של עץ שטרם צמח, היא (מן הסתם) 6 מטרים. לעומת זאת, אם אכן קיים קשר ליניארי בין משקל הזרע לבין גובה העץ, אפשר לנסות להעריך את מקדמי הקשר באמצעות מדגם גדול מספיק. אם שיטת הרגרסיה מנבאת את הקשר , פירושו של דבר שהשתיל שנבט מזרע במשקל 1.5 גרם יצמח לגובה 7 מטרים - ההערכה משתפרת, באמצעות ניצול המידע הנוסף שבמשתנה המסביר X.

הקו תמיד עובר דרך נקודת הממוצעים

את ערכי הפרמטרים a ו-b אומדים, מתוך המדגם, באמצעות שיטת הריבועים הפחותים: מחפשים את המספרים שעבורם סכום הריבועים הוא הקטן ביותר. (מן ההנחה שהשגיאה מתפלגת נורמלית, נובע שמספרים אלה מהווים אומד נראות מקסימלית של ו-). לקו המתקבל מן האומדים יש תכונה שימושית - הוא תמיד עובר דרך נקודת הממוצעים , כלומר, .

חישוב הפרמטרים היסודיים של המדגם (לרבות סטיות התקן של X ושל Y) מאפשר גם לבדוק השערות סטטיסטיות על a ו-b. לדוגמה, אפשר לבדוק את ההשערה , שממנה נובע כי Y אינו תלוי (ליניארית) ב-X. אמנם בכל מדגם מעשי יופיע קשר מסוים בין X ל-Y, אך התורה של בדיקת השערות מאפשרת לזהות מתי קשר זה הוא מקרי בלבד, ומתי הוא מובהק ואינו מקרי.

רגרסיה מרובה

[עריכת קוד מקור | עריכה]

במקרים רבים מבקשים להסביר משתנה יחיד, Y, באמצעות מספר משתנים מסבירים, . לדוגמה, ייתכן שכדי להסביר את גובהו של עץ תפוח, יש להתחשב לא רק במשקל הזרע, אלא גם בכמות המשקעים השנתית במקום שבו הוא גדל, בגובהו של העץ שממנו הגיע הזרע, ובמליחות הקרקע. אם ההשפעה של משתנים אלה על Y היא ליניארית, מודל הרגרסיה יוכל למצוא (כמקודם), את הפרמטרים המגדירים את הקשר הליניארי, ובכך יסייע לשפר את ההערכה של Y עוד יותר.

המודל הבסיסי של הרגרסיה הליניארית גמיש מספיק כדי לאפשר תלות בין המשתנים המסבירים, וניתן לכלול בו גם גורמים שאינם ליניאריים (כמו במודל ). אחד השימושים העיקריים של המודל הוא במדידת הרלוונטיות של משתנה מסביר, באמצעות השוואת המודל הכולל אותו, למודל המסביר את אותה תופעה בלעדיו. הוספת משתנים משפרת את יכולת ההערכה כמעט ללא יוצא מן הכלל, אבל במקרים רבים השיפור הוא אקראי, ואינו נובע מקשר אמיתי בין המשתנים. גורם עיקרי במענה על שאלות מסוג זה מהווה מקדם המתאם המרובה, המסומן , ומתפלג (לאחר תיקון) התפלגות F.

הגדרה פורמלית

[עריכת קוד מקור | עריכה]

תהי סדרה בת איברים של ערכי משתנה , ו משפחה של קבוצות שאיבריהן הסדרות: . לכל אינדקס נגדיר את הווקטור: .

תחת הנחת הליניאריות נאמר כי רכיבי הווקטור מקיימים את הקשר הליניארי הבא:

כאשר:

  • הוא משתנה מקרי שערכו הנקודתי נגזר מהפער בין הקשר הליניארי בין ערכי הסדרות באינדקס ה-י, ובין ערך הסדרה בנקודה זו. משתנה זה נקרא "ההפרעה המקרית", או "השונות המקרית" של המודל ומבטא את השינוי בערכי , שאינם מוסברים על ידי שינוי בערכי .
  • הוא המקדם של במשוואה.

המודל הליניארי המלא הוא מערכת של משוואות ב- נעלמים, המסומן:

כאשר:

  • וקטור -ממדי של ערכי הסדרה
  • מטריצה מסדר המבטאת את ההרכבה הבאה:

  • וקטורים -ממדיים.

משוואת המודל הליניארי

[עריכת קוד מקור | עריכה]

בהינתן מערכת המשוואות הליניארית: , וקטור פתרונות המערכת, , נגדיר העתקה: באופן הבא:

.

ברדוקציה על הגדרה זו, אנו למעשה מייצרים פולינום - משתני ממעלה 1, שמקדמיו הם פתרונות המערכת, בתוספת גורם קבוע:

פולינום זה מאפשר לנו לקבל אומדן לכל ערך של משתנה בטווח הדגימה, דהיינו: , בהינתן כל ערכים שנבחר למשתנים: .

משוואת הניבוי של המודל הליניארי

[עריכת קוד מקור | עריכה]

המודל המוצג לעיל הוא תאורטי בלבד, ומניח למעשה כי דגמנו מאוכלוסייה בת פרטים, את כלל הפרטים. במציאות, דגימה של כלל האוכלוסייה לרוב אינה אפשרית, ועל כן נהוג לבנות את משוואת הניבוי באמצעות אומדים למודל הליניארי של האוכלוסייה. במקרה זה, נחפש וקטור פתרונות , עבור המשוואה: .

אומדים חסרי הטיה
[עריכת קוד מקור | עריכה]
ערך מורחב – משפט גאוס-מרקוב

מכיוון שהווקטור מקיים את השוויון: ולא את השוויון: , בכל מקרה בו נקבל: , ועל כן נשאף למצוא וקטור כך ש: .

מכיוון שדגמנו ערכים של המשתנה , נדרוש את הדרישה השקולה:

וקטור שעומד בדרישה זו נקרא אומד ל- בשיטת הריבועים הפחותים, יקיים את התכונות הבאות:

  • אומד ליניארי – וקטור זה הוא פתרון של מערכת משוואות ליניארית
  • שונות נגזרת משונות האוכלוסייה – השונות של מקיימת:
  • הנחת נורמליות – אנו מניחים כי
  • אומד חסר הטיה – עבור , וקטור מקדמי המערכת הליניארית התאורטית של האוכלוסייה, תוחלת הווקטור תקיים:
  • הנחת השונות המינימלית – לכל אומד מתקיים:

שתי התכונות האחרונות ניתנות להרחבה במודל בו מניחים ושקולות, בהתאמה, לשתי התכונות הבאות:

  • אומד חסר הטיה באופן אסימפטוטי – יקיים:
  • עקיבות – אומד חסר הטיה באופן אסימפטוטי המקיים גם:

תכונות אלו יחדיו, מבטיחות כי הגדלת גודל המדגם עליו מבוססת משוואת האמידה, תקרב אותנו לפרמטרים האמיתיים של האוכלוסייה, דהיינו, אל .

ההנחות הקלאסיות
[עריכת קוד מקור | עריכה]

קיומו של אומד חסר הטיה אינו מובטח עבור כל סדרת תצפיות שנבחר, ועל כן עלינו לוודא כי מתקיימות בנוסף ההנחות הבאות:

  • תוחלת 0 של ההפרעה המקרית – לכל , נדרוש שיתקיים: .
  • הומוסקדסטיות (הנחת השונות הקבועה) – לכל , נדרוש שיתקיים: , הווה אומר- עבור זוג וקטורים: , שונות ההפרעה המקרית קבועה, וזהה.
  • ההפרעה המקרית מתפלגת נורמלית – לכל מתקיים: הנחה זו נובעת ישירות משתי ההנחות הקודמות, אך בגלל חשיבותה הקדשנו לה סעיף נפרד.
  • חוסר מתאם סדרתי – אין תלות בין ההפרעות המקריות, דהיינו: .
  • אינו משתנה מקרי – מהנחה זו משתמע כי אין מתאם בין השונות המקרית למשתנה המסביר, כלומר: .
  • איסור מולטיקולינאריות מושלמת – לכל משתנה מסביר , נניח כי: .

אמידה במקרים בהם לא מתקיימות ההנחות הקלאסיות

[עריכת קוד מקור | עריכה]

לא בכל מדגם שנאסוף יתקיימו כלל ההנחות שמנינו לעיל, לרוב בעקבות תכונות של האוכלוסייה ממנה נלקחו התצפיות, או מגבלות באיסוף התצפיות עצמן. במקרים כאלו, לא ניתן להשתמש בשיטת הריבועים הפחותים לאמידת המודל, ונדרש להשתמש בשיטות אמידה אחרות, שמניבות אומדים חסרי הטיה, תחת הנחות מקלות יותר. במציאות, סדרות נתונים לרוב לא יקיימו את כלל ההנחות הקלאסיות, ועל כן לאורך השנים התפתחו שיטות אמידה רבות. את השיטות השונות ניתן לחלק למספר קטגוריות, בהתאם להנחות שהן מתירות להפר:

  • אמידה של סדרות עתיות – שיטות המטפלות בסדרות בהן קיים מתאם סדרתי. השיטה הנפוצה, והפשוטה ביותר, לטפל בסדרות נתונים מסוג זה היא באמצעות החלקה מעריכית- התמרה (החלפה) של ערכי הסדרות בהן קיים מתאם סדרתי לערכי הלוגריתם הטבעי של הפרש התצפיות.
  • אמידה של סדרות בהן המשתנה המוסבר מקבל ערכים בדידים – במקרים אלו המשתנה המוסבר שלנו איכותני, ולא כמותי, ועל כן התפלגותו תהיה בינומית, ברנולי, או פואסונית. השיטה הנפוצה ביותר להתמודד עם משתנים מסוג זה היא שימוש ברגרסיה ממשפחת LOGIT, בה פתרונות המערכת הליניארית תמיד יקבלו ערכים המתיישבים עם ההסתברות לקבל את ערכי המשתנה המוסבר, בהתפלגויות בדידות.
  • אמידה בייזיאנית – נועדה להתמודד עם משתנים מסבירים מקריים. במקרים אלו, האומדים שנקבל לא ינבעו מווקטור פתרונות יחיד, אלא משפחה של התפלגויות פוסטריוריות, המחילות את אי-הוודאות סביב קבלת ערכי המסבירים האפשריים.

שימושים של רגרסיה ליניארית

[עריכת קוד מקור | עריכה]

לרגרסיה ליניארית שימוש נרחב במדעי החיים, מדעי החברה ומדעי ההתנהגות לתיאור קשרים אפשריים בין משתנים. היא נחשבת כאחד מהכלים החשובים שנעשה בהם שימוש בדיסציפלינות הללו.

קו זה מייצג מגמה, תנועה לטווח ארוך של נתונים על ציר הזמן לאחר התחשבות בגורמים אחרים. הוא אומר האם אוסף נתונים מסוים (לדוגמה תמ"ג, מחירי נפט או מחירי מניה) עלה או ירד לאורך תקופת זמן מסוימת. ניתן לצייר קו מגמה בצורה פשוטה יחסית על ידי מבט בתצפיות, אך ליתר דיוק יש לחשב את מיקום הנקודה והשיפוע על ידי כלים סטטיסטיים כמו רגרסיה ליניארית. בדרך כלל קווי מגמה הם קווים ישרים אולם יש וריאציות המשתמשות בפולינומים מדרגה גבוהה התלויים ברמת הקעירות הרצויה.

לעיתים משמשים קווי מגמה בניתוחים עסקיים כדי להראות שינויים במידע לאורך זמן. יש לכך יתרון של פשטות. קווי מגמה משמשים לרוב כדי לטעון שפעולה או אירוע (כמו אימון או מסע פרסום) גרמו לשינויים שניתנים להבחנה בנקודת זמן. זו טכניקה פשוטה שאינה דורשת קבוצת בקרה, תכנון ניסוי או אנליזה מתוחכמת. למרות זאת, הם סובלים מחוסר אמינות מדעית במקרה ששינויים אחרים יכולים להשפיע על הנתונים.

אפידמיולוגיה

[עריכת קוד מקור | עריכה]
ערך מורחב – אפידמיולוגיה

ראיות מוקדמות המקשרות עישון טבק למוות ולתחלואה הגיעו מניסויים שהופעלו בהם ניתוחים רגרסיביים[דרוש מקור]. במטרה להקטין השפעה של קורלציות עם משתנים אחרים, חוקרים בדרך כלל כוללים מספר משתנים במודל הרגרסיה שלהם, בנוסף למשתנה העיקרי שנחקר. לדוגמה, נניח שיש מודל רגרסיה שבו שיעור העישון של סיגריות הוא משתנה המחקר הבלתי תלוי, והמשתנה התלוי הוא תוחלת חיים, הנמדדת בשנים. חוקרים עלולים לכלול מעמד סוציו-אקונומי כמשתנה בלתי תלוי נוסף, כדי להבטיח שכל שינוי בתוחלת החיים אינו מושפע מגורמים אחרים, כמו: החינוך או ההכנסה. למרות זאת, לעולם אין זה אפשרי לכלול את כל המשתנים המשתלבים בניתוח אמפירי. לדוגמה, גן כלשהו עלול להגדיל תמותה, ובנוסף לגרום לאנשים לעשן יותר. מסיבה זו, ניסויים מבוקרים אקראיים מסוגלים לרוב לספק ראיה משכנעת יותר של קשרי סיבתיות, שניתן להשיג על ידי שימוש באנליזה רגרסיבית של אוסף נתונים. כשניסויים מבוקרים לא אפשריים, ניתן להשתמש בדרכים שונות של אנליזה רגרסיבית, כגון רגרסיית משתני עזר, כדי לנסות להעריך קשרי סיבתיות מתוך אוסף נתונים.

מודל לתמחור נכסי הון (CAPM) משתמש ברגרסיה ליניארית, כמו גם במושג בטא, לניתוח וכימות שיטתיים של הסיכון בהשקעה. הקשר נובע ישירות ממקדם בטא של מודל הרגרסיה הליניארית, שמקשר את תשואת ההשקעה לתשואה מכל הנכסים עם אופי סיכון גבוה.

ערך מורחב – אקונומטריקה

רגרסיה ליניארית היא הכלי האמפירי המרכזי בכלכלה. לדוגמה, הוא משמש לחיזוי הוצאות צריכה, הוצאות השקעה קבועות, השקעה באגירת מלאי, רכישות של יצוא של מדינה, הוצאות על יבוא, הדרישה להחזיק בנכנסים נזילים, ביקוש והיצע לעבודה.

מדעי הסביבה

[עריכת קוד מקור | עריכה]

ברגרסיה ליניארית נעשה שימוש במגוון רחב של יישומים במדעי הסביבה. בקנדה, "תוכנית הבקרה על ההשפעות הסביבתיות" משתמשת בניתוח סטטיסטי של מחקרים של דגים ושל קרקעית הים למדידת ההשפעות של שפכי עיסה טחונה או מתכות על המערכת הימית האקולוגית.

קישורים חיצוניים

[עריכת קוד מקור | עריכה]
ויקישיתוף מדיה וקבצים בנושא רגרסיה ליניארית בוויקישיתוף