متن خبر

رگرسیون خطی در مقابل لجستیک: چگونه مدل رگرسیون مناسب را برای داده های خود انتخاب کنید

رگرسیون خطی در مقابل لجستیک: چگونه مدل رگرسیون مناسب را برای داده های خود انتخاب کنید

شناسهٔ خبر: 476362 -




مدل‌های رگرسیون روندها را در یک مجموعه داده شناسایی می‌کنند و بر اساس روندهایی که تجزیه و تحلیل و شناسایی کرده‌اند، نتایج را پیش‌بینی می‌کنند.

رگرسیون خطی و لجستیک دو نوع مدل رگرسیونی هستند که مشابه هستند اما عملکردهای خود را به روش‌های متفاوتی انجام می‌دهند. آنها همچنین دو تکنیک اساسی در یادگیری ماشین هستند که نتایج را با تجزیه و تحلیل داده های ارائه شده قبلی پیش بینی می کنند.

هم رگرسیون خطی و هم رگرسیون لجستیک، مدل‌های یادگیری نظارت شده‌ای هستند که به نظر می‌رسند در هم تنیده شده‌اند - پس تمایز بین آنها می‌تواند گیج‌کننده باشد، زیرا آنها تصور یکسانی از پیش‌بینی نتایج بر اساس متغیرهای ورودی دارند.

اما تفاوت اصلی اینجاست: رگرسیون خطی بر پیش بینی مقادیر پیوسته تمرکز می کند، در حالی که رگرسیون لجستیک به طور خاص برای طبقه بندی باینری (بله یا خیر) طراحی شده است. پس اگرچه نام‌های مشابهی دارند، اما تفاوت‌های کلیدی در کاربردها، معادلات و اهداف آنها وجود دارد.

در این مقاله، با شباهت ها و تفاوت های رگرسیون خطی و لجستیک آشنا می شوید، ویژگی های کلیدی هر کدام را تحلیل می کنید و نحوه انتخاب بین آنها را خواهید آموخت.

فهرست مطالب

    چگونه رگرسیون خطی و لجستیک پیش بینی می کند
    - رگرسیون خطی
    - رگرسیون لجستیک

    شباهت های رگرسیون خطی و لجستیک چیست؟

    تفاوت بین رگرسیون خطی و لجستیک چیست؟

    چه زمانی از رگرسیون خطی در مقابل لجستیک برای پروژه های داده خود استفاده کنید

    انواع دیگر مدل های رگرسیون چیست؟

    نتیجه

چگونه رگرسیون خطی و لجستیک پیش بینی می کند

رگرسیون خطی

رگرسیون خطی ساده ترین شکل رگرسیون است، با فرض یک رابطه خطی (خط مستقیم) بین متغیر ورودی و خروجی. به زبان ساده، از قدرت یک خط مستقیم بهره می برد.

معادله رگرسیون خطی ساده را می توان به صورت y = mx + b بیان کرد، که در آن:

y متغیر وابسته است

x متغیر مستقل است

m شیب است

و b رهگیری است.

New-Linear-Regression-image-1
نمودار رگرسیون خطی ( منبع )

در مجموعه داده قیمت خانه، متغیرهای مستقل ستون‌هایی هستند که برای پیش‌بینی قیمت خانه استفاده می‌شوند، مانند «مساحت»، «اتاق خواب‌ها»، «سن» و «مکان». متغیر وابسته ستون "قیمت" خواهد بود - ویژگی قابل پیش بینی.

در اینجا می توانید اطلاعات بیشتری در مورد رگرسیون خطی بخوانید .

رگرسیون لجستیک

رگرسیون لجستیک یک تکنیک یادگیری ماشینی قدرتمند با نظارت است. با فرض یک رابطه خطی بین ویژگی ها و نتیجه و سپس محاسبه احتمال قرار گرفتن نتیجه در یک یا گروه دیگر، به دسته بندی نتایج به دو گروه کمک می کند.

معادله ریاضی یک خروجی را بر اساس رابطه محاسبه می کند و سپس خروجی با استفاده از یک تابع سیگموید تبدیل می شود تا آن را بین 0 and 1 محدود کند. ایناهاش:

\(y = e^(β0 + β1X1 + β2X2+… βnXn) / (1 + e^(β0 + β1 x 1 + β2 x 2 +… βn xn))\)

جایی که:

y احتمال موفقیت متغیر طبقه ای y را نشان می دهد

e (x) عدد اویلر است، معکوس تابع لگاریتم طبیعی یا تابع سیگموئید، ln (x)

زمانی که همه متغیرهای ورودی مستقل برابر با 0 باشند β0 نقطه ی y است

β1X1 ضریب رگرسیون (B1) اولین متغیر مستقل (X1)، مقدار تاثیر اولین متغیر مستقل بر متغیر وابسته است.

βnXn ضریب رگرسیون (BN) آخرین متغیر مستقل (XN) است، زمانی که مقادیر ورودی چندگانه وجود دارد.

تصویر جدید-لجستیک-رگرسیون
نمودار رگرسیون لجستیک (https://images.app.goo.gl/vfYBcVSrdvR2Mkki9)


این معمولاً در زمینه هایی مانند تشخیص هرزنامه و برای تشخیص پزشکی استفاده می شود. برای تفسیر احتمال قرار گرفتن یک مشاهده در یک کلاس خاص استفاده می شود.

در اینجا می توانید اطلاعات بیشتری در مورد رگرسیون لجستیک بخوانید .

شباهت های رگرسیون خطی و لجستیک چیست؟

    رابطه خطی: هر دو رگرسیون خطی و لجستیک یک رابطه خطی بین ویژگی های ورودی و خروجی را فرض می کنند.

    یادگیری نظارت شده: هر دو الگوریتم های یادگیری ماشینی تحت نظارت هستند، به این معنی که به داده های آموزشی برچسب گذاری شده نیاز دارند.

    L i mitations: هر دو الگوریتم محدودیت های مشابهی دارند از جمله:

روابط غیر خطی بین متغیرهای ورودی و خروجی منجر به نتایج نادرست خواهد شد.

داده های ناپاک و مقادیر از دست رفته منجر به عملکرد ضعیف مدل می شود. در اینجا می توانید اطلاعات بیشتری در مورد پاکسازی داده ها بخوانید .

هر دو مدل مستعد بیش از حد برازش هستند که استفاده از انتخاب ویژگی را کاهش می دهد.

تفاوت بین رگرسیون خطی و لجستیک چیست؟

    نوع خروجی : رگرسیون خطی خروجی پیوسته (مثلاً قیمت یک خانه) را در یک نمودار خط مستقیم پیش‌بینی می‌کند، در حالی که رگرسیون لجستیک احتمالات را برای طبقه‌بندی باینری (مثل اینکه بیمار مبتلا به سرطان است یا نه) بر روی یک منحنی S شکل پیش‌بینی می‌کند.

    معادله و تابع فعال سازی: رگرسیون خطی از یک معادله خطی ساده استفاده می کند در حالی که رگرسیون لجستیک از تابع لجستیک (سیگموئید) برای تبدیل خروجی به احتمالات استفاده می کند.

    تابع ضرر : رگرسیون خطی مجموع اختلافات مجذور را به حداقل می رساند، در حالی که رگرسیون لجستیک ضرر لجستیک را به حداقل می رساند.

    نوع یادگیری تحت نظارت: رگرسیون خطی یک مدل رگرسیونی است. رگرسیون لجستیک یک مدل طبقه بندی است.

چه زمانی از رگرسیون خطی در مقابل لجستیک برای پروژه های داده خود استفاده کنید

شما می توانید از رگرسیون خطی برای حل مسائلی استفاده کنید که در آن رابطه بین متغیرها می تواند به طور منطقی با یک خط مستقیم تقریب شود. این بدان معناست که برای درک تغییرات یا روندهای تدریجی به جای پرش های ناگهانی یا روابط پیچیده مناسب است. چند نمونه از این موارد استفاده عبارتند از:

پیش بینی قیمت مسکن

شناسایی روابط

روند و تحلیل بازار

ارزیابی ریسک کسب و کار

تحقیق علمی

برآورد قیمت

درک تاثیر

از سوی دیگر، رگرسیون لجستیک ابزاری قدرتمند برای درک رویدادهای باینری و پیش بینی بر اساس ویژگی های داده شده است. در محاسبه احتمال "بله" یا "خیر" بودن یک نتیجه برتری دارد. این برای طیف گسترده ای از سناریوها مانند:

تشخیص تقلب

فیلتر اسپم

کاربردها در پزشکی

ریزش مشتری

تخمین احتمال

انواع دیگر مدل های رگرسیون چیست؟

رگرسیون خطی و لجستیک تنها مدل های رگرسیون موجود نیستند. مدل های دیگری وجود دارد که می توانید در مواردی که رگرسیون خطی و لجستیک با شکست مواجه می شوند، استفاده کنید:

رگرسیون ریج یک تکنیک منظم سازی است که برای کاهش پیچیدگی یک مدل با معرفی مقدار کمی سوگیری استفاده می شود. این باعث می شود که مدل کمتر در معرض بیش از حد مناسب قرار گیرد.

رگرسیون کمند یک تکنیک منظم سازی است که پیچیدگی یک مدل را نیز کاهش می دهد. با کاهش ضریب برای نزدیک شدن به صفر از برازش بیش از حد جلوگیری می کند. به ویژه هنگامی که انتخاب ویژگی بسیار مهم است مفید است

رگرسیون چند جمله ای رابطه غیر خطی را با استفاده از یک خط منحنی نشان می دهد. این به طور مستقیم به محدودیت های رگرسیون خطی و لجستیک با مدل سازی یک رابطه غیر خطی بین متغیرها می پردازد.

نتیجه

رگرسیون خطی و لجستیک مفهوم اساسی رابطه خطی بین متغیرهای ورودی و متغیرهای خروجی را به اشتراک می‌گذارند. اما کاربردها، معادلات ریاضی و موارد استفاده آنها به طور قابل توجهی متفاوت است.

درک این تفاوت ها هنگام انتخاب مدل مناسب برای یک مشکل بسیار مهم است.

این مقاله عملکرد داخلی و موارد استفاده آنها را روشن کرده است و از این طریق شما را به انتخاب درست و آگاهانه مجهز می کند. مطمئن شوید که برای افزایش دانش و مهارت‌های خود بیشتر کاوش کرده‌اید و برای یادگیری مدل‌های پیچیده‌تر یادگیری ماشینی که به بهترین وجه با مشکلات داده‌های شما مطابقت دارند، وقت بگذارید.

اگر این را مفید یافتید، می توانید در لینکدین ، وبلاگ شخصی من و X (توئیتر سابق) با من ارتباط برقرار کنید.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است