کارهای اصلی یک مهندس یادگیری ماشین مدرن چیست؟
به نظر می رسد این یک سوال آسان با یک پاسخ ساده است:
ساخت مدل های یادگیری ماشین و تجزیه و تحلیل داده ها.
در واقعیت، این پاسخ اغلب درست نیست.
استفاده کارآمد از داده ها در یک تجارت مدرن موفق ضروری است. با این حال، تبدیل داده ها به نتایج ملموس کسب و کار مستلزم انجام یک سفر است. باید آن را به دست آورد، به طور ایمن به اشتراک گذاشت و در چرخه عمر توسعه خودش تحلیل کرد.
انفجار محاسبات ابری در اواسط تا اواخر دهه 2000 و پذیرش یادگیری ماشین توسط سازمانی یک دهه بعد به طور موثر شروع و پایان این سفر را مورد توجه قرار داد. متأسفانه، کسبوکارها اغلب در مرحله میانی با موانعی در ارتباط با کیفیت دادهها مواجه میشوند که معمولاً در رادار اکثر مدیران اجرایی نیست.
مشاور راه حل در آتاکاما
کیفیت پایین داده ها چگونه بر مشاغل تأثیر می گذارد
دادههای بی کیفیت و غیرقابل استفاده برای کسانی که در پایان سفر دادهها هستند، بار سنگینی است. اینها کاربران داده ای هستند که از آن برای ساخت مدل ها و مشارکت در سایر فعالیت های سودآور استفاده می کنند.
خیلی اوقات، دانشمندان داده افرادی هستند که برای «ساخت مدلهای یادگیری ماشینی و تجزیه و تحلیل دادهها» استخدام میشوند، اما دادههای بد آنها را از انجام هر کاری بازمیدارد. سازمانها تلاش و توجه زیادی را برای دسترسی به این دادهها انجام میدهند، اما هیچکس فکر نمیکند تحلیل کند که دادههای وارد شده به مدل قابل استفاده هستند یا خیر. اگر داده های ورودی ناقص باشد، مدل های خروجی و تجزیه و تحلیل نیز وجود خواهد داشت.
تخمین زده می شود که دانشمندان داده بین 60 تا 80 درصد از زمان خود را صرف اطمینان از پاکسازی داده ها می کنند تا نتایج پروژه آنها قابل اعتماد باشد. این فرآیند تمیز کردن میتواند شامل حدس زدن معنای دادهها و استنباط شکافها باشد و ممکن است سهوا دادههای بالقوه ارزشمند را از مدلهای خود دور بیندازند. نتیجه ناامید کننده و ناکارآمد است زیرا این داده های کثیف مانع از انجام بخش ارزشمند کارشان یعنی حل مشکلات تجاری توسط دانشمندان داده می شود.
این هزینه هنگفت و اغلب نامرئی پروژه ها را کند می کند و نتایج آنها را کاهش می دهد.
این مشکل زمانی بدتر می شود که وظایف پاکسازی داده ها در سیلوهای تکراری انجام شود. فقط به این دلیل که یک نفر متوجه مشکلی در یک پروژه شده و آن را پاکسازی کرده است، به این معنا نیست که آنها مشکل را برای همه همکاران و پروژه های مربوطه خود مرتب کرده اند.
حتی اگر یک تیم مهندسی داده بتواند یک پاکسازی انبوه را انجام دهد، ممکن است نتوانند فوراً این کار را انجام دهند و ممکن است به طور کامل زمینه کار و دلیل انجام آن را درک نکنند.
تاثیر کیفیت داده بر یادگیری ماشین
داده های پاک به ویژه برای پروژه های یادگیری ماشین مهم است. خواه طبقه بندی یا رگرسیون، یادگیری تحت نظارت یا بدون نظارت، شبکه های عصبی عمیق، یا زمانی که یک مدل ML وارد تولید جدید می شود، سازندگان آن باید دائماً در برابر داده های جدید ارزیابی کنند.
بخش مهمی از چرخه زندگی یادگیری ماشینی، مدیریت جابجایی دادهها است تا اطمینان حاصل شود که مدل مؤثر باقی میماند و به ارائه ارزش تجاری ادامه میدهد. پس از همه، داده ها یک چشم انداز همیشه در حال تغییر هستند. سیستمهای منبع ممکن است پس از اکتساب ادغام شوند، حاکمیت جدید ممکن است وارد عمل شود یا چشمانداز تجاری تغییر کند.
این بدان معناست که مفروضات قبلی دادهها ممکن است دیگر درست نباشند. در حالی که ابزارهایی مانند Databricks/MLFlow، AWS Sagemaker یا Azure ML Studio ارتقاء مدل، آزمایش و بازآموزی موثر را پوشش می دهند، اما برای تحلیل اینکه چه بخشی از داده ها تغییر کرده است، چرا تغییر کرده است و سپس اصلاح مسائل، که می تواند خسته کننده باشد، کمتر مجهز هستند. و زمان بر است.
داده محور بودن از بروز این مشکلات در پروژه های یادگیری ماشین جلوگیری می کند، اما این فقط مربوط به تیم های فنی ساخت خطوط لوله و مدل ها نیست. مستلزم آن است که کل شرکت همسو باشد. نمونههایی از این که چگونه عملاً به وجود میآیند شامل مواردی است که دادهها ممکن است به یک گردش کاری تجاری با کسی برای تأیید آن نیاز داشته باشند، یا جایی که یک ذینفع غیر فنی در ابتدای کار دانش را در شروع سفر داده کمک میکند.
سد راه ساخت مدل های ML
گنجاندن کاربران تجاری به عنوان مشتریان داده های سازمانشان به طور فزاینده ای با هوش مصنوعی امکان پذیر است. پردازش زبان طبیعی کاربران غیر فنی را قادر میسازد تا دادهها را پرس و جو کرده و بینشها را به صورت متنی استخراج کنند.
نرخ رشد مورد انتظار هوش مصنوعی بین سال های 2023 تا 2030 37 درصد است. 72 درصد از مدیران، هوش مصنوعی را مزیت اصلی تجاری می دانند و 20 درصد از EBIT برای شرکت های بالغ هوش مصنوعی در آینده توسط هوش مصنوعی ایجاد خواهد شد.
کیفیت داده ها ستون فقرات هوش مصنوعی است. عملکرد الگوریتم ها را افزایش می دهد و آنها را قادر می سازد تا پیش بینی ها، توصیه ها و طبقه بندی های قابل اعتمادی تولید کنند. برای 33 درصد از شرکتهایی که پروژههای شکستخورده هوش مصنوعی را گزارش میکنند، دلیل آن به دلیل کیفیت پایین داده است. در واقع، سازمانهایی که کیفیت دادهها را دنبال میکنند، میتوانند اثربخشی هوش مصنوعی بالاتری را در سراسر جهان ایجاد کنند.
اما کیفیت داده ها فقط کادری نیست که بتوانید آن را علامت بزنید. سازمان هایی که آن را به بخشی جدایی ناپذیر از عملیات خود تبدیل می کنند، می توانند با ارائه اعتماد به مدل، نتایج ملموس کسب و کار را از تولید مدل های یادگیری ماشینی بیشتر در سال تا نتایج تجاری قابل اعتمادتر و قابل پیش بینی کسب کنند.
چگونه بر موانع کیفیت داده غلبه کنیم
کیفیت داده نباید به این معنا باشد که منتظر بمانیم تا مشکلی در تولید رخ دهد و سپس برای رفع آن تلاش کنیم. داده ها باید به طور مداوم در هر کجا که زندگی می کنند، در برابر مجموعه ای از مشکلات شناخته شده در حال گسترش آزمایش شوند. همه ذینفعان باید مشارکت داشته باشند و همه داده ها باید صاحبان داده مشخص و مشخصی داشته باشند. پس ، وقتی از یک دانشمند داده پرسیده می شود که چه کار می کند، در نهایت می تواند بگوید: مدل های یادگیری ماشین بسازید و داده ها را تجزیه و تحلیل کنید.
ما بهترین فضای ذخیره سازی ابری کسب و کار را فهرست می کنیم .
این مقاله به عنوان بخشی از کانال Expert Insights TechRadarPro تهیه شده است که در آن بهترین و باهوش ترین ذهن ها در صنعت فناوری امروز را معرفی می کنیم. نظرات بیان شده در اینجا نظرات نویسنده است و لزوماً نظرات TechRadarPro یا Future plc نیست. اگر علاقه مند به مشارکت هستید، اطلاعات بیشتری را در اینجا بیابید: https://www.techradar.com/news/submit-your-story-to-techradar-pro
ارسال نظر