کیفیت داده: شرور دیده نشده یادگیری ماشین

شناسهٔ خبر: 678169 - تاریخ: آگوست 5, 2024

مهدی نوروزی

(اعتبار تصویر: Pixabay)

کارهای اصلی یک مهندس یادگیری ماشین مدرن چیست؟

به نظر می رسد این یک سوال آسان با یک پاسخ ساده است:

ساخت مدل های یادگیری ماشین و تجزیه و تحلیل داده ها.

دیگر اخبار

نوکیا و انویدیا برای شبکه های تلفن همراه مبتنی بر هوش مصنوعی با هم همکاری می کنند

در واقعیت، این پاسخ اغلب درست نیست.

استفاده کارآمد از داده ها در یک تجارت مدرن موفق ضروری است. با این حال، تبدیل داده ها به نتایج ملموس کسب و کار مستلزم انجام یک سفر است. باید آن را به دست آورد، به طور ایمن به اشتراک گذاشت و در چرخه عمر توسعه خودش تحلیل کرد.

انفجار محاسبات ابری در اواسط تا اواخر دهه 2000 و پذیرش یادگیری ماشین توسط سازمانی یک دهه بعد به طور موثر شروع و پایان این سفر را مورد توجه قرار داد. متأسفانه، کسب‌وکارها اغلب در مرحله میانی با موانعی در ارتباط با کیفیت داده‌ها مواجه می‌شوند که معمولاً در رادار اکثر مدیران اجرایی نیست.

الیور گوردون

مشاور راه حل در آتاکاما

کیفیت پایین داده ها چگونه بر مشاغل تأثیر می گذارد

داده‌های بی کیفیت و غیرقابل استفاده برای کسانی که در پایان سفر داده‌ها هستند، بار سنگینی است. اینها کاربران داده ای هستند که از آن برای ساخت مدل ها و مشارکت در سایر فعالیت های سودآور استفاده می کنند.

بیشتر بخوانید

تصاویر دیده نشده از عباس کیارستمی

خیلی اوقات، دانشمندان داده افرادی هستند که برای «ساخت مدل‌های یادگیری ماشینی و تجزیه و تحلیل داده‌ها» استخدام می‌شوند، اما داده‌های بد آنها را از انجام هر کاری بازمی‌دارد. سازمان‌ها تلاش و توجه زیادی را برای دسترسی به این داده‌ها انجام می‌دهند، اما هیچ‌کس فکر نمی‌کند تحلیل کند که داده‌های وارد شده به مدل قابل استفاده هستند یا خیر. اگر داده های ورودی ناقص باشد، مدل های خروجی و تجزیه و تحلیل نیز وجود خواهد داشت.

تخمین زده می شود که دانشمندان داده بین 60 تا 80 درصد از زمان خود را صرف اطمینان از پاکسازی داده ها می کنند تا نتایج پروژه آنها قابل اعتماد باشد. این فرآیند تمیز کردن می‌تواند شامل حدس زدن معنای داده‌ها و استنباط شکاف‌ها باشد و ممکن است سهوا داده‌های بالقوه ارزشمند را از مدل‌های خود دور بیندازند. نتیجه ناامید کننده و ناکارآمد است زیرا این داده های کثیف مانع از انجام بخش ارزشمند کارشان یعنی حل مشکلات تجاری توسط دانشمندان داده می شود.

این هزینه هنگفت و اغلب نامرئی پروژه ها را کند می کند و نتایج آنها را کاهش می دهد.

این مشکل زمانی بدتر می شود که وظایف پاکسازی داده ها در سیلوهای تکراری انجام شود. فقط به این دلیل که یک نفر متوجه مشکلی در یک پروژه شده و آن را پاکسازی کرده است، به این معنا نیست که آنها مشکل را برای همه همکاران و پروژه های مربوطه خود مرتب کرده اند.

حتی اگر یک تیم مهندسی داده بتواند یک پاکسازی انبوه را انجام دهد، ممکن است نتوانند فوراً این کار را انجام دهند و ممکن است به طور کامل زمینه کار و دلیل انجام آن را درک نکنند.

تاثیر کیفیت داده بر یادگیری ماشین

داده های پاک به ویژه برای پروژه های یادگیری ماشین مهم است. خواه طبقه بندی یا رگرسیون، یادگیری تحت نظارت یا بدون نظارت، شبکه های عصبی عمیق، یا زمانی که یک مدل ML وارد تولید جدید می شود، سازندگان آن باید دائماً در برابر داده های جدید ارزیابی کنند.

بخش مهمی از چرخه زندگی یادگیری ماشینی، مدیریت جابجایی داده‌ها است تا اطمینان حاصل شود که مدل مؤثر باقی می‌ماند و به ارائه ارزش تجاری ادامه می‌دهد. پس از همه، داده ها یک چشم انداز همیشه در حال تغییر هستند. سیستم‌های منبع ممکن است پس از اکتساب ادغام شوند، حاکمیت جدید ممکن است وارد عمل شود یا چشم‌انداز تجاری تغییر کند.

این بدان معناست که مفروضات قبلی داده‌ها ممکن است دیگر درست نباشند. در حالی که ابزارهایی مانند Databricks/MLFlow، AWS Sagemaker یا Azure ML Studio ارتقاء مدل، آزمایش و بازآموزی موثر را پوشش می دهند، اما برای تحلیل اینکه چه بخشی از داده ها تغییر کرده است، چرا تغییر کرده است و سپس اصلاح مسائل، که می تواند خسته کننده باشد، کمتر مجهز هستند. و زمان بر است.

داده محور بودن از بروز این مشکلات در پروژه های یادگیری ماشین جلوگیری می کند، اما این فقط مربوط به تیم های فنی ساخت خطوط لوله و مدل ها نیست. مستلزم آن است که کل شرکت همسو باشد. نمونه‌هایی از این که چگونه عملاً به وجود می‌آیند شامل مواردی است که داده‌ها ممکن است به یک گردش کاری تجاری با کسی برای تأیید آن نیاز داشته باشند، یا جایی که یک ذینفع غیر فنی در ابتدای کار دانش را در شروع سفر داده کمک می‌کند.

سد راه ساخت مدل های ML

گنجاندن کاربران تجاری به عنوان مشتریان داده های سازمانشان به طور فزاینده ای با هوش مصنوعی امکان پذیر است. پردازش زبان طبیعی کاربران غیر فنی را قادر می‌سازد تا داده‌ها را پرس و جو کرده و بینش‌ها را به صورت متنی استخراج کنند.

نرخ رشد مورد انتظار هوش مصنوعی بین سال های 2023 تا 2030 37 درصد است. 72 درصد از مدیران، هوش مصنوعی را مزیت اصلی تجاری می دانند و 20 درصد از EBIT برای شرکت های بالغ هوش مصنوعی در آینده توسط هوش مصنوعی ایجاد خواهد شد.

کیفیت داده ها ستون فقرات هوش مصنوعی است. عملکرد الگوریتم ها را افزایش می دهد و آنها را قادر می سازد تا پیش بینی ها، توصیه ها و طبقه بندی های قابل اعتمادی تولید کنند. برای 33 درصد از شرکت‌هایی که پروژه‌های شکست‌خورده هوش مصنوعی را گزارش می‌کنند، دلیل آن به دلیل کیفیت پایین داده است. در واقع، سازمان‌هایی که کیفیت داده‌ها را دنبال می‌کنند، می‌توانند اثربخشی هوش مصنوعی بالاتری را در سراسر جهان ایجاد کنند.

اما کیفیت داده ها فقط کادری نیست که بتوانید آن را علامت بزنید. سازمان هایی که آن را به بخشی جدایی ناپذیر از عملیات خود تبدیل می کنند، می توانند با ارائه اعتماد به مدل، نتایج ملموس کسب و کار را از تولید مدل های یادگیری ماشینی بیشتر در سال تا نتایج تجاری قابل اعتمادتر و قابل پیش بینی کسب کنند.

چگونه بر موانع کیفیت داده غلبه کنیم

کیفیت داده نباید به این معنا باشد که منتظر بمانیم تا مشکلی در تولید رخ دهد و سپس برای رفع آن تلاش کنیم. داده ها باید به طور مداوم در هر کجا که زندگی می کنند، در برابر مجموعه ای از مشکلات شناخته شده در حال گسترش آزمایش شوند. همه ذینفعان باید مشارکت داشته باشند و همه داده ها باید صاحبان داده مشخص و مشخصی داشته باشند. پس ، وقتی از یک دانشمند داده پرسیده می شود که چه کار می کند، در نهایت می تواند بگوید: مدل های یادگیری ماشین بسازید و داده ها را تجزیه و تحلیل کنید.

ما بهترین فضای ذخیره سازی ابری کسب و کار را فهرست می کنیم .

این مقاله به عنوان بخشی از کانال Expert Insights TechRadarPro تهیه شده است که در آن بهترین و باهوش ترین ذهن ها در صنعت فناوری امروز را معرفی می کنیم. نظرات بیان شده در اینجا نظرات نویسنده است و لزوماً نظرات TechRadarPro یا Future plc نیست. اگر علاقه مند به مشارکت هستید، اطلاعات بیشتری را در اینجا بیابید: https://www.techradar.com/news/submit-your-story-to-techradar-pro