متن خبر

نحوه استفاده از پاندا برای تمیز کردن و پیش پردازش داده ها

نحوه استفاده از پاندا برای تمیز کردن و پیش پردازش داده ها

شناسهٔ خبر: 446835 -




استیو لور از نیویورک تایمز او میگوید : «دانشمندان داده، طبق مصاحبه‌ها و برآوردهای کارشناسان، 50 تا 80 درصد از زمان خود را در کار دنیوی جمع‌آوری و آماده‌سازی داده‌های دیجیتالی سرکش می‌گذرانند، قبل از اینکه بتوان آن‌ها را برای یافتن قطعات مفید کاوش کرد. "

این بیانیه 100٪ دقیق است، زیرا شامل یک سری مراحل است که تضمین می کند داده های مورد استفاده برای پروژه های علم داده، یادگیری ماشین و تجزیه و تحلیل کامل، دقیق، بی طرفانه و قابل اعتماد هستند.

کیفیت مجموعه داده شما نقش اساسی در موفقیت تحلیل یا مدل شما دارد. همانطور که گفته می شود، "زباله داخل، زباله بیرون"، کیفیت و قابلیت اطمینان مدل و تجزیه و تحلیل شما به شدت به کیفیت داده های شما بستگی دارد.

داده‌های خام، جمع‌آوری‌شده از منابع مختلف، اغلب درهم و برهم هستند، حاوی خطاها، ناسازگاری‌ها، مقادیر از دست رفته و موارد پرت هستند. پاکسازی و پیش پردازش داده ها با هدف شناسایی و اصلاح این مسائل برای اطمینان از نتایج دقیق، قابل اعتماد و معنی دار در طول ساخت مدل و تجزیه و تحلیل داده ها انجام می شود زیرا نتیجه گیری اشتباه می تواند پرهزینه باشد.

این جایی است که پانداها وارد بازی می شوند، این ابزار فوق العاده ای است که در دنیای داده برای تمیز کردن و پیش پردازش داده ها استفاده می شود. در این مقاله، مفاهیم اساسی پاکسازی و پیش پردازش داده ها با استفاده از کتابخانه قدرتمند پایتون، پانداها را تحلیل خواهیم کرد.

فهرست مطالب

پیش نیازها

معرفی

پاکسازی داده چیست؟

پردازش داده چیست؟

نحوه وارد کردن کتابخانه های مورد نیاز

نحوه بارگذاری مجموعه داده

تجزیه و تحلیل داده های اکتشافی (EDA)

چگونه ارزش های گمشده را مدیریت کنیم

نحوه حذف رکوردهای تکراری

انواع داده ها و تبدیل

نحوه کدگذاری متغیرهای طبقه بندی شده

نحوه برخورد با موارد دور از دسترس

نتیجه

پیش نیازها

درک اولیه پایتون

درک اولیه از پاکسازی داده ها.

معرفی

Pandas یک کتابخانه دستکاری و تجزیه و تحلیل داده های منبع باز محبوب برای پایتون است. این توابع با استفاده آسان را فراهم می کند که برای کار با داده های ساختاریافته یکپارچه لازم است.

پانداها همچنین به طور یکپارچه با سایر کتابخانه های محبوب پایتون مانند NumPy برای محاسبات عددی و Matplotlib برای تجسم داده ها ادغام می شوند. این آن را به یک دارایی قدرتمند برای وظایف مبتنی بر داده تبدیل می کند.

پانداها در مدیریت داده های از دست رفته، تغییر شکل مجموعه داده ها، ادغام و پیوستن به مجموعه داده های متعدد، و انجام عملیات پیچیده بر روی داده ها برتری دارند که آن را برای تمیز کردن و دستکاری داده ها بسیار مفید می کند.

Pandas در هسته خود دو ساختار داده کلیدی را معرفی می کند: Series و DataFrame . یک Series یک شیء آرایه مانند یک بعدی است که می تواند هر نوع داده ای را در خود جای دهد، در حالی که DataFrame یک جدول دو بعدی با محورهای برچسب دار (ردیف ها و ستون ها) است. این ساختارها به کاربران اجازه می دهد تا مجموعه داده ها را به طور موثر دستکاری، پاکسازی و تجزیه و تحلیل کنند.

پاکسازی داده چیست؟

قبل از اینکه به ماجراجویی داده خود با پانداها بپردازیم، اجازه دهید لحظه ای را به توضیح اصطلاح "پاکسازی داده ها" اختصاص دهیم. به آن به عنوان سم زدایی دیجیتال برای مجموعه داده خود فکر کنید، جایی که ما آن را مرتب می کنیم، و دقت را بیش از هر چیز در اولویت قرار می دهیم.

پاکسازی داده ها شامل شناسایی و اصلاح خطاها، ناسازگاری ها و مقادیر از دست رفته در یک مجموعه داده است. مثل آماده کردن مواد اولیه قبل از پخت و پز است. شما همه چیز را می خواهید تا به تحلیل یا تجسم کامل برسید.

چرا با پاک کردن داده ها زحمت بکشید؟ خوب، تصور کنید زمانی که برخی از ورودی‌ها وجود ندارند، سعی کنید روندهای فروش را تجزیه و تحلیل کنید، یا با مجموعه داده‌ای کار کنید که دارای رکوردهای تکراری است که محاسبات شما را از بین می‌برد. ایده آل نیست، درست است؟

در این سم زدایی دیجیتال، ما از ابزارهایی مانند پانداها برای خلاص شدن از شر ناسازگاری ها، رفع خطاها و اجازه دادن به وضوح واقعی داده های شما استفاده می کنیم.

پردازش داده چیست؟

ممکن است این سوال برای شما پیش بیاید که "آیا پاکسازی داده ها و پیش پردازش داده ها به همین معناست؟" پاسخ منفی است - آنها این کار را نمی کنند.

این را تصور کنید: به یک صندوقچه گنج باستانی برخورد می کنید که در شن های دیجیتال مجموعه داده های شما مدفون شده است. تمیز کردن داده ها مانند بیرون آوردن دقیق قفسه سینه، پاک کردن گرد و غبار تار عنکبوت و اطمینان از معتبر و قابل اعتماد بودن آنچه در داخل است است.

در مورد پیش پردازش داده ها، می توانید آن را به عنوان گرفتن گنج کشف شده و آماده سازی محتوای آن برای نمایش عمومی در نظر بگیرید. فراتر از تمیز کردن است. این در مورد تبدیل و بهینه سازی داده ها برای تجزیه و تحلیل یا وظایف خاص است.

پاکسازی داده‌ها مرحله اولیه پالایش مجموعه داده شما است، و با تکنیک‌هایی مانند حذف موارد تکراری، مدیریت مقادیر از دست رفته و تبدیل نوع داده، قابل خواندن و قابل استفاده می‌شود، در حالی که پیش‌پردازش داده‌ها مشابه گرفتن این داده‌های تصفیه‌شده و مقیاس‌بندی با تکنیک‌های پیشرفته‌تر مانند مهندسی ویژگی است. رمزگذاری متغیرهای طبقه بندی شده و و مدیریت مقادیر پرت برای دستیابی به نتایج بهتر و پیشرفته تر.

هدف این است که مجموعه داده خود را به یک شاهکار تصفیه شده، آماده برای تجزیه و تحلیل یا مدل سازی تبدیل کنید.

نحوه وارد کردن کتابخانه های مورد نیاز

قبل از شروع به پاکسازی و پیش پردازش داده ها، اجازه دهید کتابخانه Pandas را وارد کنیم.

برای صرفه جویی در زمان و تایپ کردن، اغلب پانداها را به صورت pd وارد می کنیم. این به ما امکان می‌دهد pd.read_csv() کوتاه‌تر به جای pandas.read_csv() برای خواندن فایل‌های CSV استفاده کنیم و کد ما کارآمدتر و خواناتر شود.

 import pandas as pd

نحوه بارگذاری مجموعه داده

با بارگیری مجموعه داده خود در Pandas DataFrame شروع کنید.

در این مثال، ما از یک مجموعه داده فرضی به نام your_dataset.csv استفاده خواهیم کرد. مجموعه داده را در متغیری به نام df بارگذاری می کنیم.

 #Replace 'your_dataset.csv' with the actual dataset name or file path df = pd.read_csv('your_dataset.csv')

تجزیه و تحلیل داده های اکتشافی (EDA)

EDA به شما کمک می کند ساختار و ویژگی های مجموعه داده خود را درک کنید. برخی از توابع Pandas به ما کمک می کنند تا بینشی در مورد مجموعه داده خود داشته باشیم. ما این توابع را با فراخوانی متغیر مجموعه داده به اضافه تابع فراخوانی می کنیم.

مثلا:

df.head() 5 ردیف اول مجموعه داده را فراخوانی می کند. می توانید تعداد سطرهایی که در پرانتز نمایش داده شوند را مشخص کنید.

df.describe() برخی از داده های آماری مانند صدک، میانگین و انحراف استاندارد مقادیر عددی سری یا DataFrame را ارائه می دهد.

df.info() تعداد ستون‌ها، برچسب‌های ستون، انواع داده‌های ستون، میزان استفاده از حافظه، شاخص محدوده و تعداد سلول‌های هر ستون (مقادیر غیر تهی) را نشان می‌دهد.

در اینجا یک نمونه کد در زیر آمده است:

 #Display the first few rows of the dataset print(df.head()) #Summary statistics print(df.describe()) #Information about the dataset print(df.info())

چگونه ارزش های گمشده را مدیریت کنیم

به عنوان یک تازه کار در این زمینه، مقادیر از دست رفته استرس قابل توجهی ایجاد می کنند زیرا در قالب های مختلف ارائه می شوند و می توانند بر تحلیل یا مدل شما تأثیر منفی بگذارند.

مدل‌های یادگیری ماشینی را نمی‌توان با داده‌هایی که دارای مقادیر گمشده یا «NAN» هستند آموزش داد، زیرا می‌توانند نتیجه نهایی شما را در طول تجزیه و تحلیل تغییر دهند. اما نگران نباشید، پانداها روش هایی را برای رسیدگی به این مشکل ارائه می دهند.

یکی از راه های انجام این کار حذف مقادیر از دست رفته به طور کلی است. قطعه کد زیر:

 #Check for missing values print(df.isnull().sum()) #Drop rows with missing valiues and place it in a new variable "df_cleaned" df_cleaned = df.dropna() #Fill missing values with mean for numerical data and place it ina new variable called df_filled df_filled = df.fillna(df.mean())

اما اگر تعداد سطرهایی که مقادیر گمشده دارند زیاد باشد، این روش ناکافی خواهد بود.

برای داده‌های عددی، می‌توانید به سادگی میانگین را محاسبه کنید و آن را در ردیف‌هایی که مقادیر گمشده دارند وارد کنید. قطعه کد زیر:

 #Replace missing values with the mean of each column df.fillna(df.mean(), inplace=True) #If you want to replace missing values in a specific column, you can do it this way: #Replace 'column_name' with the actual column name df['column_name'].fillna(df['column_name'].mean(), inplace=True) #Now, df contains no missing values, and NaNs have been replaced with column mean

نحوه حذف رکوردهای تکراری

سوابق تکراری می توانند تحلیل شما را با تأثیرگذاری بر نتایج به گونه ای که روندها و الگوهای زیربنایی را به طور دقیق نشان نمی دهند (با تولید مقادیر پرت) تحریف کنند.

Pandas به شناسایی و حذف مقادیر تکراری به روشی آسان با قرار دادن آنها در متغیرهای جدید کمک می کند.

قطعه کد زیر:

 #Identify duplicates print(df.duplicated().sum()) #Remove duplicates df_no_duplicates = df.drop_duplicates()

انواع داده ها و تبدیل

تبدیل نوع داده در پانداها یک جنبه حیاتی از پیش پردازش داده است که به شما امکان می دهد مطمئن شوید که داده های شما در قالب مناسب برای تجزیه و تحلیل یا مدل سازی هستند.

داده‌های منابع مختلف معمولاً نامرتب هستند و انواع داده‌های برخی از مقادیر ممکن است در قالب اشتباه باشند، برای مثال برخی از مقادیر عددی ممکن است به جای قالب «integer» در قالب «float» یا «string» و ترکیبی از این قالب‌ها باشند. منجر به خطا و نتایج اشتباه می شود.

با کد زیر می توانید یک ستون از نوع int را به float تبدیل کنید:

 #Convert 'Column1' to float df['Column1'] = df['Column1'].astype(float) #Display updated data types print(df.dtypes)

برای چاپ انواع داده های ستونی می توانید از df.dtypes استفاده کنید.

نحوه کدگذاری متغیرهای طبقه بندی شده

برای الگوریتم‌های یادگیری ماشین، داشتن مقادیر طبقه‌بندی در مجموعه داده شما (مقادیر غیر عددی) برای اطمینان از بهترین مدل بسیار مهم است زیرا به همان اندازه مهم هستند.

اینها می توانند نام های تجاری خودرو در مجموعه داده خودروها برای پیش بینی قیمت خودرو باشند. اما الگوریتم‌های یادگیری ماشینی نمی‌توانند این نوع داده را پردازش کنند، پس باید قبل از استفاده به داده‌های عددی تبدیل شوند.

Pandas تابع get_dummies را ارائه می‌کند که مقادیر مقوله‌ای را به فرمت عددی (فرمت باینری) تبدیل می‌کند به طوری که توسط الگوریتم به‌عنوان مکان‌نما برای مقادیر شناسایی می‌شود و نه داده‌های سلسله مراتبی که می‌توانند تحت تحلیل عددی قرار گیرند. این فقط به این معنی است که اعدادی که نام برند به آنها تبدیل می‌شود به‌عنوان 1 بزرگ‌تر از 0 تفسیر نمی‌شود، اما به الگوریتم او میگوید که هم 1 و هم 0 مکان‌هایی برای داده‌های دسته‌بندی هستند. قطعه کد در زیر نشان داده شده است:

 #To convert categorical data from the column "Car_Brand" to numerical data df_encode = pd.get_dummies(df, columns=[Car_Brand]) #The categorical data is converted to binary format of Numerical data

نحوه برخورد با موارد دور از دسترس

نقاط پرت، نقاط داده ای هستند که به طور قابل توجهی با اکثر داده ها متفاوت هستند، آنها می توانند معیارهای آماری را تحریف کنند و بر عملکرد مدل های یادگیری ماشین تأثیر منفی بگذارند.

آنها ممکن است به دلیل خطای انسانی، از دست دادن مقادیر NaN، یا می توانند داده های دقیقی باشند که با بقیه داده ها مرتبط نیستند.

روش های مختلفی برای شناسایی و حذف نقاط پرت وجود دارد که عبارتند از:

مقادیر NaN را حذف کنید.

داده ها را قبل و بعد از حذف تجسم کنید.

روش Z-score (برای داده های توزیع شده عادی).

روش IQR (محدوده بین ربعی) برای داده های قوی تر.

IQR برای شناسایی نقاط پرت در یک مجموعه داده مفید است. بر اساس روش IQR، مقادیری که زیر Q1-1.5× IQR یا بالاتر از Q3+1.5×IQR قرار می گیرند، مقادیر پرت در نظر گرفته می شوند.

این قانون بر این فرض استوار است که بیشتر داده ها در یک توزیع نرمال باید در این محدوده قرار گیرند.

در اینجا یک قطعه کد برای روش IQR آمده است:

 #Using median calculations and IQR, outliers are identified and these data points should be removed Q1 = df["column_name"].quantile(0.25) Q3 = df["column_name"].quantile(0.75) IQR = Q3 - Q1 lower_bound = Q1 - 1.5 * IQR upper_bound = Q3 + 1.5 * IQR df = df[df["column_name"].between(lower_bound, upper_bound)]

نتیجه

تمیز کردن و پیش پردازش داده ها اجزای جدایی ناپذیر هر پروژه تجزیه و تحلیل داده، علم یا یادگیری ماشین هستند. پانداها با عملکردهای همه کاره خود، این فرآیندها را به طور موثر تسهیل می کنند.

با پیروی از مفاهیم ذکر شده در این مقاله، می توانید اطمینان حاصل کنید که داده های شما به خوبی برای تجزیه و تحلیل و مدل سازی آماده شده است و در نهایت به نتایج دقیق تر و قابل اعتمادتری منجر می شود.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است