نحوه مدیریت ذخیره سازی داده ها


همه ما برای مدتی در این قرن بیست و یکم بوده ایم. و در حال حاضر کاملاً واضح است که داده ها محرک بزرگ همه چیز هستند.
دولت ها سیاست های خود را بر اساس داده های اقتصادی و جمعیتی می سازند. دانشمندان نظریه های خود را حول داده های محیطی، فیزیکی و بیولوژیکی می سازند. کسب و کارها برنامه های خود را بر اساس داده های تولید، فروش و رفتار مصرف کننده می سازند.
این مقاله برگرفته از کتاب Keeping Up: Backgrounders to all the Big Technology Trends You can't affford to Ignore است . اگر ترجیح میدهید این فصل را بهصورت ویدیویی تماشا کنید، در اینجا دنبال کنید:
داده ها با نرخ هایی تولید می شوند که قبلاً تصور نمی شد. من خوانده ام که حسگرهای یک جفت موتور جنرال الکتریک GEnx در یک بوئینگ 787 Dreamliner هر روز یک ترابایت داده تولید می کنند.
یک خودروی متصل به شبکه (مانند تسلا) ممکن است حدود 100 مگابایت اطلاعات مربوط به مکان، عملکرد و نگهداری را در هر روز به طور متوسط بارگذاری کند.
آن را در میلیونها خودرویی که بهزودی در سراسر جهان مورد استفاده قرار خواهند گرفت، ضرب کنید و این تعداد را در هزاران دستگاه دیگری که در آنجا هستند ضرب کنید، و مقیاس «مشکل» دادهها باید مشخص باشد.
آیا قصد دارید داده های خود را به سیل اضافه کنید و نیاز به ذخیره و ذخیره آن را نیز احساس می کنید؟ شما باید بتوانید توضیح دهید که چرا به آن نیاز دارید تا بدانید چگونه باید انجام شود.
من نمیتوانم در مورد «چرا» به شما کمک کنم، اما فکر میکنم میتوانم درباره «چگونه» به شما ایدههای مفیدی بدهم.
نحوه ذخیره دادهها به شکل ظاهری آنها در زمان تولید و نحوه دسترسی به آنها در آینده بستگی دارد. جایی که دادههای خود را ذخیره میکنید به مقدار آن بستگی دارد، چقدر عمیقاً تحت تأثیر از دست دادن آنها قرار میگیرید، و اینکه چند وقت یکبار باید آنها را بیرون بیاورید و با آن بازی کنید. بیایید نگاهی به هر دوی این متغیرها بیندازیم.
از آنجایی که همه دادهها یکسان ایجاد نمیشوند، منطقی است که به دنبال ابزارها و محیطهایی بگردید که با کاری که میخواهید انجام دهید مطابقت دارند. در اینجا چند گزینه وجود دارد:
صفحات گسترده
آنها ممکن است برنامه های پر زرق و برق، رنگارنگ و مورد علاقه مصرف کننده باشند، اما صفحات گسترده در پردازش جدی داده ها اهمیت چندانی ندارند.
همانطور که بعداً با جزئیات بیشتر خواهیم دید، صفحات گسترده محدودیت های خود را دارند. اما وقتی نوبت به ارائه دادهها به روشهای قابل دسترسی بصری، اعمال عملیاتهای ریاضی، آماری و مالی برای آن دادهها و حتی یکپارچهسازی منابع داده از راه دور (مانند قیمتهای بازار سهام) میرسد، هیچ ابزار دیگری به آن نزدیک نمیشود.
صفحهگستردهها میتوانند دادههای متنی ساده و ساده را از فایلهایی با هر اندازهای وارد کنند، تا زمانی که بتوان متن را محدود کرد. به این معنا که فاصلههای بین تقسیمبندی دادهها باید با برخی کاراکترهای ثابت مشخص شوند.
وقتی داده ها را وارد می کنید، می توانید جداکننده مناسب را مشخص کنید. برگهها، برگشتهای سخت و کاما کاراکترهای مشخص کننده متداول هستند. در واقع، مخفف محبوب CSV مخفف مقادیر جدا شده با کاما است.
در اینجا چند خط از متن CSV ممکن است شبیه باشد. توجه داشته باشید که سطر اول شامل عناوین ستون است. صفحات گسترده به راحتی می توانند درک کنند که چگونه باید با آنها به طور متفاوت رفتار کرد.
Year,Volume,Rate,Growth 2015,56,10,15 2020,90,11,(2) 2022,109,8,12
صفحات گسترده داده های خود را در سلول ها نمایش می دهند که در ردیف های افقی و ستون های عمودی مرتب شده اند. شما میتوانید توابع را برای محتویات سلولهای منفرد یا برخی یا همه سلولهای یک ستون یا ردیف اعمال کنید و میتوانید مقادیر را در سلولها در مکانهای نسبی ترکیب کنید.
مجموعه داده ها در یک صفحه گسترده می توانند به صورت نمودار ارائه شوند. صفحات گسترده همچنین می توانند به عنوان فرم های وب مورد استفاده قرار گیرند که در آن کاربران می توانند داده هایی را که برای استفاده در آینده ذخیره شده اند وارد کنند.
محبوب ترین صفحه گسترده احتمالاً اکسل مایکروسافت است که بخشی از مجموعه آفیس مایکروسافت 365 است. اما ویژگی برای ویژگی، Calc منبع باز که با مجموعه LibreOffice ارائه می شود یک جایگزین مناسب است. Google Sheets یک راه حل صفحه گسترده مبتنی بر ابر است که ممکن است برخی از عمق ویژگی های دیگر را نداشته باشد، اما یک ابزار همکاری قوی است.
پایگاه های داده
به عنوان یک قاعده، پایگاه های داده برای تجسم داده ها در قالب های جذاب و شهودی ساخته نمی شوند. و به تنهایی برای محاسبات پیچیده ریاضی نیز شناخته شده نیستند. اما پسر، آیا آنها می توانند مجموعه داده های بسیار بزرگ و روابط چند جدولی را مدیریت کنند.
وقتی میگویم پایگاههای داده واقعاً به تجسم دادههایتان کمک نمیکنند، عموماً به این دلیل است که قرار است از برنامههای «پشت» برنامههای جلویی در استقرار چند لایه استفاده شوند.
به عنوان مثال، یک وب سایت تجارت الکترونیک صفحات وب را نمایش می دهد که در آن کاربران می توانند آنچه را که برای فروش دارید مرور کنند، اقلامی را به یک سبد خرید مجازی اضافه کنند و با استفاده از اطلاعات پرداخت خود تحلیل کنند.
خود صفحه وب فقط یک رابط گرافیکی ترسیم میکند و به شما نشان میدهد که کجا ماوس خود را کلیک کنید، اما اطلاعات مربوط به اقلامی که میفروشید - از جمله قیمت آنها و تصاویر مرتبط - احتمالاً هر زمان که صفحه بارگیری میشود، از پایگاه داده پشتیبان بازیابی میشود.
به همین ترتیب، اطلاعات انتخابی و در نهایت پرداخت شما در پایگاه داده دیگری نوشته می شود. ممکن است فرآیند نرمافزاری که حمل و نقل شما را انجام میدهد، بعداً به پایگاه داده پرداخت برای آدرس حمل و نقل مراجعه کند. پایگاه های داده در هر مرحله وجود دارد، اما هیچ کس هرگز آنها را نمی بیند.
مدیریت پایگاه های داده بزرگ به منظور کارآمد، ایمن و قابل اعتماد بودن آنها نیازمند مهندسی جدی و در برخی موارد مقدار زیادی پول است.
قبل از ایجاد پایگاه داده خود، باید بدانید که آیا عملیات شما به اتمی، سازگاری، جداسازی و دوام قوی (ACID) و پشتیبانی از پرس و جوهای پیچیده و انعطاف پذیر نیاز دارد یا خیر. اگر اینطور باشد، ممکن است به دنبال یک موتور پایگاه داده رابطه ای مانند SQL Server، MariaDB یا Aurora آمازون باشید.
یا شاید شما نیاز به عملکرد سریع دارید و یک محیط بدون طرحواره انعطافپذیرتر را ترجیح میدهید (پیشنهاد میکند که بهتر است از یک راهحل NoSQL مانند MongoDB یا Redis استفاده کنید).
SQL ، به هر حال، مخفف زبان پرس و جوی ساختاریافته است - که یک نحو ایجاد شده برای استفاده از کدهای زبان مانند برای تعامل با داده های شما است.
به طور متناقض، بسته به اینکه از چه کسی میپرسید، NoSQL ممکن است مخفف Not SQL نباشد. برخی ترجیح می دهند به جای آن به عنوان نه تنها SQL فکر کنند.
نوت بوک ژوپیتر
فکر نکنید مجبور هستید داده های خود را با استفاده از همان ابزاری که آن ها را ذخیره می کند مصرف کنید. به عنوان مثال، می توان داده های موجود را که به صورت محلی یا در یک سایت راه دور ذخیره شده اند، به یک محیط محاسباتی تعاملی مانند یک نوت بوک Jupyter وارد کرد.
مزیت این نوع راهاندازی این است که اکنون میتوان دادهها را در چارچوب، مثلاً، یک محیط برنامهنویسی قوی پایتون بدون دست زدن به منبع اصلی - یا به طور بالقوه خراب کردن - مورد تحلیل قرار داد.
منبع باز JupyterLab یک منبع محبوب برای کار با مجموعه داده های بزرگ با استفاده از پایتون است. میتوانید JupyterLab خود را دانلود و بسازید یا آن را از راه دور از طریق یک ارائهدهنده ابری مانند سرویس Elastic Map Reduce آمازون یا Notebooks Azure مایکروسافت اجرا کنید.
برای مجموعه دادههای بهویژه بزرگ - به ویژه آنهایی که قبلاً در فضای ابری زندگی میکنند - یک پلتفرم ابری موجود میتواند منطقی باشد.
اگرچه کار به این سادگی نیست، بیایید بگوییم که چهار دسته کلی از درایوهای رسانه ذخیره سازی داده وجود دارد:
نوار مغناطیسی روی قرقره ها، کارتریج ها یا کاست های باز
نوری شامل دیسک فشرده (CD) و دیسک ویدئویی دیجیتال (DVD)
رسانه مغناطیسی در محفظه درایو 2.5 و 3.5 اینچی - از جمله هارد دیسک های چرخان
حالت جامد شامل درایوهای SSD در محفظه درایو 2.5 و 3.5 اینچی، کارتهای SD و درایوهای فلش USB
چند سیستم نوار مغناطیسی ممکن است هنوز وجود داشته باشند، اما روزهای کپی کردن سخت و آهسته مجموعه داده های بزرگ در بانک های نوارهای پشتیبان متعدد - و امید به اینکه نسخه پشتیبان واقعا کار کند - تقریباً به پایان رسیده است. به من اعتماد کنید: هیچ کس شکایت نمی کند.
سیدیها و دیویدیها به یک سمت هدایت میشوند. حداکثر ظرفیت آنها با حجم انبوه نیازهای داده های سازمانی امروزی مطابقت ندارد و مصرف کنندگان تقریباً به اندازه گذشته از فایل های رسانه ای بزرگ کپی محلی نمی کنند.
که درایوهای حالت جامد و مغناطیسی در حال چرخش را ترک می کند.
هارد دیسکهای در حال چرخش گیگابایت برای گیگابایت، احتمالاً هنوز هم کمی ارزانتر از معادلهای حالت جامد خود هستند (اگرچه تفاوت قیمت در حال کاهش است)، اما افزایش عملکرد ارائه شده توسط SSDها بسیار قابل توجه است.
مدتی پیش، متوجه شدم که میتوانم با خرید SSD با ظرفیت کمتر برای ایستگاههای کاری شخصی و لپتاپها به جای هارد دیسکهای بزرگتر، در هزینههایم صرفهجویی کنم .
بگذار توضیح بدهم. نحوه استفاده ما از داده ها در رایانه های شخصی در سال های اخیر تغییر کرده است. بهجای ذخیرهسازی آرشیو رسانهها و نرمافزارها بهصورت محلی، به احتمال زیاد تصور میکنیم که هر زمان که به آنها نیاز داشته باشیم، برای پخش جریانی یا دانلود در دسترس خواهند بود.
برای بسیاری از ما، سرعت دانلود سریعتر «زندگی در فضای ابری» را آسان کرده است. پس ما معمولاً دیگر به فضای ذخیره سازی زیادی نیاز نداریم.
درایو SSD 500 گیگابایتی وصل شده به ایستگاه کاری پرمشغله من به سختی تا نیمه پر است - حتی با در نظر گرفتن ده ها دستگاه مجازی و بسیاری از تصاویر ISO که من در آنجا دارم. و درایو برای من کمتر از هزینه ای که برای یک هارد یک یا دو ترابایتی پرداخت می کردم، برایم هزینه داشت.
یکی از نقش های اصلی ذخیره سازی، پشتیبان گیری از اطلاعات است. بهجای انتقال فیزیکی نسخههای پشتیبان بین رسانهها، بایگانی دادههای محلی - با استفاده از رسانه SSD یا HDD - معمولاً با جابجایی بایگانیها در شبکهها کار میکند.
ترفند طراحی یک سیستم پشتیبان است که به طور خودکار نسخه های تکراری کافی از بایگانی های شما را در اختیار شما قرار می دهد، آنها را در چرخه های زندگی مناسب می چرخاند (جایی که در نهایت بازنشسته می شوند و از بین می روند) و همه اینها بدون ایجاد ترافیک غیرضروری شبکه است.
علاوه بر پشتیبانگیری، اغلب میخواهید دادهها را بین کاربرانی که در سراسر محوطه دانشگاه کار میکنند به اشتراک بگذارید.
دو ابزار برای مدیریت پشتیبانگیری و اشتراکگذاری فایل، ذخیرهسازی متصل به شبکه (NAS) و شبکههای منطقه ذخیرهسازی (SAN) هستند. نام های مشابه آنها نشان می دهد که آنها در یک تجارت هستند. به من اعتماد کنید: آنها نیستند.
ذخیره سازی متصل به شبکه (NAS)
NAS یک راه نسبتا ساده و ارزان برای به اشتراک گذاری فایل ها در یک شبکه محلی است. از طریق یک دستگاه سرور مستقل که حاوی چندین درایو ذخیره سازی است کار می کند. درایوها معمولاً به عنوان یک آرایه اضافی از دیسکهای ارزان قیمت (RAID) پیکربندی میشوند تا مزایای افزونگی و عملکرد را ارائه دهند.
دستگاه NAS از طریق کابل اترنت به شبکه متصل می شود و از شبکه TCP/IP معمولی استفاده می کند. ماشین های سرویس گیرنده در LAN منابع NAS را از طریق پروتکل های استاندارد اشتراک فایل مانند سرور پیام بلوک (SMB) و سیستم فایل شبکه (NFS) مشاهده خواهند کرد.
راهحلهای NAS میتوانند برای محیطهای خانگی یا اداری کوچکتر عالی باشند، اما سرگرمی به سرعت با رشد شما محو میشود. خود دستگاههای NAS معمولاً به اندازه کافی قدرتمند نیستند که بتوانند حجم کاری زیادی از مشتری را تحمل کنند و کار با فایلهای بزرگ از طریق شبکه اترنت ممکن است سرعت کار را کاهش دهد.
شبکه فضای ذخیره سازی (SAN)
اگر راهاندازیهای NAS «نسبتاً ساده و ارزان» باشند، SANها پیچیده و گران هستند. به طور تصادفی آنها برای استقرار شرکت های بزرگ طراحی نشده اند. در نتیجه سخت افزار بالایی که در یک سیستم NAS می اندازید، عملکرد عالی خواهد بود و مقیاس بسیار بیشتری خواهید داشت.
به جای اترنت، SAN ها از طریق سوئیچ های کانال فیبر بسیار سریعتر (یا گاهی اوقات، iSCSI کندتر) اجرا می شوند. آنها به جای سیستم های فایل، ذخیره سازی مبتنی بر بلوک را فراهم می کنند و به عنوان درایوهای محلی روی ماشین های مشتری نصب می شوند.
با بهبود سرعت اتصال به اینترنت، انتقال حداقل برخی از آرشیوهای داده به فضای ابری عملی تر شده است.
به جای پشتیبانگیریهای محلی - که ممکن است در یک رویداد فاجعهبار مانند آتش سوزی از بین بروند - دادهها میتوانند به طور مرتب در سیستم عاملهای آنلاین ذخیره شوند. هنگامی که به آنجا رسیدید، یک نسخه پشتیبان قابل اجرا و خارج از سایت خواهید داشت. اما، اگر بخواهید، از هر کجای زمین به آن داده ها نیز دسترسی خواهید داشت. اگر از راه دور با یک تیم توزیع شده کار می کنید، می تواند مفید باشد.
احتمالاً شما قبلاً مالک اسنادی هستید که در Dropbox، Microsoft 365 یا Google Drive زندگی میکنند و حتی روی آنها همکاری کردهاید. برای اکثر مردم، نقطه اصلی تعامل برای آن سرویس ها یک مرورگر وب است.
اما مدیریت جدی داده ها - یا حتی پشتیبان گیری نسبتاً پیچیده و منظم از فایل ها - در یک مرورگر عملی نیستند. پس ارائه دهندگان رایانش ابری خدمات ذخیره سازی و بایگانی را ارائه می دهند که مدیریت آنها می تواند اسکریپت و خودکار باشد.
خدمات ذخیره سازی ابری، مانند سرویس ذخیره سازی ساده آمازون (S3)، مدیریت کامل چرخه عمر بایگانی را ارائه می دهد. برای مثال، داده هایی که باید در دسترس باقی بمانند، می توانند در کلاس ذخیره سازی استاندارد S3 ذخیره شوند.
پس از چند ماه - زمانی که احتمال کمتری دارید به داده ها نیاز داشته باشید، اما همچنان باید یک نسخه از آن را به دلایل نظارتی حفظ کنید - می توانید بایگانی خود را به کلاس ارزان تر S3 Glacier منتقل کنید. دادههای Glacier ایمن و بادوام هستند، اما دسترسی به آنها زمان بیشتری میبرد.
بعد از یک سال کامل ممکن است بتوانید آن را به طور کامل حذف کنید. بهتر از آن، راههای سادهای برای خودکارسازی روش حرکت دادههای شما در چرخه عمر آن وجود دارد.
همه ارائه دهندگان ابر بزرگ خدمات ذخیره سازی داده قابل مقایسه خود را خواهند داشت. به طور طبیعی، قیمت ها و ویژگی های خدمات دقیق با یکدیگر متفاوت خواهند بود. و البته، جزئیات ویژگی و قیمت اغلب تغییر می کند.
ممکن است همیشه انتقال داده به ابر از طریق اینترنت عملی نباشد. آپلود مجموعه داده های بسیار بزرگ حتی با استفاده از اتصالات اینترنتی سریع ممکن است زمان بسیار زیادی طول بکشد.
مطمئناً، اگر به اندازه کافی خوش شانس هستید که یک اتصال فیبر نوری به شما یک گیگابایت در ثانیه می دهد، آپلود یک ترابایتی فقط دو ساعت و نیم طول می کشد (با فرض اینکه هیچ کس دیگری از اتصال استفاده نکرده باشد).
اما در مورد 100 ترابایت داده (که بیش از ده روز طول می کشد) چطور؟ و اگر فقط 100 مگابایت در ثانیه (بیش از سه ماه) دریافت کنید چه؟ در مواردی مانند این، اگر به صورت هفتگی بایگانیهایی با اندازه بزرگ آپلود میکنید یا استفادههای دیگری برای اتصال اینترنت خود دارید، آپلود گزینهای نیست.
برای چنین مواردی، همچنان میتوانید دادههای خود را در فضای ابری دریافت کنید، اما باید یک وسیله دیگر پیدا کنید. همانطور که مشخص است AWS خدمات Snow Family خود را ارائه می دهد.
Snowball یک وسیله ذخیره سازی بزرگ و ایمن است. می توان آن را با خیال راحت برای مشتریان AWS ارسال کرد، با ده ها ترابایت داده بارگیری کرد و سپس دوباره ارسال کرد. پس از بازگشت به خانه در آمازون، داده ها مستقیماً در یک سطل در حساب مشتری آپلود می شوند. روش دیگر، گلوله های برفی را می توان در محل نگهداری کرد و به عنوان دستگاه محاسبه لبه استفاده کرد.
برادر بزرگ اسنوبال AWS Snowmobile است، یک کانتینر حمل و نقل ایمن 45 فوتی که قادر به مدیریت مهاجرت دیجیتال در مقیاس اگزابایت است.
پسر عموی کوچک Snowball، AWS Snowcone، یک ظرف ناهموار به اندازه یک جعبه دستمال کاغذی است که می تواند هشت ترابایت فضای ذخیره سازی قابل استفاده را به همراه امکان نمونه های ابر مجازی و اتصال شبکه به ابر AWS تحمل کند. علاوه بر انتقال داده های شما، Snowcones می توانند به تنهایی به عنوان دستگاه های محاسباتی لبه ای بسیار متحرک مورد استفاده قرار گیرند.
و این برای امروز است. ممنون که خواندید. اکنون، امیدواریم که بهتر متوجه شده باشید که چگونه داده ها را ذخیره می کنیم و گزینه های ذخیره سازی داده شما چیست.
ویدیوهای YouTube از تمام ده فصل از این کتاب در اینجا موجود است . بسیاری از خوبی های فنی - در قالب کتاب، دوره و مقاله - را می توان در اینجا داشت . و دوره های AWS، امنیت و فناوری کانتینر را در اینجا در نظر بگیرید.
ارسال نظر