متن خبر

نحوه مدیریت ذخیره سازی داده ها

نحوه مدیریت ذخیره سازی داده ها

اخبارنحوه مدیریت ذخیره سازی داده ها
شناسهٔ خبر: 266624 -




خبرکاو:

همه ما برای مدتی در این قرن بیست و یکم بوده ایم. و در حال حاضر کاملاً واضح است که داده ها محرک بزرگ همه چیز هستند.

دولت ها سیاست های خود را بر اساس داده های اقتصادی و جمعیتی می سازند. دانشمندان نظریه های خود را حول داده های محیطی، فیزیکی و بیولوژیکی می سازند. کسب و کارها برنامه های خود را بر اساس داده های تولید، فروش و رفتار مصرف کننده می سازند.

این مقاله برگرفته از کتاب Keeping Up: Backgrounders to all the Big Technology Trends You can't affford to Ignore است . اگر ترجیح می‌دهید این فصل را به‌صورت ویدیویی تماشا کنید، در اینجا دنبال کنید:

داده ها با نرخ هایی تولید می شوند که قبلاً تصور نمی شد. من خوانده ام که حسگرهای یک جفت موتور جنرال الکتریک GEnx در یک بوئینگ 787 Dreamliner هر روز یک ترابایت داده تولید می کنند.

یک خودروی متصل به شبکه (مانند تسلا) ممکن است حدود 100 مگابایت اطلاعات مربوط به مکان، عملکرد و نگهداری را در هر روز به طور متوسط ​​بارگذاری کند.

آن را در میلیون‌ها خودرویی که به‌زودی در سراسر جهان مورد استفاده قرار خواهند گرفت، ضرب کنید و این تعداد را در هزاران دستگاه دیگری که در آنجا هستند ضرب کنید، و مقیاس «مشکل» داده‌ها باید مشخص باشد.

آیا قصد دارید داده های خود را به سیل اضافه کنید و نیاز به ذخیره و ذخیره آن را نیز احساس می کنید؟ شما باید بتوانید توضیح دهید که چرا به آن نیاز دارید تا بدانید چگونه باید انجام شود.

من نمی‌توانم در مورد «چرا» به شما کمک کنم، اما فکر می‌کنم می‌توانم درباره «چگونه» به شما ایده‌های مفیدی بدهم.

نحوه ذخیره داده‌ها به شکل ظاهری آن‌ها در زمان تولید و نحوه دسترسی به آن‌ها در آینده بستگی دارد. جایی که داده‌های خود را ذخیره می‌کنید به مقدار آن بستگی دارد، چقدر عمیقاً تحت تأثیر از دست دادن آنها قرار می‌گیرید، و اینکه چند وقت یکبار باید آن‌ها را بیرون بیاورید و با آن بازی کنید. بیایید نگاهی به هر دوی این متغیرها بیندازیم.

از آنجایی که همه داده‌ها یکسان ایجاد نمی‌شوند، منطقی است که به دنبال ابزارها و محیط‌هایی بگردید که با کاری که می‌خواهید انجام دهید مطابقت دارند. در اینجا چند گزینه وجود دارد:

صفحات گسترده

آنها ممکن است برنامه های پر زرق و برق، رنگارنگ و مورد علاقه مصرف کننده باشند، اما صفحات گسترده در پردازش جدی داده ها اهمیت چندانی ندارند.

همانطور که بعداً با جزئیات بیشتر خواهیم دید، صفحات گسترده محدودیت های خود را دارند. اما وقتی نوبت به ارائه داده‌ها به روش‌های قابل دسترسی بصری، اعمال عملیات‌های ریاضی، آماری و مالی برای آن داده‌ها و حتی یکپارچه‌سازی منابع داده از راه دور (مانند قیمت‌های بازار سهام) می‌رسد، هیچ ابزار دیگری به آن نزدیک نمی‌شود.

صفحه‌گسترده‌ها می‌توانند داده‌های متنی ساده و ساده را از فایل‌هایی با هر اندازه‌ای وارد کنند، تا زمانی که بتوان متن را محدود کرد. به این معنا که فاصله‌های بین تقسیم‌بندی داده‌ها باید با برخی کاراکترهای ثابت مشخص شوند.

وقتی داده ها را وارد می کنید، می توانید جداکننده مناسب را مشخص کنید. برگه‌ها، برگشت‌های سخت و کاما کاراکترهای مشخص کننده متداول هستند. در واقع، مخفف محبوب CSV مخفف مقادیر جدا شده با کاما است.

در اینجا چند خط از متن CSV ممکن است شبیه باشد. توجه داشته باشید که سطر اول شامل عناوین ستون است. صفحات گسترده به راحتی می توانند درک کنند که چگونه باید با آنها به طور متفاوت رفتار کرد.

 Year,Volume,Rate,Growth 2015,56,10,15 2020,90,11,(2) 2022,109,8,12

صفحات گسترده داده های خود را در سلول ها نمایش می دهند که در ردیف های افقی و ستون های عمودی مرتب شده اند. شما می‌توانید توابع را برای محتویات سلول‌های منفرد یا برخی یا همه سلول‌های یک ستون یا ردیف اعمال کنید و می‌توانید مقادیر را در سلول‌ها در مکان‌های نسبی ترکیب کنید.

مجموعه داده ها در یک صفحه گسترده می توانند به صورت نمودار ارائه شوند. صفحات گسترده همچنین می توانند به عنوان فرم های وب مورد استفاده قرار گیرند که در آن کاربران می توانند داده هایی را که برای استفاده در آینده ذخیره شده اند وارد کنند.

محبوب ترین صفحه گسترده احتمالاً اکسل مایکروسافت است که بخشی از مجموعه آفیس مایکروسافت 365 است. اما ویژگی برای ویژگی، Calc منبع باز که با مجموعه LibreOffice ارائه می شود یک جایگزین مناسب است. Google Sheets یک راه حل صفحه گسترده مبتنی بر ابر است که ممکن است برخی از عمق ویژگی های دیگر را نداشته باشد، اما یک ابزار همکاری قوی است.

پایگاه های داده

به عنوان یک قاعده، پایگاه های داده برای تجسم داده ها در قالب های جذاب و شهودی ساخته نمی شوند. و به تنهایی برای محاسبات پیچیده ریاضی نیز شناخته شده نیستند. اما پسر، آیا آنها می توانند مجموعه داده های بسیار بزرگ و روابط چند جدولی را مدیریت کنند.

وقتی می‌گویم پایگاه‌های داده واقعاً به تجسم داده‌هایتان کمک نمی‌کنند، عموماً به این دلیل است که قرار است از برنامه‌های «پشت» برنامه‌های جلویی در استقرار چند لایه استفاده شوند.

به عنوان مثال، یک وب سایت تجارت الکترونیک صفحات وب را نمایش می دهد که در آن کاربران می توانند آنچه را که برای فروش دارید مرور کنند، اقلامی را به یک سبد خرید مجازی اضافه کنند و با استفاده از اطلاعات پرداخت خود تحلیل کنند.

خود صفحه وب فقط یک رابط گرافیکی ترسیم می‌کند و به شما نشان می‌دهد که کجا ماوس خود را کلیک کنید، اما اطلاعات مربوط به اقلامی که می‌فروشید - از جمله قیمت آنها و تصاویر مرتبط - احتمالاً هر زمان که صفحه بارگیری می‌شود، از پایگاه داده پشتیبان بازیابی می‌شود.

به همین ترتیب، اطلاعات انتخابی و در نهایت پرداخت شما در پایگاه داده دیگری نوشته می شود. ممکن است فرآیند نرم‌افزاری که حمل و نقل شما را انجام می‌دهد، بعداً به پایگاه داده پرداخت برای آدرس حمل و نقل مراجعه کند. پایگاه های داده در هر مرحله وجود دارد، اما هیچ کس هرگز آنها را نمی بیند.

مدیریت پایگاه های داده بزرگ به منظور کارآمد، ایمن و قابل اعتماد بودن آنها نیازمند مهندسی جدی و در برخی موارد مقدار زیادی پول است.

قبل از ایجاد پایگاه داده خود، باید بدانید که آیا عملیات شما به اتمی، سازگاری، جداسازی و دوام قوی (ACID) و پشتیبانی از پرس و جوهای پیچیده و انعطاف پذیر نیاز دارد یا خیر. اگر اینطور باشد، ممکن است به دنبال یک موتور پایگاه داده رابطه ای مانند SQL Server، MariaDB یا Aurora آمازون باشید.

یا شاید شما نیاز به عملکرد سریع دارید و یک محیط بدون طرحواره انعطاف‌پذیرتر را ترجیح می‌دهید (پیشنهاد می‌کند که بهتر است از یک راه‌حل NoSQL مانند MongoDB یا Redis استفاده کنید).

SQL ، به هر حال، مخفف زبان پرس و جوی ساختاریافته است - که یک نحو ایجاد شده برای استفاده از کدهای زبان مانند برای تعامل با داده های شما است.

به طور متناقض، بسته به اینکه از چه کسی می‌پرسید، NoSQL ممکن است مخفف Not SQL نباشد. برخی ترجیح می دهند به جای آن به عنوان نه تنها SQL فکر کنند.

نوت بوک ژوپیتر

فکر نکنید مجبور هستید داده های خود را با استفاده از همان ابزاری که آن ها را ذخیره می کند مصرف کنید. به عنوان مثال، می توان داده های موجود را که به صورت محلی یا در یک سایت راه دور ذخیره شده اند، به یک محیط محاسباتی تعاملی مانند یک نوت بوک Jupyter وارد کرد.

مزیت این نوع راه‌اندازی این است که اکنون می‌توان داده‌ها را در چارچوب، مثلاً، یک محیط برنامه‌نویسی قوی پایتون بدون دست زدن به منبع اصلی - یا به طور بالقوه خراب کردن - مورد تحلیل قرار داد.

منبع باز JupyterLab یک منبع محبوب برای کار با مجموعه داده های بزرگ با استفاده از پایتون است. می‌توانید JupyterLab خود را دانلود و بسازید یا آن را از راه دور از طریق یک ارائه‌دهنده ابری مانند سرویس Elastic Map Reduce آمازون یا Notebooks Azure مایکروسافت اجرا کنید.

برای مجموعه داده‌های به‌ویژه بزرگ - به ویژه آنهایی که قبلاً در فضای ابری زندگی می‌کنند - یک پلتفرم ابری موجود می‌تواند منطقی باشد.

اگرچه کار به این سادگی نیست، بیایید بگوییم که چهار دسته کلی از درایوهای رسانه ذخیره سازی داده وجود دارد:

نوار مغناطیسی روی قرقره ها، کارتریج ها یا کاست های باز

نوری شامل دیسک فشرده (CD) و دیسک ویدئویی دیجیتال (DVD)

رسانه مغناطیسی در محفظه درایو 2.5 و 3.5 اینچی - از جمله هارد دیسک های چرخان

حالت جامد شامل درایوهای SSD در محفظه درایو 2.5 و 3.5 اینچی، کارت‌های SD و درایوهای فلش USB

چند سیستم نوار مغناطیسی ممکن است هنوز وجود داشته باشند، اما روزهای کپی کردن سخت و آهسته مجموعه داده های بزرگ در بانک های نوارهای پشتیبان متعدد - و امید به اینکه نسخه پشتیبان واقعا کار کند - تقریباً به پایان رسیده است. به من اعتماد کنید: هیچ کس شکایت نمی کند.

سی‌دی‌ها و دی‌وی‌دی‌ها به یک سمت هدایت می‌شوند. حداکثر ظرفیت آنها با حجم انبوه نیازهای داده های سازمانی امروزی مطابقت ندارد و مصرف کنندگان تقریباً به اندازه گذشته از فایل های رسانه ای بزرگ کپی محلی نمی کنند.

که درایوهای حالت جامد و مغناطیسی در حال چرخش را ترک می کند.

هارد دیسک‌های در حال چرخش گیگابایت برای گیگابایت، احتمالاً هنوز هم کمی ارزان‌تر از معادل‌های حالت جامد خود هستند (اگرچه تفاوت قیمت در حال کاهش است)، اما افزایش عملکرد ارائه شده توسط SSD‌ها بسیار قابل توجه است.

مدتی پیش، متوجه شدم که می‌توانم با خرید SSD با ظرفیت کمتر برای ایستگاه‌های کاری شخصی و لپ‌تاپ‌ها به جای هارد دیسک‌های بزرگتر، در هزینه‌هایم صرفه‌جویی کنم .

بگذار توضیح بدهم. نحوه استفاده ما از داده ها در رایانه های شخصی در سال های اخیر تغییر کرده است. به‌جای ذخیره‌سازی آرشیو رسانه‌ها و نرم‌افزارها به‌صورت محلی، به احتمال زیاد تصور می‌کنیم که هر زمان که به آن‌ها نیاز داشته باشیم، برای پخش جریانی یا دانلود در دسترس خواهند بود.

برای بسیاری از ما، سرعت دانلود سریعتر «زندگی در فضای ابری» را آسان کرده است. پس ما معمولاً دیگر به فضای ذخیره سازی زیادی نیاز نداریم.

درایو SSD 500 گیگابایتی وصل شده به ایستگاه کاری پرمشغله من به سختی تا نیمه پر است - حتی با در نظر گرفتن ده ها دستگاه مجازی و بسیاری از تصاویر ISO که من در آنجا دارم. و درایو برای من کمتر از هزینه ای که برای یک هارد یک یا دو ترابایتی پرداخت می کردم، برایم هزینه داشت.

یکی از نقش های اصلی ذخیره سازی، پشتیبان گیری از اطلاعات است. به‌جای انتقال فیزیکی نسخه‌های پشتیبان بین رسانه‌ها، بایگانی داده‌های محلی - با استفاده از رسانه SSD یا HDD - معمولاً با جابجایی بایگانی‌ها در شبکه‌ها کار می‌کند.

ترفند طراحی یک سیستم پشتیبان است که به طور خودکار نسخه های تکراری کافی از بایگانی های شما را در اختیار شما قرار می دهد، آنها را در چرخه های زندگی مناسب می چرخاند (جایی که در نهایت بازنشسته می شوند و از بین می روند) و همه اینها بدون ایجاد ترافیک غیرضروری شبکه است.

علاوه بر پشتیبان‌گیری، اغلب می‌خواهید داده‌ها را بین کاربرانی که در سراسر محوطه دانشگاه کار می‌کنند به اشتراک بگذارید.

دو ابزار برای مدیریت پشتیبان‌گیری و اشتراک‌گذاری فایل، ذخیره‌سازی متصل به شبکه (NAS) و شبکه‌های منطقه ذخیره‌سازی (SAN) هستند. نام های مشابه آنها نشان می دهد که آنها در یک تجارت هستند. به من اعتماد کنید: آنها نیستند.

ذخیره سازی متصل به شبکه (NAS)

NAS یک راه نسبتا ساده و ارزان برای به اشتراک گذاری فایل ها در یک شبکه محلی است. از طریق یک دستگاه سرور مستقل که حاوی چندین درایو ذخیره سازی است کار می کند. درایوها معمولاً به عنوان یک آرایه اضافی از دیسک‌های ارزان قیمت (RAID) پیکربندی می‌شوند تا مزایای افزونگی و عملکرد را ارائه دهند.

دستگاه NAS از طریق کابل اترنت به شبکه متصل می شود و از شبکه TCP/IP معمولی استفاده می کند. ماشین های سرویس گیرنده در LAN منابع NAS را از طریق پروتکل های استاندارد اشتراک فایل مانند سرور پیام بلوک (SMB) و سیستم فایل شبکه (NFS) مشاهده خواهند کرد.

راه‌حل‌های NAS می‌توانند برای محیط‌های خانگی یا اداری کوچک‌تر عالی باشند، اما سرگرمی به سرعت با رشد شما محو می‌شود. خود دستگاه‌های NAS معمولاً به اندازه کافی قدرتمند نیستند که بتوانند حجم کاری زیادی از مشتری را تحمل کنند و کار با فایل‌های بزرگ از طریق شبکه اترنت ممکن است سرعت کار را کاهش دهد.

شبکه فضای ذخیره سازی (SAN)

اگر راه‌اندازی‌های NAS «نسبتاً ساده و ارزان» باشند، SAN‌ها پیچیده و گران هستند. به طور تصادفی آنها برای استقرار شرکت های بزرگ طراحی نشده اند. در نتیجه سخت افزار بالایی که در یک سیستم NAS می اندازید، عملکرد عالی خواهد بود و مقیاس بسیار بیشتری خواهید داشت.

به جای اترنت، SAN ها از طریق سوئیچ های کانال فیبر بسیار سریعتر (یا گاهی اوقات، iSCSI کندتر) اجرا می شوند. آنها به جای سیستم های فایل، ذخیره سازی مبتنی بر بلوک را فراهم می کنند و به عنوان درایوهای محلی روی ماشین های مشتری نصب می شوند.

با بهبود سرعت اتصال به اینترنت، انتقال حداقل برخی از آرشیوهای داده به فضای ابری عملی تر شده است.

به جای پشتیبان‌گیری‌های محلی - که ممکن است در یک رویداد فاجعه‌بار مانند آتش سوزی از بین بروند - داده‌ها می‌توانند به طور مرتب در سیستم عامل‌های آنلاین ذخیره شوند. هنگامی که به آنجا رسیدید، یک نسخه پشتیبان قابل اجرا و خارج از سایت خواهید داشت. اما، اگر بخواهید، از هر کجای زمین به آن داده ها نیز دسترسی خواهید داشت. اگر از راه دور با یک تیم توزیع شده کار می کنید، می تواند مفید باشد.

احتمالاً شما قبلاً مالک اسنادی هستید که در Dropbox، Microsoft 365 یا Google Drive زندگی می‌کنند و حتی روی آنها همکاری کرده‌اید. برای اکثر مردم، نقطه اصلی تعامل برای آن سرویس ها یک مرورگر وب است.

اما مدیریت جدی داده ها - یا حتی پشتیبان گیری نسبتاً پیچیده و منظم از فایل ها - در یک مرورگر عملی نیستند. پس ارائه دهندگان رایانش ابری خدمات ذخیره سازی و بایگانی را ارائه می دهند که مدیریت آنها می تواند اسکریپت و خودکار باشد.

خدمات ذخیره سازی ابری، مانند سرویس ذخیره سازی ساده آمازون (S3)، مدیریت کامل چرخه عمر بایگانی را ارائه می دهد. برای مثال، داده هایی که باید در دسترس باقی بمانند، می توانند در کلاس ذخیره سازی استاندارد S3 ذخیره شوند.

پس از چند ماه - زمانی که احتمال کمتری دارید به داده ها نیاز داشته باشید، اما همچنان باید یک نسخه از آن را به دلایل نظارتی حفظ کنید - می توانید بایگانی خود را به کلاس ارزان تر S3 Glacier منتقل کنید. داده‌های Glacier ایمن و بادوام هستند، اما دسترسی به آن‌ها زمان بیشتری می‌برد.

بعد از یک سال کامل ممکن است بتوانید آن را به طور کامل حذف کنید. بهتر از آن، راه‌های ساده‌ای برای خودکارسازی روش حرکت داده‌های شما در چرخه عمر آن وجود دارد.

همه ارائه دهندگان ابر بزرگ خدمات ذخیره سازی داده قابل مقایسه خود را خواهند داشت. به طور طبیعی، قیمت ها و ویژگی های خدمات دقیق با یکدیگر متفاوت خواهند بود. و البته، جزئیات ویژگی و قیمت اغلب تغییر می کند.

ممکن است همیشه انتقال داده به ابر از طریق اینترنت عملی نباشد. آپلود مجموعه داده های بسیار بزرگ حتی با استفاده از اتصالات اینترنتی سریع ممکن است زمان بسیار زیادی طول بکشد.

مطمئناً، اگر به اندازه کافی خوش شانس هستید که یک اتصال فیبر نوری به شما یک گیگابایت در ثانیه می دهد، آپلود یک ترابایتی فقط دو ساعت و نیم طول می کشد (با فرض اینکه هیچ کس دیگری از اتصال استفاده نکرده باشد).

اما در مورد 100 ترابایت داده (که بیش از ده روز طول می کشد) چطور؟ و اگر فقط 100 مگابایت در ثانیه (بیش از سه ماه) دریافت کنید چه؟ در مواردی مانند این، اگر به صورت هفتگی بایگانی‌هایی با اندازه بزرگ آپلود می‌کنید یا استفاده‌های دیگری برای اتصال اینترنت خود دارید، آپلود گزینه‌ای نیست.

برای چنین مواردی، همچنان می‌توانید داده‌های خود را در فضای ابری دریافت کنید، اما باید یک وسیله دیگر پیدا کنید. همانطور که مشخص است AWS خدمات Snow Family خود را ارائه می دهد.

Snowball یک وسیله ذخیره سازی بزرگ و ایمن است. می توان آن را با خیال راحت برای مشتریان AWS ارسال کرد، با ده ها ترابایت داده بارگیری کرد و سپس دوباره ارسال کرد. پس از بازگشت به خانه در آمازون، داده ها مستقیماً در یک سطل در حساب مشتری آپلود می شوند. روش دیگر، گلوله های برفی را می توان در محل نگهداری کرد و به عنوان دستگاه محاسبه لبه استفاده کرد.

برادر بزرگ اسنوبال AWS Snowmobile است، یک کانتینر حمل و نقل ایمن 45 فوتی که قادر به مدیریت مهاجرت دیجیتال در مقیاس اگزابایت است.

پسر عموی کوچک Snowball، AWS Snowcone، یک ظرف ناهموار به اندازه یک جعبه دستمال کاغذی است که می تواند هشت ترابایت فضای ذخیره سازی قابل استفاده را به همراه امکان نمونه های ابر مجازی و اتصال شبکه به ابر AWS تحمل کند. علاوه بر انتقال داده های شما، Snowcones می توانند به تنهایی به عنوان دستگاه های محاسباتی لبه ای بسیار متحرک مورد استفاده قرار گیرند.

و این برای امروز است. ممنون که خواندید. اکنون، امیدواریم که بهتر متوجه شده باشید که چگونه داده ها را ذخیره می کنیم و گزینه های ذخیره سازی داده شما چیست.

ویدیوهای YouTube از تمام ده فصل از این کتاب در اینجا موجود است . بسیاری از خوبی های فنی - در قالب کتاب، دوره و مقاله - را می توان در اینجا داشت . و دوره های AWS، امنیت و فناوری کانتینر را در اینجا در نظر بگیرید.

برچسب‌ها

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است