وقتی برخی از مهمترین علل خاموش شدن مراکز داده شرکتهای بزرگ را در چند سال گذشته ردیابی میکنیم، میبینیم برخی از آنها ناشی از یک اتفاق یا سهل انگاری بوده است.
ابعاد برخی از فجایع ناشی از خاموش شدن مراکز داده را میتوان با خسارتهای مالی ناشی از آنها اندازهگیری کرد؛ مانند قطعی خدمات مرکز دادهای که بیش از دو میلیون مشتری TSB را تحت تأثیر قرار داد و منجر به پرداخت غرامت بیش از 370 میلیون پوندی شد. نمونه دیگر خطوط هوایی بریتیش ایرویز بود که قطعی خدمات مرکز داده این ایرلاین موجب سرگردانی 75 هزار مسافر شد و غرامت 150 میلیون پوندی را روی دست این شرکت هواپیمایی گذاشت.
با این حل همانطور که در نمودار نیز میبینید، همه چیز مربوط به خطای انسانی نیست؛ عوامل دیگری مانند خرابی سیستم خنککننده و اشکال در کابلکشی نیز در خاموش شدن مراکز داده نقش دارند.
نقش گرما و کابلکشی ضعیف در خاموش شدن مرکز داده
اطمینان از اینکه کابلها خیلی محکم کنار هم قرار نگرفته باشند یا اینکه کابلها خمیده و پیچ خورده نباشند نکته مهمی است. افزون بر این، استفاده از کابلهای ضعیف تاثیر قابل توجهی بر عملکرد نامطلوب مرکز داده میگذارد.
عدم کنترل عوامل محیطی و گرمای بیش از حد نیز میتواند باعث از کار افتادن مرکز داده شود. هنگامی که تجهیزات بیش از حد داغ شوند، برای محافظت از خود خاموش میشوند و در نتیجه باعث اختلال در عملکرد مرکز داده میشوند. برای نمونه وقتی هوای سرد به راهروی سرد در سیستم مهار راهرو سرد نمیرسد، یا وقتی هوا در کانالها جریان نمییابد یا زمانی که سیستم خنککننده پشتیبان از بین رفته است، داغ شدن تجهیزات مرکز داده و خاموشی آنها دور از ذهن نیست.
از این رو است که بررسیهای دورهای کابلها و تجهیزات خنککننده باید پیوسته انجام شود تا مطئن باشیم همه چیز بر اساس استاندارد مورد انتظار عمل میکند. برای به حداقل رساندن احتمال خرابی خنککنندهها، توصیه میکنیم روی یک سیستم نظارتی سرمایهگذاری کنید تا به محض شروع افزایش دما هشدار ارسال کند.
بنابراین انواع مراکز داده باید بطور مرتب ارزیابی ریسک ساختار فنی خود را انجام دهند تا احتمال خاموش شدن را کاهش دهند.
برخی از رایجترین اشتباهات در مراکز داده
- فعال کردن کلید خاموش کردن اضطراری (EPO)
- تغییر دما از فارنهایت به سلسیوس
- جدا کردن کابل های برق از تجهیزات
- بارگذاری بیش از حد یک مدار
- پیروینکردن از پروتکلها یا رویههای استاندارد
چگونه از خاموش شدن مراکز داده پیشگیری کنیم؟
با ابزارهای قدرتمند و امروزی مدیریت زیرساخت مرکز داده (DCIM) میتوانیم سلامت کلی تجهیزات و داراییها را کنترل کنیم. پیشبینی همه اختلالها ممکن نیست، اما الگوریتمها میتوانند پیوسته عملکرد تجهیزات را کنترل کنند تا پیشبینی پایان چرخه عمر سختافزارها امکانپذیر باشد.
وقتی این مشکلات شناسایی شدند، پرسنل مرکز داده میتوانند بدون نیاز به آفلاین کردن سامانههای حیاتی، تجهیزات قدیمی را تغییر دهند. با افزونگیها و پشتیبانگیری مناسب، حتی غیرمنتظرهترین حوادث در مراکز داده را میتوان بدون به خطر انداختن عملکرد شبکه مدیریت کرد.
برای به حداقل رساندن این حوادث، مدیران باید مطمئن شوند که بازسازی، جابجایی، یا طراحی و ساخت یک مرکز داده بتازگی انجام شده باشد.
مراکز داده با اجرای مجموعهای از شیوههای کاری با کیفیت بالا از سوی یک تیم پشتیبانی میتواند به شکل بهینه با خطر محدود خرابی کار کند. فراموش نکنید که در زمینه مدیریت مراکز داده نیز همیشه «پیشگیری بهتر از درمان است.»
برای مشاوره در زمینه پشتیبانی و اقدامات مدیریتی برای پیشگیری از خاموش شدن مراکز داده با تیم فناپ زیرساخت مشورت کنید.
منبع دادههای این نوشتار: www.2bm.co.uk