ورا روبین و انقلاب دادههای نجومی؛ دانشمندان چگونه هر شب ۲۰ ترابایت داده را مدیریت میکنند؟

ورا روبین و انقلاب دادههای نجومی؛ دانشمندان چگونه هر شب ۲۰ ترابایت داده را مدیریت میکنند؟
ورا روبین، رصدخانهی جدیدی که نخستین تصاویر حیرتانگیزش را بهتازگی منتشر کرد، آنقدر داده جمعآوری میکند که حجم آنها از دادههای هر تلسکوپ دیگری در تاریخ بسیار فراتر خواهد رفت. این امر باعث شده تا اخترشناسان گامی بهسوی رایانش ابری بردارند و از کمک هفت کارگزار داده (broker) و سیستمی موسوم به دستیار داده (data butler) بهره بگیرند.
زمانی که ورا روبین بهطور کامل عملیاتی شود (با پشتیبانی مالی بنیاد ملی علوم و وزارت انرژی ایالات متحده)، هر شب ۲۰ ترابایت داده جمعآوری خواهد کرد. با تحلیل این دادهها، روزانه ۱۰ میلیون هشدار به اخترشناسان ارسال خواهد شد؛ هشدارهایی که توسط واسطهها پالایش میشوند تا از حجم انبوه آنها کاسته و قابل مدیریت شوند.
«جورج بکت»، دانشمند علوم رایانه در دانشگاه ادینبرو و هماهنگکننده مرکز داده بریتانیا برای ورا روبین، به اسپیسداتکام گفت: «از نظر حجم داده، ما دستکم ده برابر از تلسکوپهای قبلی جلوتر هستیم.»
در طول ۱۰ سال آینده، پروژه «پیمایش میراث فضا و زمان» در رصدخانه ورا روبین حدود ۵۰۰ پتابایت داده گردآوری خواهد کرد که معادل نیممیلیون دیسک بلوری 4K-UHD است. این دادهها پس از جمعآوری توسط تلسکوپ، از طریق یک اتصال شبکهای اختصاصی، از رصدخانه در شیلی به مرکز داده اصلی در آزمایشگاه ملی شتابدهنده SLAC در کالیفرنیا منتقل میشوند. سپس یک نسخه کامل از دادههای خام به مرکز محاسبات IN2P3 در لیون فرانسه ارسال خواهد شد و بخشی از دادهها نیز به شبکه محاسبات توزیعشده در بریتانیا فرستاده میشوند.
درطول ۱۰ سال آینده، رصدخانه ورا روبین حدود ۵۰۰ پتابایت داده گردآوری خواهد کرد
پردازش دادهها میان سه مرکز داده تقسیم خواهد شد: ۳۵ درصد در SLAC، حدود ۴۰ درصد در IN2P3 و ۲۵ درصد در بریتانیا. مرکز داده کوچکی نیز در شیلی، محل رصدخانه ورا روبین، برای پشتیبانی از اخترشناسان شیلیایی وجود دارد.
وجود مراکز متعدد نهتنها پشتیبانی و افزونگی ایجاد میکند تا دادهها در صورت بروز حادثه از بین نروند، بلکه به آنها امکان میدهد اگر یک مرکز از پردازش عقب ماند، مراکز دیگر بتوانند وظایف آن را بر عهده بگیرند. چرا که برای اخترشناسان، مهمترین مسئله دریافت سریع دادههای مهم است تا بتوانند در اسرع وقت به هشدارهای جالب واکنش نشان دهند.
چنین حجم عظیمی از داده، نهتنها در حال حاضر، بلکه در دهههای آینده نیز گنجینهای ارزشمند برای جامعه اخترشناسی خواهد بود. حال سوال این است که چطور میتوان در میان این حجم از دادهها جستوجو کرد؟
بکت با یک تشبیه ساده پاسخ میدهد: «تصور کنید دنبال یک عکس خاص در گوشی هوشمندتان میگردید. احتمالاً گوشیتان پر از تصاویریست که در پنج یا ده سال گذشته گرفتهاید، و پیدا کردن یک عکس خاص مربوط به دو سال قبل معمولاً با بالا و پایین کردن تدریجی انجام میشود که روش چندان مؤثری نیست.» او ادامه میدهد: «حالا تصور کنید که گوشی شما ۱٫۵ میلیون عکس دارد، آن هم با وضوح ۱۰ هزار پیکسل. دیگر شانسی برای بالا و پایین کردن ساده نخواهید داشت.»
به گفتهی بکت، راهحل این است که برای تمام تصاویر ورا روبین، توصیفاتی قابلدسترسی فراهم شود تا اخترشناسان بتوانند نسبتاً راحت آنچه را میخواهند، پیدا کنند. به همین دلیل است که نحوهی مدیریت دادهها در ورا روبین با تلسکوپهای پیشین فرق دارد. در گذشته، اخترشناسان میتوانستند فقط بخش کوچکی از دادههای موردنیازشان را دانلود کنند، اما مجموعه دادهی این تلسکوپ آنقدر عظیم است که اصلاً قابل دانلود نیست، بنابراین همهی دادهها روی فضای ابری نگهداری میشود.
دادهها توسط سرویسی بهنام دستیار داده مدیریت میشوند که تمام اطلاعات توصیفی دادهها (متادیتا) را ذخیره میکند. متادیتا شامل اطلاعاتی دربارهی خود دادهها است؛ یعنی زمان، تاریخ، مختصات آسمانی، محتوای تصویر و جزئیات دیگر.
بکت میگوید: «یک اخترشناس میتواند تقریباً هر نوع پرسوجویی را که بخواهد، با اصطلاحات تخصصی اخترشناسی، دربارهی اجرام آسمانی، بازههای زمانی، یا دستگاههای مختصات مطرح کند و دستیار داده، دقیقاً همان اطلاعات موردنیاز را برایش پیدا میکند.»
بیشتر بخوانید
جستجو در متادیتا بیشتر برای پژوهشهای بلندمدت است، اما مسئلهی دیگر «پدیدههای گذرا» هستند: اجرام یا رویدادهای متحرکی که ناگهان در شب پدیدار میشوند و هشدارهایی صادر میکنند تا اخترشناسان بتوانند قبل از محو شدنشان آنها را رصد کنند. این موارد شامل ابرنواخترها، گراننواخترها (که امواج گرانشی تولید میکنند)، نواخترها، ستارگان شرارهدار، ستارههای دوتایی گرفتی، فورانهای مگنتار، سیارکها و دنبالهدارها، اختروشها (کوازارها) و بسیاری پدیدههای دیگر است که شاید حتی تاکنون دیده نشدهاند. ورا روبین هر شب حدود ۱۰ میلیون هشدار صادر خواهد کرد و هر هشدار را ظرف تنها دو دقیقه پس از ثبت، منتشر میکند.
اما حتی با کمک دستیار داده، چطور ممکن است اخترشناسان بتوانند در این سیل عظیم هشدارها، مهمترینشان را شناسایی و پیگیری کنند؟
منبع : زومیت