You are currently viewing دانشمندان محاسباتی در حال تولید مجموعه داده های مولکولی در مقیاس فوق العاده ای هستند

دانشمندان محاسباتی در حال تولید مجموعه داده های مولکولی در مقیاس فوق العاده ای هستند


نیوزویز – تیمی از دانشمندان محاسباتی در آزمایشگاه ملی Oak Ridge وزارت انرژی مجموعه‌های داده‌ای در مقیاس بی‌سابقه‌ای تولید و منتشر کرده‌اند که ویژگی‌های طیفی مرئی فرابنفش بیش از 10 میلیون مولکول آلی را ارائه می‌دهد. درک چگونگی تعامل یک مولکول با نور برای کشف خواص الکترونیکی و نوری آن ضروری است، که به نوبه خود کاربردهای بالقوه فوتواکتیو در محصولاتی مانند سلول های خورشیدی یا سیستم های تصویربرداری پزشکی دارند.

با استفاده از منابع محاسباتی با کارایی بالا در مرکز محاسبات رهبری Oak Ridge، تیم ORNL محاسبات شیمی کوانتومی را برای تولید مجموعه‌های داده عظیم انجام داد. برای هر یک از این مولکول‌های آلی، تیم محاسبات مدل‌سازی مواد اتمی با تقریب‌های مختلف را برای محاسبه ویژگی‌های مختلف حالت برانگیخته جالب انجام داد. یافته های این تیم بود منتشر شده در داده های علمی طبیعت.

هدف نهایی مجموعه داده‌های منبع باز آموزش یک مدل یادگیری عمیق برای شناسایی مولکول‌هایی با ویژگی‌های نوری الکترونیکی و واکنش‌پذیر نوری است، رویکردی که اجرای آن بسیار سریع‌تر و آسان‌تر از روش‌های فعلی است.

ماسیمیلیانو لوپو پاسینی، نویسنده اصلی، دانشمند داده در دپارتمان علوم کامپیوتر و مهندسی ORNL می گوید: استفاده از مدل های DL برای طراحی مولکولی ضروری است زیرا فضای شیمیایی که برای جستجوی این مولکول ها باید کاوش شود بسیار بزرگ است.

هم آزمایش‌ها و هم محاسبات اصول اول موجود، که مبتنی بر قوانین فیزیکی هستند که نحوه تعامل ماده و انرژی در سطح زیراتمی را تعریف می‌کنند، به دلایل مختلف به سادگی در دسترس نیستند. آزمایش‌ها کار فشرده‌ای هستند و محاسبات اصول اول به راحتی می‌توانند امکانات ابررایانه را تحت تأثیر قرار دهند. اما مدل‌های DL ابزارهای بسیار امیدوارکننده‌ای را برای غلبه بر این موانع ارائه می‌کنند.»

این پروژه زمانی آغاز شد که Stephan Ihrle، رئیس گروه علم شیمی محاسباتی و نانومواد ORNL، طیف مرئی مولکول‌ها را با UV به عنوان یک ویژگی مفید برای پیش‌بینی با مدل‌های DL شناسایی کرد. ساخت یک مدل DL که به اندازه کافی پیچیده باشد تا خواص مولکولی مورد نظر را شناسایی کند، نیازمند آموزش آن با مقادیر انبوهی از داده ها است که تمام مناطق مختلف فضای شیمیایی را بررسی می کند. هرچه داده‌های بیشتری جمع‌آوری شود، مدل DL آموزش‌دیده بر روی آن می‌تواند به استحکام و تعمیم‌پذیری لازم برای عملکرد مؤثر دست یابد. با این حال، جمع‌آوری چنین حجم زیادی از داده‌های علمی برای یک DL مقیاس‌پذیر می‌تواند مشکلاتی را در جریان داده ایجاد کند، به‌ویژه در امکانات چند کاربره مانند OLCF، یک مرکز کاربر دفتر علوم DOE واقع در ORNL.

یکی از چالش‌هایی که هنگام تولید حجم زیادی از داده‌ها به وجود می‌آید این است که تعداد فایل‌های مدیریتی به‌طور چشمگیری افزایش می‌یابد. اگر به درستی مدیریت نشود، چنین حجم زیادی از داده ها می تواند عملکرد سیستم فایل موازی را که جزء مهمی از امکانات پیشرفته HPC است، به خطر بیندازد.

برای مقابله با این چالش، لوپو پاسینی با دانشمند کامپیوتر ORNL Kshitij Mehta برای توسعه همکاری کرد. نرم افزار گردش کار مقیاس پذیر که تضمین می کند که فایل های تولید شده توسط کد مکانیک کوانتومی به درستی بدون بارگذاری بیش از حد سیستم فایل مانند OLCF مدیریت می شوند. جبارکه یک منبع مشترک است که ورودی، خروجی و ذخیره سازی داده ها را در سیستم های ابر محاسباتی مدیریت می کند.

به عنوان یک آزمایش اثبات مفهوم، این تیم مجموعه داده GDB-9-Ex از 96766 مولکول متشکل از کربن، نیتروژن، اکسیژن و فلوئور را با حداکثر 9 اتم غیر هیدروژن تولید کردند. این نشان داد که گردش کار طراحی‌شده مؤثر است و یادگیری DL موقعیت و شدت مرتبط‌ترین قله‌های مرئی UV را به‌دقت پیش‌بینی می‌کند. از این موفقیت اولیه، تیم حجم خود را با مجموعه داده ORNL_AISD-Ex افزایش داد که شامل 10,502,917 مولکول متشکل از کربن، نیتروژن، اکسیژن، فلوئور و گوگرد، با حداکثر 71 اتم غیر هیدروژن است. Pilsun Yoo، محقق فوق دکتری در گروه Irle، ابزارهایی را برای تجزیه و تحلیل مجموعه داده های حاصل توسعه داد.

طیف مرئی UV، که حالت‌های تحریک مولکول را توصیف می‌کند، برای هر یک از بیش از 10 میلیون مولکول محاسبه شد. این اطلاعات نشان می دهد که چه فرکانس نور برای هدف قرار دادن یک مولکول و شکستن پیوندهای خاصی از ترکیب شیمیایی مورد نیاز است. یکی دیگر از ویژگی های جالب محاسبه شده برای هر مولکول، شکاف HOMO-LUMO – اختلاف انرژی بین بالاترین اوربیتال مولکولی اشغال شده و پایین ترین اوربیتال مولکولی اشغال نشده – بود که به طور قابل اعتمادی پایداری مولکول را اندازه می گیرد. با این اطلاعات، یک مدل DL می تواند به طور موثر داده ها را غربال کند تا مولکول های امیدوارکننده را برای استفاده های مختلف آینده شناسایی کند.

در واقع، Lupo Pasini و تیم او در ORNL، از جمله دانشمند یادگیری ماشین محاسباتی Pei Zhang و دانشمند داده HPC John Yeol Choi، در حال توسعه چنین مدل DL هستند: HydraGNN.

معماری HydraGNN ساختار اتمی را می گیرد، آن را به یک نمودار تبدیل می کند و سپس سعی می کند به عنوان خروجی پیش بینی کند که کد از اصول اولیه چه چیزی تولید می کند. این یک مدل جایگزین برای محاسبات گران قیمت اصول اول است.

نتایج آموزش HydraGNN در مورد مجموعه داده ها و اکتشافات مولکولی آن در مقاله آتی به تفصیل ارائه خواهد شد.

این تحقیق توسط ابتکار هوش مصنوعی به عنوان بخشی از برنامه تحقیق و توسعه هدایت شده آزمایشگاهی در ORNL حمایت شده است. جایزه زمان کامپیوتر توسط برنامه اختیاری مدیر OLCF ارائه شد.

UT-Battelle ORNL را برای دفتر علوم DOE، بزرگترین حامی تحقیقات پایه در علوم فیزیکی در ایالات متحده، مدیریت می کند. دفتر علوم DOE برای رسیدگی به برخی از مهم ترین چالش های زمان ما کار می کند. برای اطلاعات بیشتر مراجعه کنید Energy.gov/science.





Source link