نیوزویز – تیمی از دانشمندان محاسباتی در آزمایشگاه ملی Oak Ridge وزارت انرژی مجموعههای دادهای در مقیاس بیسابقهای تولید و منتشر کردهاند که ویژگیهای طیفی مرئی فرابنفش بیش از 10 میلیون مولکول آلی را ارائه میدهد. درک چگونگی تعامل یک مولکول با نور برای کشف خواص الکترونیکی و نوری آن ضروری است، که به نوبه خود کاربردهای بالقوه فوتواکتیو در محصولاتی مانند سلول های خورشیدی یا سیستم های تصویربرداری پزشکی دارند.
با استفاده از منابع محاسباتی با کارایی بالا در مرکز محاسبات رهبری Oak Ridge، تیم ORNL محاسبات شیمی کوانتومی را برای تولید مجموعههای داده عظیم انجام داد. برای هر یک از این مولکولهای آلی، تیم محاسبات مدلسازی مواد اتمی با تقریبهای مختلف را برای محاسبه ویژگیهای مختلف حالت برانگیخته جالب انجام داد. یافته های این تیم بود منتشر شده در داده های علمی طبیعت.
هدف نهایی مجموعه دادههای منبع باز آموزش یک مدل یادگیری عمیق برای شناسایی مولکولهایی با ویژگیهای نوری الکترونیکی و واکنشپذیر نوری است، رویکردی که اجرای آن بسیار سریعتر و آسانتر از روشهای فعلی است.
ماسیمیلیانو لوپو پاسینی، نویسنده اصلی، دانشمند داده در دپارتمان علوم کامپیوتر و مهندسی ORNL می گوید: استفاده از مدل های DL برای طراحی مولکولی ضروری است زیرا فضای شیمیایی که برای جستجوی این مولکول ها باید کاوش شود بسیار بزرگ است.
هم آزمایشها و هم محاسبات اصول اول موجود، که مبتنی بر قوانین فیزیکی هستند که نحوه تعامل ماده و انرژی در سطح زیراتمی را تعریف میکنند، به دلایل مختلف به سادگی در دسترس نیستند. آزمایشها کار فشردهای هستند و محاسبات اصول اول به راحتی میتوانند امکانات ابررایانه را تحت تأثیر قرار دهند. اما مدلهای DL ابزارهای بسیار امیدوارکنندهای را برای غلبه بر این موانع ارائه میکنند.»
این پروژه زمانی آغاز شد که Stephan Ihrle، رئیس گروه علم شیمی محاسباتی و نانومواد ORNL، طیف مرئی مولکولها را با UV به عنوان یک ویژگی مفید برای پیشبینی با مدلهای DL شناسایی کرد. ساخت یک مدل DL که به اندازه کافی پیچیده باشد تا خواص مولکولی مورد نظر را شناسایی کند، نیازمند آموزش آن با مقادیر انبوهی از داده ها است که تمام مناطق مختلف فضای شیمیایی را بررسی می کند. هرچه دادههای بیشتری جمعآوری شود، مدل DL آموزشدیده بر روی آن میتواند به استحکام و تعمیمپذیری لازم برای عملکرد مؤثر دست یابد. با این حال، جمعآوری چنین حجم زیادی از دادههای علمی برای یک DL مقیاسپذیر میتواند مشکلاتی را در جریان داده ایجاد کند، بهویژه در امکانات چند کاربره مانند OLCF، یک مرکز کاربر دفتر علوم DOE واقع در ORNL.
یکی از چالشهایی که هنگام تولید حجم زیادی از دادهها به وجود میآید این است که تعداد فایلهای مدیریتی بهطور چشمگیری افزایش مییابد. اگر به درستی مدیریت نشود، چنین حجم زیادی از داده ها می تواند عملکرد سیستم فایل موازی را که جزء مهمی از امکانات پیشرفته HPC است، به خطر بیندازد.
برای مقابله با این چالش، لوپو پاسینی با دانشمند کامپیوتر ORNL Kshitij Mehta برای توسعه همکاری کرد. نرم افزار گردش کار مقیاس پذیر که تضمین می کند که فایل های تولید شده توسط کد مکانیک کوانتومی به درستی بدون بارگذاری بیش از حد سیستم فایل مانند OLCF مدیریت می شوند. جبارکه یک منبع مشترک است که ورودی، خروجی و ذخیره سازی داده ها را در سیستم های ابر محاسباتی مدیریت می کند.
به عنوان یک آزمایش اثبات مفهوم، این تیم مجموعه داده GDB-9-Ex از 96766 مولکول متشکل از کربن، نیتروژن، اکسیژن و فلوئور را با حداکثر 9 اتم غیر هیدروژن تولید کردند. این نشان داد که گردش کار طراحیشده مؤثر است و یادگیری DL موقعیت و شدت مرتبطترین قلههای مرئی UV را بهدقت پیشبینی میکند. از این موفقیت اولیه، تیم حجم خود را با مجموعه داده ORNL_AISD-Ex افزایش داد که شامل 10,502,917 مولکول متشکل از کربن، نیتروژن، اکسیژن، فلوئور و گوگرد، با حداکثر 71 اتم غیر هیدروژن است. Pilsun Yoo، محقق فوق دکتری در گروه Irle، ابزارهایی را برای تجزیه و تحلیل مجموعه داده های حاصل توسعه داد.
طیف مرئی UV، که حالتهای تحریک مولکول را توصیف میکند، برای هر یک از بیش از 10 میلیون مولکول محاسبه شد. این اطلاعات نشان می دهد که چه فرکانس نور برای هدف قرار دادن یک مولکول و شکستن پیوندهای خاصی از ترکیب شیمیایی مورد نیاز است. یکی دیگر از ویژگی های جالب محاسبه شده برای هر مولکول، شکاف HOMO-LUMO – اختلاف انرژی بین بالاترین اوربیتال مولکولی اشغال شده و پایین ترین اوربیتال مولکولی اشغال نشده – بود که به طور قابل اعتمادی پایداری مولکول را اندازه می گیرد. با این اطلاعات، یک مدل DL می تواند به طور موثر داده ها را غربال کند تا مولکول های امیدوارکننده را برای استفاده های مختلف آینده شناسایی کند.
در واقع، Lupo Pasini و تیم او در ORNL، از جمله دانشمند یادگیری ماشین محاسباتی Pei Zhang و دانشمند داده HPC John Yeol Choi، در حال توسعه چنین مدل DL هستند: HydraGNN.
معماری HydraGNN ساختار اتمی را می گیرد، آن را به یک نمودار تبدیل می کند و سپس سعی می کند به عنوان خروجی پیش بینی کند که کد از اصول اولیه چه چیزی تولید می کند. این یک مدل جایگزین برای محاسبات گران قیمت اصول اول است.
نتایج آموزش HydraGNN در مورد مجموعه داده ها و اکتشافات مولکولی آن در مقاله آتی به تفصیل ارائه خواهد شد.
این تحقیق توسط ابتکار هوش مصنوعی به عنوان بخشی از برنامه تحقیق و توسعه هدایت شده آزمایشگاهی در ORNL حمایت شده است. جایزه زمان کامپیوتر توسط برنامه اختیاری مدیر OLCF ارائه شد.
UT-Battelle ORNL را برای دفتر علوم DOE، بزرگترین حامی تحقیقات پایه در علوم فیزیکی در ایالات متحده، مدیریت می کند. دفتر علوم DOE برای رسیدگی به برخی از مهم ترین چالش های زمان ما کار می کند. برای اطلاعات بیشتر مراجعه کنید Energy.gov/science.