تصاویر مصنوعی نوار جدیدی را در عملکرد یادگیری هوش مصنوعی ایجاد می کند | اخبار MIT



داده ها خاک جدید هستند و در این خاک حاصلخیز جدید، محققان MIT بیش از پیکسل ها را کاشتند. تیمی از دانشمندان اخیراً با استفاده از تصاویر مصنوعی برای آموزش مدل‌های یادگیری ماشین، از نتایج به‌دست‌آمده از روش‌های آموزشی سنتی «تصویر واقعی» پیشی گرفتند.

در قلب رویکرد سیستمی به نام است StableRep، که فقط از هیچ تصویر مصنوعی استفاده نمی کند. آنها را از طریق مدل های بسیار محبوب تبدیل متن به تصویر مانند Stable Diffusion تولید می کند. مثل خلق دنیاها با کلمات است.

پس در سس مخفی StableRep چیست؟ استراتژی به نام «یادگیری کنتراست مثبت چندگانه».

لیجی فن، دانشجوی دکترای مهندسی برق در MIT، وابسته به آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT، می‌گوید: «ما این مدل را آموزش می‌دهیم تا در مورد مفاهیم سطح بالا از طریق زمینه و تنوع بیاموزد، نه فقط با داده‌های آن. CSAIL)، محقق اصلی این کار. زمانی که تصاویر متعددی که همگی از یک متن تولید می‌شوند، همگی به‌عنوان تصاویری از یک چیز اصلی در نظر گرفته می‌شوند، مدل عمیق‌تر به مفاهیم پشت تصاویر، مثلاً شیء، نه فقط پیکسل‌های آن‌ها، می‌پردازد.»

این رویکرد چندین تصویر تولید شده توسط اعلان های متنی یکسان را به عنوان جفت های مثبت در نظر می گیرد، که اطلاعات اضافی را در طول آموزش ارائه می دهد، نه تنها تنوع بیشتری را اضافه می کند، بلکه به سیستم بصری نشان می دهد که کدام تصاویر یکسان و کدام متفاوت هستند. قابل‌توجه است که StableRep از مدل‌های سطح بالایی که بر روی تصاویر واقعی آموزش داده شده‌اند، مانند SimCLR و CLIP، در مجموعه داده‌های گسترده عملکرد بهتری داشت.

«در حالی که StableRep به کاهش چالش‌های جمع‌آوری داده‌ها در یادگیری ماشین کمک می‌کند، دوران جدیدی از تکنیک‌های آموزشی هوش مصنوعی را نیز آغاز می‌کند. فن می‌گوید توانایی ایجاد تصاویر مصنوعی با کالیبر بالا و متنوع می‌تواند به کاهش هزینه‌ها و منابع دست‌وپاگیر کمک کند.

فرآیند جمع آوری داده ها هرگز آسان نبوده است. در دهه 1990، محققان مجبور بودند برای جمع‌آوری مجموعه داده‌های اشیا و چهره‌ها، عکس‌هایی را به صورت دستی بگیرند. در دهه 2000، مردم اینترنت را برای یافتن داده جستجو می کردند. با این حال، این داده‌های خام و خام اغلب حاوی مغایرت‌هایی در مقایسه با سناریوهای دنیای واقعی بودند و سوگیری‌های اجتماعی را منعکس می‌کردند و دیدگاهی تحریف‌شده از واقعیت را ارائه می‌دادند. وظیفه تمیز کردن مجموعه داده ها از طریق مداخله انسانی نه تنها گران است بلکه بسیار چالش برانگیز است. با این حال، تصور کنید که آیا می‌توان این جمع‌آوری داده‌های دشوار را به چیزی به سادگی صدور فرمان به زبان طبیعی خلاصه کرد.

یکی از جنبه های کلیدی پیروزی StableRep تنظیم “مقیاس راهنما” در مدل تولیدی است که تعادل ظریفی را بین تنوع و دقت تصاویر مصنوعی فراهم می کند. در صورت تنظیم دقیق، تصاویر مصنوعی مورد استفاده در آموزش این مدل‌های خود نظارتی، اگر نه بیشتر از تصاویر واقعی، مؤثر هستند.

با برداشتن یک قدم جلوتر، نظارت زبان به ترکیب اضافه شد و یک نوع بهبود یافته ایجاد کرد: StableRep+. هنگامی که StableRep+ با 20 میلیون تصویر مصنوعی آموزش داده شد، نه تنها به دقت بالاتری دست یافت، بلکه عملکرد قابل توجهی را در مقایسه با مدل های CLIP که با 50 میلیون تصویر واقعی آموزش دیده بودند، نشان داد.

با این حال جاده پیش رو بدون چاله نیست. محققان به صراحت به محدودیت‌های متعددی اشاره می‌کنند، از جمله سرعت آهسته فعلی تولید تصویر، عدم تطابق معنایی بین اعلان‌های متنی و تصاویر حاصل، تقویت احتمالی سوگیری و پیچیدگی‌ها در انتساب تصویر، که پرداختن به همه آنها برای پیشرفت‌های آتی ضروری است. مشکل دیگر این است که StableRep ابتدا نیاز به آموزش مدل مولد بر روی داده های واقعی در مقیاس بزرگ دارد. این تیم تشخیص می دهد که شروع با داده های واقعی یک ضرورت باقی می ماند. با این حال، وقتی یک مدل مولد خوب دارید، می‌توانید آن را برای کارهای جدید، مانند یادگیری مدل‌های تشخیص و نمایش‌های بصری، تغییر دهید.

این تیم خاطرنشان می کند که آنها نیاز به شروع با داده های واقعی را نادیده نگرفتند. به سادگی، هنگامی که یک مدل مولد خوب دارید، می‌توانید آن را برای کارهای جدید، مانند یادگیری مدل‌های تشخیص و نمایش‌های بصری، تغییر کاربری دهید.

اگرچه StableRep با کاهش وابستگی به مجموعه‌های عظیم تصاویر واقعی راه‌حل خوبی ارائه می‌کند، اما نگرانی‌های مربوط به سوگیری‌های پنهان در داده‌های خام مورد استفاده برای این مدل‌های متن به تصویر را برجسته می‌کند. فان می‌گوید: انتخاب اعلان‌های متن، بخشی جدایی‌ناپذیر از فرآیند سنتز تصویر، کاملاً عاری از سوگیری نیست، “که نشان‌دهنده نقش اساسی انتخاب دقیق متن یا کنترل احتمالی انسانی است.”

با استفاده از جدیدترین مدل‌های تبدیل متن به تصویر، کنترل بی‌سابقه‌ای بر تولید تصویر به دست آورده‌ایم که طیف متنوعی از تجسم‌ها را از یک ورودی متنی امکان‌پذیر می‌سازد. این از نظر کارایی و انعطاف پذیری از مجموعه تصاویر دنیای واقعی پیشی می گیرد. فان می‌گوید که این به‌ویژه برای کارهای تخصصی، مانند متعادل کردن تنوع تصویر در تشخیص دم بلند، به‌عنوان یک مکمل عملی برای استفاده از تصاویر واقعی برای آموزش مفید است. “کار ما یک گام به جلو در یادگیری بصری به سمت هدف ارائه جایگزین های یادگیری مقرون به صرفه است، در حالی که نیاز به بهبود مستمر در کیفیت و ترکیب داده ها را برجسته می کند.”

دیوید فلیت، محقق گوگل دیپ مایند و استاد علوم کامپیوتر دانشگاه تورنتو، که در این مقاله دخالتی نداشت، گفت: «یکی از رویاهای آموزش مدل های مولد مدت هاست که بتوان داده های مفید برای آموزش مدل های متمایز تولید کرد. «اگرچه ما برخی از نشانه‌های زندگی را می‌دیدیم، اما خواب به خصوص در مناطق پیچیده در مقیاس بزرگ مانند تصویربرداری با وضوح بالا، گریزان بود. این مقاله شواهد قانع‌کننده‌ای ارائه می‌کند، برای اولین بار که من می‌دانم، مبنی بر اینکه یک رویا در حال تبدیل شدن به واقعیت است. آنها نشان می‌دهند که یادگیری کنتراست از مقادیر انبوه داده‌های تصویر مصنوعی می‌تواند بازنمایی‌هایی را تولید کند که عملکرد بهتری از اطلاعات آموخته‌شده از داده‌های واقعی در مقیاس داشته باشد، با پتانسیل بهبود تعداد بی‌شماری وظایف بینایی پایین‌دست.

فن توسط Yonglong Tian PhD ’22 به عنوان نویسندگان اصلی مقاله، و همچنین دانشیار مهندسی برق و علوم کامپیوتر MIT و محقق اصلی CSAIL فیلیپ ایزولا همراه شده است. Huiwen Chang، محقق گوگل و کارمند فنی OpenAI؛ و دیلیپ کریشنان، محقق کارکنان گوگل. این تیم StableRep را در کنفرانس 2023 سیستم های پردازش اطلاعات عصبی (NeurIPS) در نیواورلئان ارائه خواهد کرد.



Source link