داده ها خاک جدید هستند و در این خاک حاصلخیز جدید، محققان MIT بیش از پیکسل ها را کاشتند. تیمی از دانشمندان اخیراً با استفاده از تصاویر مصنوعی برای آموزش مدلهای یادگیری ماشین، از نتایج بهدستآمده از روشهای آموزشی سنتی «تصویر واقعی» پیشی گرفتند.
در قلب رویکرد سیستمی به نام است StableRep، که فقط از هیچ تصویر مصنوعی استفاده نمی کند. آنها را از طریق مدل های بسیار محبوب تبدیل متن به تصویر مانند Stable Diffusion تولید می کند. مثل خلق دنیاها با کلمات است.
پس در سس مخفی StableRep چیست؟ استراتژی به نام «یادگیری کنتراست مثبت چندگانه».
لیجی فن، دانشجوی دکترای مهندسی برق در MIT، وابسته به آزمایشگاه علوم کامپیوتر و هوش مصنوعی MIT، میگوید: «ما این مدل را آموزش میدهیم تا در مورد مفاهیم سطح بالا از طریق زمینه و تنوع بیاموزد، نه فقط با دادههای آن. CSAIL)، محقق اصلی این کار. زمانی که تصاویر متعددی که همگی از یک متن تولید میشوند، همگی بهعنوان تصاویری از یک چیز اصلی در نظر گرفته میشوند، مدل عمیقتر به مفاهیم پشت تصاویر، مثلاً شیء، نه فقط پیکسلهای آنها، میپردازد.»
این رویکرد چندین تصویر تولید شده توسط اعلان های متنی یکسان را به عنوان جفت های مثبت در نظر می گیرد، که اطلاعات اضافی را در طول آموزش ارائه می دهد، نه تنها تنوع بیشتری را اضافه می کند، بلکه به سیستم بصری نشان می دهد که کدام تصاویر یکسان و کدام متفاوت هستند. قابلتوجه است که StableRep از مدلهای سطح بالایی که بر روی تصاویر واقعی آموزش داده شدهاند، مانند SimCLR و CLIP، در مجموعه دادههای گسترده عملکرد بهتری داشت.
«در حالی که StableRep به کاهش چالشهای جمعآوری دادهها در یادگیری ماشین کمک میکند، دوران جدیدی از تکنیکهای آموزشی هوش مصنوعی را نیز آغاز میکند. فن میگوید توانایی ایجاد تصاویر مصنوعی با کالیبر بالا و متنوع میتواند به کاهش هزینهها و منابع دستوپاگیر کمک کند.
فرآیند جمع آوری داده ها هرگز آسان نبوده است. در دهه 1990، محققان مجبور بودند برای جمعآوری مجموعه دادههای اشیا و چهرهها، عکسهایی را به صورت دستی بگیرند. در دهه 2000، مردم اینترنت را برای یافتن داده جستجو می کردند. با این حال، این دادههای خام و خام اغلب حاوی مغایرتهایی در مقایسه با سناریوهای دنیای واقعی بودند و سوگیریهای اجتماعی را منعکس میکردند و دیدگاهی تحریفشده از واقعیت را ارائه میدادند. وظیفه تمیز کردن مجموعه داده ها از طریق مداخله انسانی نه تنها گران است بلکه بسیار چالش برانگیز است. با این حال، تصور کنید که آیا میتوان این جمعآوری دادههای دشوار را به چیزی به سادگی صدور فرمان به زبان طبیعی خلاصه کرد.
یکی از جنبه های کلیدی پیروزی StableRep تنظیم “مقیاس راهنما” در مدل تولیدی است که تعادل ظریفی را بین تنوع و دقت تصاویر مصنوعی فراهم می کند. در صورت تنظیم دقیق، تصاویر مصنوعی مورد استفاده در آموزش این مدلهای خود نظارتی، اگر نه بیشتر از تصاویر واقعی، مؤثر هستند.
با برداشتن یک قدم جلوتر، نظارت زبان به ترکیب اضافه شد و یک نوع بهبود یافته ایجاد کرد: StableRep+. هنگامی که StableRep+ با 20 میلیون تصویر مصنوعی آموزش داده شد، نه تنها به دقت بالاتری دست یافت، بلکه عملکرد قابل توجهی را در مقایسه با مدل های CLIP که با 50 میلیون تصویر واقعی آموزش دیده بودند، نشان داد.
با این حال جاده پیش رو بدون چاله نیست. محققان به صراحت به محدودیتهای متعددی اشاره میکنند، از جمله سرعت آهسته فعلی تولید تصویر، عدم تطابق معنایی بین اعلانهای متنی و تصاویر حاصل، تقویت احتمالی سوگیری و پیچیدگیها در انتساب تصویر، که پرداختن به همه آنها برای پیشرفتهای آتی ضروری است. مشکل دیگر این است که StableRep ابتدا نیاز به آموزش مدل مولد بر روی داده های واقعی در مقیاس بزرگ دارد. این تیم تشخیص می دهد که شروع با داده های واقعی یک ضرورت باقی می ماند. با این حال، وقتی یک مدل مولد خوب دارید، میتوانید آن را برای کارهای جدید، مانند یادگیری مدلهای تشخیص و نمایشهای بصری، تغییر دهید.
این تیم خاطرنشان می کند که آنها نیاز به شروع با داده های واقعی را نادیده نگرفتند. به سادگی، هنگامی که یک مدل مولد خوب دارید، میتوانید آن را برای کارهای جدید، مانند یادگیری مدلهای تشخیص و نمایشهای بصری، تغییر کاربری دهید.
اگرچه StableRep با کاهش وابستگی به مجموعههای عظیم تصاویر واقعی راهحل خوبی ارائه میکند، اما نگرانیهای مربوط به سوگیریهای پنهان در دادههای خام مورد استفاده برای این مدلهای متن به تصویر را برجسته میکند. فان میگوید: انتخاب اعلانهای متن، بخشی جداییناپذیر از فرآیند سنتز تصویر، کاملاً عاری از سوگیری نیست، “که نشاندهنده نقش اساسی انتخاب دقیق متن یا کنترل احتمالی انسانی است.”
با استفاده از جدیدترین مدلهای تبدیل متن به تصویر، کنترل بیسابقهای بر تولید تصویر به دست آوردهایم که طیف متنوعی از تجسمها را از یک ورودی متنی امکانپذیر میسازد. این از نظر کارایی و انعطاف پذیری از مجموعه تصاویر دنیای واقعی پیشی می گیرد. فان میگوید که این بهویژه برای کارهای تخصصی، مانند متعادل کردن تنوع تصویر در تشخیص دم بلند، بهعنوان یک مکمل عملی برای استفاده از تصاویر واقعی برای آموزش مفید است. “کار ما یک گام به جلو در یادگیری بصری به سمت هدف ارائه جایگزین های یادگیری مقرون به صرفه است، در حالی که نیاز به بهبود مستمر در کیفیت و ترکیب داده ها را برجسته می کند.”
دیوید فلیت، محقق گوگل دیپ مایند و استاد علوم کامپیوتر دانشگاه تورنتو، که در این مقاله دخالتی نداشت، گفت: «یکی از رویاهای آموزش مدل های مولد مدت هاست که بتوان داده های مفید برای آموزش مدل های متمایز تولید کرد. «اگرچه ما برخی از نشانههای زندگی را میدیدیم، اما خواب به خصوص در مناطق پیچیده در مقیاس بزرگ مانند تصویربرداری با وضوح بالا، گریزان بود. این مقاله شواهد قانعکنندهای ارائه میکند، برای اولین بار که من میدانم، مبنی بر اینکه یک رویا در حال تبدیل شدن به واقعیت است. آنها نشان میدهند که یادگیری کنتراست از مقادیر انبوه دادههای تصویر مصنوعی میتواند بازنماییهایی را تولید کند که عملکرد بهتری از اطلاعات آموختهشده از دادههای واقعی در مقیاس داشته باشد، با پتانسیل بهبود تعداد بیشماری وظایف بینایی پاییندست.
فن توسط Yonglong Tian PhD ’22 به عنوان نویسندگان اصلی مقاله، و همچنین دانشیار مهندسی برق و علوم کامپیوتر MIT و محقق اصلی CSAIL فیلیپ ایزولا همراه شده است. Huiwen Chang، محقق گوگل و کارمند فنی OpenAI؛ و دیلیپ کریشنان، محقق کارکنان گوگل. این تیم StableRep را در کنفرانس 2023 سیستم های پردازش اطلاعات عصبی (NeurIPS) در نیواورلئان ارائه خواهد کرد.