اما خطرات پنهانی وجود دارد: ScienceAlert - مجله آزمایشگاه کلینیکال

مایکروسافت اخیرا راه اندازی شد نسخه جدید تمام نرم افزار شما با اضافه شدن هوش مصنوعی دستیار (AI) که می تواند کارهای مختلفی را برای شما انجام دهد.

کمک خلبان می تواند گفتگوهای شفاهی را خلاصه کند تیم ها جلسات آنلاین، ارائه استدلال های موافق یا مخالف یک نکته خاص بر اساس بحث های شفاهی و پاسخ به برخی از ایمیل های شما. حتی می تواند کدهای کامپیوتری بنویسد.

به نظر می‌رسد این فناوری به سرعت در حال توسعه ما را به آینده‌ای نزدیک‌تر می‌کند که در آن هوش مصنوعی زندگی ما را آسان‌تر می‌کند و تمام کارهای خسته‌کننده و تکراری را که به‌عنوان انسان باید انجام دهیم، حذف می‌کند.

اما در حالی که همه این پیشرفت ها بسیار چشمگیر و مفید هستند، باید در استفاده از آنها مراقب باشیم الگوهای بزرگ زبان (LLM). علیرغم ماهیت شهودی آنها، آنها همچنان برای استفاده مؤثر، قابل اعتماد و ایمن از آنها به مهارت نیاز دارند.

الگوهای زبانی بزرگ

LLM ها، نوعی از شبکه عصبی “یادگیری عمیق”، برای درک هدف کاربر با تجزیه و تحلیل احتمال پاسخ های مختلف بر اساس یک اعلان طراحی شده اند. بنابراین هنگامی که شخصی یک درخواست را وارد می کند، LLM متن را بررسی می کند و محتمل ترین پاسخ را تعیین می کند.

ChatGPT، یک مثال برجسته از یک LLM، می تواند به درخواست ها در مورد طیف گسترده ای از موضوعات پاسخ دهد. با این حال، علی رغم پاسخ های به ظاهر آگاهانه آنها، ChatGPT نه دانش واقعی دارند پاسخ های آن به سادگی محتمل ترین نتایج بر اساس اعلان داده شده است.

هنگامی که افراد ChatGPT، Copilot و سایر LLM ها را با توضیحات مفصلی از وظایفی که می خواهند به انجام برسانند، ارائه می دهند، این مدل ها می توانند در ارائه پاسخ های با کیفیت بالا برتری داشته باشند. این ممکن است شامل تولید متن، تصاویر یا کد کامپیوتری باشد.

اما ما به عنوان انسان، اغلب محدودیت‌هایی را که فناوری می‌تواند انجام دهد و در ابتدا برای چه چیزی در نظر گرفته شده است، پشت سر می‌گذاریم. بنابراین، ما شروع به استفاده از این سیستم ها برای انجام کارهایی می کنیم که خودمان باید انجام می دادیم.

چرا اتکای بیش از حد به هوش مصنوعی می تواند مشکل ساز باشد

علیرغم پاسخ های به ظاهر هوشمندانه آنها، کورکورانه نمی توانیم اعتماد کنید LLM باید دقیق یا قابل اعتماد باشد. ما باید نتایج آنها را به دقت ارزیابی و تأیید کنیم و اطمینان حاصل کنیم که درخواست های اولیه ما در پاسخ های ارائه شده منعکس می شود.

برای بررسی و اعتبارسنجی موثر نتایج LLM، باید درک خوبی از موضوع داشته باشیم. بدون تخصص، ما نمی توانیم تضمین کیفیت لازم را ارائه دهیم.

این امر به ویژه در شرایطی که از LLM برای پر کردن شکاف های دانش خود استفاده می کنیم بسیار مهم می شود. در اینجا، فقدان دانش ما می تواند ما را به موقعیتی برساند که به سادگی قادر به تشخیص درست یا نبودن خروجی نباشیم. این وضعیت می تواند در طول تولید متن و رمزگذاری رخ دهد.

استفاده از هوش مصنوعی برای شرکت در جلسات و خلاصه کردن بحث، خطرات قابل اطمینان آشکاری را به همراه دارد.

اگرچه ضبط جلسه بر اساس رونوشت است، یادداشت های جلسه همچنان به همان روشی که سایر متن های LLM ایجاد می شود. آنها هنوز بر اساس الگوهای زبانی و احتمالات گفته شده هستند، بنابراین قبل از انجام اقدام نیاز به تأیید دارند.

آنها همچنین از مشکلات تفسیری به دلیل همفون ها، کلماتی که یکسان تلفظ می شوند اما معانی متفاوتی دارند. در چنین شرایطی به دلیل زمینه گفتگو، مردم به خوبی درک می کنند که منظور از آن چیست.

اما هوش مصنوعی در استنباط زمینه خوب نیست و تفاوت های ظریف را نیز درک نمی کند. بنابراین انتظار از او برای فرمول‌بندی استدلال‌ها بر اساس رونوشت بالقوه ناقص همچنان مشکلات بیشتری ایجاد می‌کند.

اگر از هوش مصنوعی برای تولید کد کامپیوتری استفاده کنیم، تأیید حتی دشوارتر است. آزمایش کد رایانه با داده های آزمایشی تنها روش قابل اعتماد برای تأیید عملکرد آن است. در حالی که این نشان می‌دهد که کد مطابق با هدف کار می‌کند، اما تضمین نمی‌کند که رفتار آن با انتظارات در دنیای واقعی مطابقت داشته باشد.

فرض کنید از هوش مصنوعی مولد برای ایجاد کد برای ابزار تحلیل احساسات استفاده می کنیم. هدف تجزیه و تحلیل نظرات محصول و طبقه بندی احساسات به عنوان مثبت، خنثی یا منفی است. ما می توانیم عملکرد سیستم را آزمایش کنیم و عملکرد صحیح کد را تأیید کنیم – آیا از نظر برنامه نویسی فنی قابل اعتماد است یا خیر.

با این حال، تصور کنید که ما چنین نرم افزاری را در دنیای واقعی مستقر می کنیم و شروع به طبقه بندی بررسی های طعنه آمیز محصول به عنوان مثبت می کند. یک سیستم تحلیل احساسات فاقد دانش زمینه ای مورد نیاز برای درک این موضوع است که طعنه به عنوان بازخورد مثبت استفاده نمی شود، بلکه کاملا برعکس است.

تأیید اینکه خروجی کد با نتایج مورد نظر مطابقت دارد در موقعیت های ظریف مانند این نیاز به تجربه دارد.

غیر برنامه نویسان هیچ دانشی از اصول مهندسی نرم افزار مورد استفاده برای اطمینان از صحت کد مانند برنامه ریزی، روش شناسی، آزمایش و مستندسازی نخواهند داشت. برنامه نویسی یک رشته پیچیده است و مهندسی نرم افزار به عنوان زمینه ای برای مدیریت کیفیت نرم افزار ظهور کرده است.

خطر قابل توجهی وجود دارد، مانند من پژوهش نشان داد که افراد غیرمتخصص مراحل مهمی را در فرآیند طراحی نرم افزار نادیده می گیرند یا از دست می دهند و در نتیجه کدهایی با کیفیت ناشناخته تولید می شوند.

اعتبار سنجی و تایید

LLM مانند ChatGPT و Copilot ابزارهای قدرتمندی هستند که همه ما می توانیم از آنها بهره مند شویم. اما باید مراقب باشیم که کورکورانه به نتایج داده شده خود اعتماد نکنیم.

ما درست در آغاز یک انقلاب بزرگ مبتنی بر این فناوری هستیم. هوش مصنوعی امکانات بی‌پایانی دارد، اما نیاز به شکل‌دهی، آزمایش و اعتبار دارد. و در حال حاضر، انسان ها تنها کسانی هستند که می توانند این کار را انجام دهند.

سایمون تورنمدرس ارشد کامپیوتر و سیستم های اطلاعاتی، دانشگاه متروپولیتن کاردیف

این مقاله توسط گفتگو تحت مجوز Creative Commons. ادامه مطلب مقاله اصلی.

Source link

الگوهای زبانی بزرگ

چرا اتکای بیش از حد به هوش مصنوعی می تواند مشکل ساز باشد

اعتبار سنجی و تایید

شاید دوست داشته باشید

گوش میمون 6 میلیون ساله نشان می دهد که ما یاد گرفتیم در 3 مرحله راست راه برویم: ScienceAlert

“پیش از اینکه بدانی” نوشته جان برگ – هک ذهن

روبات های انسان نما فیگور در آستانه ورود به نیروی کار BMW هستند