آیا مدلهای هوش مصنوعی «بصری» واقعاً کور هستند؟

آخرین دور از مدلهای زبان، مانند GPT-4o و Gemini 1.5 Pro، بهعنوان «چند وجهی» معرفی میشوند که میتوانند تصاویر و صدا و همچنین متن را درک کنند - اما یک مطالعه جدید نشان میدهد که آنها واقعاً نمیدانند راهی که ممکن است انتظار داشته باشید در واقع آنها ممکن است اصلا نبینند.
برای روشن شدن در ابتدا، هیچ کس ادعایی مانند "این هوش مصنوعی می تواند مانند مردم ببیند!" (خب... شاید بعضی ها داشته باشند.) اما بازاریابی و معیارهای مورد استفاده برای ترویج این مدل ها از عباراتی مانند "قابلیت های بینایی"، "درک بصری" و غیره استفاده می کنند. آنها در مورد اینکه مدل چگونه تصاویر و ویدیوها را می بیند و تجزیه و تحلیل می کند، صحبت می کنند، پس می تواند هر کاری از مشکلات مشق شب گرفته تا تماشای بازی را برای شما انجام دهد.
پس ، اگرچه ادعاهای این شرکت ها به طرز ماهرانه ای بیان شده است، اما واضح است که آنها می خواهند بیان کنند که مدل به معنایی از کلمه می بیند. و این کار را انجام می دهد - اما به همان روشی که ریاضی را انجام می دهد یا داستان می نویسد: تطبیق الگوهای موجود در داده های ورودی با الگوهای موجود در داده های آموزشی خود. این منجر به شکست مدلها میشود که به همان روشی که در برخی از وظایف دیگر که پیش پا افتاده به نظر میرسند، مانند انتخاب یک عدد تصادفی، شکست میخورند.
پژوهشگران در دانشگاه آبرن و دانشگاه آلبرتا مطالعه ای غیررسمی، اما سیستماتیک در مورد درک بصری مدل های هوش مصنوعی فعلی انجام دادند. آنها بزرگترین مدلهای چندوجهی را مجموعهای از کارهای بصری بسیار ساده ارائه کردند، مانند پرسیدن اینکه آیا دو شکل با هم همپوشانی دارند، یا چند ضلعی در یک تصویر وجود دارد، یا اینکه کدام حرف در یک کلمه دایره شده است. (یک میکروصفحه خلاصه را می توان در اینجا مطالعه کرد. )
آنها چیزهایی هستند که حتی یک دانش آموز کلاس اولی هم درست می شود، اما مدل های هوش مصنوعی را با مشکلات زیادی مواجه می کند.
7 وظیفه ما بسیار ساده هستند، جایی که انسان ها با دقت 100 درصد انجام می دهند. ما انتظار داریم که هوش مصنوعی نیز همین کار را انجام دهد، اما در حال حاضر اینطور نیست. پیام ما این است که ببینید، این بهترین مدلها هنوز در حال شکست هستند. "

تست اشکال همپوشانی را انجام دهید: یکی از ساده ترین کارهای استدلال بصری قابل تصور. مدلها با دو دایره که یا کمی روی هم قرار گرفتهاند، فقط لمس میشوند، یا با فاصلهای بین آنها وجود دارد، این مدلها بهطور مداوم نمیتوانند آن را درست انجام دهند. مطمئناً، GPT-4o در بیش از 95 درصد مواقع زمانی که از هم دور بودند، آن را درست انجام میداد، اما در فواصل صفر یا کوچک، فقط در 18 درصد موارد درست میشد! Gemini Pro 1.5 بهترین عملکرد را دارد، اما هنوز هم فقط در فواصل نزدیک 7/10 میگیرد.
(تصاویر عملکرد دقیق مدل ها را نشان نمی دهد، اما برای نشان دادن ناهماهنگی مدل ها در شرایط است. آمار هر مدل در مقاله است. )
یا در مورد شمارش تعداد دایره های به هم پیوسته در یک تصویر چطور؟ شرط می بندم که یک اسب بالاتر از حد متوسط می تواند این کار را انجام دهد.

همه آنها در 100٪ موارد زمانی که 5 حلقه وجود دارد آن را به درستی دریافت می کنند - هوش مصنوعی بصری بسیار عالی! اما سپس اضافه کردن یک حلقه نتایج را کاملاً از بین می برد. جوزا گم شده است، نمی تواند یک بار آن را درست کند. Sonnet-3.5 6… یک سوم مواقع و GPT-4o کمی کمتر از نیمی از زمان پاسخ می دهد. گفت ن یک حلقه دیگر کار را حتی سختتر میکند، اما گفت ن حلقه دیگری کار را برای برخی آسانتر میکند.
هدف این آزمایش صرفاً نشان دادن این است که هر کاری که این مدلها انجام میدهند، واقعاً با آن چیزی که ما تصور میکنیم مطابقت ندارد. پس از همه، حتی اگر آنها ضعیف می دیدند، ما انتظار نداریم که تصاویر 6، 7، 8، و 9 حلقه تا این حد در موفقیت متفاوت باشند.
سایر وظایف آزمایششده الگوهای مشابهی را نشان میدادند: این نبود که آنها خوب یا ضعیف میدیدند یا استدلال میکردند، اما به نظر میرسید که دلیل دیگری وجود داشت که چرا در یک مورد قادر به شمارش بودند اما در مورد دیگر نه.
مطمئناً یک پاسخ بالقوه این است که مستقیماً به ما خیره شود: چرا آنها باید در درست کردن یک تصویر 5 دایره ای آنقدر خوب باشند، اما در بقیه موارد، یا زمانی که 5 ضلعی است، اینقدر شکست می خورند؟ (برای منصفانه بودن، Sonnet-3.5 در این مورد بسیار خوب عمل کرد. ) زیرا همه آنها یک تصویر 5 دایره ای دارند که به طور برجسته در داده های تمرینی آنها دیده می شود: حلقه های المپیک.

این نشانواره نه تنها بارها و بارها در دادههای آموزشی تکرار میشود، بلکه احتمالاً با جزئیات در متن جایگزین، دستورالعملهای استفاده، و مقالاتی درباره آن توضیح داده میشود. اما در کجای داده های آموزشی آنها 6 حلقه در هم قفل شده یا 7 حلقه پیدا خواهید کرد؟ اگر پاسخ آنها نشانه ای باشد ... هیچ جا! آنها هیچ ایده ای ندارند که به چه چیزی "نگاه می کنند" و هیچ درک بصری واقعی از حلقه ها، همپوشانی ها یا هر یک از این مفاهیم ندارند.
من پرسیدم که محققان در مورد این «کوری» که مدلها را به داشتن آن متهم میکنند، چه فکر میکنند. مانند سایر اصطلاحاتی که ما استفاده می کنیم، دارای کیفیت انسانی است که کاملاً دقیق نیست اما انجام بدون آن دشوار است.
نگوین مینویسد: «موافقم، «کور» تعاریف زیادی حتی برای انسانها دارد و هنوز کلمهای برای این نوع کوری/عدم حساسیت هوش مصنوعی به تصاویری که نشان میدهیم وجود ندارد. "در حال حاضر، هیچ فناوری برای تجسم دقیق آنچه که یک مدل می بیند وجود ندارد. و رفتار آنها تابع پیچیده ای از متن ورودی، تصویر ورودی و میلیاردها وزن است. "
او حدس زد که مدلها دقیقاً کور نیستند، اما اطلاعات بصری که از یک تصویر استخراج میکنند، تقریبی و انتزاعی است، چیزی شبیه به «یک دایره در سمت چپ وجود دارد». اما مدلها هیچ وسیلهای برای قضاوت بصری ندارند، و پاسخهای خود را مانند پاسخهای کسی میسازند که از یک تصویر مطلع است اما در واقع نمیتواند آن را ببیند.
به عنوان آخرین مثال، نگوین این را ارسال کرد که از فرضیه فوق پشتیبانی می کند:

هنگامی که یک دایره آبی و یک دایره سبز با هم همپوشانی دارند (همانطور که سوال مدل را وادار میکند تا واقعیت را در نظر بگیرد)، اغلب یک ناحیه فیروزهای در نتیجه مانند نمودار ون وجود دارد. اگر کسی این سوال را از شما بپرسد، شما یا هر فرد باهوشی ممکن است همین پاسخ را بدهید، زیرا کاملاً قابل قبول است ... اگر چشمان شما بسته باشد! اما هیچ کس با چشمان باز چنین پاسخی نمی دهد.
آیا همه اینها به این معنی است که این مدل های "بصری" هوش مصنوعی بی فایده هستند؟ دور از آن. ناتوانی در انجام استدلال ابتدایی در مورد برخی تصاویر نشان دهنده توانایی های اساسی آنها است، اما نه ویژگی های خاص آنها. هر یک از این مدلها احتمالاً در مواردی مانند اعمال و عبارات انسان، عکسهای اشیاء و موقعیتهای روزمره و مواردی از این دست دقت بالایی خواهند داشت. و در واقع این همان چیزی است که آنها می خواهند تفسیر کنند.
اگر ما به بازاریابی شرکتهای هوش مصنوعی تکیه میکردیم تا هر کاری که این مدلها میتوانند انجام دهند به ما میگفتند، فکر میکردیم که آنها دید ۲۰/۲۰ دارند. تحقیقاتی مانند این مورد نیاز است تا نشان دهد که، مهم نیست که مدل چقدر در گفتن اینکه آیا فرد نشسته است یا راه میرود یا میدود دقیق باشد، آنها این کار را بدون «دیدن» به معنای (اگر بخواهید) انجام میدهند.
ارسال نظر