متن خبر

آیا مدل‌های هوش مصنوعی «بصری» واقعاً کور هستند؟

آیا مدل‌های هوش مصنوعی «بصری» واقعاً کور هستند؟

شناسهٔ خبر: 644181 -




آخرین دور از مدل‌های زبان، مانند GPT-4o و Gemini 1.5 Pro، به‌عنوان «چند وجهی» معرفی می‌شوند که می‌توانند تصاویر و صدا و همچنین متن را درک کنند - اما یک مطالعه جدید نشان می‌دهد که آنها واقعاً نمی‌دانند راهی که ممکن است انتظار داشته باشید در واقع آنها ممکن است اصلا نبینند.

برای روشن شدن در ابتدا، هیچ کس ادعایی مانند "این هوش مصنوعی می تواند مانند مردم ببیند!" (خب... شاید بعضی ها داشته باشند.) اما بازاریابی و معیارهای مورد استفاده برای ترویج این مدل ها از عباراتی مانند "قابلیت های بینایی"، "درک بصری" و غیره استفاده می کنند. آنها در مورد اینکه مدل چگونه تصاویر و ویدیوها را می بیند و تجزیه و تحلیل می کند، صحبت می کنند، پس می تواند هر کاری از مشکلات مشق شب گرفته تا تماشای بازی را برای شما انجام دهد.

پس ، اگرچه ادعاهای این شرکت ها به طرز ماهرانه ای بیان شده است، اما واضح است که آنها می خواهند بیان کنند که مدل به معنایی از کلمه می بیند. و این کار را انجام می دهد - اما به همان روشی که ریاضی را انجام می دهد یا داستان می نویسد: تطبیق الگوهای موجود در داده های ورودی با الگوهای موجود در داده های آموزشی خود. این منجر به شکست مدل‌ها می‌شود که به همان روشی که در برخی از وظایف دیگر که پیش پا افتاده به نظر می‌رسند، مانند انتخاب یک عدد تصادفی، شکست می‌خورند.

پژوهشگران در دانشگاه آبرن و دانشگاه آلبرتا مطالعه ای غیررسمی، اما سیستماتیک در مورد درک بصری مدل های هوش مصنوعی فعلی انجام دادند. آنها بزرگ‌ترین مدل‌های چندوجهی را مجموعه‌ای از کارهای بصری بسیار ساده ارائه کردند، مانند پرسیدن اینکه آیا دو شکل با هم همپوشانی دارند، یا چند ضلعی در یک تصویر وجود دارد، یا اینکه کدام حرف در یک کلمه دایره شده است. (یک میکروصفحه خلاصه را می توان در اینجا مطالعه کرد. )

آنها چیزهایی هستند که حتی یک دانش آموز کلاس اولی هم درست می شود، اما مدل های هوش مصنوعی را با مشکلات زیادی مواجه می کند.

7 وظیفه ما بسیار ساده هستند، جایی که انسان ها با دقت 100 درصد انجام می دهند. ما انتظار داریم که هوش مصنوعی نیز همین کار را انجام دهد، اما در حال حاضر اینطور نیست. پیام ما این است که ببینید، این بهترین مدل‌ها هنوز در حال شکست هستند. "

اعتبار تصویر: رحمان زاده گروی و همکاران

تست اشکال همپوشانی را انجام دهید: یکی از ساده ترین کارهای استدلال بصری قابل تصور. مدل‌ها با دو دایره که یا کمی روی هم قرار گرفته‌اند، فقط لمس می‌شوند، یا با فاصله‌ای بین آن‌ها وجود دارد، این مدل‌ها به‌طور مداوم نمی‌توانند آن را درست انجام دهند. مطمئناً، GPT-4o در بیش از 95 درصد مواقع زمانی که از هم دور بودند، آن را درست انجام می‌داد، اما در فواصل صفر یا کوچک، فقط در 18 درصد موارد درست می‌شد! Gemini Pro 1.5 بهترین عملکرد را دارد، اما هنوز هم فقط در فواصل نزدیک 7/10 می‌گیرد.

(تصاویر عملکرد دقیق مدل ها را نشان نمی دهد، اما برای نشان دادن ناهماهنگی مدل ها در شرایط است. آمار هر مدل در مقاله است. )

یا در مورد شمارش تعداد دایره های به هم پیوسته در یک تصویر چطور؟ شرط می بندم که یک اسب بالاتر از حد متوسط ​​می تواند این کار را انجام دهد.

اعتبار تصویر: رحمان زاده گروی و همکاران

همه آنها در 100٪ موارد زمانی که 5 حلقه وجود دارد آن را به درستی دریافت می کنند - هوش مصنوعی بصری بسیار عالی! اما سپس اضافه کردن یک حلقه نتایج را کاملاً از بین می برد. جوزا گم شده است، نمی تواند یک بار آن را درست کند. Sonnet-3.5 6… یک سوم مواقع و GPT-4o کمی کمتر از نیمی از زمان پاسخ می دهد. گفت ن یک حلقه دیگر کار را حتی سخت‌تر می‌کند، اما گفت ن حلقه دیگری کار را برای برخی آسان‌تر می‌کند.

هدف این آزمایش صرفاً نشان دادن این است که هر کاری که این مدل‌ها انجام می‌دهند، واقعاً با آن چیزی که ما تصور می‌کنیم مطابقت ندارد. پس از همه، حتی اگر آنها ضعیف می دیدند، ما انتظار نداریم که تصاویر 6، 7، 8، و 9 حلقه تا این حد در موفقیت متفاوت باشند.

سایر وظایف آزمایش‌شده الگوهای مشابهی را نشان می‌دادند: این نبود که آنها خوب یا ضعیف می‌دیدند یا استدلال می‌کردند، اما به نظر می‌رسید که دلیل دیگری وجود داشت که چرا در یک مورد قادر به شمارش بودند اما در مورد دیگر نه.

مطمئناً یک پاسخ بالقوه این است که مستقیماً به ما خیره شود: چرا آنها باید در درست کردن یک تصویر 5 دایره ای آنقدر خوب باشند، اما در بقیه موارد، یا زمانی که 5 ضلعی است، اینقدر شکست می خورند؟ (برای منصفانه بودن، Sonnet-3.5 در این مورد بسیار خوب عمل کرد. ) زیرا همه آنها یک تصویر 5 دایره ای دارند که به طور برجسته در داده های تمرینی آنها دیده می شود: حلقه های المپیک.

اعتبار تصویر: IOC

این نشان‌واره نه تنها بارها و بارها در داده‌های آموزشی تکرار می‌شود، بلکه احتمالاً با جزئیات در متن جایگزین، دستورالعمل‌های استفاده، و مقالاتی درباره آن توضیح داده می‌شود. اما در کجای داده های آموزشی آنها 6 حلقه در هم قفل شده یا 7 حلقه پیدا خواهید کرد؟ اگر پاسخ آنها نشانه ای باشد ... هیچ جا! آنها هیچ ایده ای ندارند که به چه چیزی "نگاه می کنند" و هیچ درک بصری واقعی از حلقه ها، همپوشانی ها یا هر یک از این مفاهیم ندارند.

من پرسیدم که محققان در مورد این «کوری» که مدل‌ها را به داشتن آن متهم می‌کنند، چه فکر می‌کنند. مانند سایر اصطلاحاتی که ما استفاده می کنیم، دارای کیفیت انسانی است که کاملاً دقیق نیست اما انجام بدون آن دشوار است.

نگوین می‌نویسد: «موافقم، «کور» تعاریف زیادی حتی برای انسان‌ها دارد و هنوز کلمه‌ای برای این نوع کوری/عدم حساسیت هوش مصنوعی به تصاویری که نشان می‌دهیم وجود ندارد. "در حال حاضر، هیچ فناوری برای تجسم دقیق آنچه که یک مدل می بیند وجود ندارد. و رفتار آنها تابع پیچیده ای از متن ورودی، تصویر ورودی و میلیاردها وزن است. "

او حدس زد که مدل‌ها دقیقاً کور نیستند، اما اطلاعات بصری که از یک تصویر استخراج می‌کنند، تقریبی و انتزاعی است، چیزی شبیه به «یک دایره در سمت چپ وجود دارد». اما مدل‌ها هیچ وسیله‌ای برای قضاوت بصری ندارند، و پاسخ‌های خود را مانند پاسخ‌های کسی می‌سازند که از یک تصویر مطلع است اما در واقع نمی‌تواند آن را ببیند.

به عنوان آخرین مثال، نگوین این را ارسال کرد که از فرضیه فوق پشتیبانی می کند:

اعتبار تصویر: آنه نگوین

هنگامی که یک دایره آبی و یک دایره سبز با هم همپوشانی دارند (همانطور که سوال مدل را وادار می‌کند تا واقعیت را در نظر بگیرد)، اغلب یک ناحیه فیروزه‌ای در نتیجه مانند نمودار ون وجود دارد. اگر کسی این سوال را از شما بپرسد، شما یا هر فرد باهوشی ممکن است همین پاسخ را بدهید، زیرا کاملاً قابل قبول است ... اگر چشمان شما بسته باشد! اما هیچ کس با چشمان باز چنین پاسخی نمی دهد.

آیا همه اینها به این معنی است که این مدل های "بصری" هوش مصنوعی بی فایده هستند؟ دور از آن. ناتوانی در انجام استدلال ابتدایی در مورد برخی تصاویر نشان دهنده توانایی های اساسی آنها است، اما نه ویژگی های خاص آنها. هر یک از این مدل‌ها احتمالاً در مواردی مانند اعمال و عبارات انسان، عکس‌های اشیاء و موقعیت‌های روزمره و مواردی از این دست دقت بالایی خواهند داشت. و در واقع این همان چیزی است که آنها می خواهند تفسیر کنند.

اگر ما به بازاریابی شرکت‌های هوش مصنوعی تکیه می‌کردیم تا هر کاری که این مدل‌ها می‌توانند انجام دهند به ما می‌گفتند، فکر می‌کردیم که آنها دید ۲۰/۲۰ دارند. تحقیقاتی مانند این مورد نیاز است تا نشان دهد که، مهم نیست که مدل چقدر در گفتن اینکه آیا فرد نشسته است یا راه می‌رود یا می‌دود دقیق باشد، آنها این کار را بدون «دیدن» به معنای (اگر بخواهید) انجام می‌دهند.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است