سایت خبرکاو

جستجوگر هوشمند اخبار و مطالب فناوری

این هفته در هوش مصنوعی: پرداختن به نژادپرستی در تولیدکنندگان تصویر هوش مصنوعی

همگام شدن با صنعتی که به سرعت هوش مصنوعی در حال حرکت است، امری دشوار است. پس تا زمانی که یک هوش مصنوعی بتواند این کار را برای شما انجام دهد، در اینجا خلاصه‌ای مفید از داستان‌های اخیر در دنیای یادگیری ماشین، همراه با تحقیقات و آزمایش‌های قابل‌توجهی است که به تنهایی پوشش نداده‌ایم. این هفته در هوش مصنوعی، گوگل توانایی چت ربات هوش مصنوعی Gemini را برای تولید تصاویر افراد پس ...

همگام شدن با صنعتی که به سرعت هوش مصنوعی در حال حرکت است، امری دشوار است. پس تا زمانی که یک هوش مصنوعی بتواند این کار را برای شما انجام دهد، در اینجا خلاصه‌ای مفید از داستان‌های اخیر در دنیای یادگیری ماشین، همراه با تحقیقات و آزمایش‌های قابل‌توجهی است که به تنهایی پوشش نداده‌ایم.

این هفته در هوش مصنوعی، گوگل توانایی چت ربات هوش مصنوعی Gemini را برای تولید تصاویر افراد پس از شکایت بخشی از کاربران در مورد نادرستی های تاریخی متوقف کرد. به عنوان مثال، جمینی که گفته می‌شود «یک لژیون رومی» را به تصویر می‌کشد، گروهی نابهنگام و کارتونی متشکل از سربازان پیاده با نژادهای مختلف را نشان می‌دهد در حالی که «جنگجویان زولو» را سیاه‌پوست می‌سازد.

به نظر می رسد که گوگل - مانند برخی دیگر از فروشندگان هوش مصنوعی، از جمله OpenAI - کدهای سخت دست و پا چلفتی را برای تلاش برای "اصلاح" تعصبات در مدل خود پیاده سازی کرده است. در پاسخ به درخواست‌هایی مانند «تصاویر فقط زنان را به من نشان بده» یا «تصاویری از مردان را به من نشان بده»، جمینی امتناع می‌کند و ادعا می‌کند که چنین تصاویری می‌تواند «به طرد و به حاشیه راندن سایر جنسیت‌ها کمک کند». جمینی همچنین از ایجاد تصاویری از افرادی که صرفاً بر اساس نژادشان شناسایی می‌شوند - به‌عنوان مثال «سفیدپوستان» یا «سیاه‌پوستان» - به دلیل نگرانی ظاهری برای «کاهش دادن افراد به آپشن های فیزیکی‌شان» متنفر بود.

جناح راست به عنوان شواهدی مبنی بر تداوم یک دستور کار "بیدار" توسط نخبگان فناوری، به اشکالات چسبیده اند. اما نیازی به تیغ اوکام نیست تا حقیقت کمتر شرم آور را ببیند: گوگل که قبلاً توسط تعصبات ابزارهایش سوخته بود (نگاه کنید به: طبقه بندی مردان سیاه پوست به عنوان گوریل، اشتباه گرفتن تفنگ های حرارتی در دستان سیاه پوستان به عنوان سلاح و غیره)، بسیار ناامید است. برای جلوگیری از تکرار تاریخ مبنی بر اینکه در مدل های تولید تصویر خود دنیایی کمتر مغرضانه را نشان می دهد - هر چند اشتباه.

رابین دی آنجلو، آموزگار ضد نژادپرستی، در کتاب پرفروش خود "شکنندگی سفید" در مورد اینکه چگونه محو نژاد - "کوری رنگی" با عبارتی دیگر - به جای کاهش یا کاهش آنها به عدم تعادل قدرت نژادی سیستمی کمک می کند، می نویسد. دی آنجلو او میگوید با ادعای «نبودن رنگ» یا تقویت این تصور که صرفاً اذعان به مبارزه افراد نژادهای دیگر برای برچسب زدن «بیدار» به خود کافی است، افراد با اجتناب از هرگونه حفاظت اساسی در این موضوع آسیب را تداوم می‌بخشند .

رفتار زنجبیل Google با درخواست‌های مبتنی بر نژاد در Gemini به خودی خود از این مشکل جلوگیری نکرد - اما به طور غیر صادقانه تلاش کرد تا بدترین تعصبات مدل را پنهان کند. می‌توان استدلال کرد (و بسیاری نیز چنین کرده‌اند) که این سوگیری‌ها نباید نادیده گرفته شوند یا نادیده گرفته شوند، بلکه باید در زمینه گسترده‌تر داده‌های آموزشی که از آن‌ها ناشی می‌شوند - یعنی جامعه در شبکه جهانی وب مورد توجه قرار گیرند.

بله، مجموعه داده‌هایی که برای آموزش تولیدکننده‌های تصویر استفاده می‌شوند، عموماً حاوی افراد سفیدپوست بیشتری نسبت به سیاه‌پوستان هستند، و بله، تصاویر افراد سیاه‌پوست در آن مجموعه داده‌ها کلیشه‌های منفی را تقویت می‌کنند. به همین دلیل است که تولیدکنندگان تصویر، زنان رنگین پوست خاصی را جنسیت می‌دهند، مردان سفیدپوست را در موقعیت‌های اقتدار به تصویر می‌کشند و عموماً از دیدگاه‌های ثروتمند غربی حمایت می‌کنند.

برخی ممکن است استدلال کنند که هیچ برنده ای برای فروشندگان هوش مصنوعی وجود ندارد. چه آنها با تعصبات مدل ها مقابله کنند - چه تصمیم بگیرند که مقابله نکنند، آنها مورد انتقاد قرار خواهند گرفت. و این درست است. اما من معتقدم که در هر صورت، این مدل‌ها فاقد توضیح هستند - به گونه‌ای بسته‌بندی شده‌اند که شیوه‌های آشکار شدن تعصبات آنها را به حداقل می‌رساند.

اگر فروشندگان هوش مصنوعی با زبانی متواضعانه و شفاف کاستی‌های مدل‌های خود را برطرف می‌کردند، بسیار فراتر از تلاش‌های تصادفی برای «رفع» آنچه که اساساً تعصب غیرقابل اصلاح است پیش می‌رفت. همه ما تعصب داریم، حقیقت این است - و در نتیجه با مردم یکسان رفتار نمی کنیم. همچنین مدل هایی که ما می سازیم. و ما بهتر است این را تصدیق کنیم.

در اینجا برخی دیگر از داستان های هوش مصنوعی قابل توجه در چند روز گذشته آورده شده است:

زنان در هوش مصنوعی: TechCrunch مجموعه‌ای را راه‌اندازی کرد که زنان برجسته در زمینه هوش مصنوعی را برجسته می‌کند. فهرست را اینجا بخوانید.

Stable Diffusion v3: Stability AI، Stable Diffusion 3، جدیدترین و قدرتمندترین نسخه از مدل هوش مصنوعی تولید کننده تصویر این شرکت را بر اساس معماری جدید معرفی کرد.

کروم GenAI را دریافت می‌کند: ابزار جدید گوگل با پشتیبانی از Gemini در کروم به کاربران اجازه می‌دهد متن موجود در وب را بازنویسی کنند - یا چیزی کاملاً جدید تولید کنند.

سیاه‌تر از ChatGPT: آژانس تبلیغاتی خلاق McKinney یک بازی مسابقه‌ای با نام آیا شما سیاه‌تر از ChatGPT هستید توسعه داد تا به تعصب هوش مصنوعی بتابد.

فراخوان قوانین: صدها تن از افراد برجسته هوش مصنوعی اوایل این هفته نامه ای عمومی را امضا کردند که در آن خواستار تصویب قوانین ضد دیپ فیک در ایالات متحده شدند.

Match ساخته شده در AI: OpenAI یک مشتری جدید در Match Group دارد، صاحب برنامه هایی از جمله Hinge، Tinder و Match، که کارکنان آن از فناوری هوش مصنوعی OpenAI برای انجام وظایف مربوط به کار استفاده می کنند.

ایمنی DeepMind: DeepMind، بخش تحقیقات هوش مصنوعی گوگل، سازمان جدیدی به نام AI Safety and Alignment تشکیل داده است که متشکل از تیم‌های موجود در حال کار بر روی ایمنی هوش مصنوعی است، اما همچنین گسترش یافته است تا گروه‌های جدید و تخصصی از محققان و مهندسان GenAI را در بر بگیرد.

مدل‌های باز: تنها یک هفته پس از عرضه جدیدترین مدل‌های جمینی، گوگل Gemma را منتشر کرد، خانواده جدیدی از مدل‌های سبک وزن.

کارگروه مجلس نمایندگان: مجلس نمایندگان ایالات متحده یک گروه ضربت در زمینه هوش مصنوعی ایجاد کرده است که - همانطور که دوین می نویسد - پس از سال ها بلاتکلیفی که هیچ نشانه ای از پایان ندارد، مانند یک نقطه ضعف است.

یادگیری ماشینی بیشتر

به نظر می رسد مدل های هوش مصنوعی چیزهای زیادی می دانند، اما آنها در واقع چه می دانند؟ خب جواب هیچی نیست اما اگر سؤال را کمی متفاوت بیان کنید ... به نظر می رسد که آنها برخی از "معانی" را درونی کرده اند که مشابه آنچه انسان ها می دانند. اگرچه هیچ هوش مصنوعی واقعاً نمی‌داند گربه یا سگ چیست، آیا می‌تواند حس شباهت را در جاسازی این دو کلمه رمزگذاری کند که با مثلاً گربه و بطری متفاوت است؟ محققان آمازون چنین اعتقادی دارند.

تحقیقات آنها "مسیر" جملات مشابه اما متمایز، مانند "سگ به سارق پارس کرد" و "سارق باعث شد سگ پارس کند" را با جملاتی از نظر گرامری مشابه اما متفاوت، مانند "گربه تمام روز می خوابد" مقایسه کرد. و "دختری تمام بعدازظهر می دود." آن‌ها دریافتند که آن‌هایی که انسان‌ها مشابه آن‌ها را پیدا می‌کنند، در واقع با وجود تفاوت‌های گرامری، از نظر درونی شبیه‌تر هستند، و برعکس برای موارد مشابه از نظر گرامری. بسیار خوب، من احساس می‌کنم این پاراگراف کمی گیج‌کننده بود، اما کافی است بگوییم که معانی رمزگذاری‌شده در LLM‌ها قوی‌تر و پیچیده‌تر از حد انتظار هستند، نه کاملا ساده‌لوحانه.

محققان سوئیسی در EPFL دریافتند رمزگذاری عصبی در بینایی مصنوعی مفید است. شبکیه های مصنوعی و سایر روش های جایگزینی بخش هایی از سیستم بینایی انسان به دلیل محدودیت های آرایه های میکروالکترودی، عموما وضوح بسیار محدودی دارند. پس مهم نیست که چقدر جزئیات تصویر وارد می شود، باید با وفاداری بسیار پایین منتقل شود. اما روش‌های مختلفی برای پایین‌نمونه‌سازی وجود دارد، و این تیم دریافتند که یادگیری ماشینی کار بسیار خوبی در آن انجام می‌دهد.

اعتبار تصویر: EPFL

ما متوجه شدیم که اگر رویکرد مبتنی بر یادگیری را اعمال کنیم، از نظر رمزگذاری حسی بهینه‌شده، نتایج بهتری دریافت می‌کنیم. اما شگفت‌انگیزتر این بود که وقتی از یک شبکه عصبی بدون محدودیت استفاده کردیم، یاد گرفتیم که جنبه‌های پردازش شبکیه را به تنهایی تقلید کند.» اساساً فشرده سازی ادراکی را انجام می دهد. آنها آن را روی شبکیه موش آزمایش کردند، پس فقط نظری نیست.

کاربرد جالب بینایی کامپیوتر توسط محققان دانشگاه استنفورد به یک معما در چگونگی رشد مهارت های نقاشی کودکان اشاره می کند. این تیم 37000 نقاشی توسط بچه‌ها از اشیاء و حیوانات مختلف را درخواست و تجزیه و تحلیل کرد و همچنین (بر اساس پاسخ بچه‌ها) تا چه حد هر نقاشی قابل تشخیص است. جالب اینجاست که فقط گنجاندن آپشن های امضایی مانند گوش‌های خرگوش نبود که نقاشی‌ها را برای سایر بچه‌ها بیشتر تشخیص داد.

«به نظر نمی‌رسد که انواع آپشن های ی که باعث می‌شود نقاشی‌های کودکان بزرگ‌تر قابل تشخیص باشند، تنها توسط یک ویژگی که همه بچه‌های بزرگتر یاد می‌گیرند آن را در نقاشی‌های خود بگنجانند، هدایت شود. جودیت فن، محقق ارشد این پروژه، گفت: این چیزی بسیار پیچیده‌تر است که این سیستم‌های یادگیری ماشینی در حال استفاده از آن هستند.

شیمیدانان (همچنین در EPFL) دریافتند که LLMها نیز به طرز شگفت آوری در کمک به کار خود پس از حداقل آموزش مهارت دارند. این فقط انجام مستقیم شیمی نیست، بلکه تنظیم دقیق روی مجموعه ای از کارهایی است که شیمیدانان به تنهایی نمی توانند همه آن را بدانند. به عنوان مثال، در هزاران مقاله ممکن است چند صد عبارت در مورد تک فاز بودن یا چند فاز بودن یک آلیاژ با آنتروپی بالا وجود داشته باشد (شما لازم نیست بدانید این به چه معناست - آنها می دانند). این سیستم (بر اساس GPT-3) می تواند در این نوع پرسش و پاسخ بله/خیر آموزش ببیند و به زودی می تواند از آن نتیجه گیری کند.

این پیشرفت بزرگی نیست، فقط شواهد بیشتری مبنی بر اینکه LLM ها ابزار مفیدی از این نظر هستند. برند اسمیت، محقق، گفت: «نکته این است که این کار به آسانی جستجوی ادبیات است، که برای بسیاری از مشکلات شیمیایی کار می کند. "پرس و جو از یک مدل پایه ممکن است به یک روش معمول برای راه اندازی یک پروژه تبدیل شود."

در آخر، یک کلمه احتیاط از سوی محققان برکلی، اگرچه اکنون که دوباره این پست را می خوانم، می بینم که EPFL نیز با این مورد درگیر بوده است. برو لوزان! این گروه دریافتند که تصاویری که از طریق گوگل یافت می‌شوند، به احتمال زیاد، کلیشه‌های جنسیتی را برای مشاغل و کلمات خاص اعمال می‌کنند تا متنی که به یک چیز اشاره می‌کند. و همچنین مردان بسیار بیشتری در هر دو مورد حضور داشتند.

نه تنها این، بلکه در یک آزمایش، آنها دریافتند افرادی که در هنگام تحقیق در مورد یک نقش به جای خواندن متن، تصاویر را مشاهده می‌کنند، حتی چند روز بعد، آن نقش‌ها را با یک جنسیت با اطمینان بیشتری مرتبط می‌کنند. داگلاس گیلبولت، محقق، گفت: «این فقط به فراوانی سوگیری جنسیتی آنلاین مربوط نمی شود. بخشی از داستان در اینجا این است که چیزی بسیار چسبنده، بسیار قوی در مورد بازنمایی تصاویر از افراد وجود دارد که متن آن را ندارد.

با وجود مواردی مانند تقلب های تنوع تولید کننده تصویر گوگل، به راحتی می توان این واقعیت ثابت شده و مکرر تأیید شده را از دست داد که منبع داده برای بسیاری از مدل های هوش مصنوعی سوگیری جدی را نشان می دهد و این سوگیری تأثیر واقعی بر افراد دارد.

خبرکاو