این هفته در هوش مصنوعی: پرداختن به نژادپرستی در تولیدکنندگان تصویر هوش مصنوعی
همگام شدن با صنعتی که به سرعت هوش مصنوعی در حال حرکت است، امری دشوار است. پس تا زمانی که یک هوش مصنوعی بتواند این کار را برای شما انجام دهد، در اینجا خلاصهای مفید از داستانهای اخیر در دنیای یادگیری ماشین، همراه با تحقیقات و آزمایشهای قابلتوجهی است که به تنهایی پوشش ندادهایم.
این هفته در هوش مصنوعی، گوگل توانایی چت ربات هوش مصنوعی Gemini را برای تولید تصاویر افراد پس از شکایت بخشی از کاربران در مورد نادرستی های تاریخی متوقف کرد. به عنوان مثال، جمینی که گفته میشود «یک لژیون رومی» را به تصویر میکشد، گروهی نابهنگام و کارتونی متشکل از سربازان پیاده با نژادهای مختلف را نشان میدهد در حالی که «جنگجویان زولو» را سیاهپوست میسازد.
به نظر می رسد که گوگل - مانند برخی دیگر از فروشندگان هوش مصنوعی، از جمله OpenAI - کدهای سخت دست و پا چلفتی را برای تلاش برای "اصلاح" تعصبات در مدل خود پیاده سازی کرده است. در پاسخ به درخواستهایی مانند «تصاویر فقط زنان را به من نشان بده» یا «تصاویری از مردان را به من نشان بده»، جمینی امتناع میکند و ادعا میکند که چنین تصاویری میتواند «به طرد و به حاشیه راندن سایر جنسیتها کمک کند». جمینی همچنین از ایجاد تصاویری از افرادی که صرفاً بر اساس نژادشان شناسایی میشوند - بهعنوان مثال «سفیدپوستان» یا «سیاهپوستان» - به دلیل نگرانی ظاهری برای «کاهش دادن افراد به آپشن های فیزیکیشان» متنفر بود.
جناح راست به عنوان شواهدی مبنی بر تداوم یک دستور کار "بیدار" توسط نخبگان فناوری، به اشکالات چسبیده اند. اما نیازی به تیغ اوکام نیست تا حقیقت کمتر شرم آور را ببیند: گوگل که قبلاً توسط تعصبات ابزارهایش سوخته بود (نگاه کنید به: طبقه بندی مردان سیاه پوست به عنوان گوریل، اشتباه گرفتن تفنگ های حرارتی در دستان سیاه پوستان به عنوان سلاح و غیره)، بسیار ناامید است. برای جلوگیری از تکرار تاریخ مبنی بر اینکه در مدل های تولید تصویر خود دنیایی کمتر مغرضانه را نشان می دهد - هر چند اشتباه.
رابین دی آنجلو، آموزگار ضد نژادپرستی، در کتاب پرفروش خود "شکنندگی سفید" در مورد اینکه چگونه محو نژاد - "کوری رنگی" با عبارتی دیگر - به جای کاهش یا کاهش آنها به عدم تعادل قدرت نژادی سیستمی کمک می کند، می نویسد. دی آنجلو او میگوید با ادعای «نبودن رنگ» یا تقویت این تصور که صرفاً اذعان به مبارزه افراد نژادهای دیگر برای برچسب زدن «بیدار» به خود کافی است، افراد با اجتناب از هرگونه حفاظت اساسی در این موضوع آسیب را تداوم میبخشند .
رفتار زنجبیل Google با درخواستهای مبتنی بر نژاد در Gemini به خودی خود از این مشکل جلوگیری نکرد - اما به طور غیر صادقانه تلاش کرد تا بدترین تعصبات مدل را پنهان کند. میتوان استدلال کرد (و بسیاری نیز چنین کردهاند) که این سوگیریها نباید نادیده گرفته شوند یا نادیده گرفته شوند، بلکه باید در زمینه گستردهتر دادههای آموزشی که از آنها ناشی میشوند - یعنی جامعه در شبکه جهانی وب مورد توجه قرار گیرند.
بله، مجموعه دادههایی که برای آموزش تولیدکنندههای تصویر استفاده میشوند، عموماً حاوی افراد سفیدپوست بیشتری نسبت به سیاهپوستان هستند، و بله، تصاویر افراد سیاهپوست در آن مجموعه دادهها کلیشههای منفی را تقویت میکنند. به همین دلیل است که تولیدکنندگان تصویر، زنان رنگین پوست خاصی را جنسیت میدهند، مردان سفیدپوست را در موقعیتهای اقتدار به تصویر میکشند و عموماً از دیدگاههای ثروتمند غربی حمایت میکنند.
برخی ممکن است استدلال کنند که هیچ برنده ای برای فروشندگان هوش مصنوعی وجود ندارد. چه آنها با تعصبات مدل ها مقابله کنند - چه تصمیم بگیرند که مقابله نکنند، آنها مورد انتقاد قرار خواهند گرفت. و این درست است. اما من معتقدم که در هر صورت، این مدلها فاقد توضیح هستند - به گونهای بستهبندی شدهاند که شیوههای آشکار شدن تعصبات آنها را به حداقل میرساند.
اگر فروشندگان هوش مصنوعی با زبانی متواضعانه و شفاف کاستیهای مدلهای خود را برطرف میکردند، بسیار فراتر از تلاشهای تصادفی برای «رفع» آنچه که اساساً تعصب غیرقابل اصلاح است پیش میرفت. همه ما تعصب داریم، حقیقت این است - و در نتیجه با مردم یکسان رفتار نمی کنیم. همچنین مدل هایی که ما می سازیم. و ما بهتر است این را تصدیق کنیم.
در اینجا برخی دیگر از داستان های هوش مصنوعی قابل توجه در چند روز گذشته آورده شده است:
زنان در هوش مصنوعی: TechCrunch مجموعهای را راهاندازی کرد که زنان برجسته در زمینه هوش مصنوعی را برجسته میکند. فهرست را اینجا بخوانید.
Stable Diffusion v3: Stability AI، Stable Diffusion 3، جدیدترین و قدرتمندترین نسخه از مدل هوش مصنوعی تولید کننده تصویر این شرکت را بر اساس معماری جدید معرفی کرد.
کروم GenAI را دریافت میکند: ابزار جدید گوگل با پشتیبانی از Gemini در کروم به کاربران اجازه میدهد متن موجود در وب را بازنویسی کنند - یا چیزی کاملاً جدید تولید کنند.
سیاهتر از ChatGPT: آژانس تبلیغاتی خلاق McKinney یک بازی مسابقهای با نام آیا شما سیاهتر از ChatGPT هستید توسعه داد تا به تعصب هوش مصنوعی بتابد.
فراخوان قوانین: صدها تن از افراد برجسته هوش مصنوعی اوایل این هفته نامه ای عمومی را امضا کردند که در آن خواستار تصویب قوانین ضد دیپ فیک در ایالات متحده شدند.
Match ساخته شده در AI: OpenAI یک مشتری جدید در Match Group دارد، صاحب برنامه هایی از جمله Hinge، Tinder و Match، که کارکنان آن از فناوری هوش مصنوعی OpenAI برای انجام وظایف مربوط به کار استفاده می کنند.
ایمنی DeepMind: DeepMind، بخش تحقیقات هوش مصنوعی گوگل، سازمان جدیدی به نام AI Safety and Alignment تشکیل داده است که متشکل از تیمهای موجود در حال کار بر روی ایمنی هوش مصنوعی است، اما همچنین گسترش یافته است تا گروههای جدید و تخصصی از محققان و مهندسان GenAI را در بر بگیرد.
مدلهای باز: تنها یک هفته پس از عرضه جدیدترین مدلهای جمینی، گوگل Gemma را منتشر کرد، خانواده جدیدی از مدلهای سبک وزن.
کارگروه مجلس نمایندگان: مجلس نمایندگان ایالات متحده یک گروه ضربت در زمینه هوش مصنوعی ایجاد کرده است که - همانطور که دوین می نویسد - پس از سال ها بلاتکلیفی که هیچ نشانه ای از پایان ندارد، مانند یک نقطه ضعف است.
یادگیری ماشینی بیشتر
به نظر می رسد مدل های هوش مصنوعی چیزهای زیادی می دانند، اما آنها در واقع چه می دانند؟ خب جواب هیچی نیست اما اگر سؤال را کمی متفاوت بیان کنید ... به نظر می رسد که آنها برخی از "معانی" را درونی کرده اند که مشابه آنچه انسان ها می دانند. اگرچه هیچ هوش مصنوعی واقعاً نمیداند گربه یا سگ چیست، آیا میتواند حس شباهت را در جاسازی این دو کلمه رمزگذاری کند که با مثلاً گربه و بطری متفاوت است؟ محققان آمازون چنین اعتقادی دارند.
تحقیقات آنها "مسیر" جملات مشابه اما متمایز، مانند "سگ به سارق پارس کرد" و "سارق باعث شد سگ پارس کند" را با جملاتی از نظر گرامری مشابه اما متفاوت، مانند "گربه تمام روز می خوابد" مقایسه کرد. و "دختری تمام بعدازظهر می دود." آنها دریافتند که آنهایی که انسانها مشابه آنها را پیدا میکنند، در واقع با وجود تفاوتهای گرامری، از نظر درونی شبیهتر هستند، و برعکس برای موارد مشابه از نظر گرامری. بسیار خوب، من احساس میکنم این پاراگراف کمی گیجکننده بود، اما کافی است بگوییم که معانی رمزگذاریشده در LLMها قویتر و پیچیدهتر از حد انتظار هستند، نه کاملا سادهلوحانه.
محققان سوئیسی در EPFL دریافتند رمزگذاری عصبی در بینایی مصنوعی مفید است. شبکیه های مصنوعی و سایر روش های جایگزینی بخش هایی از سیستم بینایی انسان به دلیل محدودیت های آرایه های میکروالکترودی، عموما وضوح بسیار محدودی دارند. پس مهم نیست که چقدر جزئیات تصویر وارد می شود، باید با وفاداری بسیار پایین منتقل شود. اما روشهای مختلفی برای پاییننمونهسازی وجود دارد، و این تیم دریافتند که یادگیری ماشینی کار بسیار خوبی در آن انجام میدهد.
بیشتر بخوانید
Amperesand برای بازسازی ترانسفورماتور 140 ساله فروتن 12.5 میلیون دلاری جمع آوری می کند.
ما متوجه شدیم که اگر رویکرد مبتنی بر یادگیری را اعمال کنیم، از نظر رمزگذاری حسی بهینهشده، نتایج بهتری دریافت میکنیم. اما شگفتانگیزتر این بود که وقتی از یک شبکه عصبی بدون محدودیت استفاده کردیم، یاد گرفتیم که جنبههای پردازش شبکیه را به تنهایی تقلید کند.» اساساً فشرده سازی ادراکی را انجام می دهد. آنها آن را روی شبکیه موش آزمایش کردند، پس فقط نظری نیست.
کاربرد جالب بینایی کامپیوتر توسط محققان دانشگاه استنفورد به یک معما در چگونگی رشد مهارت های نقاشی کودکان اشاره می کند. این تیم 37000 نقاشی توسط بچهها از اشیاء و حیوانات مختلف را درخواست و تجزیه و تحلیل کرد و همچنین (بر اساس پاسخ بچهها) تا چه حد هر نقاشی قابل تشخیص است. جالب اینجاست که فقط گنجاندن آپشن های امضایی مانند گوشهای خرگوش نبود که نقاشیها را برای سایر بچهها بیشتر تشخیص داد.
«به نظر نمیرسد که انواع آپشن های ی که باعث میشود نقاشیهای کودکان بزرگتر قابل تشخیص باشند، تنها توسط یک ویژگی که همه بچههای بزرگتر یاد میگیرند آن را در نقاشیهای خود بگنجانند، هدایت شود. جودیت فن، محقق ارشد این پروژه، گفت: این چیزی بسیار پیچیدهتر است که این سیستمهای یادگیری ماشینی در حال استفاده از آن هستند.
شیمیدانان (همچنین در EPFL) دریافتند که LLMها نیز به طرز شگفت آوری در کمک به کار خود پس از حداقل آموزش مهارت دارند. این فقط انجام مستقیم شیمی نیست، بلکه تنظیم دقیق روی مجموعه ای از کارهایی است که شیمیدانان به تنهایی نمی توانند همه آن را بدانند. به عنوان مثال، در هزاران مقاله ممکن است چند صد عبارت در مورد تک فاز بودن یا چند فاز بودن یک آلیاژ با آنتروپی بالا وجود داشته باشد (شما لازم نیست بدانید این به چه معناست - آنها می دانند). این سیستم (بر اساس GPT-3) می تواند در این نوع پرسش و پاسخ بله/خیر آموزش ببیند و به زودی می تواند از آن نتیجه گیری کند.
این پیشرفت بزرگی نیست، فقط شواهد بیشتری مبنی بر اینکه LLM ها ابزار مفیدی از این نظر هستند. برند اسمیت، محقق، گفت: «نکته این است که این کار به آسانی جستجوی ادبیات است، که برای بسیاری از مشکلات شیمیایی کار می کند. "پرس و جو از یک مدل پایه ممکن است به یک روش معمول برای راه اندازی یک پروژه تبدیل شود."
در آخر، یک کلمه احتیاط از سوی محققان برکلی، اگرچه اکنون که دوباره این پست را می خوانم، می بینم که EPFL نیز با این مورد درگیر بوده است. برو لوزان! این گروه دریافتند که تصاویری که از طریق گوگل یافت میشوند، به احتمال زیاد، کلیشههای جنسیتی را برای مشاغل و کلمات خاص اعمال میکنند تا متنی که به یک چیز اشاره میکند. و همچنین مردان بسیار بیشتری در هر دو مورد حضور داشتند.
نه تنها این، بلکه در یک آزمایش، آنها دریافتند افرادی که در هنگام تحقیق در مورد یک نقش به جای خواندن متن، تصاویر را مشاهده میکنند، حتی چند روز بعد، آن نقشها را با یک جنسیت با اطمینان بیشتری مرتبط میکنند. داگلاس گیلبولت، محقق، گفت: «این فقط به فراوانی سوگیری جنسیتی آنلاین مربوط نمی شود. بخشی از داستان در اینجا این است که چیزی بسیار چسبنده، بسیار قوی در مورد بازنمایی تصاویر از افراد وجود دارد که متن آن را ندارد.
با وجود مواردی مانند تقلب های تنوع تولید کننده تصویر گوگل، به راحتی می توان این واقعیت ثابت شده و مکرر تأیید شده را از دست داد که منبع داده برای بسیاری از مدل های هوش مصنوعی سوگیری جدی را نشان می دهد و این سوگیری تأثیر واقعی بر افراد دارد.
ارسال نظر