اپل میگوید برای آموزش مدلهای هوشمند اپل رویکردی «مسئولانه» در پیش گرفته است
اپل یک مقاله فنی منتشر کرد که جزئیات مدل هایی را که برای تقویت هوش اپل توسعه داده است، منتشر کرد ، طیف وسیعی از ویژگی های مولد هوش مصنوعی که در چند ماه آینده برای iOS، macOS و iPadOS هدایت می شوند.
در این مقاله، اپل با این اتهامات مخالفت می کند که از نظر اخلاقی رویکردی مشکوک برای آموزش برخی از مدل های خود در پیش گرفته است و مجدداً تأکید می کند که از داده های کاربر خصوصی استفاده نمی کند و از ترکیبی از داده های عمومی در دسترس و دارای مجوز برای Apple Intelligence استفاده می کند.
اپل در این مقاله مینویسد: «مجموعه دادههای پیشآموزشی شامل ... دادههایی است که ما از ناشران مجوز دادهایم، مجموعههای دادههای در دسترس عمومی یا منبع باز و اطلاعات در دسترس عمومی که توسط خزنده وب ما، Applebot خزیده شدهاند، انتخاب شدهاند». با توجه به تمرکز ما بر حفاظت از حریم خصوصی کاربر، توجه داشته باشیم که هیچ داده خصوصی کاربر اپل در ترکیب داده گنجانده نشده است.
در ماه جولای، Proof News گزارش داد که اپل از مجموعه دادهای به نام The Pile که حاوی زیرنویسهایی از صدها هزار ویدیوی YouTube است، برای آموزش خانوادهای از مدلهای طراحیشده برای پردازش روی دستگاه استفاده کرد. بسیاری از سازندگان YouTube که زیرنویسهایشان در The Pile منتشر شده بود، از این موضوع آگاه نبودند و رضایت نداشتند. اپل بعداً بیانیهای منتشر کرد و بيان کرد که قصد ندارد از این مدلها برای تقویت آپشن های هوش مصنوعی در محصولات خود استفاده کند.
مقاله فنی، که پردههای مدلهایی را که اپل برای اولین بار در WWDC 2024 در ماه ژوئن معرفی کرد، به نام Apple Foundation Models (AFM) باز میکند، تاکید میکند که دادههای آموزشی برای مدلهای AFM به روشی «مسئولانه» - یا توسط اپل مسئول است. تعریف، حداقل
داده های آموزشی مدل های AFM شامل داده های وب در دسترس عموم و همچنین داده های دارای مجوز از ناشران ناشناس است. طبق گزارش نیویورک تایمز، اپل در پایان سال 2023 با چندین ناشر از جمله NBC، Condé Nast و IAC در مورد قراردادهای چند ساله به ارزش حداقل 50 میلیون دلار برای آموزش مدل ها در آرشیو اخبار ناشران تماس گرفت. مدلهای AFM اپل نیز بر روی کدهای منبع باز میزبانی شده در GitHub، به ویژه کدهای Swift، Python، C، Objective-C، C++، JavaScript، Java و Go آموزش دیدهاند.
آموزش مدلهای کد بدون مجوز، حتی کد باز، محل اختلاف بین توسعهدهندگان است. برخی از توسعه دهندگان استدلال می کنند که برخی از پایگاه های کد منبع باز مجوز ندارند یا اجازه آموزش هوش مصنوعی در شرایط استفاده را نمی دهند. اما اپل او میگوید که برای کد «مجوز فیلتر شده» است تا سعی کند فقط مخازنی با حداقل محدودیتهای استفاده را شامل شود، مانند مخازنی که تحت مجوز MIT، ISC یا Apache هستند.
طبق این مقاله، برای تقویت مهارت های ریاضی مدل های AFM، اپل به طور خاص سوالات و پاسخ های ریاضی را از صفحات وب، انجمن های ریاضی، وبلاگ ها، آموزش ها و سمینارها در مجموعه آموزشی گنجانده است. این شرکت همچنین از مجموعه دادههای «کیفیت بالا و در دسترس عموم» (که مقاله نامی از آنها نمیبرد) با «مجوزهایی که اجازه استفاده برای آموزش ... مدلها را میدهد» که برای حذف اطلاعات حساس فیلتر شده بودند، استفاده کرد.
در مجموع، مجموعه داده های آموزشی برای مدل های AFM حدود 6.3 تریلیون توکن وزن دارد. (توکنها دادههایی با اندازه بیت هستند که معمولاً برای مدلهای هوش مصنوعی مولد راحتتر مصرف میکنند.) برای مقایسه، این کمتر از نصف تعداد توکنهایی است که متا برای آموزش مدل تولید متن پرچمدار خود، Llama 3.1 405B استفاده میکند - 15 تریلیون. .
اپل دادههای بیشتری از جمله دادههای بازخورد انسانی و دادههای مصنوعی را برای تنظیم دقیق مدلهای AFM و تلاش برای کاهش هر گونه رفتار نامطلوب مانند سمیت ناشی از فوران، منبع داد.
مدلهای ما با هدف کمک به کاربران در انجام فعالیتهای روزمره در محصولات اپل خود، ایجاد شدهاند
این شرکت او میگوید که در ارزشهای اصلی اپل، و ریشه در اصول هوش مصنوعی مسئول ما در هر مرحله دارد.
هیچ تفنگ دودی یا بینش تکان دهنده ای در کاغذ وجود ندارد - و این به دلیل طراحی دقیق است. به ندرت مقالاتی مانند این به دلیل فشارهای رقابتی و همچنین به این دلیل که افشای بیش از حد ممکن است شرکت ها را با مشکل قانونی مواجه کند، بسیار افشاگر هستند.
برخی از شرکتها مدلهای آموزشی را با خراش دادن دادههای وب عمومی بیان میکنند که عمل آنها توسط دکترین استفاده منصفانه محافظت میشود. اما این موضوعی است که بسیار جای بحث دارد و موضوع تعداد فزاینده ای از دعاوی حقوقی است.
اپل در این مقاله اشاره میکند که به مدیران وبسایت اجازه میدهد تا خزندهاش را از خراش دادن دادههایشان مسدود کنند. اما این باعث میشود که تکتک پدیدآورندگان در بیحوصلگی قرار بگیرند. برای مثال، اگر یک هنرمند نمونه کارها در سایتی میزبانی شود که از مسدود کردن اطلاعات اپل خودداری می کند، چه کاری باید انجام دهد؟
بیشتر بخوانید
مجلس نمایندگان آمریکا لایحه اصلاح شده ای را برای ممنوعیت تیک تاک یا فروش اجباری تصویب کرد
نبردهای دادگاه در مورد سرنوشت مدل های هوش مصنوعی مولد و نحوه آموزش آنها تصمیم می گیرد. با این حال، در حال حاضر، اپل در تلاش است تا خود را به عنوان یک بازیکن اخلاقی نشان دهد و در عین حال از تحلیل های قانونی ناخواسته اجتناب کند.
ارسال نظر