اپل می‌گوید برای آموزش مدل‌های هوشمند اپل رویکردی «مسئولانه» در پیش گرفته است

شناسهٔ خبر: 662561 - تاریخ: جولای 30, 2024

اپل یک مقاله فنی منتشر کرد که جزئیات مدل هایی را که برای تقویت هوش اپل توسعه داده است، منتشر کرد ، طیف وسیعی از ویژگی های مولد هوش مصنوعی که در چند ماه آینده برای iOS، macOS و iPadOS هدایت می شوند.

در این مقاله، اپل با این اتهامات مخالفت می کند که از نظر اخلاقی رویکردی مشکوک برای آموزش برخی از مدل های خود در پیش گرفته است و مجدداً تأکید می کند که از داده های کاربر خصوصی استفاده نمی کند و از ترکیبی از داده های عمومی در دسترس و دارای مجوز برای Apple Intelligence استفاده می کند.

اپل در این مقاله می‌نویسد: «مجموعه داده‌های پیش‌آموزشی شامل ... داده‌هایی است که ما از ناشران مجوز داده‌ایم، مجموعه‌های داده‌های در دسترس عمومی یا منبع باز و اطلاعات در دسترس عمومی که توسط خزنده وب ما، Applebot خزیده شده‌اند، انتخاب شده‌اند». با توجه به تمرکز ما بر حفاظت از حریم خصوصی کاربر، توجه داشته باشیم که هیچ داده خصوصی کاربر اپل در ترکیب داده گنجانده نشده است.

در ماه جولای، Proof News گزارش داد که اپل از مجموعه داده‌ای به نام The Pile که حاوی زیرنویس‌هایی از صدها هزار ویدیوی YouTube است، برای آموزش خانواده‌ای از مدل‌های طراحی‌شده برای پردازش روی دستگاه استفاده کرد. بسیاری از سازندگان YouTube که زیرنویس‌هایشان در The Pile منتشر شده بود، از این موضوع آگاه نبودند و رضایت نداشتند. اپل بعداً بیانیه‌ای منتشر کرد و بيان کرد که قصد ندارد از این مدل‌ها برای تقویت آپشن های هوش مصنوعی در محصولات خود استفاده کند.

مقاله فنی، که پرده‌های مدل‌هایی را که اپل برای اولین بار در WWDC 2024 در ماه ژوئن معرفی کرد، به نام Apple Foundation Models (AFM) باز می‌کند، تاکید می‌کند که داده‌های آموزشی برای مدل‌های AFM به روشی «مسئولانه» - یا توسط اپل مسئول است. تعریف، حداقل

داده های آموزشی مدل های AFM شامل داده های وب در دسترس عموم و همچنین داده های دارای مجوز از ناشران ناشناس است. طبق گزارش نیویورک تایمز، اپل در پایان سال 2023 با چندین ناشر از جمله NBC، Condé Nast و IAC در مورد قراردادهای چند ساله به ارزش حداقل 50 میلیون دلار برای آموزش مدل ها در آرشیو اخبار ناشران تماس گرفت. مدل‌های AFM اپل نیز بر روی کدهای منبع باز میزبانی شده در GitHub، به ویژه کدهای Swift، Python، C، Objective-C، C++، JavaScript، Java و Go آموزش دیده‌اند.

آموزش مدل‌های کد بدون مجوز، حتی کد باز، محل اختلاف بین توسعه‌دهندگان است. برخی از توسعه دهندگان استدلال می کنند که برخی از پایگاه های کد منبع باز مجوز ندارند یا اجازه آموزش هوش مصنوعی در شرایط استفاده را نمی دهند. اما اپل او میگوید که برای کد «مجوز فیلتر شده» است تا سعی کند فقط مخازنی با حداقل محدودیت‌های استفاده را شامل شود، مانند مخازنی که تحت مجوز MIT، ISC یا Apache هستند.

دیگر اخبار

مریخ‌نورد استقامت در مریخ سنگ‌هایی شبیه «پاپ‌کورن» کشف کرد!

طبق این مقاله، برای تقویت مهارت های ریاضی مدل های AFM، اپل به طور خاص سوالات و پاسخ های ریاضی را از صفحات وب، انجمن های ریاضی، وبلاگ ها، آموزش ها و سمینارها در مجموعه آموزشی گنجانده است. این شرکت همچنین از مجموعه داده‌های «کیفیت بالا و در دسترس عموم» (که مقاله نامی از آن‌ها نمی‌برد) با «مجوزهایی که اجازه استفاده برای آموزش ... مدل‌ها را می‌دهد» که برای حذف اطلاعات حساس فیلتر شده بودند، استفاده کرد.

در مجموع، مجموعه داده های آموزشی برای مدل های AFM حدود 6.3 تریلیون توکن وزن دارد. (توکن‌ها داده‌هایی با اندازه بیت هستند که معمولاً برای مدل‌های هوش مصنوعی مولد راحت‌تر مصرف می‌کنند.) برای مقایسه، این کمتر از نصف تعداد توکن‌هایی است که متا برای آموزش مدل تولید متن پرچم‌دار خود، Llama 3.1 405B استفاده می‌کند - 15 تریلیون. .

اپل داده‌های بیشتری از جمله داده‌های بازخورد انسانی و داده‌های مصنوعی را برای تنظیم دقیق مدل‌های AFM و تلاش برای کاهش هر گونه رفتار نامطلوب مانند سمیت ناشی از فوران، منبع داد.

مدل‌های ما با هدف کمک به کاربران در انجام فعالیت‌های روزمره در محصولات اپل خود، ایجاد شده‌اند
این شرکت او میگوید که در ارزش‌های اصلی اپل، و ریشه در اصول هوش مصنوعی مسئول ما در هر مرحله دارد.

هیچ تفنگ دودی یا بینش تکان دهنده ای در کاغذ وجود ندارد - و این به دلیل طراحی دقیق است. به ندرت مقالاتی مانند این به دلیل فشارهای رقابتی و همچنین به این دلیل که افشای بیش از حد ممکن است شرکت ها را با مشکل قانونی مواجه کند، بسیار افشاگر هستند.

برخی از شرکت‌ها مدل‌های آموزشی را با خراش دادن داده‌های وب عمومی بیان می‌کنند که عمل آنها توسط دکترین استفاده منصفانه محافظت می‌شود. اما این موضوعی است که بسیار جای بحث دارد و موضوع تعداد فزاینده ای از دعاوی حقوقی است.

اپل در این مقاله اشاره می‌کند که به مدیران وب‌سایت اجازه می‌دهد تا خزنده‌اش را از خراش دادن داده‌هایشان مسدود کنند. اما این باعث می‌شود که تک‌تک پدیدآورندگان در بی‌حوصلگی قرار بگیرند. برای مثال، اگر یک هنرمند نمونه کارها در سایتی میزبانی شود که از مسدود کردن اطلاعات اپل خودداری می کند، چه کاری باید انجام دهد؟

بیشتر بخوانید

مجلس نمایندگان آمریکا لایحه اصلاح شده ای را برای ممنوعیت تیک تاک یا فروش اجباری تصویب کرد

نبردهای دادگاه در مورد سرنوشت مدل های هوش مصنوعی مولد و نحوه آموزش آنها تصمیم می گیرد. با این حال، در حال حاضر، اپل در تلاش است تا خود را به عنوان یک بازیکن اخلاقی نشان دهد و در عین حال از تحلیل های قانونی ناخواسته اجتناب کند.

خبرکاو