نقض OpenAI یادآور این است که شرکت های هوش مصنوعی گنجینه ای برای هکرها هستند
نیازی به نگرانی نیست که مکالمات مخفی ChatGPT شما در یک نقض اخیر گزارش شده در سیستم های OpenAI به دست آمده است. خود هک، اگرچه نگرانکننده است، به نظر میرسد سطحی بوده است – اما یادآور این است که شرکتهای هوش مصنوعی در کوتاهمدت خود را به یکی از جذابترین اهداف برای هکرها تبدیل کردهاند.
نیویورک تایمز پس از آن که لئوپولد اشنبرنر، کارمند سابق OpenAI اخیراً در یک پادکست به آن اشاره کرد، این هک را با جزئیات بیشتری گزارش داد. او آن را یک "حادثه امنیتی بزرگ" نامید، اما منابع ناشناس شرکت به تایمز گفتند که هکر تنها به یک انجمن گفتگوی کارمندان دسترسی داشته است. (برای تایید و نظر با OpenAI تماس گرفتم.)
هیچ نقض امنیتی واقعاً نباید بی اهمیت تلقی شود و شنود صحبت های توسعه OpenAI داخلی قطعاً ارزش خود را دارد. اما دسترسی یک هکر به سیستمهای داخلی، مدلهای در حال پیشرفت، نقشههای راه مخفی و غیره بسیار دور است.
اما به هر حال باید ما را بترساند، و نه لزوماً به دلیل تهدید چین یا سایر دشمنان که در مسابقه تسلیحاتی هوش مصنوعی از ما پیشی میگیرند. واقعیت ساده این است که این شرکت های هوش مصنوعی به دروازه بان حجم عظیمی از داده های بسیار ارزشمند تبدیل شده اند.
بیایید در مورد سه نوع داده OpenAI و تا حدی کمتر، سایر شرکتهای هوش مصنوعی که ایجاد کردهاند یا به آنها دسترسی دارند، صحبت کنیم: دادههای آموزشی با کیفیت بالا، تعاملات کاربر انبوه، و دادههای مشتری.
مشخص نیست که آنها دقیقاً چه داده های آموزشی دارند، زیرا شرکت ها به طور باورنکردنی در مورد انبارهای خود مخفی هستند. اما این اشتباه است که فکر کنیم آنها فقط انبوهی از داده های وب خراشیده شده هستند. بله، آنها از صفحات وب یا مجموعه دادههایی مانند Pile استفاده میکنند، اما شکل دادن به دادههای خام به چیزی که میتواند برای آموزش مدلی مانند GPT-4o مورد استفاده قرار گیرد، کار بزرگی است. برای انجام این کار به مقدار زیادی ساعت کار انسانی نیاز است - فقط تا حدی می توان آن را خودکار کرد.
برخی از مهندسین یادگیری ماشین حدس میزنند که از میان تمام عواملی که در ایجاد یک مدل زبان بزرگ (یا شاید هر سیستم مبتنی بر ترانسفورماتور) نقش دارند، مهمترین آنها کیفیت مجموعه داده است. به همین دلیل است که مدلی که در توییتر و ردیت آموزش دیده باشد، هرگز به اندازه مدلی که در هر اثر منتشر شده قرن گذشته آموزش دیده است، گویا نخواهد بود. (و احتمالاً چرا OpenAI طبق گزارشها از منابع قانونی مشکوک مانند کتابهای دارای حق چاپ در دادههای آموزشی خود استفاده میکند، عملی که آنها ادعا میکنند از آن دست برداشتهاند.)
پس مجموعه دادههای آموزشی که OpenAI ساخته است برای رقبا، از شرکتهای دیگر گرفته تا دولتهای متخاصم و تنظیمکنندههای اینجا در ایالات متحده، ارزش فوقالعادهای دارند، آیا FTC یا دادگاهها دوست ندارند دقیقاً بدانند از چه دادههایی استفاده میشود و آیا OpenAI در مورد آن صادق بوده است یا خیر. که
اما شاید حتی ارزشمندتر، گنجینه عظیم داده های کاربر OpenAI باشد – احتمالاً میلیاردها مکالمه با ChatGPT در صدها هزار موضوع. درست همانطور که داده های جستجو زمانی کلید درک روان جمعی وب بود، ChatGPT انگشت خود را بر نبض جمعیتی می گذارد که ممکن است به وسعت دنیای کاربران Google نباشد، اما عمق بسیار بیشتری را ارائه می دهد. (در صورتی که آگاه نبودید، مگر اینکه انصراف دهید، مکالمات شما برای داده های آموزشی استفاده می شود.)
در مورد گوگل، افزایش در جستجوی "تهویه مطبوع" به شما می گوید که بازار کمی داغ شده است. اما آن کاربران پس از آن صحبت کاملی در مورد آنچه میخواهند، میزان پولی که میخواهند خرج کنند، خانهشان چگونه است، تولیدکنندگانی که میخواهند از آنها دوری کنند و غیره ندارند، ندارند. می دانید که این ارزشمند است زیرا گوگل خود سعی دارد با جایگزین کردن تعاملات هوش مصنوعی به جای جستجو، کاربران خود را به ارائه این اطلاعات تبدیل کند!
به این فکر کنید که مردم چه تعداد مکالمه با ChatGPT داشته اند، و چقدر این اطلاعات مفید است، نه فقط برای توسعه دهندگان هوش مصنوعی، بلکه برای تیم های بازاریابی، مشاوران، تحلیلگران... این یک معدن طلا است.
آخرین دسته از دادهها شاید بالاترین ارزش را در بازار آزاد داشته باشند: اینکه مشتریان واقعاً چگونه از هوش مصنوعی استفاده میکنند و دادههایی که خودشان به مدلها دادهاند.
صدها شرکت بزرگ و تعداد بیشماری کوچکتر از ابزارهایی مانند OpenAI و APIهای Anthropic برای کارهای مختلف به همان اندازه استفاده می کنند. و برای اینکه یک مدل زبان برای آنها مفید باشد، معمولاً باید روی پایگاههای داده داخلی خودشان بهخوبی تنظیم شود یا بهطور دیگری به آنها دسترسی داده شود.
این ممکن است مانند برگههای بودجه قدیمی یا سوابق پرسنلی (مثلاً برای آسانتر کردن جستجوی آنها) یا به اندازه کد یک نرمافزار منتشر نشده ارزشمند باشد. کاری که آنها با قابلیتهای هوش مصنوعی انجام میدهند (و اینکه آیا واقعاً مفید هستند یا خیر) به تجارت آنها مربوط میشود، اما واقعیت ساده این است که ارائهدهنده هوش مصنوعی مانند هر محصول دیگر SaaS دسترسی ممتازی دارد.
اینها اسرار صنعتی هستند و شرکت های هوش مصنوعی ناگهان در قلب بسیاری از آنها قرار می گیرند. جدید بودن این سمت از صنعت خطر خاصی را به همراه دارد، زیرا فرآیندهای هوش مصنوعی هنوز استاندارد یا کاملاً درک نشده اند.
مانند هر ارائهدهنده SaaS، شرکتهای هوش مصنوعی کاملاً قادر به ارائه سطوح استاندارد صنعتی از امنیت، حریم خصوصی، گزینههای داخلی و به طور کلی ارائه خدمات مسئولانه هستند. من شک ندارم که پایگاههای اطلاعاتی خصوصی و تماسهای API مشتریان فورچون 500 OpenAI به شدت قفل شدهاند! آنها مطمئناً باید به همان اندازه یا بیشتر از خطرات ذاتی مدیریت داده های محرمانه در زمینه هوش مصنوعی آگاه باشند. (این واقعیت که OpenAI این حمله را گزارش نکرده است، انتخاب آنهاست، اما برای شرکتی که به شدت به آن نیاز دارد، اعتماد ایجاد نمی کند.)
اما شیوههای امنیتی خوب ارزش چیزی را که قرار است از آن محافظت کنند، یا این واقعیت که عوامل مخرب و دشمنان مختلف برای ورود به درها پنجه میزنند، تغییر نمیدهد. امنیت فقط انتخاب تنظیمات مناسب یا بهروز نگه داشتن نرمافزار شما نیست. - البته اصول اولیه نیز مهم است. این یک بازی موش و گربه بی پایان است که از قضا، اکنون توسط خود هوش مصنوعی سوپرشارژ می شود: ماموران و اتومات های حمله در حال تحلیل هر گوشه و کناری از سطوح حمله این شرکت ها هستند.
دلیلی برای وحشت وجود ندارد - شرکت هایی که به داده های شخصی یا تجاری با ارزش زیادی دسترسی دارند، سال ها با خطرات مشابهی مواجه بوده و مدیریت کرده اند. اما شرکتهای هوش مصنوعی یک هدف جدیدتر، جوانتر و بالقوه آبدارتر از سرور سازمانی با پیکربندی ضعیف یا کارگزار داده غیرمسئول شما را نشان میدهند. حتی یک هک مانند آنچه در بالا گزارش شد، بدون هیچ گونه نفوذ جدی که ما از آن اطلاع داریم، باید هر کسی را که با شرکت های هوش مصنوعی تجارت می کند نگران کند. آنها اهداف را روی پشت خود نقاشی کرده اند. وقتی کسی یا هرکسی عکس می گیرد تعجب نکنید.
ارسال نظر