نقض OpenAI یادآور این است که شرکت های هوش مصنوعی گنجینه ای برای هکرها هستند

شناسهٔ خبر: 625356 - تاریخ: جولای 5, 2024

نیازی به نگرانی نیست که مکالمات مخفی ChatGPT شما در یک نقض اخیر گزارش شده در سیستم های OpenAI به دست آمده است. خود هک، اگرچه نگران‌کننده است، به نظر می‌رسد سطحی بوده است – اما یادآور این است که شرکت‌های هوش مصنوعی در کوتاه‌مدت خود را به یکی از جذاب‌ترین اهداف برای هکرها تبدیل کرده‌اند.

نیویورک تایمز پس از آن که لئوپولد اشنبرنر، کارمند سابق OpenAI اخیراً در یک پادکست به آن اشاره کرد، این هک را با جزئیات بیشتری گزارش داد. او آن را یک "حادثه امنیتی بزرگ" نامید، اما منابع ناشناس شرکت به تایمز گفتند که هکر تنها به یک انجمن گفتگوی کارمندان دسترسی داشته است. (برای تایید و نظر با OpenAI تماس گرفتم.)

هیچ نقض امنیتی واقعاً نباید بی اهمیت تلقی شود و شنود صحبت های توسعه OpenAI داخلی قطعاً ارزش خود را دارد. اما دسترسی یک هکر به سیستم‌های داخلی، مدل‌های در حال پیشرفت، نقشه‌های راه مخفی و غیره بسیار دور است.

اما به هر حال باید ما را بترساند، و نه لزوماً به دلیل تهدید چین یا سایر دشمنان که در مسابقه تسلیحاتی هوش مصنوعی از ما پیشی می‌گیرند. واقعیت ساده این است که این شرکت های هوش مصنوعی به دروازه بان حجم عظیمی از داده های بسیار ارزشمند تبدیل شده اند.

بیایید در مورد سه نوع داده OpenAI و تا حدی کمتر، سایر شرکت‌های هوش مصنوعی که ایجاد کرده‌اند یا به آن‌ها دسترسی دارند، صحبت کنیم: داده‌های آموزشی با کیفیت بالا، تعاملات کاربر انبوه، و داده‌های مشتری.

مشخص نیست که آنها دقیقاً چه داده های آموزشی دارند، زیرا شرکت ها به طور باورنکردنی در مورد انبارهای خود مخفی هستند. اما این اشتباه است که فکر کنیم آنها فقط انبوهی از داده های وب خراشیده شده هستند. بله، آنها از صفحات وب یا مجموعه داده‌هایی مانند Pile استفاده می‌کنند، اما شکل دادن به داده‌های خام به چیزی که می‌تواند برای آموزش مدلی مانند GPT-4o مورد استفاده قرار گیرد، کار بزرگی است. برای انجام این کار به مقدار زیادی ساعت کار انسانی نیاز است - فقط تا حدی می توان آن را خودکار کرد.

برخی از مهندسین یادگیری ماشین حدس می‌زنند که از میان تمام عواملی که در ایجاد یک مدل زبان بزرگ (یا شاید هر سیستم مبتنی بر ترانسفورماتور) نقش دارند، مهمترین آنها کیفیت مجموعه داده است. به همین دلیل است که مدلی که در توییتر و ردیت آموزش دیده باشد، هرگز به اندازه مدلی که در هر اثر منتشر شده قرن گذشته آموزش دیده است، گویا نخواهد بود. (و احتمالاً چرا OpenAI طبق گزارش‌ها از منابع قانونی مشکوک مانند کتاب‌های دارای حق چاپ در داده‌های آموزشی خود استفاده می‌کند، عملی که آنها ادعا می‌کنند از آن دست برداشته‌اند.)

پس مجموعه داده‌های آموزشی که OpenAI ساخته است برای رقبا، از شرکت‌های دیگر گرفته تا دولت‌های متخاصم و تنظیم‌کننده‌های اینجا در ایالات متحده، ارزش فوق‌العاده‌ای دارند، آیا FTC یا دادگاه‌ها دوست ندارند دقیقاً بدانند از چه داده‌هایی استفاده می‌شود و آیا OpenAI در مورد آن صادق بوده است یا خیر. که

اما شاید حتی ارزشمندتر، گنجینه عظیم داده های کاربر OpenAI باشد – احتمالاً میلیاردها مکالمه با ChatGPT در صدها هزار موضوع. درست همانطور که داده های جستجو زمانی کلید درک روان جمعی وب بود، ChatGPT انگشت خود را بر نبض جمعیتی می گذارد که ممکن است به وسعت دنیای کاربران Google نباشد، اما عمق بسیار بیشتری را ارائه می دهد. (در صورتی که آگاه نبودید، مگر اینکه انصراف دهید، مکالمات شما برای داده های آموزشی استفاده می شود.)

در مورد گوگل، افزایش در جستجوی "تهویه مطبوع" به شما می گوید که بازار کمی داغ شده است. اما آن کاربران پس از آن صحبت کاملی در مورد آنچه می‌خواهند، میزان پولی که می‌خواهند خرج کنند، خانه‌شان چگونه است، تولیدکنندگانی که می‌خواهند از آنها دوری کنند و غیره ندارند، ندارند. می دانید که این ارزشمند است زیرا گوگل خود سعی دارد با جایگزین کردن تعاملات هوش مصنوعی به جای جستجو، کاربران خود را به ارائه این اطلاعات تبدیل کند!

به این فکر کنید که مردم چه تعداد مکالمه با ChatGPT داشته اند، و چقدر این اطلاعات مفید است، نه فقط برای توسعه دهندگان هوش مصنوعی، بلکه برای تیم های بازاریابی، مشاوران، تحلیلگران... این یک معدن طلا است.

آخرین دسته از داده‌ها شاید بالاترین ارزش را در بازار آزاد داشته باشند: اینکه مشتریان واقعاً چگونه از هوش مصنوعی استفاده می‌کنند و داده‌هایی که خودشان به مدل‌ها داده‌اند.

صدها شرکت بزرگ و تعداد بیشماری کوچکتر از ابزارهایی مانند OpenAI و APIهای Anthropic برای کارهای مختلف به همان اندازه استفاده می کنند. و برای اینکه یک مدل زبان برای آن‌ها مفید باشد، معمولاً باید روی پایگاه‌های داده داخلی خودشان به‌خوبی تنظیم شود یا به‌طور دیگری به آنها دسترسی داده شود.

این ممکن است مانند برگه‌های بودجه قدیمی یا سوابق پرسنلی (مثلاً برای آسان‌تر کردن جستجوی آنها) یا به اندازه کد یک نرم‌افزار منتشر نشده ارزشمند باشد. کاری که آن‌ها با قابلیت‌های هوش مصنوعی انجام می‌دهند (و اینکه آیا واقعاً مفید هستند یا خیر) به تجارت آنها مربوط می‌شود، اما واقعیت ساده این است که ارائه‌دهنده هوش مصنوعی مانند هر محصول دیگر SaaS دسترسی ممتازی دارد.

اینها اسرار صنعتی هستند و شرکت های هوش مصنوعی ناگهان در قلب بسیاری از آنها قرار می گیرند. جدید بودن این سمت از صنعت خطر خاصی را به همراه دارد، زیرا فرآیندهای هوش مصنوعی هنوز استاندارد یا کاملاً درک نشده اند.

دیگر اخبار

بیشتر بخوانید

درک دفاع جمعی به عنوان مسیری برای امنیت سایبری بهتر

سینمای معتمدی یک میراث ملی است

مانند هر ارائه‌دهنده SaaS، شرکت‌های هوش مصنوعی کاملاً قادر به ارائه سطوح استاندارد صنعتی از امنیت، حریم خصوصی، گزینه‌های داخلی و به طور کلی ارائه خدمات مسئولانه هستند. من شک ندارم که پایگاه‌های اطلاعاتی خصوصی و تماس‌های API مشتریان فورچون 500 OpenAI به شدت قفل شده‌اند! آنها مطمئناً باید به همان اندازه یا بیشتر از خطرات ذاتی مدیریت داده های محرمانه در زمینه هوش مصنوعی آگاه باشند. (این واقعیت که OpenAI این حمله را گزارش نکرده است، انتخاب آنهاست، اما برای شرکتی که به شدت به آن نیاز دارد، اعتماد ایجاد نمی کند.)

اما شیوه‌های امنیتی خوب ارزش چیزی را که قرار است از آن محافظت کنند، یا این واقعیت که عوامل مخرب و دشمنان مختلف برای ورود به درها پنجه می‌زنند، تغییر نمی‌دهد. امنیت فقط انتخاب تنظیمات مناسب یا به‌روز نگه داشتن نرم‌افزار شما نیست. - البته اصول اولیه نیز مهم است. این یک بازی موش و گربه بی پایان است که از قضا، اکنون توسط خود هوش مصنوعی سوپرشارژ می شود: ماموران و اتومات های حمله در حال تحلیل هر گوشه و کناری از سطوح حمله این شرکت ها هستند.

دلیلی برای وحشت وجود ندارد - شرکت هایی که به داده های شخصی یا تجاری با ارزش زیادی دسترسی دارند، سال ها با خطرات مشابهی مواجه بوده و مدیریت کرده اند. اما شرکت‌های هوش مصنوعی یک هدف جدیدتر، جوان‌تر و بالقوه آبدارتر از سرور سازمانی با پیکربندی ضعیف یا کارگزار داده غیرمسئول شما را نشان می‌دهند. حتی یک هک مانند آنچه در بالا گزارش شد، بدون هیچ گونه نفوذ جدی که ما از آن اطلاع داریم، باید هر کسی را که با شرکت های هوش مصنوعی تجارت می کند نگران کند. آنها اهداف را روی پشت خود نقاشی کرده اند. وقتی کسی یا هرکسی عکس می گیرد تعجب نکنید.

خبرکاو