Vana قصد دارد به کاربران اجازه دهد داده های Reddit خود را برای آموزش هوش مصنوعی اجاره کنند

شناسهٔ خبر: 464224 - تاریخ: آوریل 13, 2024

در رونق هوش مصنوعی مولد ، داده ها روغن جدید هستند. پس چرا نباید بتوانید مال خود را بفروشید؟

از شرکت‌های بزرگ فناوری گرفته تا استارت‌آپ‌ها، سازندگان هوش مصنوعی مجوز کتاب‌های الکترونیکی، تصاویر، ویدئوها، صدا و موارد دیگر را از کارگزاران داده صادر می‌کنند، که همگی به دنبال آموزش محصولات مبتنی بر هوش مصنوعی توانمندتر (و از نظر قانونی قابل دفاع‌تر) هستند. Shutterstock با متا، گوگل، آمازون و اپل برای ارائه میلیون‌ها تصویر برای آموزش مدل قرارداد دارد، در حالی که OpenAI با چندین سازمان خبری برای آموزش مدل‌هایش در آرشیو اخبار قراردادهایی امضا کرده است.

در بسیاری از موارد، خالقان و صاحبان آن داده‌ها حتی یک سکه از پول نقد را ندیده‌اند. استارت آپی به نام وانا می خواهد این را تغییر دهد.

آنا کازلاوسکاس و آرت آبال که در کلاسی در آزمایشگاه رسانه MIT با تمرکز بر فناوری ساخت و ساز برای بازارهای نوظهور ملاقات کردند، در سال 2021 شرکت Vana را بنیان گذاشتند. قبل از وانا، کازلاوسکاس در MIT علوم کامپیوتر و اقتصاد تحصیل می کرد و در نهایت برای راه اندازی یک فین تک ترک کرد. راه اندازی اتوماسیون، Iambiq، خارج از Y Combinator. آبال، یک وکیل شرکتی با تحصیلات و تحصیلات، پیش از مدیریت منابع تاثیر در شرکت حاشیه نویسی داده Appen، یکی از همکاران گروه کادموس، یک شرکت مشاوره مستقر در بوستون بود.

با Vana، Kazlauskas و Abal تصمیم گرفتند پلتفرمی بسازند که به کاربران امکان می‌دهد داده‌های خود را - از جمله چت‌ها، ضبط‌های گفتار و عکس‌ها - در مجموعه‌های داده‌ای که می‌توان برای آموزش مدل‌های هوش مصنوعی مولد استفاده کرد، «تجمیع» کند. آن‌ها همچنین می‌خواهند با تنظیم دقیق مدل‌های عمومی بر روی آن داده‌ها، تجربیات شخصی‌سازی‌شده‌تری ایجاد کنند - به عنوان مثال، پست صوتی انگیزشی روزانه بر اساس اهداف سلامتی شما، یا یک برنامه تولید هنر که ترجیحات سبک شما را درک می‌کند.

Kazlauskas به TechCrunch گفت: «زیرساخت های Vana در واقع یک خزانه داده متعلق به کاربر ایجاد می کند. «این کار را با اجازه دادن به کاربران برای جمع‌آوری داده‌های شخصی خود به روشی غیر محرمانه انجام می‌دهد... Vana به کاربران اجازه می‌دهد مدل‌های هوش مصنوعی داشته باشند و از داده‌های آنها در برنامه‌های هوش مصنوعی استفاده کنند.»

در اینجا نحوه ارائه پلت فرم و API خود Vana به توسعه دهندگان آمده است:

Vana API داده‌های شخصی کاربر بین پلتفرمی را به هم متصل می‌کند تا به شما امکان شخصی‌سازی برنامه‌تان را بدهد. برنامه شما دسترسی فوری به مدل هوش مصنوعی شخصی شده کاربر یا داده‌های زیربنایی پیدا می‌کند، ورود به سیستم را ساده می‌کند و نگرانی‌های مربوط به هزینه‌های محاسباتی را از بین می‌برد... ما فکر می‌کنیم کاربران باید بتوانند داده‌های شخصی خود را از باغ‌های دیواری مانند اینستاگرام، فیس‌بوک و گوگل به برنامه شما بیاورند. شما می توانید از اولین باری که کاربر با برنامه هوش مصنوعی مصرف کننده خود در تعامل است، تجربه شخصی شگفت انگیز ایجاد کنید.

ایجاد یک حساب کاربری با وانا نسبتاً ساده است. پس از تأیید ایمیل خود، می توانید داده ها را به یک آواتار دیجیتال (مانند عکس های سلفی، توضیحات خود و ضبط های صوتی) وصل کنید و برنامه های ساخته شده با استفاده از پلتفرم و مجموعه داده های Vana را تحلیل کنید. انتخاب برنامه از چت ربات‌های سبک ChatGPT و کتاب‌های داستان تعاملی تا ژنراتور نمایه Hinge را شامل می‌شود.

اعتبار تصویر: وانا

حالا چرا ممکن است بپرسید - در این عصر افزایش آگاهی از حریم خصوصی داده ها و حملات باج افزار - آیا کسی اطلاعات شخصی خود را داوطلبانه در اختیار یک استارتاپ ناشناس قرار می دهد، چه برسد به یک استارتاپ با پشتوانه سرمایه گذاری؟ (Vana تا به امروز 20 میلیون دلار از Paradigm، Polychain Capital و سایر حامیان جمع آوری کرده است. ) آیا واقعاً می توان به هر شرکت سود محور اعتماد کرد که از داده های قابل درآمدزایی که در دست دارد سوء استفاده یا سوء استفاده نکند؟

اعتبار تصویر: وانا

در پاسخ به این سوال، Kazlauskas تاکید کرد که هدف اصلی Vana این است که کاربران «بازیابی کنترل بر روی داده‌های خود» را داشته باشند، و بيان کرد که کاربران Vana این گزینه را دارند که داده‌های خود را به‌جای ذخیره‌سازی آن‌ها در سرورهای Vana میزبانی کنند و کنترل کنند که چگونه آنها داده ها با برنامه ها و توسعه دهندگان به اشتراک گذاشته می شود. او همچنین استدلال کرد که از آنجایی که وانا با گرفتن اشتراک ماهانه از کاربران (از 3.99 دلار شروع می‌شود) و اخذ کارمزد «تراکنش داده» از برنامه‌نویسان (مثلاً برای انتقال مجموعه‌های داده برای آموزش مدل‌های هوش مصنوعی) درآمد کسب می‌کند، این شرکت از سوءاستفاده از کاربران و استفاده از آن محروم است. انبارهای اطلاعات شخصی که با خود می آورند.

دیگر اخبار

Youverify نیجریه 2.5 میلیون دلار برای افزایش انطباق با مبارزه با پولشویی جمع آوری می کند.

Kazlauskas گفت: «ما می‌خواهیم مدل‌هایی را ایجاد کنیم که کاربران تحت مالکیت و کنترل آن‌ها همه داده‌های خود را به اشتراک بگذارند، و به کاربران اجازه دهیم داده‌ها و مدل‌های خود را با خود به هر برنامه‌ای بیاورند».

در حال حاضر، در حالی که وانا داده‌های کاربران را برای آموزش مدل‌های هوش مصنوعی مولد به شرکت‌ها نمی‌فروشد (یا اینطور ادعا می‌کند)، می‌خواهد به کاربران اجازه دهد در صورت تمایل خودشان این کار را انجام دهند - از پست‌های Reddit خود شروع کنند.

بیشتر بخوانید

سامسونگ ظاهراً ایده استفاده از تراشه‌های مدیاتک در سری گلکسی S را در نظر داشت

در این ماه، وانا چیزی را که Reddit Data DAO (سازمان خودمختار دیجیتال) می‌نامد، راه‌اندازی کرد، برنامه‌ای که داده‌های چند کاربر Reddit (از جمله کارما و تاریخچه پست آنها) را جمع‌آوری می‌کند و به آن‌ها اجازه می‌دهد با هم تصمیم بگیرند که چگونه از داده‌های ترکیبی استفاده شود. پس از پیوستن به یک حساب Reddit، ارسال درخواست به Reddit برای داده‌های خود و آپلود آن داده‌ها در DAO، کاربران حق رای در کنار سایر اعضای DAO در تصمیم‌گیری‌هایی مانند صدور مجوز داده‌های ترکیبی به شرکت‌های هوش مصنوعی مولد برای سود مشترک را به دست می‌آورند. .

ما اعداد را خرد کردیم و r/datadao اکنون بزرگترین DAO داده در تاریخ است: فاز 1 از 141000 کاربر reddit با 21000 بارگذاری کامل داده استقبال کرد.

— r/datadao (@rdatadao) 11 آوریل 2024

این نوعی پاسخ به اقدامات اخیر Reddit برای تجاری سازی داده ها در پلتفرم خود است.

Reddit قبلاً دسترسی به پست‌ها و جوامع را برای اهداف آموزش هوش مصنوعی ایجاد نمی‌ کرد. اما در اواخر سال گذشته و پیش از عرضه اولیه سهام خود مسیر خود را معکوس کرد. از زمان تغییر سیاست، Reddit بیش از 203 میلیون دلار هزینه صدور مجوز از شرکت‌هایی از جمله گوگل دریافت کرده است.

Kazlauskas گفت: «ایده گسترده [با DAO] آزاد کردن داده‌های کاربر از پلتفرم‌های اصلی است که به دنبال احتکار و کسب درآمد از آن هستند. "این اولین و بخشی از تلاش ما برای کمک به مردم است که داده های خود را در مجموعه داده های متعلق به کاربر برای آموزش مدل های هوش مصنوعی جمع کنند."

جای تعجب نیست که Reddit - که در هیچ مقام رسمی با Vana کار نمی کند - از DAO راضی نیست.

Reddit زیرسروی Vana را که به بحث در مورد DAO اختصاص داده شده بود، ممنوع کرد. و یکی از سخنگویان ردیت، وانا را متهم کرد که از سیستم صادرات داده‌اش، که برای مطابقت با مقررات حفظ حریم خصوصی داده‌ها مانند GDPR و قانون حفظ حریم خصوصی مصرف‌کننده کالیفرنیا طراحی شده است، «بهره‌برداری» می‌کند.

این سخنگوی به TechCrunch گفت: «تدارکات داده‌های ما به ما این امکان را می‌دهد که نرده‌هایی را روی چنین نهادهایی، حتی در اطلاعات عمومی قرار دهیم». Reddit داده‌های شخصی غیرعمومی و شخصی را با شرکت‌های تجاری به اشتراک نمی‌گذارد، و هنگامی که Redditors درخواست صدور داده‌های خود را از ما می‌کند، طبق قوانین قابل اجرا، داده‌های شخصی غیرعمومی را از ما پس می‌گیرند. مشارکت مستقیم بین Reddit و سازمان‌های بررسی‌شده، با شرایط و مسئولیت‌پذیری روشن، مسائل، و این مشارکت‌ها و توافق‌ها از سوء استفاده و سوء استفاده از داده‌های افراد جلوگیری می‌کند.»

اما آیا Reddit دلیل واقعی برای نگرانی دارد؟

Kazlauskas پیش‌بینی می‌کند که DAO تا حدی رشد کند که بر مقداری که Reddit می‌تواند برای داده‌هایش از مشتریان دریافت کند، تأثیر می‌گذارد. با فرض اینکه چنین اتفاقی بیفتد، راه طولانی است. DAO کمی بیش از 141000 عضو دارد که بخش کوچکی از پایگاه کاربر 73 میلیونی Reddit است. و برخی از آن اعضا می توانند ربات یا حساب های تکراری باشند.

سپس موضوع نحوه توزیع عادلانه پرداخت هایی است که DAO ممکن است از خریداران داده دریافت کند.

در حال حاضر، DAO به کاربرانی که مطابق با Reddit کارمای آنها هستند، «توکن‌ها» – ارز دیجیتال – اهدا می‌کند. اما کارما ممکن است بهترین معیار برای کمک کیفیت به مجموعه داده‌ها نباشد - به ویژه در جوامع کوچکتر Reddit با فرصت‌های کمتری برای کسب آن.

Kazlauskas این ایده را مطرح می کند که اعضای DAO می توانند انتخاب کنند تا داده های بین پلتفرمی و جمعیتی خود را به اشتراک بگذارند، و DAO را به طور بالقوه ارزشمندتر می کند و برای ثبت نام انگیزه ایجاد می کند. اما این امر همچنین مستلزم آن است که کاربران برای برخورد مسئولانه با داده های حساس خود به Vana اعتماد بیشتری داشته باشند.

من شخصا نمی بینم که DAO وانا به حد بحرانی برسد. موانعی که بر سر راه قرار دارند بسیار زیاد هستند. با این حال، من فکر می کنم که این آخرین تلاش مردمی برای اعمال کنترل بر داده هایی نیست که به طور فزاینده ای برای آموزش مدل های هوش مصنوعی مولد استفاده می شود.

استارت‌آپ‌هایی مانند Spawning در حال کار بر روی راه‌هایی هستند که به سازندگان اجازه می‌دهند قوانینی را اعمال کنند که نحوه استفاده از داده‌هایشان را برای آموزش راهنمایی می‌کند، در حالی که فروشندگانی مانند Getty Images، Shutterstock و Adobe همچنان به آزمایش طرح‌های جبران خسارت ادامه می‌دهند. اما هنوز کسی این کد را کرک نکرده است. حتی میشه کرک کرد ؟ با توجه به ماهیت سخت صنعت مولد هوش مصنوعی، مطمئناً این یک سفارش بلند است. اما شاید کسی راهی بیابد - یا سیاستگذاران مجبور شوند.