متن خبر

خبرگزاری ها Perplexity را به سرقت ادبی و خراش غیراخلاقی وب متهم می کنند

خبرگزاری ها Perplexity را به سرقت ادبی و خراش غیراخلاقی وب متهم می کنند

شناسهٔ خبر: 613171 -




در عصر هوش مصنوعی مولد، زمانی که چت‌بات‌ها می‌توانند پاسخ‌های دقیقی به سؤالات بر اساس محتوای استخراج‌شده از اینترنت ارائه کنند، مرز بین استفاده منصفانه و سرقت ادبی، و بین خراش‌های معمول وب و خلاصه‌سازی غیراخلاقی، خط بسیار کمی است.

هوش مصنوعی Perplexity استارتاپی است که یک موتور جستجو را با یک مدل زبان بزرگ ترکیب می‌کند که پاسخ‌هایی را با پاسخ‌های دقیق و نه فقط لینک‌ها ایجاد می‌کند. برخلاف ChatGPT OpenAI و Claude Anthropic، Perplexity مدل‌های هوش مصنوعی پایه خود را آموزش نمی‌دهد، در عوض از مدل‌های باز یا تجاری موجود برای برداشتن اطلاعاتی که از اینترنت جمع‌آوری می‌کند و به پاسخ ترجمه می‌کند، استفاده می‌کند.

اما مجموعه‌ای از اتهامات در ژوئن نشان می‌دهد که رویکرد این استارت‌آپ به غیراخلاقی بودن محدود می‌شود. فوربس از Perplexity به دلیل سرقت ادبی یکی از مقالات خبری خود در ویژگی Beta Perplexity Pages این استارت آپ انتقاد کرد. و Wired هم Perplexity را متهم کرده است که به طور غیرقانونی وب سایت خود را همراه با سایت های دیگر خراش داده است.

Perplexity که در ماه آوریل برای جمع آوری 250 میلیون دلار با ارزشی نزدیک به 3 میلیارد دلار تلاش می کرد، معتقد است که هیچ اشتباهی انجام نداده است. شرکت مورد حمایت انویدیا و جف بزوس او میگوید که به درخواست‌های ناشران مبنی بر عدم حذف محتوا احترام گذاشته است و در چارچوب قوانین حق نسخه‌برداری استفاده منصفانه عمل می‌کند.

اوضاع پیچیده است. در قلب آن تفاوت های ظریف پیرامون دو مفهوم وجود دارد. اولین مورد، پروتکل حذف روبات ها است، استانداردی که توسط وب سایت ها استفاده می شود تا نشان دهد که نمی خواهند به محتوای خود دسترسی داشته باشند یا توسط خزنده های وب استفاده شود. دوم استفاده منصفانه در قانون کپی رایت است که چارچوب قانونی را برای اجازه استفاده از مطالب دارای حق چاپ بدون مجوز یا پرداخت در شرایط خاص تنظیم می کند.

خراش دادن مخفیانه محتوای وب

اعتبار تصویر: Getty Images

داستان ۱۹ ژوئن Wired ادعا می‌کند که Perplexity پروتکل محرومیت روبات‌ها را نادیده گرفته است تا به‌طور مخفیانه مناطقی از وب‌سایت‌ها را که ناشران نمی‌خواهند ربات‌ها به آن‌ها دسترسی داشته باشند، خراش دهد. Wired گزارش داد که دستگاهی را مشاهده کرده است که به Perplexity مرتبط است این کار را در سایت خبری خودش و همچنین در سایر نشریات تحت شرکت مادرش Condé Nast انجام می دهد.

در این گزارش اشاره شد که توسعه دهنده راب نایت آزمایش مشابهی را انجام داد و به همین نتیجه رسید.

هم گزارشگران Wired و هم Knight با درخواست از Perplexity برای خلاصه کردن یک سری از URL ها و سپس مشاهده در سمت سرور به عنوان یک آدرس IP مرتبط با Perplexity که از آن سایت ها بازدید می کند، سوء ظن خود را آزمایش کردند. سپس Perplexity متن را از آن URL ها "خلاصه" کرد - اگرچه در مورد یک وب سایت ساختگی با محتوای محدودی که Wired برای این منظور ایجاد کرد، متن را به کلمه از صفحه بازگرداند.

اینجاست که نکات ظریف پروتکل محرومیت روبات ها وارد عمل می شود.

خراش وب از نظر فنی زمانی است که قطعات خودکار نرم افزار معروف به خزنده وب را برای فهرست بندی و جمع آوری اطلاعات از وب سایت ها جستجو می کنند. موتورهای جستجو مانند گوگل این کار را انجام می دهند تا بتوان صفحات وب را در نتایج جستجو قرار داد. سایر شرکت‌ها و محققان از خزنده‌ها برای جمع‌آوری داده‌ها از اینترنت برای تجزیه و تحلیل بازار، تحقیقات آکادمیک و همانطور که ما یاد گرفته‌ایم، آموزش مدل‌های یادگیری ماشینی استفاده می‌کنند.

اسکراپرهای وب مطابق با این پروتکل ابتدا به دنبال فایل "robots.txt" در کد منبع یک سایت می گردند تا ببینند چه چیزی مجاز است و چه چیزی غیرمجاز - امروزه، آنچه مجاز نیست معمولاً خراش دادن سایت ناشر برای ساخت مجموعه داده های آموزشی عظیم است. برای هوش مصنوعی موتورهای جستجو و شرکت‌های هوش مصنوعی، از جمله Perplexity، اعلام کرده‌اند که از پروتکل پیروی می‌کنند، اما از نظر قانونی موظف به انجام این کار نیستند.

رئیس تجارت Perplexity، دیمیتری شیولنکو، به TechCrunch بيان کرد که خلاصه کردن یک URL به معنای خزیدن نیست. Shevelenko گفت: "خزیدن زمانی است که شما فقط در حال جمع کردن اطلاعات و اضافه کردن آنها به فهرست خود هستید." او اشاره کرد که IP Perplexity ممکن است به‌عنوان بازدیدکننده از وب‌سایتی نشان داده شود که «در غیر این صورت از robots.txt ممنوع است» تنها زمانی که کاربر URL را در جستار خود قرار می‌دهد، که «تعریف خزیدن را برآورده نمی‌کند».

Shevelenko گفت: "ما فقط به یک درخواست مستقیم و خاص کاربر برای رفتن به آن URL پاسخ می دهیم."

به عبارت دیگر، اگر کاربر به صورت دستی یک URL برای یک هوش مصنوعی ارائه دهد، Perplexity می گوید که هوش مصنوعی آن به عنوان یک خزنده وب عمل نمی کند، بلکه ابزاری برای کمک به کاربر در بازیابی و پردازش اطلاعات درخواستی است.

اما برای Wired و بسیاری از ناشران دیگر، این یک تمایز بدون تفاوت است زیرا بازدید از یک URL و استخراج اطلاعات از آن برای خلاصه کردن متن، مطمئناً اگر هزاران بار در روز انجام شود، بسیار شبیه به خراشیدن است.

(Wired همچنین گزارش داد که Amazon Web Services، یکی از ارائه دهندگان خدمات ابری Perplexity، در حال تحلیل استارتاپ به دلیل نادیده گرفتن پروتکل robots.txt برای خراش صفحات وب است که کاربران در درخواست خود به آنها اشاره کرده اند. AWS به TechCrunch بيان کرد که گزارش Wired نادرست است و به رسانه‌ای مانند هر گزارش دیگری مبنی بر سوء استفاده از این سرویس، درخواست‌های رسانه‌ای آنها را پردازش می‌ کرد. )

سرقت ادبی یا استفاده منصفانه؟

اسکرین شات <a href= از صفحات سرگیجه" class="wp-image-2804043" srcset="https://techcrunch.com/wp-content/uploads/2024/07/Perplexity-Pages-Eric-Schmidts-AI-combat-drones.png 2570w, https://techcrunch.com/wp-content/uploads/2024/07/Perplexity-Pages-Eric-Schmidts-AI-combat-drones.png?resize=150,91 150w, https://techcrunch.com/wp-content/uploads/2024/07/Perplexity-Pages-Eric-Schmidts-AI-combat-drones.png?resize=300,182 300w, https://techcrunch.com/wp-content/uploads/2024/07/Perplexity-Pages-Eric-Schmidts-AI-combat-drones.png?resize=768,465 768w, https://techcrunch.com/wp-content/uploads/2024/07/Perplexity-Pages-Eric-Schmidts-AI-combat-drones.png?resize=680,412 680w, https://techcrunch.com/wp-content/uploads/2024/07/Perplexity-Pages-Eric-Schmidts-AI-combat-drones.png?resize=1200,727 1200w, https://techcrunch.com/wp-content/uploads/2024/07/Perplexity-Pages-Eric-Schmidts-AI-combat-drones.png?resize=1536,930 1536w, https://techcrunch.com/wp-content/uploads/2024/07/Perplexity-Pages-Eric-Schmidts-AI-combat-drones.png?resize=2048,1240 2048w" sizes="(max-width: 2570px) 100vw, 2570px">
فوربس Perplexity را متهم به سرقت علمی درباره مدیر عامل سابق گوگل، اریک اشمیت، در حال توسعه پهپادهای جنگی مجهز به هوش مصنوعی کرد.
اعتبار تصویر: گیجی / اسکرین شات

Wired و Forbes نیز Perplexity را به سرقت ادبی متهم کرده اند. از قضا، Wired او میگوید که Perplexity همان مقاله‌ای را که استارت‌آپ را به‌خاطر حذف مخفیانه محتوای وب آن فراخوانده بود، سرقت ادبی کرد.

خبرنگاران وایرد گفتند که ربات چت Perplexity «یک متن شش پاراگراف و 287 کلمه‌ای تولید کرد که نتیجه‌گیری‌های داستان و شواهد مورد استفاده برای رسیدن به آن‌ها را از نزدیک خلاصه می‌کرد». یک جمله دقیقاً یک جمله از داستان اصلی را بازتولید می کند. Wired می گوید که این به منزله سرقت علمی است. دستورالعمل‌های مؤسسه پوینتر او میگوید اگر نویسنده (یا هوش مصنوعی) از هفت کلمه متوالی از کار منبع اصلی استفاده کند، ممکن است سرقت ادبی باشد.

فوربس همچنین Perplexity را به سرقت ادبی متهم کرد. این سایت خبری در اوایل ژوئن گزارشی تحقیقاتی منتشر کرد که نشان می‌دهد چگونه سرمایه‌گذاری جدید اریک اشمیت، مدیر عامل گوگل، به‌شدت نیرو جذب می‌کند و پهپادهای مجهز به هوش مصنوعی را با کاربردهای نظامی آزمایش می‌کند. روز بعد، John Paczkowski سردبیر فوربس در X پست کرد و بيان کرد که Perplexity این اسکوپ را به عنوان بخشی از ویژگی بتا خود، Perplexity Pages، بازنشر کرده است.

طبق گفته Perplexity، Perplexity Pages که در حال حاضر فقط برای برخی از مشترکین Perplexity در دسترس است، ابزار جدیدی است که به کاربران کمک می کند تا تحقیقات را به «محتوای بصری خیره کننده و جامع» تبدیل کنند. نمونه‌هایی از چنین محتوایی در سایت از سوی کارمندان استارت‌آپ آمده است و شامل مقالاتی مانند «راهنمای مبتدی برای طبل‌زنی» یا «استیو جابز: مدیر عامل رویایی» است.

Paczkowski نوشت: "این بیشتر گزارش های ما را از بین می برد." "این ما و تعدادی از کسانی که ما را مجدداً وبلاگ نویسی کردند، به عنوان منابع به آسان ترین شکل ممکن نادیده گرفته می شود."

فوربس گزارش داد که بسیاری از پست‌هایی که توسط تیم Perplexity تنظیم شده‌اند «به‌طور قابل توجهی شبیه به داستان‌های اصلی از چندین نشریه، از جمله Forbes، CNBC و Bloomberg هستند». فوربس بيان کرد این پست ها ده ها هزار بازدید جمع آوری کردند و هیچ یک از نشریات را به نام در متن مقاله ذکر نکردند. در عوض، مقالات Perplexity شامل اسنادی به شکل "لوگوهای کوچک و آسان برای از دست دادن است که به آنها مرتبط است. "

علاوه بر این، فوربس بيان کرد که پست در مورد اشمیت حاوی "کلمات تقریباً یکسان" با اسکوپ فوربس است. این تجمیع همچنین شامل تصویری بود که توسط تیم طراحی فوربس ایجاد شده بود که به نظر می رسید کمی توسط Perplexity تغییر کرده است.

آراویند سرینیواس، مدیرعامل Perplexity در آن زمان به فوربس پاسخ داد و بيان کرد که این استارت‌آپ در آینده به طور برجسته‌تری از منابع استناد می‌کند – راه حلی که بی‌خطا نیست، زیرا استنادها خود با مشکلات فنی مواجه هستند. ChatGPT و سایر مدل‌ها دارای پیوندهای توهم‌آمیز هستند و از آنجایی که Perplexity از مدل‌های OpenAI استفاده می‌کند، احتمالاً مستعد چنین توهماتی است. در واقع، Wired گزارش داد که Perplexity را مشاهده کرده است که کل داستان ها را توهم می کند.

به غیر از اشاره به "لبه های ناهموار" Perplexity، Srinivas و شرکت تا حد زیادی حق Perplexity را برای استفاده از چنین محتوایی برای خلاصه سازی دو برابر کرده اند.

اینجاست که تفاوت های ظریف استفاده منصفانه مطرح می شود. سرقت ادبی، در حالی که مورد توجه قرار نمی گیرد، از نظر فنی غیرقانونی نیست.

طبق گفته اداره حق نسخه‌برداری ایالات متحده، استفاده از بخش‌های محدودی از یک اثر از جمله نقل قول برای اهدافی مانند تفسیر، انتقاد، گزارش‌های خبری و گزارش‌های علمی قانونی است. شرکت‌های هوش مصنوعی مانند Perplexity معتقدند که ارائه خلاصه‌ای از یک مقاله در محدوده استفاده منصفانه است.

شولنکو گفت: «هیچ کس حقایق را انحصار ندارد. هنگامی که حقایق آشکار شد، برای همه قابل استفاده است.

شولنکو خلاصه‌های Perplexity را به نحوه استفاده روزنامه‌نگاران از اطلاعات سایر منابع خبری برای تقویت گزارش‌های خود تشبیه کرد.

مارک مک کنا، استاد حقوق در موسسه فناوری، قانون و سیاست UCLA، به TechCrunch بيان کرد که حل کردن این وضعیت آسان نیست. در یک پرونده استفاده منصفانه، دادگاه ها تحلیل می کنند که آیا خلاصه از بیان مقاله اصلی در مقابل ایده ها استفاده می کند یا خیر. آنها همچنین ممکن است تحلیل کنند که آیا خواندن خلاصه ممکن است جایگزینی برای خواندن مقاله باشد.

مک کنا گفت: «هیچ خط روشنی وجود ندارد. « پس [سرگشتگی] گفتن واقعی آنچه که مقاله او میگوید یا آنچه را گزارش می‌کند، استفاده از جنبه‌های غیرقابل حق نسخه‌برداری کار است. این فقط حقایق و ایده ها خواهد بود. اما هر چه خلاصه بیشتر شامل بیان و متن واقعی باشد، بیشتر شبیه به بازتولید به نظر می رسد، نه صرفاً خلاصه.»

متأسفانه برای ناشران، مگر اینکه Perplexity از عبارات کامل استفاده کند (و ظاهراً در برخی موارد چنین است)، خلاصه‌های آن ممکن است نقض استفاده منصفانه تلقی نشود.

چگونه Perplexity قصد دارد از خود محافظت کند

شرکت‌های هوش مصنوعی مانند OpenAI قراردادهای رسانه‌ای با طیف وسیعی از ناشران اخبار امضا کرده‌اند تا به محتوای فعلی و آرشیوی خود دسترسی داشته باشند تا الگوریتم‌های خود را آموزش دهند. در مقابل، OpenAI قول می‌دهد که در پاسخ به پرسش‌های کاربران در ChatGPT، مقالات خبری را از آن ناشران منتشر کند. (اما همان طور که آزمایشگاه نیمن هفته گذشته گزارش داد، حتی این نیز دارای پیچیدگی هایی است که باید برطرف شوند.)

Perplexity از اعلام تعداد زیادی از معاملات رسانه ای خودداری کرده است، شاید منتظر باشد تا اتهامات علیه خود از بین برود. اما این شرکت در مجموعه ای از قراردادهای تقسیم درآمد تبلیغاتی با ناشران "با سرعت تمام جلوتر" است.

ایده این است که Perplexity شروع به گنجاندن تبلیغات در کنار پاسخ های پرس و جو کند و ناشرانی که محتوایی را دارند که در هر پاسخی ذکر شده باشد، بخشی از درآمد تبلیغات مربوطه را دریافت خواهند کرد. Shevelenko بيان کرد Perplexity همچنین در تلاش است تا به ناشران امکان دسترسی به فناوری خود را بدهد تا بتوانند تجربیات پرسش و پاسخ ایجاد کنند و چیزهایی مانند سؤالات مرتبط را به صورت بومی در داخل سایت‌ها و محصولات خود ایجاد کنند.

اما آیا این فقط یک برگ انجیر برای سرقت سیستمیک IP است؟ Perplexity تنها ربات چت نیست که تهدید می‌کند محتوا را چنان به طور کامل خلاصه می‌کند که خوانندگان نیاز به کلیک کردن بر روی منبع اصلی را درک نمی‌کنند.

و اگر خراش‌دهنده‌های هوش مصنوعی مانند این به کار ناشران ادامه دهند و آن را برای کسب‌وکار خود تغییر دهند، ناشران برای کسب درآمد تبلیغاتی با مشکل مواجه خواهند شد. این بدان معناست که در نهایت، محتوای کمتری برای خراشیدن وجود خواهد داشت. زمانی که دیگر محتوایی برای حذف باقی نماند، سیستم‌های هوش مصنوعی مولد سپس به آموزش داده‌های مصنوعی می‌پردازند که می‌تواند منجر به یک حلقه بازخورد جهنمی از محتوای بالقوه مغرضانه و نادرست شود.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است