خبرگزاری ها Perplexity را به سرقت ادبی و خراش غیراخلاقی وب متهم می کنند
در عصر هوش مصنوعی مولد، زمانی که چتباتها میتوانند پاسخهای دقیقی به سؤالات بر اساس محتوای استخراجشده از اینترنت ارائه کنند، مرز بین استفاده منصفانه و سرقت ادبی، و بین خراشهای معمول وب و خلاصهسازی غیراخلاقی، خط بسیار کمی است.
هوش مصنوعی Perplexity استارتاپی است که یک موتور جستجو را با یک مدل زبان بزرگ ترکیب میکند که پاسخهایی را با پاسخهای دقیق و نه فقط لینکها ایجاد میکند. برخلاف ChatGPT OpenAI و Claude Anthropic، Perplexity مدلهای هوش مصنوعی پایه خود را آموزش نمیدهد، در عوض از مدلهای باز یا تجاری موجود برای برداشتن اطلاعاتی که از اینترنت جمعآوری میکند و به پاسخ ترجمه میکند، استفاده میکند.
اما مجموعهای از اتهامات در ژوئن نشان میدهد که رویکرد این استارتآپ به غیراخلاقی بودن محدود میشود. فوربس از Perplexity به دلیل سرقت ادبی یکی از مقالات خبری خود در ویژگی Beta Perplexity Pages این استارت آپ انتقاد کرد. و Wired هم Perplexity را متهم کرده است که به طور غیرقانونی وب سایت خود را همراه با سایت های دیگر خراش داده است.
Perplexity که در ماه آوریل برای جمع آوری 250 میلیون دلار با ارزشی نزدیک به 3 میلیارد دلار تلاش می کرد، معتقد است که هیچ اشتباهی انجام نداده است. شرکت مورد حمایت انویدیا و جف بزوس او میگوید که به درخواستهای ناشران مبنی بر عدم حذف محتوا احترام گذاشته است و در چارچوب قوانین حق نسخهبرداری استفاده منصفانه عمل میکند.
اوضاع پیچیده است. در قلب آن تفاوت های ظریف پیرامون دو مفهوم وجود دارد. اولین مورد، پروتکل حذف روبات ها است، استانداردی که توسط وب سایت ها استفاده می شود تا نشان دهد که نمی خواهند به محتوای خود دسترسی داشته باشند یا توسط خزنده های وب استفاده شود. دوم استفاده منصفانه در قانون کپی رایت است که چارچوب قانونی را برای اجازه استفاده از مطالب دارای حق چاپ بدون مجوز یا پرداخت در شرایط خاص تنظیم می کند.
خراش دادن مخفیانه محتوای وب
داستان ۱۹ ژوئن Wired ادعا میکند که Perplexity پروتکل محرومیت روباتها را نادیده گرفته است تا بهطور مخفیانه مناطقی از وبسایتها را که ناشران نمیخواهند رباتها به آنها دسترسی داشته باشند، خراش دهد. Wired گزارش داد که دستگاهی را مشاهده کرده است که به Perplexity مرتبط است این کار را در سایت خبری خودش و همچنین در سایر نشریات تحت شرکت مادرش Condé Nast انجام می دهد.
در این گزارش اشاره شد که توسعه دهنده راب نایت آزمایش مشابهی را انجام داد و به همین نتیجه رسید.
هم گزارشگران Wired و هم Knight با درخواست از Perplexity برای خلاصه کردن یک سری از URL ها و سپس مشاهده در سمت سرور به عنوان یک آدرس IP مرتبط با Perplexity که از آن سایت ها بازدید می کند، سوء ظن خود را آزمایش کردند. سپس Perplexity متن را از آن URL ها "خلاصه" کرد - اگرچه در مورد یک وب سایت ساختگی با محتوای محدودی که Wired برای این منظور ایجاد کرد، متن را به کلمه از صفحه بازگرداند.
اینجاست که نکات ظریف پروتکل محرومیت روبات ها وارد عمل می شود.
خراش وب از نظر فنی زمانی است که قطعات خودکار نرم افزار معروف به خزنده وب را برای فهرست بندی و جمع آوری اطلاعات از وب سایت ها جستجو می کنند. موتورهای جستجو مانند گوگل این کار را انجام می دهند تا بتوان صفحات وب را در نتایج جستجو قرار داد. سایر شرکتها و محققان از خزندهها برای جمعآوری دادهها از اینترنت برای تجزیه و تحلیل بازار، تحقیقات آکادمیک و همانطور که ما یاد گرفتهایم، آموزش مدلهای یادگیری ماشینی استفاده میکنند.
اسکراپرهای وب مطابق با این پروتکل ابتدا به دنبال فایل "robots.txt" در کد منبع یک سایت می گردند تا ببینند چه چیزی مجاز است و چه چیزی غیرمجاز - امروزه، آنچه مجاز نیست معمولاً خراش دادن سایت ناشر برای ساخت مجموعه داده های آموزشی عظیم است. برای هوش مصنوعی موتورهای جستجو و شرکتهای هوش مصنوعی، از جمله Perplexity، اعلام کردهاند که از پروتکل پیروی میکنند، اما از نظر قانونی موظف به انجام این کار نیستند.
رئیس تجارت Perplexity، دیمیتری شیولنکو، به TechCrunch بيان کرد که خلاصه کردن یک URL به معنای خزیدن نیست. Shevelenko گفت: "خزیدن زمانی است که شما فقط در حال جمع کردن اطلاعات و اضافه کردن آنها به فهرست خود هستید." او اشاره کرد که IP Perplexity ممکن است بهعنوان بازدیدکننده از وبسایتی نشان داده شود که «در غیر این صورت از robots.txt ممنوع است» تنها زمانی که کاربر URL را در جستار خود قرار میدهد، که «تعریف خزیدن را برآورده نمیکند».
Shevelenko گفت: "ما فقط به یک درخواست مستقیم و خاص کاربر برای رفتن به آن URL پاسخ می دهیم."
به عبارت دیگر، اگر کاربر به صورت دستی یک URL برای یک هوش مصنوعی ارائه دهد، Perplexity می گوید که هوش مصنوعی آن به عنوان یک خزنده وب عمل نمی کند، بلکه ابزاری برای کمک به کاربر در بازیابی و پردازش اطلاعات درخواستی است.
اما برای Wired و بسیاری از ناشران دیگر، این یک تمایز بدون تفاوت است زیرا بازدید از یک URL و استخراج اطلاعات از آن برای خلاصه کردن متن، مطمئناً اگر هزاران بار در روز انجام شود، بسیار شبیه به خراشیدن است.
(Wired همچنین گزارش داد که Amazon Web Services، یکی از ارائه دهندگان خدمات ابری Perplexity، در حال تحلیل استارتاپ به دلیل نادیده گرفتن پروتکل robots.txt برای خراش صفحات وب است که کاربران در درخواست خود به آنها اشاره کرده اند. AWS به TechCrunch بيان کرد که گزارش Wired نادرست است و به رسانهای مانند هر گزارش دیگری مبنی بر سوء استفاده از این سرویس، درخواستهای رسانهای آنها را پردازش می کرد. )
سرقت ادبی یا استفاده منصفانه؟
Wired و Forbes نیز Perplexity را به سرقت ادبی متهم کرده اند. از قضا، Wired او میگوید که Perplexity همان مقالهای را که استارتآپ را بهخاطر حذف مخفیانه محتوای وب آن فراخوانده بود، سرقت ادبی کرد.
خبرنگاران وایرد گفتند که ربات چت Perplexity «یک متن شش پاراگراف و 287 کلمهای تولید کرد که نتیجهگیریهای داستان و شواهد مورد استفاده برای رسیدن به آنها را از نزدیک خلاصه میکرد». یک جمله دقیقاً یک جمله از داستان اصلی را بازتولید می کند. Wired می گوید که این به منزله سرقت علمی است. دستورالعملهای مؤسسه پوینتر او میگوید اگر نویسنده (یا هوش مصنوعی) از هفت کلمه متوالی از کار منبع اصلی استفاده کند، ممکن است سرقت ادبی باشد.
فوربس همچنین Perplexity را به سرقت ادبی متهم کرد. این سایت خبری در اوایل ژوئن گزارشی تحقیقاتی منتشر کرد که نشان میدهد چگونه سرمایهگذاری جدید اریک اشمیت، مدیر عامل گوگل، بهشدت نیرو جذب میکند و پهپادهای مجهز به هوش مصنوعی را با کاربردهای نظامی آزمایش میکند. روز بعد، John Paczkowski سردبیر فوربس در X پست کرد و بيان کرد که Perplexity این اسکوپ را به عنوان بخشی از ویژگی بتا خود، Perplexity Pages، بازنشر کرده است.
طبق گفته Perplexity، Perplexity Pages که در حال حاضر فقط برای برخی از مشترکین Perplexity در دسترس است، ابزار جدیدی است که به کاربران کمک می کند تا تحقیقات را به «محتوای بصری خیره کننده و جامع» تبدیل کنند. نمونههایی از چنین محتوایی در سایت از سوی کارمندان استارتآپ آمده است و شامل مقالاتی مانند «راهنمای مبتدی برای طبلزنی» یا «استیو جابز: مدیر عامل رویایی» است.
Paczkowski نوشت: "این بیشتر گزارش های ما را از بین می برد." "این ما و تعدادی از کسانی که ما را مجدداً وبلاگ نویسی کردند، به عنوان منابع به آسان ترین شکل ممکن نادیده گرفته می شود."
فوربس گزارش داد که بسیاری از پستهایی که توسط تیم Perplexity تنظیم شدهاند «بهطور قابل توجهی شبیه به داستانهای اصلی از چندین نشریه، از جمله Forbes، CNBC و Bloomberg هستند». فوربس بيان کرد این پست ها ده ها هزار بازدید جمع آوری کردند و هیچ یک از نشریات را به نام در متن مقاله ذکر نکردند. در عوض، مقالات Perplexity شامل اسنادی به شکل "لوگوهای کوچک و آسان برای از دست دادن است که به آنها مرتبط است. "
علاوه بر این، فوربس بيان کرد که پست در مورد اشمیت حاوی "کلمات تقریباً یکسان" با اسکوپ فوربس است. این تجمیع همچنین شامل تصویری بود که توسط تیم طراحی فوربس ایجاد شده بود که به نظر می رسید کمی توسط Perplexity تغییر کرده است.
آراویند سرینیواس، مدیرعامل Perplexity در آن زمان به فوربس پاسخ داد و بيان کرد که این استارتآپ در آینده به طور برجستهتری از منابع استناد میکند – راه حلی که بیخطا نیست، زیرا استنادها خود با مشکلات فنی مواجه هستند. ChatGPT و سایر مدلها دارای پیوندهای توهمآمیز هستند و از آنجایی که Perplexity از مدلهای OpenAI استفاده میکند، احتمالاً مستعد چنین توهماتی است. در واقع، Wired گزارش داد که Perplexity را مشاهده کرده است که کل داستان ها را توهم می کند.
به غیر از اشاره به "لبه های ناهموار" Perplexity، Srinivas و شرکت تا حد زیادی حق Perplexity را برای استفاده از چنین محتوایی برای خلاصه سازی دو برابر کرده اند.
اینجاست که تفاوت های ظریف استفاده منصفانه مطرح می شود. سرقت ادبی، در حالی که مورد توجه قرار نمی گیرد، از نظر فنی غیرقانونی نیست.
طبق گفته اداره حق نسخهبرداری ایالات متحده، استفاده از بخشهای محدودی از یک اثر از جمله نقل قول برای اهدافی مانند تفسیر، انتقاد، گزارشهای خبری و گزارشهای علمی قانونی است. شرکتهای هوش مصنوعی مانند Perplexity معتقدند که ارائه خلاصهای از یک مقاله در محدوده استفاده منصفانه است.
شولنکو گفت: «هیچ کس حقایق را انحصار ندارد. هنگامی که حقایق آشکار شد، برای همه قابل استفاده است.
شولنکو خلاصههای Perplexity را به نحوه استفاده روزنامهنگاران از اطلاعات سایر منابع خبری برای تقویت گزارشهای خود تشبیه کرد.
مارک مک کنا، استاد حقوق در موسسه فناوری، قانون و سیاست UCLA، به TechCrunch بيان کرد که حل کردن این وضعیت آسان نیست. در یک پرونده استفاده منصفانه، دادگاه ها تحلیل می کنند که آیا خلاصه از بیان مقاله اصلی در مقابل ایده ها استفاده می کند یا خیر. آنها همچنین ممکن است تحلیل کنند که آیا خواندن خلاصه ممکن است جایگزینی برای خواندن مقاله باشد.
مک کنا گفت: «هیچ خط روشنی وجود ندارد. « پس [سرگشتگی] گفتن واقعی آنچه که مقاله او میگوید یا آنچه را گزارش میکند، استفاده از جنبههای غیرقابل حق نسخهبرداری کار است. این فقط حقایق و ایده ها خواهد بود. اما هر چه خلاصه بیشتر شامل بیان و متن واقعی باشد، بیشتر شبیه به بازتولید به نظر می رسد، نه صرفاً خلاصه.»
متأسفانه برای ناشران، مگر اینکه Perplexity از عبارات کامل استفاده کند (و ظاهراً در برخی موارد چنین است)، خلاصههای آن ممکن است نقض استفاده منصفانه تلقی نشود.
چگونه Perplexity قصد دارد از خود محافظت کند
شرکتهای هوش مصنوعی مانند OpenAI قراردادهای رسانهای با طیف وسیعی از ناشران اخبار امضا کردهاند تا به محتوای فعلی و آرشیوی خود دسترسی داشته باشند تا الگوریتمهای خود را آموزش دهند. در مقابل، OpenAI قول میدهد که در پاسخ به پرسشهای کاربران در ChatGPT، مقالات خبری را از آن ناشران منتشر کند. (اما همان طور که آزمایشگاه نیمن هفته گذشته گزارش داد، حتی این نیز دارای پیچیدگی هایی است که باید برطرف شوند.)
Perplexity از اعلام تعداد زیادی از معاملات رسانه ای خودداری کرده است، شاید منتظر باشد تا اتهامات علیه خود از بین برود. اما این شرکت در مجموعه ای از قراردادهای تقسیم درآمد تبلیغاتی با ناشران "با سرعت تمام جلوتر" است.
ایده این است که Perplexity شروع به گنجاندن تبلیغات در کنار پاسخ های پرس و جو کند و ناشرانی که محتوایی را دارند که در هر پاسخی ذکر شده باشد، بخشی از درآمد تبلیغات مربوطه را دریافت خواهند کرد. Shevelenko بيان کرد Perplexity همچنین در تلاش است تا به ناشران امکان دسترسی به فناوری خود را بدهد تا بتوانند تجربیات پرسش و پاسخ ایجاد کنند و چیزهایی مانند سؤالات مرتبط را به صورت بومی در داخل سایتها و محصولات خود ایجاد کنند.
اما آیا این فقط یک برگ انجیر برای سرقت سیستمیک IP است؟ Perplexity تنها ربات چت نیست که تهدید میکند محتوا را چنان به طور کامل خلاصه میکند که خوانندگان نیاز به کلیک کردن بر روی منبع اصلی را درک نمیکنند.
و اگر خراشدهندههای هوش مصنوعی مانند این به کار ناشران ادامه دهند و آن را برای کسبوکار خود تغییر دهند، ناشران برای کسب درآمد تبلیغاتی با مشکل مواجه خواهند شد. این بدان معناست که در نهایت، محتوای کمتری برای خراشیدن وجود خواهد داشت. زمانی که دیگر محتوایی برای حذف باقی نماند، سیستمهای هوش مصنوعی مولد سپس به آموزش دادههای مصنوعی میپردازند که میتواند منجر به یک حلقه بازخورد جهنمی از محتوای بالقوه مغرضانه و نادرست شود.
ارسال نظر