مطالعه نقل‌قول‌های ChatGPT باعث می‌شود ناشران خوانش ناراحت کننده باشند

شناسهٔ خبر: 825653 - تاریخ: نوامبر 29, 2024

از آنجایی که ناشران بیشتری قراردادهای مجوز محتوا را با OpenAI سازنده ChatGPT قطع می‌کنند، مطالعه‌ای که این هفته توسط مرکز یدک‌کشی برای روزنامه‌نگاری دیجیتال انجام شد - به تحلیل چگونگی تولید استنادات (به عنوان مثال منابع) توسط ربات چت هوش مصنوعی برای محتوای ناشران - جالب است، یا خوب، در مورد، خواندن.

به طور خلاصه، یافته‌ها نشان می‌دهد که ناشران در گرایش ابزار هوش مصنوعی مولد به اختراع یا ارائه اطلاعات نادرست، صرف نظر از اینکه به OpenAI اجازه می‌دهند محتوای خود را بخزدند یا نه، همچنان تحت الشعاع قرار می‌گیرند.

این تحقیق که در دانشکده روزنامه‌نگاری کلمبیا انجام شد، نقل‌قول‌های تولید شده توسط ChatGPT را پس از اینکه از آن خواسته شد منبع نقل قول‌های نمونه برداشته‌شده از ترکیبی از ناشران را شناسایی کند - برخی از آنها قراردادهایی با OpenAI امضا کرده بودند و برخی دیگر نه.

این مرکز از 10 داستان که در مجموع توسط 20 ناشر به طور تصادفی انتخاب شده بودند، نقل قول های بلوکی گرفت ( پس 200 نقل قول مختلف) - از جمله محتوای نیویورک تایمز (که در حال حاضر از OpenAI در یک ادعای حق نسخه برداری شکایت کرده است). واشنگتن پست (که به سازنده ChatGPT وابسته نیست)؛ فایننشال تایمز (که قرارداد صدور مجوز را امضا کرده است)؛ و دیگران

Klaudia Jaźwińska و محققین Tow می نویسند: «ما نقل قول هایی را انتخاب کردیم که اگر در گوگل یا بینگ جایگذاری شوند، مقاله منبع را در بین سه نتیجه برتر برمی گرداند و ارزیابی می کنیم که آیا ابزار جستجوی جدید OpenAI به درستی مقاله منبع هر نقل قول را شناسایی می کند یا خیر. Aisvarya Chandrasekar در یک پست وبلاگ رویکرد خود را توضیح داده و یافته های خود را خلاصه می کند.

آنها ادامه می دهند: «آنچه که ما پیدا کردیم برای ناشران اخبار امیدوارکننده نبود. اگرچه OpenAI بر توانایی خود برای ارائه «پاسخ‌های به‌موقع با پیوندهایی به منابع وب مرتبط» به کاربران تأکید می‌کند، این شرکت هیچ تعهد صریحی برای اطمینان از صحت آن نقل‌قول‌ها ندارد. این یک حذف قابل توجه برای ناشرانی است که انتظار دارند محتوای آنها به طور صادقانه ارجاع و ارائه شود."

آنها گفت ند: "تست های ما نشان داد که هیچ ناشر - صرف نظر از میزان وابستگی به OpenAI - از نمایش نادرست محتوای خود در ChatGPT در امان نبود."

منبع نامعتبر

محققان می‌گویند موارد «تعدادی» را پیدا کرده‌اند که در آن‌ها محتوای ناشران به‌طور نادرست توسط ChatGPT استناد شده است - همچنین آنچه را «طیفی از دقت در پاسخ‌ها» می‌نامند. پس ، در حالی که آنها «برخی» نقل قول‌های کاملاً صحیح را یافتند (یعنی ChatGPT به طور دقیق ناشر، تاریخ و URL نقل قول بلوک به اشتراک گذاشته شده با آن را برگرداند)، نقل‌قول‌های «بسیاری» وجود داشت که کاملاً اشتباه بودند. و "بعضی" که جایی در این بین قرار گرفتند.

به طور خلاصه، نقل قول های ChatGPT به نظر می رسد یک کیسه ترکیبی غیر قابل اعتماد باشد. محققان همچنین موارد بسیار کمی را پیدا کردند که در آن چت بات به پاسخ‌های (اشتباه) خود اعتماد کامل نشان نداد.

برخی از نقل‌قول‌ها از ناشرانی گرفته شده‌اند که فعالانه خزنده‌های جستجوی OpenAI را مسدود کرده‌اند. در این موارد، محققان می‌گویند که پیش‌بینی می‌کردند که در تولید نقل‌قول‌های صحیح با مشکلاتی مواجه شود. اما آنها دریافتند که این سناریو مسئله دیگری را ایجاد می کند - زیرا ربات "به ندرت" وسوسه می شود که قادر به ارائه پاسخ نیست. درعوض، به منظور ایجاد منبع (البته، منبع یابی نادرست) مجدداً روی confabulation افتاد.

محققان گفتند: «درمجموع، ChatGPT در 153 بار پاسخ‌های نادرست یا نادرست را برگرداند، اگرچه تنها 7 بار ناتوانی در پاسخگویی دقیق به یک پرس و جو را تأیید کرد. «تنها در آن هفت خروجی چت بات از کلمات و عبارات واجد شرایطی مانند «به نظر می‌رسد»، «ممکن است» یا «ممکن است» یا جملاتی مانند «نمی‌توانم مقاله دقیقی را پیدا کنم» استفاده کرده است. »

آنها این وضعیت ناخوشایند را با یک جستجوی اینترنتی استاندارد مقایسه می‌کنند که در آن موتور جستجویی مانند گوگل یا بینگ معمولاً یک نقل قول دقیق را پیدا می‌کند و کاربر را به وب‌سایت/هایی که آن را پیدا کرده است نشان می‌دهد یا بیان می‌کند که هیچ نتیجه‌ای با تطابق دقیق پیدا نکرده است. .

آنها استدلال می کنند که "فقدان شفافیت ChatGPT در مورد اطمینان خود در پاسخ می تواند ارزیابی اعتبار یک ادعا و درک بخشی از یک پاسخ را که می توانند یا نمی توانند اعتماد کنند" برای کاربران دشوار کند.

برای ناشران، خطرات شهرت ناشی از نقل‌قول‌های نادرست، و همچنین خطر تجاری اشاره به خوانندگان در جای دیگر وجود دارد.

داده‌های متن‌زدایی شده

این مطالعه همچنین موضوع دیگری را برجسته می کند. این نشان می دهد که ChatGPT اساساً می تواند برای سرقت ادبی پاداش باشد. محققان نمونه‌ای را نقل می‌کنند که در آن ChatGPT به اشتباه از یک وب‌سایت استناد کرده است که بخشی از روزنامه‌نگاری «عمیق گزارش‌شده» نیویورک تایمز را سرقت کرده است، یعنی با کپی پیست متن بدون ذکر منبع، به‌عنوان منبع داستان NYT - با این گمانه‌زنی که، در آن مورد ، ممکن است ربات این پاسخ نادرست را برای پر کردن شکاف اطلاعاتی ناشی از ناتوانی در خزیدن در وب سایت NYT.

آنها پیشنهاد می‌کنند: «این سؤالات جدی در مورد توانایی OpenAI برای فیلتر کردن و تأیید کیفیت و اعتبار منابع داده‌اش، به‌ویژه زمانی که با محتوای بدون مجوز یا سرقت ادبی سروکار دارد، ایجاد می‌کند».

در یافته‌های بعدی که احتمالاً برای ناشرانی که با OpenAI قرارداد بسته‌اند نگران‌کننده باشد، این مطالعه نشان داد که استنادات ChatGPT در موارد آنها نیز همیشه قابل اعتماد نیستند - پس به نظر نمی‌رسد که اجازه دادن به خزنده‌های آن نیز صحت را تضمین کند.

محققان استدلال می‌کنند که مسئله اساسی این است که فناوری OpenAI با روزنامه‌نگاری «به‌عنوان محتوای متن‌زدایی» برخورد می‌کند و ظاهراً توجه کمی به شرایط تولید اصلی آن ندارد.

یکی دیگر از مسائلی که مطالعه پرچم‌گذاری می‌کند، تنوع پاسخ‌های ChatGPT است. محققان چندین بار درخواست یک ربات را آزمایش کردند و دریافتند که «معمولاً هر بار پاسخ متفاوتی می‌دهد». در حالی که این نمونه برای ابزارهای GenAI است، به طور کلی، در یک زمینه استنادی، چنین ناسازگاری بدیهی است که اگر دقت را دنبال می‌کنید، کمتر از حد مطلوب است.

بیشتر بخوانید

در نهایت، برنامه پیام‌های اپل از RCS و متن‌های زمان‌بندی پشتیبانی می‌کند

در حالی که مطالعه Tow در مقیاس کوچک است - محققان اذعان می‌کنند که آزمایش‌های "دقیق‌تر" مورد نیاز است - با این وجود با توجه به معاملات سطح بالایی که ناشران بزرگ مشغول انجام OpenAI هستند، قابل توجه است.

اگر کسب‌وکارهای رسانه‌ای امیدوار بودند که این ترتیبات منجر به برخورد ویژه با محتوای آنها در مقابل رقبا شود، حداقل از نظر تولید منبع دقیق، این مطالعه نشان می‌دهد که OpenAI هنوز چنین سازگاری را ارائه نکرده است.

در حالی که ناشرانی که قراردادهای مجوز ندارند اما به طور کامل خزنده‌های OpenAI را مسدود نکرده‌اند - شاید به این امید که حداقل زمانی که ChatGPT محتوای داستان‌هایشان را برمی‌گرداند، مقداری ترافیک جذب کنند - این مطالعه باعث می‌شود که خواندن نیز ناگوار باشد، زیرا ممکن است نقل‌قول‌ها وجود نداشته باشد. در موارد آنها نیز دقیق است.

به عبارت دیگر، برای ناشران در موتور جستجوی OpenAI، حتی زمانی که به خزنده‌های آن اجازه ورود می‌دهند، تضمینی وجود ندارد.

همچنین مسدود کردن کامل خزنده‌ها به این معنا نیست که ناشران می‌توانند با اجتناب از ذکر داستان‌هایشان در ChatGPT، خود را از خطرات آسیب شهرت نجات دهند. این مطالعه نشان داد که ربات همچنان به اشتباه مقالاتی را به نیویورک تایمز نسبت می دهد، به عنوان مثال، علیرغم شکایت جاری.

آژانس معنی دار کوچک

محققان به این نتیجه می‌رسند که در حالت فعلی، ناشران در مورد آنچه که با و محتوایشان در زمانی که ChatGPT (مستقیم یا خوب، غیرمستقیم) در اختیار آن قرار می‌گیرد (مستقیم یا خوب، غیرمستقیم) چه اتفاقی می‌افتد، «معنای کمی» دارند.

این پست وبلاگ شامل پاسخی از OpenAI به یافته های تحقیق است - که محققان را متهم به اجرای یک "تست غیر معمول از محصول ما" می کند.

دیگر اخبار

مری بارا مدیر عامل جنرال موتورز در مورد سیاست خودروهای الکتریکی، آینده خودروهای AV و دور شدن از چین

OpenAI همچنین به آنها گفت: «ما با کمک به 250 میلیون کاربر هفتگی ChatGPT، از ناشران و پدیدآورندگان کمک می کنیم تا محتوای با کیفیت را از طریق خلاصه، نقل قول، پیوندهای واضح و اسناد کشف کنند. به ترجیحات ناشر احترام بگذارید، از جمله فعال کردن نحوه نمایش آنها در جستجو با مدیریت OAI-SearchBot در robots.txt آنها. ما به بهبود نتایج جستجو ادامه خواهیم داد."

خبرکاو