“تا جایی که نیاز دارید موشک ضد تانک بردارید” – محققان آمازون دریافتند که حجم عظیمی از وب باز فقط توسط هوش مصنوعی تولید شده است و مزخرفات ترجمه شده ماشینی است.

“تا جایی که نیاز دارید موشک ضد تانک بردارید” – محققان آمازون دریافتند که حجم عظیمی از وب باز فقط توسط هوش مصنوعی تولید شده است و مزخرفات ترجمه شده ماشینی است.

شناسهٔ خبر: 447848 - تاریخ: فوریه 3, 2024

مهدی نوروزی

(اعتبار تصویر: Shutterstock)

محققان آزمایشگاه هوش مصنوعی خدمات وب آمازون ( AWS ) کشف کرده‌اند که حجم زیادی از محتوای آنلاین از منابع ترجمه شده با ماشین (MT) می‌آید.

این محتوا که به بسیاری از زبان‌های مختلف ترجمه می‌شود، اغلب از کیفیت پایینی برخوردار است، که به گفته تیم، نیاز حیاتی به کیفیت داده و در نظر گرفتن منبع هنگام آموزش مدل‌های زبان بزرگ (LLM) را برجسته می‌کند.

محققان همچنین دریافتند که محتوای تولید شده توسط ماشین در ترجمه برای زبان هایی که منابع کمتری دارند رایج است و بخش قابل توجهی از کل محتوای وب را تشکیل می دهد.

سوگیری انتخاب

Mehak Dhaliwal، کارآموز سابق علوم کاربردی در AWS، "ما در واقع به این موضوع علاقه مند شدیم زیرا چندین همکار که در MT کار می کنند و زبان مادری زبان های کم منبع هستند، بيان کرد ند که به نظر می رسد بیشتر اینترنت به زبان مادری آنها MT تولید شده است. " و دانشجوی فعلی دکترا در دانشگاه کالیفرنیا، سانتا باربارا، به مادربرد گفت.

بیشتر بخوانید

نقشه های گوگل با هوش مصنوعی مولد برای بهبود اکتشاف آزمایش می کند

" پس این بینش واقعاً از زبان گویشوران زبان کم منابع حاصل شد، و ما مطالعه را انجام دادیم تا موضوع را بهتر درک کنیم و ببینیم که چقدر گسترده است. "

این تیم منبع گسترده‌ای به نام ccMatrix چند راهه (MWccMatrix) برای درک بهتر آپشن های محتوای ترجمه شده توسط ماشین‌ها ایجاد کرد. این منبع شامل 6.4 میلیارد جمله منحصر به فرد در 90 زبان مختلف است و شامل تاپل های ترجمه است که مجموعه ای از جملات به زبان های مختلف هستند که ترجمه یکدیگر هستند.

دیگر اخبار

ابوالفضل جلیلی: وحدت اقوام نیازمند زمینه‌سازی‌های اجتماعی است/ خروج از شهر به واسطه جشنواره ملی فیلم اقوام ایرانی

این مطالعه که به سرور پیش‌چاپ دانشگاه کرنل arXiv ارسال شد، نشان داد که حجم وسیعی از محتوای وب اغلب به زبان‌های متعدد، عمدتاً با ترجمه ماشینی، ترجمه می‌شود. این محتوا نه تنها در ترجمه به زبان هایی با منابع کمتر رایج است، بلکه بخش قابل توجهی از کل محتوای وب به این زبان ها را تشکیل می دهد.

محققان همچنین متوجه یک سوگیری انتخاب در نوع محتوایی شدند که به چندین زبان ترجمه می‌شود، احتمالاً به منظور ایجاد درآمد تبلیغاتی.

این مقاله نتیجه می گیرد که «تکنولوژی MT در دهه گذشته به طور چشمگیری بهبود یافته است، اما هنوز از کیفیت انسانی برخوردار نیست. محتوای MT طی سال‌ها با استفاده از سیستم‌های MT موجود در آن زمان به وب اضافه شده است، پس بسیاری از MT موجود در وب احتمالاً با استانداردهای مدرن کیفیت بسیار پایینی دارند. این می‌تواند مدل‌های LLM روان کمتری با توهم‌های بیشتر ایجاد کند، و سوگیری انتخاب نشان می‌دهد که داده‌ها ممکن است کیفیت پایین‌تری داشته باشند، حتی قبل از در نظر گرفتن خطاهای MT. کیفیت داده در آموزش LLM بسیار مهم است، جایی که مجموعه‌های با کیفیت بالا مانند کتاب‌ها و مقالات ویکی‌پدیا معمولاً چندین بار نمونه‌برداری می‌شوند.»

بیشتر از TechRadar Pro

وین ویلیامز یک فریلنسر است که اخبار را برای TechRadar Pro می نویسد. او 30 سال است که درباره کامپیوتر، فناوری و وب می نویسد. در آن زمان او برای اکثر مجلات PC در بریتانیا می نوشت و تعدادی از آنها را نیز راه اندازی، ویرایش و منتشر کرد.

خبرکاو