محققان آزمایشگاه هوش مصنوعی خدمات وب آمازون ( AWS ) کشف کردهاند که حجم زیادی از محتوای آنلاین از منابع ترجمه شده با ماشین (MT) میآید.
این محتوا که به بسیاری از زبانهای مختلف ترجمه میشود، اغلب از کیفیت پایینی برخوردار است، که به گفته تیم، نیاز حیاتی به کیفیت داده و در نظر گرفتن منبع هنگام آموزش مدلهای زبان بزرگ (LLM) را برجسته میکند.
محققان همچنین دریافتند که محتوای تولید شده توسط ماشین در ترجمه برای زبان هایی که منابع کمتری دارند رایج است و بخش قابل توجهی از کل محتوای وب را تشکیل می دهد.
سوگیری انتخاب
Mehak Dhaliwal، کارآموز سابق علوم کاربردی در AWS، "ما در واقع به این موضوع علاقه مند شدیم زیرا چندین همکار که در MT کار می کنند و زبان مادری زبان های کم منبع هستند، بيان کرد ند که به نظر می رسد بیشتر اینترنت به زبان مادری آنها MT تولید شده است. " و دانشجوی فعلی دکترا در دانشگاه کالیفرنیا، سانتا باربارا، به مادربرد گفت.
" پس این بینش واقعاً از زبان گویشوران زبان کم منابع حاصل شد، و ما مطالعه را انجام دادیم تا موضوع را بهتر درک کنیم و ببینیم که چقدر گسترده است. "
این تیم منبع گستردهای به نام ccMatrix چند راهه (MWccMatrix) برای درک بهتر آپشن های محتوای ترجمه شده توسط ماشینها ایجاد کرد. این منبع شامل 6.4 میلیارد جمله منحصر به فرد در 90 زبان مختلف است و شامل تاپل های ترجمه است که مجموعه ای از جملات به زبان های مختلف هستند که ترجمه یکدیگر هستند.
این مطالعه که به سرور پیشچاپ دانشگاه کرنل arXiv ارسال شد، نشان داد که حجم وسیعی از محتوای وب اغلب به زبانهای متعدد، عمدتاً با ترجمه ماشینی، ترجمه میشود. این محتوا نه تنها در ترجمه به زبان هایی با منابع کمتر رایج است، بلکه بخش قابل توجهی از کل محتوای وب به این زبان ها را تشکیل می دهد.
محققان همچنین متوجه یک سوگیری انتخاب در نوع محتوایی شدند که به چندین زبان ترجمه میشود، احتمالاً به منظور ایجاد درآمد تبلیغاتی.
این مقاله نتیجه می گیرد که «تکنولوژی MT در دهه گذشته به طور چشمگیری بهبود یافته است، اما هنوز از کیفیت انسانی برخوردار نیست. محتوای MT طی سالها با استفاده از سیستمهای MT موجود در آن زمان به وب اضافه شده است، پس بسیاری از MT موجود در وب احتمالاً با استانداردهای مدرن کیفیت بسیار پایینی دارند. این میتواند مدلهای LLM روان کمتری با توهمهای بیشتر ایجاد کند، و سوگیری انتخاب نشان میدهد که دادهها ممکن است کیفیت پایینتری داشته باشند، حتی قبل از در نظر گرفتن خطاهای MT. کیفیت داده در آموزش LLM بسیار مهم است، جایی که مجموعههای با کیفیت بالا مانند کتابها و مقالات ویکیپدیا معمولاً چندین بار نمونهبرداری میشوند.»
ارسال نظر