متن خبر

بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار هنوز “توانایی های اضطراری” را نشان می دهد

بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار هنوز “توانایی های اضطراری” را نشان می دهد

شناسهٔ خبر: 450749 -




محققان آمازون بزرگترین مدل تبدیل متن به گفتار تا کنون را آموزش داده‌اند، که ادعا می‌کنند آپشن های «ظهور» را نشان می‌دهد که توانایی آن را در بیان طبیعی حتی جملات پیچیده بهبود می‌بخشد. این پیشرفت می تواند همان چیزی باشد که فناوری برای فرار از دره عجیب و غریب به آن نیاز دارد.

این مدل‌ها همیشه در حال رشد و بهبود بودند، اما محققان به طور خاص امیدوار بودند که نوع جهشی در توانایی را ببینند که وقتی مدل‌های زبان از اندازه معینی عبور کردند مشاهده کردیم. به دلایلی که برای ما ناشناخته است، هنگامی که LLM ها از یک نقطه خاص عبور می کنند، بسیار قوی تر و همه کاره تر می شوند و قادر به انجام وظایفی هستند که برای آنها آموزش ندیده اند.

این بدان معنا نیست که آنها در حال به دست آوردن احساسات یا هر چیز دیگری هستند، فقط از یک نقطه خاص عملکرد آنها در برخی از وظایف محاوره ای هوش مصنوعی چوب هاکی انجام می شود. تیم آمازون AGI - پنهان نیست که هدفشان چیست - فکر می‌کردند که با رشد مدل‌های تبدیل متن به گفتار نیز همین اتفاق می‌افتد، و تحقیقات آنها نشان می‌دهد که این در واقع همینطور است.

مدل جدید Big Adaptive Streamable TTS با قابلیت های Emergent نام دارد که آن ها را به صورت مخفف BASE TTS تغییر داده اند. بزرگترین نسخه این مدل از 100000 ساعت سخنرانی در حوزه عمومی استفاده می کند که 90 درصد آن به زبان انگلیسی و بقیه به آلمانی، هلندی و اسپانیایی است.

با 980 میلیون پارامتر، به نظر می رسد BASE-large بزرگترین مدل در این رده باشد. آنها همچنین مدل‌های 400M و 150M پارامتر را بر اساس 10000 و 1000 ساعت صدا برای مقایسه آموزش دادند - ایده این است که اگر یکی از این مدل‌ها رفتارهای اضطراری را نشان دهد اما دیگری نشان ندهد، شما محدوده‌ای برای شروع آن رفتارها دارید. پدیدار شدن.

همانطور که مشخص شد، مدل با اندازه متوسط، جهش در قابلیتی را که تیم به دنبال آن بود، نشان داد، نه لزوماً در کیفیت گفتار معمولی (بهتر تحلیل می‌شود اما فقط با چند نقطه) بلکه در مجموعه توانایی‌های اضطراری که آنها مشاهده و اندازه‌گیری کردند. . در اینجا نمونه هایی از متن پیچیده ذکر شده در مقاله آورده شده است:

اسم‌های مرکب : خانواده بکهام تصمیم گرفتند یک کلبه‌ی زیبا و جذاب در حومه شهر را اجاره کنند.

احساسات : "اوه خدای من! آیا واقعاً به مالدیو می رویم؟ باورکردنی نیست!" جنی جیغ زد و با شادی بی حد و حصر روی انگشتان پاهایش تکان خورد.

کلمات خارجی : «آقا. هانری که به خاطر بدجنسی اش شهرت داشت، یک وعده غذایی هفت وعده ای را ترتیب داد که هر غذا یک قطعه مقاومت بود.

پارازبانگی (یعنی غیرکلمه‌های قابل خواندن): «هه، لوسی، ههه، ما نباید برادر بچه‌ات را بیدار کنیم،» تام در حالی که از کنار مهد کودک عبور می‌کردند، زمزمه کرد.

علائم نگارشی : او یک متن عجیب از برادرش دریافت کرد: 'Emergency @ home; ASAP تماس بگیرید! مامان و بابا نگرانند…#مسائل خانواده.'

سؤالات : اما سؤال برگزیت همچنان باقی می‌ماند: آیا پس از همه آزمایش‌ها و مصیبت‌ها، وزرا به موقع پاسخ‌ها را خواهند یافت؟

پیچیدگی های نحوی : فیلمی که دی مویا که اخیراً جایزه یک عمر دستاورد هنری را دریافت کرد، در سال 2022 بازی کرد، با وجود نقدهای متفاوت، در گیشه موفق شد.

این جملات به گونه‌ای طراحی شده‌اند که شامل وظایف چالش‌برانگیز باشد - تجزیه جملات مسیر باغ، ایجاد استرس عبارتی روی اسم‌های مرکب طولانی، تولید گفتار احساسی یا زمزمه‌آمیز، یا تولید واج‌های صحیح برای کلمات خارجی مانند «qi» یا علائم نگارشی مانند «@» نویسندگان می نویسند - هیچ یک از آنها BASE TTS به صراحت برای انجام آموزش دیده نیست.

چنین آپشن های ی معمولاً موتورهای تبدیل متن به گفتار را که اشتباه تلفظ می‌کنند، کلمات را نادیده می‌گیرند، از لحن‌های عجیب و غریب استفاده می‌کنند یا اشتباهات دیگری ایجاد می‌کنند، فعال می‌کنند. BASE TTS هنوز مشکل داشت، اما بسیار بهتر از مدل های هم عصر خود - مدل هایی مانند Tortoise و VALL-E - کار کرد.

تعداد زیادی نمونه از این متون دشوار وجود دارد که به طور کاملاً طبیعی توسط مدل جدید در سایتی که برای آن ساخته اند بیان می شود. البته اینها توسط محققان انتخاب شده اند، پس آنها لزوماً گیلاس چیده شده اند، اما بدون در نظر گرفتن این موضوع قابل توجه است. اگر نمی‌خواهید روی آن کلیک کنید، در اینجا یک زوج وجود دارد:

از آنجایی که سه مدل BASE TTS یک معماری مشترک دارند، به نظر واضح است که به نظر می رسد اندازه مدل و میزان داده های آموزشی آن دلیل توانایی مدل در رسیدگی به برخی از پیچیدگی های فوق باشد. به خاطر داشته باشید که این هنوز یک مدل و فرآیند تجربی است - نه یک مدل تجاری یا هر چیز دیگری. تحقیقات بعدی باید نقطه عطف توانایی ظهور و نحوه آموزش و استقرار مدل حاصل را به طور موثر شناسایی کند.

قابل ذکر است، این مدل همانطور که از نامش او میگوید «قابل جریان» است - به این معنی که نیازی به تولید جملات کامل در یک لحظه ندارد، اما لحظه به لحظه با نرخ بیت نسبتاً پایین پیش می‌رود. این تیم همچنین سعی کرده است ابرداده های گفتاری مانند احساسات، عروض و غیره را در یک جریان مجزا و با پهنای باند کم بسته بندی کند که می تواند صدای وانیلی را همراهی کند.

به نظر می‌رسد که مدل‌های تبدیل متن به گفتار ممکن است در سال 2024 لحظه‌ای فراگیر داشته باشند - درست در زمان انتخابات! اما نمی توان منکر مفید بودن این فناوری به ویژه برای دسترسی به آن شد. این تیم اشاره می کند که به دلیل خطر سوء استفاده بازیگران بد از آن، از انتشار منبع و سایر داده های مدل خودداری کرده است. گربه در نهایت از آن کیسه خارج خواهد شد.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است