بزرگترین مدل هوش مصنوعی تبدیل متن به گفتار هنوز “توانایی های اضطراری” را نشان می دهد
محققان آمازون بزرگترین مدل تبدیل متن به گفتار تا کنون را آموزش دادهاند، که ادعا میکنند آپشن های «ظهور» را نشان میدهد که توانایی آن را در بیان طبیعی حتی جملات پیچیده بهبود میبخشد. این پیشرفت می تواند همان چیزی باشد که فناوری برای فرار از دره عجیب و غریب به آن نیاز دارد.
این مدلها همیشه در حال رشد و بهبود بودند، اما محققان به طور خاص امیدوار بودند که نوع جهشی در توانایی را ببینند که وقتی مدلهای زبان از اندازه معینی عبور کردند مشاهده کردیم. به دلایلی که برای ما ناشناخته است، هنگامی که LLM ها از یک نقطه خاص عبور می کنند، بسیار قوی تر و همه کاره تر می شوند و قادر به انجام وظایفی هستند که برای آنها آموزش ندیده اند.
این بدان معنا نیست که آنها در حال به دست آوردن احساسات یا هر چیز دیگری هستند، فقط از یک نقطه خاص عملکرد آنها در برخی از وظایف محاوره ای هوش مصنوعی چوب هاکی انجام می شود. تیم آمازون AGI - پنهان نیست که هدفشان چیست - فکر میکردند که با رشد مدلهای تبدیل متن به گفتار نیز همین اتفاق میافتد، و تحقیقات آنها نشان میدهد که این در واقع همینطور است.
مدل جدید Big Adaptive Streamable TTS با قابلیت های Emergent نام دارد که آن ها را به صورت مخفف BASE TTS تغییر داده اند. بزرگترین نسخه این مدل از 100000 ساعت سخنرانی در حوزه عمومی استفاده می کند که 90 درصد آن به زبان انگلیسی و بقیه به آلمانی، هلندی و اسپانیایی است.
با 980 میلیون پارامتر، به نظر می رسد BASE-large بزرگترین مدل در این رده باشد. آنها همچنین مدلهای 400M و 150M پارامتر را بر اساس 10000 و 1000 ساعت صدا برای مقایسه آموزش دادند - ایده این است که اگر یکی از این مدلها رفتارهای اضطراری را نشان دهد اما دیگری نشان ندهد، شما محدودهای برای شروع آن رفتارها دارید. پدیدار شدن.
همانطور که مشخص شد، مدل با اندازه متوسط، جهش در قابلیتی را که تیم به دنبال آن بود، نشان داد، نه لزوماً در کیفیت گفتار معمولی (بهتر تحلیل میشود اما فقط با چند نقطه) بلکه در مجموعه تواناییهای اضطراری که آنها مشاهده و اندازهگیری کردند. . در اینجا نمونه هایی از متن پیچیده ذکر شده در مقاله آورده شده است:
اسمهای مرکب : خانواده بکهام تصمیم گرفتند یک کلبهی زیبا و جذاب در حومه شهر را اجاره کنند.
احساسات : "اوه خدای من! آیا واقعاً به مالدیو می رویم؟ باورکردنی نیست!" جنی جیغ زد و با شادی بی حد و حصر روی انگشتان پاهایش تکان خورد.
کلمات خارجی : «آقا. هانری که به خاطر بدجنسی اش شهرت داشت، یک وعده غذایی هفت وعده ای را ترتیب داد که هر غذا یک قطعه مقاومت بود.
پارازبانگی (یعنی غیرکلمههای قابل خواندن): «هه، لوسی، ههه، ما نباید برادر بچهات را بیدار کنیم،» تام در حالی که از کنار مهد کودک عبور میکردند، زمزمه کرد.
علائم نگارشی : او یک متن عجیب از برادرش دریافت کرد: 'Emergency @ home; ASAP تماس بگیرید! مامان و بابا نگرانند…#مسائل خانواده.'
سؤالات : اما سؤال برگزیت همچنان باقی میماند: آیا پس از همه آزمایشها و مصیبتها، وزرا به موقع پاسخها را خواهند یافت؟
پیچیدگی های نحوی : فیلمی که دی مویا که اخیراً جایزه یک عمر دستاورد هنری را دریافت کرد، در سال 2022 بازی کرد، با وجود نقدهای متفاوت، در گیشه موفق شد.
این جملات به گونهای طراحی شدهاند که شامل وظایف چالشبرانگیز باشد - تجزیه جملات مسیر باغ، ایجاد استرس عبارتی روی اسمهای مرکب طولانی، تولید گفتار احساسی یا زمزمهآمیز، یا تولید واجهای صحیح برای کلمات خارجی مانند «qi» یا علائم نگارشی مانند «@» نویسندگان می نویسند - هیچ یک از آنها BASE TTS به صراحت برای انجام آموزش دیده نیست.
چنین آپشن های ی معمولاً موتورهای تبدیل متن به گفتار را که اشتباه تلفظ میکنند، کلمات را نادیده میگیرند، از لحنهای عجیب و غریب استفاده میکنند یا اشتباهات دیگری ایجاد میکنند، فعال میکنند. BASE TTS هنوز مشکل داشت، اما بسیار بهتر از مدل های هم عصر خود - مدل هایی مانند Tortoise و VALL-E - کار کرد.
تعداد زیادی نمونه از این متون دشوار وجود دارد که به طور کاملاً طبیعی توسط مدل جدید در سایتی که برای آن ساخته اند بیان می شود. البته اینها توسط محققان انتخاب شده اند، پس آنها لزوماً گیلاس چیده شده اند، اما بدون در نظر گرفتن این موضوع قابل توجه است. اگر نمیخواهید روی آن کلیک کنید، در اینجا یک زوج وجود دارد:
از آنجایی که سه مدل BASE TTS یک معماری مشترک دارند، به نظر واضح است که به نظر می رسد اندازه مدل و میزان داده های آموزشی آن دلیل توانایی مدل در رسیدگی به برخی از پیچیدگی های فوق باشد. به خاطر داشته باشید که این هنوز یک مدل و فرآیند تجربی است - نه یک مدل تجاری یا هر چیز دیگری. تحقیقات بعدی باید نقطه عطف توانایی ظهور و نحوه آموزش و استقرار مدل حاصل را به طور موثر شناسایی کند.
قابل ذکر است، این مدل همانطور که از نامش او میگوید «قابل جریان» است - به این معنی که نیازی به تولید جملات کامل در یک لحظه ندارد، اما لحظه به لحظه با نرخ بیت نسبتاً پایین پیش میرود. این تیم همچنین سعی کرده است ابرداده های گفتاری مانند احساسات، عروض و غیره را در یک جریان مجزا و با پهنای باند کم بسته بندی کند که می تواند صدای وانیلی را همراهی کند.
به نظر میرسد که مدلهای تبدیل متن به گفتار ممکن است در سال 2024 لحظهای فراگیر داشته باشند - درست در زمان انتخابات! اما نمی توان منکر مفید بودن این فناوری به ویژه برای دسترسی به آن شد. این تیم اشاره می کند که به دلیل خطر سوء استفاده بازیگران بد از آن، از انتشار منبع و سایر داده های مدل خودداری کرده است. گربه در نهایت از آن کیسه خارج خواهد شد.
ارسال نظر