محققان آمازون بزرگترین مدل تبدیل متن به گفتار تا به امروز را معرفی کرده اند که کیفیت های پیشرفته ای دارد که به آن اجازه می دهد جملات پیچیده را بهتر بیان کند.
مدل BASE TTS ( متن به گفتار ) که مخفف Big Adaptive Streamable TTS با قابلیتهای اضطراری است، میتواند پایهای برای تعاملات بیشتر شبیه انسان باشد.
بر اساس این تحقیق، به نظر میرسد آموزش گسترده برای مدلهای TTS میتواند قابلیت اطمینان و تطبیق پذیری را به همان روشی که در مدلهای زبان بزرگ (LLM) برای هوش مصنوعی میبینیم، بهبود بخشد.
BASE TTS آمازون محققان را تحت تاثیر قرار می دهد
مدل تبدیل متن به گفتار بر روی 100000 ساعت دادههای گفتاری که در حوزه عمومی زندگی میکنند آموزش داده شده است، که به این ابزار یک "طبیعی بودن پیشرفته" میدهد. عمدتا انگلیسی، برخی از داده های آلمانی، هلندی و اسپانیایی نیز استفاده شد.
علاوه بر این، محققان دریافتند که حتی آموزش یک مدل TTS بر روی 10000 ساعت گفتار می تواند منجر به بهبود توانایی در بیان طبیعی جملات پیچیده شود.
با 980 میلیون پارامتر، BASE-large به عنوان بزرگترین مدل تبدیل متن به گفتار ساخته شده شناخته شده است. این تیم همچنین مدل های کمتری را با 400 میلیون و 150 میلیون پارامتر و 10000 و 1000 ساعت گفتار به منظور مقایسه نتایج آموزش دادند.
تیم آمازون BASE TTS را به عنوان "مدلی با وفاداری بالا که قادر به تقلید از ویژگی های بلندگو با تنها چند ثانیه صدای مرجع است" توصیف می کند و نیاز به تحقیقات بیشتر را تشخیص می دهد اما پتانسیل آن را تایید می کند.
برخی از حوزههای کلیدی که محققان بر روی آنها تمرکز کردند عبارت بودند از اسامی مرکب، احساسات، کلمات خارجی، زبانشناسی، علائم نگارشی، سؤالات و پیچیدگیهای نحوی - نمونههایی را میتوان در یک صفحه وب اختصاصی یافت.
از آنجایی که هوش مصنوعی انقلابی در بیشتر سالهای 2023 عنوان میشود، پیشرفتهای تبدیل متن به گفتار مانند این در سال 2024 میتواند همچنان فناوریهای آیندهنگر را به دست تودهها بیاورد، اما رویکرد محتاطانه تیم تحقیقاتی نیاز به مقررات مناسب در میان امنیت و امنیت را برجسته میکند. ترس از حریم خصوصی
ارسال نظر