آمازون از بزرگترین مدل تبدیل متن به گفتار که تا کنون ساخته شده است رونمایی کرد

شناسهٔ خبر: 450918 - تاریخ: فوریه 15, 2024

(اعتبار تصویر: Shutterstock / Reshetnikov_art)

محققان آمازون بزرگترین مدل تبدیل متن به گفتار تا به امروز را معرفی کرده اند که کیفیت های پیشرفته ای دارد که به آن اجازه می دهد جملات پیچیده را بهتر بیان کند.

مدل BASE TTS ( متن به گفتار ) که مخفف Big Adaptive Streamable TTS با قابلیت‌های اضطراری است، می‌تواند پایه‌ای برای تعاملات بیشتر شبیه انسان باشد.

بر اساس این تحقیق، به نظر می‌رسد آموزش گسترده برای مدل‌های TTS می‌تواند قابلیت اطمینان و تطبیق پذیری را به همان روشی که در مدل‌های زبان بزرگ (LLM) برای هوش مصنوعی می‌بینیم، بهبود بخشد.

BASE TTS آمازون محققان را تحت تاثیر قرار می دهد

مدل تبدیل متن به گفتار بر روی 100000 ساعت داده‌های گفتاری که در حوزه عمومی زندگی می‌کنند آموزش داده شده است، که به این ابزار یک "طبیعی بودن پیشرفته" می‌دهد. عمدتا انگلیسی، برخی از داده های آلمانی، هلندی و اسپانیایی نیز استفاده شد.

دیگر اخبار

هدف HME Square اندازه گیری گلوکز بدون درد با فوتوآکوستیک است

علاوه بر این، محققان دریافتند که حتی آموزش یک مدل TTS بر روی 10000 ساعت گفتار می تواند منجر به بهبود توانایی در بیان طبیعی جملات پیچیده شود.

با 980 میلیون پارامتر، BASE-large به عنوان بزرگترین مدل تبدیل متن به گفتار ساخته شده شناخته شده است. این تیم همچنین مدل های کمتری را با 400 میلیون و 150 میلیون پارامتر و 10000 و 1000 ساعت گفتار به منظور مقایسه نتایج آموزش دادند.

تیم آمازون BASE TTS را به عنوان "مدلی با وفاداری بالا که قادر به تقلید از ویژگی های بلندگو با تنها چند ثانیه صدای مرجع است" توصیف می کند و نیاز به تحقیقات بیشتر را تشخیص می دهد اما پتانسیل آن را تایید می کند.

بیشتر بخوانید

تکلیف مالیاتی جدید برای پرداخت‌کنندگان حقوق

برخی از حوزه‌های کلیدی که محققان بر روی آنها تمرکز کردند عبارت بودند از اسامی مرکب، احساسات، کلمات خارجی، زبان‌شناسی، علائم نگارشی، سؤالات و پیچیدگی‌های نحوی - نمونه‌هایی را می‌توان در یک صفحه وب اختصاصی یافت.

از آنجایی که هوش مصنوعی انقلابی در بیشتر سال‌های 2023 عنوان می‌شود، پیشرفت‌های تبدیل متن به گفتار مانند این در سال 2024 می‌تواند همچنان فناوری‌های آینده‌نگر را به دست توده‌ها بیاورد، اما رویکرد محتاطانه تیم تحقیقاتی نیاز به مقررات مناسب در میان امنیت و امنیت را برجسته می‌کند. ترس از حریم خصوصی

بیشتر از TechRadar Pro

با چندین سال تجربه کار آزاد در محافل فناوری و خودرو، علایق خاص کریگ در فناوری است که برای بهبود زندگی ما طراحی شده است، از جمله هوش مصنوعی و ML، کمک های بهره وری، و تناسب اندام هوشمند. او همچنین علاقه زیادی به اتومبیل ها و کربن زدایی حمل و نقل شخصی دارد. به عنوان یک شکارچی مشتاق معامله، می‌توانید مطمئن باشید که هر معامله‌ای که کریگ پیدا می‌کند ارزش بالایی دارد!

خبرکاو