OpenAI به ChatGPT صدایی برای مکالمات کلامی می دهد

شناسهٔ خبر: 437339 - تاریخ: سپتامبر 25, 2023

ChatGPT در حال تبدیل شدن به چیزی بیشتر از یک موتور جستجوی مبتنی بر متن است، با OpenAI امروز اعلام کرد که هوشمندهای جدید مبتنی بر صدا و تصویر را به ترکیب اضافه می کند.

دستیار هوش مصنوعی مولد بسیار محبوب یکی از بزرگترین داستان های موفقیت فناوری در چند وقت اخیر از زمان معرفی آن در حدود نه ماه پیش بوده است و به هر کسی اجازه می دهد تا مقاله، شعر و خلاصه را از طریق اعلان های ساده مبتنی بر متن تولید کند. اما اکنون، ChatGPT بسیار تعاملی‌تر شده است و کاربران به زودی می‌توانند یک مکالمه صوتی با ربات چت داشته باشند.

این اعلامیه در همان روزی اعلام شد که آمازون متعهد شد تا ۴ میلیارد دلار در رقیب OpenAI، Anthropic سرمایه‌گذاری کند، که بخشی از یک نبرد بزرگ‌تر هوش مصنوعی بین غول‌های فناوری جهان است که شامل تلاش گوگل از طریق چت ربات Bard، متا است. یک اخلاق منبع باز قوی برای کمک به پیشرفت آن، و مایکروسافت از نزدیک خود را با خود OpenAI هماهنگ می کند.

شروع کننده مکالمه

امروز یک تحول قابل توجه برای جنبش مولد هوش مصنوعی است، با OpenAI که دنیای آشنای دستیارهای مبتنی بر صدا را با مدل های قدرتمند زبان بزرگ (LLM) در هم می آمیزد.

بیشتر بخوانید

آپدیت جدید iOS آسیب‌پذیری خطرناکی در برابر جاسوس‌افزار Pegasus را اصلاح می‌کند

دیگر اخبار

Aquaman 2: تاریخ انتشار، بازیگران و آنچه در مورد بازگشت DC به آتلانتیس می دانیم

به عنوان مثال، یک کاربر می‌تواند به صورت شفاهی از ChatGPT بخواهد تا یک داستان قبل از خواب را با چند دستور صوتی برای هدایت روایت بسازد. یا آنها می توانند به سادگی از آن سوال بپرسند و ChatGPT پاسخ خود را به صورت کلامی بیان می کند.

در جاهای دیگر، کاربران ChatGPT همچنین می‌توانند با استفاده از تصاویر، پاسخ‌ها را جستجو کنند، به‌عنوان مثال، عکسی از چیزی را آپلود کنند و از ChatGPT بخواهند توضیح دهد که چیست، یا دستورالعمل‌هایی برای تکمیل یک هدف ارائه دهد.

جستجوی تصویر ChatGPT اعتبار تصویر : OpenAI

آپشن های جدید در دو هفته آینده برای مشترکین Premium Plus و Enterprise عرضه خواهند شد. برای فعال کردن آپشن های صوتی، کاربران باید به منوی «تنظیمات» در برنامه رفته، سپس به « آپشن های جدید» رفته و در مکالمات صوتی شرکت کنند. سپس باید روی دکمه هدفون در گوشه سمت راست بالا ضربه بزنند و از بین پنج صدای مختلف انتخاب کنند.

این ویژگی از طریق ترکیبی از مدل جدید تبدیل متن به گفتار فعال می‌شود که می‌تواند صداهایی شبیه انسان را از متن و چند ثانیه گفتار نمونه‌سازی شده تولید کند. OpenAI بیان کرد که با صداپیشگان معتبر برای ایجاد هر یک از پنج صدا، با سیستم تشخیص گفتار منبع باز Whisper که برای رونویسی جملات شفاهی به متن استفاده می‌شود، همکاری کرده است.

اسپاتیفای همچنین به عنوان شریک راه‌اندازی معرفی شد، با این غول پخش موسیقی یک ویژگی جدید و زیبا را برای پادکست‌ها معرفی کرد که به آن‌ها اجازه می‌دهد صدای خود را نمونه‌برداری کنند و نمایش‌های خود را از انگلیسی به اسپانیایی، فرانسوی یا آلمانی ترجمه کنند - در حالی که صدای اصلی خود را حفظ می‌کنند. . با این حال، به نظر می‌رسد که OpenAI مراقب است که انتقادات را به خود جلب نکند، زیرا این فناوری را در دسترس کسی قرار نمی‌دهد - به طور خاص با پادکست‌هایی مانند Dax Shepard، Monica Padman، Lex Fridman، Bill Simmons و Steven Bartlett برای راه‌اندازی کار کرده است.

این شرکت در یک پست وبلاگی نوشت: "فناوری صوتی جدید - که قادر به ساخت صداهای مصنوعی واقعی از تنها چند ثانیه گفتار واقعی است - درها را به روی بسیاری از برنامه های کاربردی خلاقانه و مبتنی بر دسترسی باز می کند." با این حال، این قابلیت‌ها خطرات جدیدی را نیز به همراه دارد، مانند پتانسیل بازیگران بدخواه برای جعل هویت افراد عمومی یا ارتکاب کلاهبرداری.»

Voice در ابتدا به برنامه‌های ChatGPT Android و iOS بر اساس بتا انتخابی محدود می‌شود، در حالی که جستجوی تصویر به‌طور پیش‌فرض روی همه پلتفرم‌ها قرار می‌گیرد.

خبرکاو