ChatGPT در حال تبدیل شدن به چیزی بیشتر از یک موتور جستجوی مبتنی بر متن است، با OpenAI امروز اعلام کرد که هوشمندهای جدید مبتنی بر صدا و تصویر را به ترکیب اضافه می کند.
دستیار هوش مصنوعی مولد بسیار محبوب یکی از بزرگترین داستان های موفقیت فناوری در چند وقت اخیر از زمان معرفی آن در حدود نه ماه پیش بوده است و به هر کسی اجازه می دهد تا مقاله، شعر و خلاصه را از طریق اعلان های ساده مبتنی بر متن تولید کند. اما اکنون، ChatGPT بسیار تعاملیتر شده است و کاربران به زودی میتوانند یک مکالمه صوتی با ربات چت داشته باشند.
این اعلامیه در همان روزی اعلام شد که آمازون متعهد شد تا ۴ میلیارد دلار در رقیب OpenAI، Anthropic سرمایهگذاری کند، که بخشی از یک نبرد بزرگتر هوش مصنوعی بین غولهای فناوری جهان است که شامل تلاش گوگل از طریق چت ربات Bard، متا است. یک اخلاق منبع باز قوی برای کمک به پیشرفت آن، و مایکروسافت از نزدیک خود را با خود OpenAI هماهنگ می کند.
شروع کننده مکالمه
امروز یک تحول قابل توجه برای جنبش مولد هوش مصنوعی است، با OpenAI که دنیای آشنای دستیارهای مبتنی بر صدا را با مدل های قدرتمند زبان بزرگ (LLM) در هم می آمیزد.
به عنوان مثال، یک کاربر میتواند به صورت شفاهی از ChatGPT بخواهد تا یک داستان قبل از خواب را با چند دستور صوتی برای هدایت روایت بسازد. یا آنها می توانند به سادگی از آن سوال بپرسند و ChatGPT پاسخ خود را به صورت کلامی بیان می کند.
در جاهای دیگر، کاربران ChatGPT همچنین میتوانند با استفاده از تصاویر، پاسخها را جستجو کنند، بهعنوان مثال، عکسی از چیزی را آپلود کنند و از ChatGPT بخواهند توضیح دهد که چیست، یا دستورالعملهایی برای تکمیل یک هدف ارائه دهد.
جستجوی تصویر ChatGPT اعتبار تصویر : OpenAI
آپشن های جدید در دو هفته آینده برای مشترکین Premium Plus و Enterprise عرضه خواهند شد. برای فعال کردن آپشن های صوتی، کاربران باید به منوی «تنظیمات» در برنامه رفته، سپس به « آپشن های جدید» رفته و در مکالمات صوتی شرکت کنند. سپس باید روی دکمه هدفون در گوشه سمت راست بالا ضربه بزنند و از بین پنج صدای مختلف انتخاب کنند.
این ویژگی از طریق ترکیبی از مدل جدید تبدیل متن به گفتار فعال میشود که میتواند صداهایی شبیه انسان را از متن و چند ثانیه گفتار نمونهسازی شده تولید کند. OpenAI بیان کرد که با صداپیشگان معتبر برای ایجاد هر یک از پنج صدا، با سیستم تشخیص گفتار منبع باز Whisper که برای رونویسی جملات شفاهی به متن استفاده میشود، همکاری کرده است.
اسپاتیفای همچنین به عنوان شریک راهاندازی معرفی شد، با این غول پخش موسیقی یک ویژگی جدید و زیبا را برای پادکستها معرفی کرد که به آنها اجازه میدهد صدای خود را نمونهبرداری کنند و نمایشهای خود را از انگلیسی به اسپانیایی، فرانسوی یا آلمانی ترجمه کنند - در حالی که صدای اصلی خود را حفظ میکنند. . با این حال، به نظر میرسد که OpenAI مراقب است که انتقادات را به خود جلب نکند، زیرا این فناوری را در دسترس کسی قرار نمیدهد - به طور خاص با پادکستهایی مانند Dax Shepard، Monica Padman، Lex Fridman، Bill Simmons و Steven Bartlett برای راهاندازی کار کرده است.
این شرکت در یک پست وبلاگی نوشت: "فناوری صوتی جدید - که قادر به ساخت صداهای مصنوعی واقعی از تنها چند ثانیه گفتار واقعی است - درها را به روی بسیاری از برنامه های کاربردی خلاقانه و مبتنی بر دسترسی باز می کند." با این حال، این قابلیتها خطرات جدیدی را نیز به همراه دارد، مانند پتانسیل بازیگران بدخواه برای جعل هویت افراد عمومی یا ارتکاب کلاهبرداری.»
Voice در ابتدا به برنامههای ChatGPT Android و iOS بر اساس بتا انتخابی محدود میشود، در حالی که جستجوی تصویر بهطور پیشفرض روی همه پلتفرمها قرار میگیرد.