ChatGPT چند وجهی: کار با صدا، دید و تصاویر-خبرکاو

ChatGPT چند وجهی: کار با صدا، دید و تصاویر

شناسهٔ خبر: 440455 - تاریخ: اکتبر 3, 2023

در این مقاله، نگاهی به قابلیت‌های چندوجهی جدید ChatGPT خواهیم داشت: نحوه کار آنها و نحوه استفاده سازندگان از آنها.

از زمان انتشار عمومی ChatGPT در اواخر سال ۲۰۲۲، سازندگان به طور مداوم از هوش مصنوعی برای کارهای مختلف از ایده‌های طوفان فکری و خلاصه کردن متن گرفته تا تولید اسکریپت، کپی و حتی کد استفاده می‌کنند.

با تکیه بر این شتاب، OpenAI یک به‌روزرسانی برای ChatGPT ارائه کرده است و مجموعه مهارت‌های خود را نه تنها شامل پاسخ‌های مبتنی بر متن، بلکه تعاملات دیداری و شنیداری نیز می‌کند.

عصر جدیدی از تعامل: قابلیت‌های صوتی و بینایی در ChatGPT

استفاده از هوش مصنوعی برای تولید محتوا چیز جدیدی نیست، و در سال ۲۰۲۳ هیچ کمبودی در تولید کننده متن هوش مصنوعی در بازار وجود ندارد، هر یک از آنها سعی می کنند با جدیدترین ویژگی ها و عملکردها از یکدیگر پیشی بگیرند. اما به نظر می رسد که OpenAI با این آخرین اعلامیه یک قدم جلوتر از بسته باقی می ماند.

در حالی که OpenAI به آرامی این ویژگی ها را عرضه می کند، به زودی برای همه کاربران GPT Plus در دسترس خواهد بود. بیایید نگاهی دقیق تر به این ویژگی های جدید بیندازیم.

گفتار مصنوعی

ChatGPT اخیراً قابلیت‌های خود را گسترش داده است تا قابلیت‌های تبدیل متن به صدا و صدا به متن را نیز شامل شود.

کاربران اکنون می توانند با ChatGPT در مکالمات صوتی بلادرنگ شرکت کنند و این ویژگی توسط یک مدل تبدیل متن به گفتار جدید که صدای انسان مانند تولید می کند، تقویت می شود. تعامل صوتی در پلتفرم‌های iOS و Android در دسترس است و به کاربران امکان انتخاب بین پنج صدای مصنوعی مختلف را می‌دهد.

بیشتر بخوانید

Quordle today – نکات و پاسخ‌ها برای شنبه، ۱ ژوئیه (بازی شماره ۵۲۳)

این فناوری همچنین از سیستم تشخیص گفتار Whisper OpenAI برای رونویسی کلمات گفتاری به متن استفاده می‌کند و امکان گفت‌وگوی یکپارچه رفت و برگشتی را فراهم می‌کند. قابلیت های صوتی در زمان نگارش به تدریج در اختیار کاربران Plus و Enterprise قرار می گیرد.

کامپیوتر ویژن

ChatGPT اکنون دارای قابلیت‌های بینایی است که به کاربران امکان می‌دهد تصاویر را در رابط چت آپلود و بحث کنند.

درک تصویر توسط مدل‌های چندوجهی GPT-3.5 و GPT-4، که بینایی کامپیوتری و مهارت‌های استدلال زبانی را در انواع مختلف تصاویر، از جمله عکس‌ها، اسکرین‌شات‌ها و اسنادی که هم متن و هم تصاویر دارند، اعمال می‌کنند. یک کاربر X قبلاً از این ویژگی برای حل یک برگه از مسائل ریاضی اولیه استفاده کرده است.

کاربران می‌توانند با این ویژگی‌ها در همه پلتفرم‌ها تعامل داشته باشند و حتی از یک ابزار طراحی در اپلیکیشن موبایل استفاده کنند تا توجه دستیار را روی بخش‌های خاصی از یک تصویر متمرکز کنند. طبق گفته OpenAI، این قابلیت جدید برای کمک به کاربران در کارهای روزانه، مانند عیب یابی مشکلات لوازم خانگی یا برنامه ریزی وعده های غذایی بر اساس محتویات یخچال طراحی شده است.

OpenAI همچنین آخرین ابزار تبدیل متن به تصویر خود Dall-E 3 را اعلام کرده است که اکنون در ChatGPT ادغام خواهد شد و طیف وسیعی از عملکردهای اضافی را باز می کند. به متن "Super-Duper Sunflower" در تصویر پایین سمت راست زیر توجه کنید – یکی دیگر از ویژگی های جدید که قبلا دیده نشده بود.

چهار عکس کارتونی جوجه تیغی

اعتبار تصویر: OpenAI

موارد استفاده چندوجهی ChatGPT در ایجاد محتوا

در حالی که هنوز روزهای اولیه است، با رونمایی از این ویژگی‌ها، می‌توانیم انتظار داشته باشیم سازندگان راه‌های عجیب و غریب و شگفت‌انگیزی برای استفاده از GPT چندوجهی در گردش کار خود پیدا کنند. بیایید نگاهی به برخی از برنامه های کاربردی آشکاری بیندازیم که می توانیم بلافاصله ببینیم.

۱. پادکست های تعاملی

یکی از برنامه‌های کاربردی، پادکست‌های تعاملی است که در آن دستیار صوتی ChatGPT می‌تواند به‌عنوان یک سخنران مهمان مجازی عمل کند و در زمان واقعی به مکالمات با میزبان پاسخ دهد. همانطور که ChatGPT بهبود می‌یابد، می‌تواند واقعیت‌های بی‌درنگ را تحلیل کند و به هدایت مکالمات کمک کند. این احتمالاً یکی از موارد استفاده اولیه خواهد بود که تماشای آن جالب خواهد بود.

۲. دستیار نوشتن با صدا

توانایی‌های زبان طبیعی ChatGPT به دستیارهای صوتی نیز کمک می‌کند که می‌توانند در تحقیق و نوشتن به سازندگان محتوا کمک کنند. یک ChatGPT با قدرت صوتی می‌تواند مقالات یا مطالعات را خلاصه کند، نکات کلیدی داده را استخراج کند یا بخش‌هایی از محتوای نوشته شده را پس از تحلیل کلی پیش‌نویس کند. این به طور موثر مکالمات هوش مصنوعی را به همان شیوه ای تغییر می دهد که کتاب های صوتی شیوه خواندن رمان ها را دوباره ابداع کردند.

۳. توضیحات صوتی و متن جایگزین

ChatGPT همچنین برای تولید توضیحات صوتی از محتوای بصری مانند ویدیوها، نمودارها یا اینفوگرافیک ها نویدبخش است. زیرنویس خودکار تصویر یکی دیگر از موارد استفاده عالی است. ChatGPT می‌تواند یک تصویر را اسکن کند و زیرنویس‌های مناسب SEO یا متن جایگزینی را که عناصر بصری موجود را توصیف می‌کند، ایجاد کند. مهارت‌های زبان طبیعی ChatGPT آن را برای ایجاد زیرنویس‌های بسیار توصیفی مناسب می‌سازد، که معمولاً برای اپراتور انسانی زمان زیادی می‌برد.

۴. رونویسی و سازماندهی ایده

یکی دیگر از برنامه های عالی برای ابزارهای صوتی ChatGPT استفاده از هوش مصنوعی برای رونویسی مکالمات و سازماندهی ایده ها است. ChatGPT اکنون می‌تواند به طور فعال به یک مکالمه گوش دهد و رونویسی، سازماندهی، پیشنهادات و خلاصه‌ها را در زمان واقعی ارائه کند. این قابلیت باعث می‌شود که خلاصه‌سازی سریع جلسات طوفان فکری بین سازندگان انجام شود و حتی می‌تواند ایده‌های جدیدی را بر اساس مکالمات آنها پیشنهاد کند.

۵. پیشرفت های بصری

قابلیت‌های بینایی رایانه‌ای ChatGPT فرصت‌های جدیدی را برای افزایش محتوای بصری و تجارب باز می‌کند. یکی از برنامه ها از ChatGPT برای تجزیه و تحلیل پیش نویس های مقاله و پیشنهاد انواع تصاویری که محتوا را تقویت می کند، مانند تجسم داده ها، عکس ها، تصاویر یا اینفوگرافیک ها استفاده می کند. این به نویسندگان اجازه می دهد تا به راحتی شکاف هایی را که در آن نمودار، نمودار یا تصویر می تواند وضوح و تعامل را بهبود بخشد، شناسایی کنند. ادغام Dall-E 3 حتی می تواند به تولید این تصاویر کمک کند.

۶. پاسخگویی مبتنی بر تصویر

ChatGPT همچنین برای پاسخگویی به سؤالات مبتنی بر تصویر نوید می دهد، جایی که کاربران یک تصویر را برای دریافت پاسخ های متناسب بر اساس تجزیه و تحلیل بصری آپلود می کنند. این برنامه در بخش‌هایی مانند خرده‌فروشی، بهبود خانه یا زمینه‌های پزشکی کاربردهای مفیدی دارد. یک مثال اولیه نشان داد که ChatGPT توصیفی عمیق از یک سلول انسانی را بر اساس چیزی جز یک تصویر ارائه می‌دهد.

۷. کد مبتنی بر تصویر

ChatGPT با استفاده از مهارت های بینایی کامپیوتری جدید خود، اکنون می تواند تصویر یک صفحه وب را تجزیه و تحلیل کند و کد HTML مربوطه را خروجی کند. یک کاربر X قبلاً از این ویژگی برای تبدیل سریع اسکرین شات از داشبورد SaaS موجود به کد کار استفاده کرده است. این عملکرد تصویر به کد ابزار قدرتمندی است که سازندگان آن را در صفحات فرود، سایت‌های تجارت الکترونیک و پروژه‌های مختلف وب دیگر اعمال می‌کنند.

۸. چند رسانه ای تعاملی

ترکیبی از آپشن های صوتی و بینایی جدید ChatGPT دارای برخی امکانات هیجان‌انگیز در مورد محتوای چندرسانه‌ای و تعاملی است. یکی از برنامه‌های کاربردی از ChatGPT برای تولید داستان‌های روایت‌شده، تعاملی یا برنامه‌های سرگرمی با ترکیبی از متن، تصاویر و صدای صوتی که به‌طور خودکار به هم متصل می‌شوند، استفاده می‌کند. حتی امکان ایجاد بازی های ویدیویی در ChatGPT وجود دارد.

برای محتوای آموزشی، ChatGPT می‌تواند دانش‌آموزان را از طریق ماژول‌های یادگیری تعاملی با ترکیبی از متن روی صفحه، توضیحات صوتی مفاهیم، و تصاویر مرتبط ارائه شده توسط هوش مصنوعی راهنمایی کند.

دیگر اخبار

استارت‌آپ هوش مصنوعی با پشتیبانی مایکروسافت در تست‌های کلیدی Nvidia H100 را با کارت گرافیک‌مانند مجهز به رم ۲۵۶ گیگابایتی شکست داد.

خدمات مشتری حوزه دیگری است که می تواند سودمند باشد. یک دستیار هوش مصنوعی می‌تواند درخواست‌های مشتری را از طریق متن یا ورودی صوتی تفسیر کند، در حالی که عکس‌ها یا ویدیوهای به اشتراک گذاشته شده از مشکلات را نیز تجزیه و تحلیل می‌کند. سپس هوش مصنوعی می‌تواند با ترکیبی از گفتار، متن و تصاویر تولید شده متناسب با آپشن های مورد هر مشتری پاسخ دهد.

بسته بندی

به طور خلاصه، ارتقاء چندوجهی OpenAI به کاربران و سازندگان جهشی عظیم در عملکرد ارائه می کند.

چه شما یک تولیدکننده محتوا باشید که به راه‌های جدید برای طوفان فکری یا داستان سرایی علاقه‌مند هستید، یا یک جستجوی حرفه‌ای برای اتوماسیون کار کارآمد هستید، این به‌روزرسانی‌ها پتانسیل عظیمی را ارائه می‌دهند.

همانطور که این ویژگی ها به طور گسترده در دسترس قرار می گیرند، به احتمال زیاد نحوه تعامل ما با هوش مصنوعی و استفاده از آنها را در کارهای روزانه و تلاش های خلاقانه به طور قابل توجهی گسترش می دهند.