ChatGPT چند وجهی: کار با صدا، دید و تصاویر
در این مقاله، نگاهی به قابلیتهای چندوجهی جدید ChatGPT خواهیم داشت: نحوه کار آنها و نحوه استفاده سازندگان از آنها.
از زمان انتشار عمومی ChatGPT در اواخر سال ۲۰۲۲، سازندگان به طور مداوم از هوش مصنوعی برای کارهای مختلف از ایدههای طوفان فکری و خلاصه کردن متن گرفته تا تولید اسکریپت، کپی و حتی کد استفاده میکنند.
با تکیه بر این شتاب، OpenAI یک بهروزرسانی برای ChatGPT ارائه کرده است و مجموعه مهارتهای خود را نه تنها شامل پاسخهای مبتنی بر متن، بلکه تعاملات دیداری و شنیداری نیز میکند.
عصر جدیدی از تعامل: قابلیتهای صوتی و بینایی در ChatGPT
استفاده از هوش مصنوعی برای تولید محتوا چیز جدیدی نیست، و در سال ۲۰۲۳ هیچ کمبودی در تولید کننده متن هوش مصنوعی در بازار وجود ندارد، هر یک از آنها سعی می کنند با جدیدترین ویژگی ها و عملکردها از یکدیگر پیشی بگیرند. اما به نظر می رسد که OpenAI با این آخرین اعلامیه یک قدم جلوتر از بسته باقی می ماند.
در حالی که OpenAI به آرامی این ویژگی ها را عرضه می کند، به زودی برای همه کاربران GPT Plus در دسترس خواهد بود. بیایید نگاهی دقیق تر به این ویژگی های جدید بیندازیم.
گفتار مصنوعی
ChatGPT اخیراً قابلیتهای خود را گسترش داده است تا قابلیتهای تبدیل متن به صدا و صدا به متن را نیز شامل شود.
کاربران اکنون می توانند با ChatGPT در مکالمات صوتی بلادرنگ شرکت کنند و این ویژگی توسط یک مدل تبدیل متن به گفتار جدید که صدای انسان مانند تولید می کند، تقویت می شود. تعامل صوتی در پلتفرمهای iOS و Android در دسترس است و به کاربران امکان انتخاب بین پنج صدای مصنوعی مختلف را میدهد.
این فناوری همچنین از سیستم تشخیص گفتار Whisper OpenAI برای رونویسی کلمات گفتاری به متن استفاده میکند و امکان گفتوگوی یکپارچه رفت و برگشتی را فراهم میکند. قابلیت های صوتی در زمان نگارش به تدریج در اختیار کاربران Plus و Enterprise قرار می گیرد.
کامپیوتر ویژن
ChatGPT اکنون دارای قابلیتهای بینایی است که به کاربران امکان میدهد تصاویر را در رابط چت آپلود و بحث کنند.
درک تصویر توسط مدلهای چندوجهی GPT-3.5 و GPT-4، که بینایی کامپیوتری و مهارتهای استدلال زبانی را در انواع مختلف تصاویر، از جمله عکسها، اسکرینشاتها و اسنادی که هم متن و هم تصاویر دارند، اعمال میکنند. یک کاربر X قبلاً از این ویژگی برای حل یک برگه از مسائل ریاضی اولیه استفاده کرده است.
کاربران میتوانند با این ویژگیها در همه پلتفرمها تعامل داشته باشند و حتی از یک ابزار طراحی در اپلیکیشن موبایل استفاده کنند تا توجه دستیار را روی بخشهای خاصی از یک تصویر متمرکز کنند. طبق گفته OpenAI، این قابلیت جدید برای کمک به کاربران در کارهای روزانه، مانند عیب یابی مشکلات لوازم خانگی یا برنامه ریزی وعده های غذایی بر اساس محتویات یخچال طراحی شده است.
OpenAI همچنین آخرین ابزار تبدیل متن به تصویر خود Dall-E 3 را اعلام کرده است که اکنون در ChatGPT ادغام خواهد شد و طیف وسیعی از عملکردهای اضافی را باز می کند. به متن "Super-Duper Sunflower" در تصویر پایین سمت راست زیر توجه کنید - یکی دیگر از ویژگی های جدید که قبلا دیده نشده بود.
اعتبار تصویر: OpenAI
موارد استفاده چندوجهی ChatGPT در ایجاد محتوا
در حالی که هنوز روزهای اولیه است، با رونمایی از این ویژگیها، میتوانیم انتظار داشته باشیم سازندگان راههای عجیب و غریب و شگفتانگیزی برای استفاده از GPT چندوجهی در گردش کار خود پیدا کنند. بیایید نگاهی به برخی از برنامه های کاربردی آشکاری بیندازیم که می توانیم بلافاصله ببینیم.
۱. پادکست های تعاملی
یکی از برنامههای کاربردی، پادکستهای تعاملی است که در آن دستیار صوتی ChatGPT میتواند بهعنوان یک سخنران مهمان مجازی عمل کند و در زمان واقعی به مکالمات با میزبان پاسخ دهد. همانطور که ChatGPT بهبود مییابد، میتواند واقعیتهای بیدرنگ را تحلیل کند و به هدایت مکالمات کمک کند. این احتمالاً یکی از موارد استفاده اولیه خواهد بود که تماشای آن جالب خواهد بود.
۲. دستیار نوشتن با صدا
تواناییهای زبان طبیعی ChatGPT به دستیارهای صوتی نیز کمک میکند که میتوانند در تحقیق و نوشتن به سازندگان محتوا کمک کنند. یک ChatGPT با قدرت صوتی میتواند مقالات یا مطالعات را خلاصه کند، نکات کلیدی داده را استخراج کند یا بخشهایی از محتوای نوشته شده را پس از تحلیل کلی پیشنویس کند. این به طور موثر مکالمات هوش مصنوعی را به همان شیوه ای تغییر می دهد که کتاب های صوتی شیوه خواندن رمان ها را دوباره ابداع کردند.
۳. توضیحات صوتی و متن جایگزین
ChatGPT همچنین برای تولید توضیحات صوتی از محتوای بصری مانند ویدیوها، نمودارها یا اینفوگرافیک ها نویدبخش است. زیرنویس خودکار تصویر یکی دیگر از موارد استفاده عالی است. ChatGPT میتواند یک تصویر را اسکن کند و زیرنویسهای مناسب SEO یا متن جایگزینی را که عناصر بصری موجود را توصیف میکند، ایجاد کند. مهارتهای زبان طبیعی ChatGPT آن را برای ایجاد زیرنویسهای بسیار توصیفی مناسب میسازد، که معمولاً برای اپراتور انسانی زمان زیادی میبرد.
۴. رونویسی و سازماندهی ایده
یکی دیگر از برنامه های عالی برای ابزارهای صوتی ChatGPT استفاده از هوش مصنوعی برای رونویسی مکالمات و سازماندهی ایده ها است. ChatGPT اکنون میتواند به طور فعال به یک مکالمه گوش دهد و رونویسی، سازماندهی، پیشنهادات و خلاصهها را در زمان واقعی ارائه کند. این قابلیت باعث میشود که خلاصهسازی سریع جلسات طوفان فکری بین سازندگان انجام شود و حتی میتواند ایدههای جدیدی را بر اساس مکالمات آنها پیشنهاد کند.
۵. پیشرفت های بصری
قابلیتهای بینایی رایانهای ChatGPT فرصتهای جدیدی را برای افزایش محتوای بصری و تجارب باز میکند. یکی از برنامه ها از ChatGPT برای تجزیه و تحلیل پیش نویس های مقاله و پیشنهاد انواع تصاویری که محتوا را تقویت می کند، مانند تجسم داده ها، عکس ها، تصاویر یا اینفوگرافیک ها استفاده می کند. این به نویسندگان اجازه می دهد تا به راحتی شکاف هایی را که در آن نمودار، نمودار یا تصویر می تواند وضوح و تعامل را بهبود بخشد، شناسایی کنند. ادغام Dall-E 3 حتی می تواند به تولید این تصاویر کمک کند.
۶. پاسخگویی مبتنی بر تصویر
ChatGPT همچنین برای پاسخگویی به سؤالات مبتنی بر تصویر نوید می دهد، جایی که کاربران یک تصویر را برای دریافت پاسخ های متناسب بر اساس تجزیه و تحلیل بصری آپلود می کنند. این برنامه در بخشهایی مانند خردهفروشی، بهبود خانه یا زمینههای پزشکی کاربردهای مفیدی دارد. یک مثال اولیه نشان داد که ChatGPT توصیفی عمیق از یک سلول انسانی را بر اساس چیزی جز یک تصویر ارائه میدهد.
۷. کد مبتنی بر تصویر
ChatGPT با استفاده از مهارت های بینایی کامپیوتری جدید خود، اکنون می تواند تصویر یک صفحه وب را تجزیه و تحلیل کند و کد HTML مربوطه را خروجی کند. یک کاربر X قبلاً از این ویژگی برای تبدیل سریع اسکرین شات از داشبورد SaaS موجود به کد کار استفاده کرده است. این عملکرد تصویر به کد ابزار قدرتمندی است که سازندگان آن را در صفحات فرود، سایتهای تجارت الکترونیک و پروژههای مختلف وب دیگر اعمال میکنند.
۸. چند رسانه ای تعاملی
ترکیبی از آپشن های صوتی و بینایی جدید ChatGPT دارای برخی امکانات هیجانانگیز در مورد محتوای چندرسانهای و تعاملی است. یکی از برنامههای کاربردی از ChatGPT برای تولید داستانهای روایتشده، تعاملی یا برنامههای سرگرمی با ترکیبی از متن، تصاویر و صدای صوتی که بهطور خودکار به هم متصل میشوند، استفاده میکند. حتی امکان ایجاد بازی های ویدیویی در ChatGPT وجود دارد.
برای محتوای آموزشی، ChatGPT میتواند دانشآموزان را از طریق ماژولهای یادگیری تعاملی با ترکیبی از متن روی صفحه، توضیحات صوتی مفاهیم، و تصاویر مرتبط ارائه شده توسط هوش مصنوعی راهنمایی کند.
خدمات مشتری حوزه دیگری است که می تواند سودمند باشد. یک دستیار هوش مصنوعی میتواند درخواستهای مشتری را از طریق متن یا ورودی صوتی تفسیر کند، در حالی که عکسها یا ویدیوهای به اشتراک گذاشته شده از مشکلات را نیز تجزیه و تحلیل میکند. سپس هوش مصنوعی میتواند با ترکیبی از گفتار، متن و تصاویر تولید شده متناسب با آپشن های مورد هر مشتری پاسخ دهد.
بسته بندی
به طور خلاصه، ارتقاء چندوجهی OpenAI به کاربران و سازندگان جهشی عظیم در عملکرد ارائه می کند.
چه شما یک تولیدکننده محتوا باشید که به راههای جدید برای طوفان فکری یا داستان سرایی علاقهمند هستید، یا یک جستجوی حرفهای برای اتوماسیون کار کارآمد هستید، این بهروزرسانیها پتانسیل عظیمی را ارائه میدهند.
همانطور که این ویژگی ها به طور گسترده در دسترس قرار می گیرند، به احتمال زیاد نحوه تعامل ما با هوش مصنوعی و استفاده از آنها را در کارهای روزانه و تلاش های خلاقانه به طور قابل توجهی گسترش می دهند.
ارسال نظر