شیشه دوربین های گوشی های هوشمند را با هوش مصنوعی سوپرشارژ می کند - منهای توهم

شیشه دوربین های گوشی های هوشمند را با هوش مصنوعی سوپرشارژ می کند – منهای توهم

شناسهٔ خبر: 449154 - تاریخ: فوریه 8, 2024

دوربین گوشی شما به همان اندازه که سخت‌افزار است، نرم‌افزار است و گلس امیدوار است هر دو را بهبود بخشد. اما در حالی که لنز آنامورفیک وحشی آن به بازار می‌آید، این شرکت (با درآمد 9.3 میلیون دلاری) یک ارتقاء دوربین مبتنی بر هوش مصنوعی منتشر کرد که او میگوید کیفیت تصویر را به شدت بهبود می‌بخشد - بدون هیچ گونه مصنوعات عجیب و غریب در افزایش مقیاس هوش مصنوعی.

GlassAI یک رویکرد کاملاً نرم افزاری برای بهبود تصاویر است، چیزی که آنها را پردازشگر سیگنال تصویر عصبی (ISP) می نامند. ISPها اساساً خروجی حسگر خام را دریافت می کنند - اغلب مسطح، پر سر و صدا و اعوجاج - و آن را به تصاویر واضح و رنگارنگی که می بینیم تبدیل می کنند.

ISP همچنین به طور فزاینده‌ای پیچیده است، همانطور که سازندگان تلفن مانند اپل و گوگل دوست دارند نشان دهند، چندین نوردهی را ترکیب می‌کنند، چهره‌ها را سریع تشخیص می‌دهند و واضح می‌کنند، برای حرکات کوچک تنظیم می‌کنند و غیره. و در حالی که بسیاری از آنها نوعی یادگیری ماشینی یا هوش مصنوعی را شامل می‌شوند، باید مراقب باشند: استفاده از هوش مصنوعی برای تولید جزئیات می‌تواند توهم یا مصنوع ایجاد کند زیرا سیستم سعی می‌کند اطلاعات بصری را در جایی که وجود ندارد ایجاد کند. چنین مدل‌هایی با وضوح فوق‌العاده در جای خود مفید هستند، اما باید به دقت نظارت شوند.

Glass هم یک سیستم دوربین کامل بر اساس یک عنصر جلویی غیر معمول لوزی شکل و هم یک ISP برای پشتیبان گیری از آن می سازد. و در حالی که اولی در حال تلاش برای حضور در بازار با برخی از دستگاه های آینده است، دومی، به نظر می رسد، محصولی است که ارزش فروش را دارد.

تام بیشاپ، مدیر ارشد فناوری و یکی از بنیانگذاران، تام بیشاپ در بیانیه خبری خود توضیح داد: «شبکه‌های بازیابی ما انحرافات نوری و مشکلات حسگر را تصحیح می‌کنند، در حالی که نویز را به‌طور مؤثر حذف می‌کنند، و از خطوط لوله پردازش سیگنال تصویر سنتی در بازیابی بافت خوب بهتر عمل می‌کنند».

انیمیشن مفهومی که روند رفتن از RAW به تصویر پردازش شده با شیشه را نشان می دهد.

کلمه "بازیابی" کلیدی است، زیرا جزئیات به سادگی ایجاد نمی شوند بلکه از تصاویر خام استخراج می شوند . بسته به اینکه پشته دوربین شما از قبل چگونه کار می کند، ممکن است بدانید که برخی از مصنوعات یا زوایای خاص یا الگوهای نویز را می توان به طور قابل اعتماد حل کرد یا حتی از آنها استفاده کرد. یادگیری چگونگی تبدیل این جزئیات ضمنی به جزئیات واقعی - یا ترکیب جزئیات از نوردهی های متعدد - بخش بزرگی از هر پشته عکاسی محاسباتی است. زیو عطار، یکی از بنیانگذاران و مدیر عامل شرکت، می گوید که ISP عصبی آنها بهتر از هر صنعت دیگری است.

او اشاره کرد که حتی اپل نیز پشته تصویر عصبی کاملی ندارد و فقط در شرایط خاصی که نیاز است از آن استفاده می کند و نتایج آنها (به نظر او) عالی نیست. او نمونه ای از ISP عصبی اپل را ارائه داد که متن را به درستی تفسیر نمی کرد، با عملکرد Glass بسیار بهتر:

عکس ارائه شده توسط Ziv Attar که یک آیفون 15 پرو مکس را با بزرگنمایی 5 برابر و نسخه پردازش شده با شیشه تصاویر RAW گوشی را نشان می دهد.

او گفت: "من فکر می کنم منصفانه است که اگر اپل نتوانسته نتایج مناسبی به دست آورد، حل کردن مشکلات سختی است. " «این موضوع کمتر در مورد پشته واقعی است، بلکه بیشتر به نحوه تمرین شما مربوط می شود. ما یک روش بسیار منحصر به فرد برای انجام آن داریم که برای سیستم های لنز آنامورفیک توسعه داده شده است و در هر دوربینی کارآمد است. اساساً، ما آزمایشگاه‌های آموزشی داریم که شامل سیستم‌های رباتیک و سیستم‌های کالیبراسیون نوری می‌شوند که می‌توانند شبکه‌ای را برای توصیف انحراف لنزها به روشی بسیار جامع آموزش دهند و اساساً هرگونه اعوجاج نوری را معکوس کنند.

به عنوان مثال، او یک مطالعه موردی ارائه کرد که در آن DXO دوربین را روی Moto Edge 40 ارزیابی کرد، سپس این کار را دوباره با نصب GlassAI انجام داد. تصاویر پردازش شده با شیشه همگی به وضوح بهبود یافته اند، گاهی اوقات به طور چشمگیری.

اعتبار تصویر: شیشه / DXO

در سطوح کم نور، ISP داخلی برای متمایز کردن خطوط ظریف، بافت‌ها و جزئیات صورت در حالت شب تلاش می‌کند. با استفاده از GlassAI، حتی با نیمی از زمان نوردهی، به اندازه یک چسبندگی تیز است.

دیگر اخبار

گوشی تاشوی وان‌پلاس قبل از معرفی، در دستان هنرپیشه هندی مشاهده شد [تماشا کنید]

می‌توانید با جابه‌جایی بین عکس‌های خام و نهایی، پیکسل‌ها را روی چند عکس آزمایشی که Glass در دسترس دارد، نگاه کنید.

شرکت‌هایی که تلفن‌ها و دوربین‌ها را کنار هم قرار می‌دهند باید زمان زیادی را صرف تنظیم ISP کنند تا حسگر، لنز و سایر قطعات و قطعات به درستی با هم کار کنند تا بهترین تصویر ممکن را ایجاد کنند. با این حال، به نظر می‌رسد که فرآیند یک‌اندازه برای همه گلس ممکن است در کسری از زمان کار بهتری را انجام دهد.

زمانی که ما برای آموزش نرم افزار قابل حمل از زمانی که دست خود را روی نوع جدیدی از دستگاه می گذاریم، طول می کشد... بین چند ساعت تا چند روز متغیر است. به عنوان مرجع، سازندگان تلفن ماه ها را صرف تنظیم کیفیت تصویر با تیم های بزرگ می کنند. عطار گفت: فرآیند ما کاملاً خودکار است، پس می‌توانیم چندین دستگاه را در چند روز پشتیبانی کنیم.

ISP عصبی نیز انتها به انتها است، به این معنی که در این زمینه مستقیماً از حسگر RAW به تصویر نهایی می‌رود و هیچ فرآیند اضافی مانند حذف نویز، شارپ کردن و غیره لازم نیست.

چپ: خام، راست: پردازش شده با شیشه.

وقتی از من پرسیدم، عطار مراقب بود که کارشان را از سرویس‌های هوش مصنوعی با وضوح فوق‌العاده متمایز کند، که یک تصویر تمام‌شده را می‌گیرند و آن را ارتقا می‌دهند. اینها اغلب جزئیات «بازیابی» نیستند، بلکه اختراع آنها در جایی که مناسب به نظر می رسد، فرآیندی است که گاهی اوقات می تواند نتایج نامطلوبی را به همراه داشته باشد. اگرچه Glass از هوش مصنوعی استفاده می کند، اما مانند بسیاری از هوش مصنوعی های مرتبط با تصویر مولد نیست.

امروز، احتمالاً پس از یک دوره آزمایش طولانی با شرکا، در دسترس بودن محصول به طور گسترده نشان می دهد. اگر یک گوشی اندرویدی می سازید، شاید خوب باشد که حداقل آن را امتحان کنید.

بیشتر بخوانید

روزیاتو: ۱۵ اتفاق و سکانس مهم در سریال «بازی تاج و تخت» که با منطق جور در نمی آیند

از نظر سخت‌افزاری، گوشی با دوربین آنامورفیک لوزی شکل عجیب باید منتظر بماند تا سازنده آماده عرضه عمومی شود.

در حالی که Glass فناوری خود را توسعه می دهد و مشتریان را امتحان می کند، همچنین مشغول ترساندن بودجه بوده است. این شرکت به‌تازگی یک «بذر توسعه‌یافته» 9.3 میلیون دلاری را بسته است، که من آن را در مظنه‌ها قرار دادم زیرا دور اولیه آن در سال 2021 بود. بودجه جدید توسط GV، با مشارکت Future Ventures، Abstract Ventures و LDV Capital انجام شد.

خبرکاو