شیشه دوربین های گوشی های هوشمند را با هوش مصنوعی سوپرشارژ می کند – منهای توهم
دوربین گوشی شما به همان اندازه که سختافزار است، نرمافزار است و گلس امیدوار است هر دو را بهبود بخشد. اما در حالی که لنز آنامورفیک وحشی آن به بازار میآید، این شرکت (با درآمد 9.3 میلیون دلاری) یک ارتقاء دوربین مبتنی بر هوش مصنوعی منتشر کرد که او میگوید کیفیت تصویر را به شدت بهبود میبخشد - بدون هیچ گونه مصنوعات عجیب و غریب در افزایش مقیاس هوش مصنوعی.
GlassAI یک رویکرد کاملاً نرم افزاری برای بهبود تصاویر است، چیزی که آنها را پردازشگر سیگنال تصویر عصبی (ISP) می نامند. ISPها اساساً خروجی حسگر خام را دریافت می کنند - اغلب مسطح، پر سر و صدا و اعوجاج - و آن را به تصاویر واضح و رنگارنگی که می بینیم تبدیل می کنند.
ISP همچنین به طور فزایندهای پیچیده است، همانطور که سازندگان تلفن مانند اپل و گوگل دوست دارند نشان دهند، چندین نوردهی را ترکیب میکنند، چهرهها را سریع تشخیص میدهند و واضح میکنند، برای حرکات کوچک تنظیم میکنند و غیره. و در حالی که بسیاری از آنها نوعی یادگیری ماشینی یا هوش مصنوعی را شامل میشوند، باید مراقب باشند: استفاده از هوش مصنوعی برای تولید جزئیات میتواند توهم یا مصنوع ایجاد کند زیرا سیستم سعی میکند اطلاعات بصری را در جایی که وجود ندارد ایجاد کند. چنین مدلهایی با وضوح فوقالعاده در جای خود مفید هستند، اما باید به دقت نظارت شوند.
Glass هم یک سیستم دوربین کامل بر اساس یک عنصر جلویی غیر معمول لوزی شکل و هم یک ISP برای پشتیبان گیری از آن می سازد. و در حالی که اولی در حال تلاش برای حضور در بازار با برخی از دستگاه های آینده است، دومی، به نظر می رسد، محصولی است که ارزش فروش را دارد.
تام بیشاپ، مدیر ارشد فناوری و یکی از بنیانگذاران، تام بیشاپ در بیانیه خبری خود توضیح داد: «شبکههای بازیابی ما انحرافات نوری و مشکلات حسگر را تصحیح میکنند، در حالی که نویز را بهطور مؤثر حذف میکنند، و از خطوط لوله پردازش سیگنال تصویر سنتی در بازیابی بافت خوب بهتر عمل میکنند».
کلمه "بازیابی" کلیدی است، زیرا جزئیات به سادگی ایجاد نمی شوند بلکه از تصاویر خام استخراج می شوند . بسته به اینکه پشته دوربین شما از قبل چگونه کار می کند، ممکن است بدانید که برخی از مصنوعات یا زوایای خاص یا الگوهای نویز را می توان به طور قابل اعتماد حل کرد یا حتی از آنها استفاده کرد. یادگیری چگونگی تبدیل این جزئیات ضمنی به جزئیات واقعی - یا ترکیب جزئیات از نوردهی های متعدد - بخش بزرگی از هر پشته عکاسی محاسباتی است. زیو عطار، یکی از بنیانگذاران و مدیر عامل شرکت، می گوید که ISP عصبی آنها بهتر از هر صنعت دیگری است.
او اشاره کرد که حتی اپل نیز پشته تصویر عصبی کاملی ندارد و فقط در شرایط خاصی که نیاز است از آن استفاده می کند و نتایج آنها (به نظر او) عالی نیست. او نمونه ای از ISP عصبی اپل را ارائه داد که متن را به درستی تفسیر نمی کرد، با عملکرد Glass بسیار بهتر:
او گفت: "من فکر می کنم منصفانه است که اگر اپل نتوانسته نتایج مناسبی به دست آورد، حل کردن مشکلات سختی است. " «این موضوع کمتر در مورد پشته واقعی است، بلکه بیشتر به نحوه تمرین شما مربوط می شود. ما یک روش بسیار منحصر به فرد برای انجام آن داریم که برای سیستم های لنز آنامورفیک توسعه داده شده است و در هر دوربینی کارآمد است. اساساً، ما آزمایشگاههای آموزشی داریم که شامل سیستمهای رباتیک و سیستمهای کالیبراسیون نوری میشوند که میتوانند شبکهای را برای توصیف انحراف لنزها به روشی بسیار جامع آموزش دهند و اساساً هرگونه اعوجاج نوری را معکوس کنند.
به عنوان مثال، او یک مطالعه موردی ارائه کرد که در آن DXO دوربین را روی Moto Edge 40 ارزیابی کرد، سپس این کار را دوباره با نصب GlassAI انجام داد. تصاویر پردازش شده با شیشه همگی به وضوح بهبود یافته اند، گاهی اوقات به طور چشمگیری.
در سطوح کم نور، ISP داخلی برای متمایز کردن خطوط ظریف، بافتها و جزئیات صورت در حالت شب تلاش میکند. با استفاده از GlassAI، حتی با نیمی از زمان نوردهی، به اندازه یک چسبندگی تیز است.
میتوانید با جابهجایی بین عکسهای خام و نهایی، پیکسلها را روی چند عکس آزمایشی که Glass در دسترس دارد، نگاه کنید.
شرکتهایی که تلفنها و دوربینها را کنار هم قرار میدهند باید زمان زیادی را صرف تنظیم ISP کنند تا حسگر، لنز و سایر قطعات و قطعات به درستی با هم کار کنند تا بهترین تصویر ممکن را ایجاد کنند. با این حال، به نظر میرسد که فرآیند یکاندازه برای همه گلس ممکن است در کسری از زمان کار بهتری را انجام دهد.
زمانی که ما برای آموزش نرم افزار قابل حمل از زمانی که دست خود را روی نوع جدیدی از دستگاه می گذاریم، طول می کشد... بین چند ساعت تا چند روز متغیر است. به عنوان مرجع، سازندگان تلفن ماه ها را صرف تنظیم کیفیت تصویر با تیم های بزرگ می کنند. عطار گفت: فرآیند ما کاملاً خودکار است، پس میتوانیم چندین دستگاه را در چند روز پشتیبانی کنیم.
ISP عصبی نیز انتها به انتها است، به این معنی که در این زمینه مستقیماً از حسگر RAW به تصویر نهایی میرود و هیچ فرآیند اضافی مانند حذف نویز، شارپ کردن و غیره لازم نیست.
وقتی از من پرسیدم، عطار مراقب بود که کارشان را از سرویسهای هوش مصنوعی با وضوح فوقالعاده متمایز کند، که یک تصویر تمامشده را میگیرند و آن را ارتقا میدهند. اینها اغلب جزئیات «بازیابی» نیستند، بلکه اختراع آنها در جایی که مناسب به نظر می رسد، فرآیندی است که گاهی اوقات می تواند نتایج نامطلوبی را به همراه داشته باشد. اگرچه Glass از هوش مصنوعی استفاده می کند، اما مانند بسیاری از هوش مصنوعی های مرتبط با تصویر مولد نیست.
امروز، احتمالاً پس از یک دوره آزمایش طولانی با شرکا، در دسترس بودن محصول به طور گسترده نشان می دهد. اگر یک گوشی اندرویدی می سازید، شاید خوب باشد که حداقل آن را امتحان کنید.
از نظر سختافزاری، گوشی با دوربین آنامورفیک لوزی شکل عجیب باید منتظر بماند تا سازنده آماده عرضه عمومی شود.
در حالی که Glass فناوری خود را توسعه می دهد و مشتریان را امتحان می کند، همچنین مشغول ترساندن بودجه بوده است. این شرکت بهتازگی یک «بذر توسعهیافته» 9.3 میلیون دلاری را بسته است، که من آن را در مظنهها قرار دادم زیرا دور اولیه آن در سال 2021 بود. بودجه جدید توسط GV، با مشارکت Future Ventures، Abstract Ventures و LDV Capital انجام شد.
ارسال نظر