این غیرانتفاعی آلمانی در حال ساخت یک دستیار صوتی باز است که همه می توانند از آن استفاده کنند
تلاشهای زیادی برای دستیارهای صوتی مبتنی بر هوش مصنوعی منبع باز انجام شده است (برای نام بردن از چند مورد، به راسپی، مایکرافت و جاسپر مراجعه کنید) - همه با هدف ایجاد تجارب آفلاین و حفظ حریم خصوصی ایجاد شدهاند که عملکرد را به خطر نمیاندازند. اما ثابت شده است که توسعه فوق العاده کند است. این به این دلیل است که علاوه بر همه چالشهای معمولی که در پروژههای منبع باز وجود دارد، برنامهنویسی یک دستیار سخت است. فناوری هایی مانند Google Assistant، Siri و Alexa سال ها، اگر نگوییم دهه ها، تحقیق و توسعه در پشت خود دارند - و زیرساخت های عظیمی برای راه اندازی.
اما این باعث نمیشود که افراد شبکه باز هوش مصنوعی در مقیاس بزرگ (LAION)، سازمان غیرانتفاعی آلمانی که مسئول نگهداری برخی از محبوبترین مجموعههای داده آموزشی هوش مصنوعی در جهان است، بازدارد. در این ماه، LAION ابتکار جدیدی به نام BUD-E را اعلام کرد که به دنبال ساخت یک دستیار صوتی "کاملا باز" با قابلیت اجرا بر روی سخت افزار مصرف کننده است.
چرا یک پروژه دستیار صوتی کاملاً جدید راه اندازی کنید، در حالی که تعداد بیشماری از آنها در حالت های مختلف رها شده وجود دارد؟ Wieland Brendel، یکی از همکاران موسسه Ellis و یکی از همکاران BUD-E، معتقد است که دستیار باز با معماری به اندازه کافی توسعه یافته وجود ندارد که بتواند از مزایای کامل فناوری های نوظهور GenAI، به ویژه مدل های زبان بزرگ (LLM) در امتداد خطوط استفاده کند. ChatGPT OpenAI.
برندل در یک مصاحبه ایمیلی به TechCrunch گفت: «بیشتر تعاملات با [دستیاران] متکی به رابطهای چت است که تعامل با آنها نسبتاً دست و پا گیر است، [و] گفتگو با آن سیستمها بیحرکت و غیرطبیعی است. «این سیستمها برای انتقال دستورات برای کنترل موسیقی یا روشن کردن نور مناسب هستند، اما مبنایی برای مکالمات طولانی و جذاب نیستند. هدف BUD-E ارائه پایه ای برای دستیار صوتی است که برای انسان احساس طبیعی تری داشته باشد و الگوهای گفتاری طبیعی دیالوگ های انسانی را تقلید کند و مکالمات گذشته را به خاطر بسپارد.
برندل گفت که LAION همچنین میخواهد اطمینان حاصل کند که هر مؤلفه BUD-E میتواند در نهایت با برنامهها و خدمات بدون مجوز، حتی تجاری، یکپارچه شود - که لزوماً برای سایر تلاشهای دستیار باز صادق نیست.
همکاری با مؤسسه الیس در توبینگن، شرکت مشاوره فناوری Collabora و مرکز هوش مصنوعی توبینگن، BUD-E - کوتاهنویسی بازگشتی برای «رفیق برای درک و همدلی دیجیتال» - یک نقشه راه بلندپروازانه دارد. در یک پست وبلاگ، تیم LAION آنچه را که امیدوار است در چند ماه آینده انجام دهد، ارائه میکند، عمدتاً «هوش عاطفی» را در BUD-E ایجاد میکند و اطمینان میدهد که میتواند مکالمههایی را که شامل چندین سخنران به طور همزمان است انجام دهد.
برندل گفت: «نیاز زیادی به یک دستیار صوتی طبیعی کارآمد وجود دارد. LAION در گذشته نشان داده است که در ایجاد جوامع عالی است، و موسسه ELLIS Tübingen و مرکز هوش مصنوعی Tübingen متعهد هستند که منابع را برای توسعه دستیار فراهم کنند.
BUD-E راهاندازی و اجرا میشود - میتوانید آن را امروز از GitHub بر روی اوبونتو یا رایانه شخصی ویندوزی (macOS در راه است) دانلود و نصب کنید - اما به وضوح در مراحل اولیه است.
LAION چندین مدل باز را برای مونتاژ یک MVP، از جمله Phi-2 LLM مایکروسافت، StyleTTS2 تبدیل متن به گفتار کلمبیا و FastConformer انویدیا برای گفتار به متن، وصله کرد. به این ترتیب، تجربه کمی بهینه نیست. پاسخگویی BUD-E به دستورات در حدود 500 میلی ثانیه - در محدوده دستیارهای صوتی تجاری مانند Google Assistant و Alexa - به یک GPU قوی مانند RTX 4090 Nvidia نیاز دارد.
Collabora به طور حرفهای کار میکند تا تشخیص گفتار منبع باز و مدلهای تبدیل متن به گفتار، WhisperLive و WhisperSpeech را برای BUD-E تطبیق دهد.
Jakub Piotr Clapa، محقق هوش مصنوعی در Collabora و عضو تیم BUD-E، «ساخت راهحلهای تبدیل متن به گفتار و تشخیص گفتار به این معنی است که میتوانیم آنها را تا حدی سفارشی کنیم که با مدلهای بسته که از طریق APIها در معرض نمایش قرار میگیرند، امکانپذیر نیست». در یک ایمیل گفت. «Colabora در ابتدا شروع به کار بر روی [دستیارهای باز] کرد، زیرا ما در تلاش برای یافتن راه حل مناسب تبدیل متن به گفتار برای یک عامل صوتی مبتنی بر LLM برای یکی از مشتریان خود بودیم. ما تصمیم گرفتیم که با جامعه متنباز گستردهتر به نیروها بپیوندیم تا مدلهای خود را بهطور گستردهتر در دسترس و مفیدتر کنیم.»
در کوتاه مدت، LAION او میگوید که برای کاهش سختافزاری مورد نیاز BUD-E و کاهش تأخیر دستیار کار خواهد کرد. یک کار افق طولانی تر، ایجاد مجموعه ای از دیالوگ ها برای تنظیم دقیق BUD-E است - و همچنین مکانیزم حافظه ای که به BUD-E اجازه می دهد اطلاعات مکالمات قبلی را ذخیره کند و یک خط لوله پردازش گفتار که می تواند صحبت کردن چندین نفر را ردیابی کند. فورا.
از آنجایی که سیستمهای تشخیص گفتار از لحاظ تاریخی با زبانهایی که انگلیسی نیستند و لهجههایی که ترانس آتلانتیک نیستند، عملکرد خوبی نداشتهاند، از تیم پرسیدم که آیا دسترسی یک اولویت است. یک مطالعه استنفورد نشان داد که سیستمهای تشخیص گفتار از آمازون، آیبیام، گوگل، مایکروسافت و اپل تقریبا دو برابر بیشتر احتمال دارد که سخنرانان سیاهپوست را در مقایسه با سخنرانان سفیدپوست هم سن و جنس، بد شنیده کنند.
برندل بيان کرد که LAION دسترسی را نادیده نمی گیرد - اما این یک "تمرکز فوری" برای BUD-E نیست.
برندل گفت: «اولین تمرکز بر روی تعریف واقعی تجربه نحوه تعامل ما با دستیارهای صوتی قبل از تعمیم آن تجربه به لهجه ها و زبان های متنوع تر است.
برای این منظور ، LAION ایده های بسیار خوبی برای BUD-E دارد، از یک آواتار متحرک برای شخصیت دادن به دستیار تا پشتیبانی برای تجزیه و تحلیل چهره کاربران از طریق وب کم برای توضیح وضعیت عاطفی آنها.
اصول اخلاقی آن بیت آخر - تجزیه و تحلیل چهره - کمی بی نیاز به گفتن است. اما Robert Kaczmarczyk، یکی از بنیانگذاران LAION، تاکید کرد که LAION به ایمنی متعهد باقی خواهد ماند.
او با اشاره به چارچوب قانونی حاکم بر فروش و استفاده از هوش مصنوعی در اتحادیه اروپا از طریق ایمیل به TechCrunch گفت: «[ما] به شدت به دستورالعملهای ایمنی و اخلاقی تدوینشده توسط قانون هوش مصنوعی اتحادیه اروپا پایبند هستیم». قانون هوش مصنوعی اتحادیه اروپا به کشورهای عضو اتحادیه اروپا اجازه می دهد تا قوانین و تدابیر محدودکننده تری را برای هوش مصنوعی "پرخطر" از جمله طبقه بندی کننده های احساسات اتخاذ کنند.
کازمارچیک گفت : «این تعهد به شفافیت نه تنها شناسایی و اصلاح زودهنگام سوگیریهای بالقوه را تسهیل میکند، بلکه به یکپارچگی علمی کمک میکند». ما با در دسترس قرار دادن مجموعه دادههای خود، جامعه علمی گستردهتری را قادر میسازیم تا در تحقیقاتی شرکت کنند که بالاترین استانداردهای تکرارپذیری را حفظ میکند.»
کار قبلی LAION از نظر اخلاقی بکر نبوده است و در حال حاضر پروژه جداگانه ای تا حدودی بحث برانگیز را در زمینه تشخیص احساسات دنبال می کند. اما شاید BUD-E متفاوت باشد. باید صبر کنیم و ببینیم
ارسال نظر