سایت خبرکاو

جستجوگر هوشمند اخبار و مطالب فناوری

این غیرانتفاعی آلمانی در حال ساخت یک دستیار صوتی باز است که همه می توانند از آن استفاده کنند

تلاش‌های زیادی برای دستیارهای صوتی مبتنی بر هوش مصنوعی منبع باز انجام شده است (برای نام بردن از چند مورد، به راسپی، مایکرافت و جاسپر مراجعه کنید) - همه با هدف ایجاد تجارب آفلاین و حفظ حریم خصوصی ایجاد شده‌اند که عملکرد را به خطر نمی‌اندازند. اما ثابت شده است که توسعه فوق العاده کند است. این به این دلیل است که علاوه بر همه چالش‌های معمولی که ...

تلاش‌های زیادی برای دستیارهای صوتی مبتنی بر هوش مصنوعی منبع باز انجام شده است (برای نام بردن از چند مورد، به راسپی، مایکرافت و جاسپر مراجعه کنید) - همه با هدف ایجاد تجارب آفلاین و حفظ حریم خصوصی ایجاد شده‌اند که عملکرد را به خطر نمی‌اندازند. اما ثابت شده است که توسعه فوق العاده کند است. این به این دلیل است که علاوه بر همه چالش‌های معمولی که در پروژه‌های منبع باز وجود دارد، برنامه‌نویسی یک دستیار سخت است. فناوری هایی مانند Google Assistant، Siri و Alexa سال ها، اگر نگوییم دهه ها، تحقیق و توسعه در پشت خود دارند - و زیرساخت های عظیمی برای راه اندازی.

اما این باعث نمی‌شود که افراد شبکه باز هوش مصنوعی در مقیاس بزرگ (LAION)، سازمان غیرانتفاعی آلمانی که مسئول نگهداری برخی از محبوب‌ترین مجموعه‌های داده آموزشی هوش مصنوعی در جهان است، بازدارد. در این ماه، LAION ابتکار جدیدی به نام BUD-E را اعلام کرد که به دنبال ساخت یک دستیار صوتی "کاملا باز" با قابلیت اجرا بر روی سخت افزار مصرف کننده است.

چرا یک پروژه دستیار صوتی کاملاً جدید راه اندازی کنید، در حالی که تعداد بیشماری از آنها در حالت های مختلف رها شده وجود دارد؟ Wieland Brendel، یکی از همکاران موسسه Ellis و یکی از همکاران BUD-E، معتقد است که دستیار باز با معماری به اندازه کافی توسعه یافته وجود ندارد که بتواند از مزایای کامل فناوری های نوظهور GenAI، به ویژه مدل های زبان بزرگ (LLM) در امتداد خطوط استفاده کند. ChatGPT OpenAI.

برندل در یک مصاحبه ایمیلی به TechCrunch گفت: «بیشتر تعاملات با [دستیاران] متکی به رابط‌های چت است که تعامل با آن‌ها نسبتاً دست و پا گیر است، [و] گفتگو با آن سیستم‌ها بی‌حرکت و غیرطبیعی است. «این سیستم‌ها برای انتقال دستورات برای کنترل موسیقی یا روشن کردن نور مناسب هستند، اما مبنایی برای مکالمات طولانی و جذاب نیستند. هدف BUD-E ارائه پایه ای برای دستیار صوتی است که برای انسان احساس طبیعی تری داشته باشد و الگوهای گفتاری طبیعی دیالوگ های انسانی را تقلید کند و مکالمات گذشته را به خاطر بسپارد.

برندل گفت که LAION همچنین می‌خواهد اطمینان حاصل کند که هر مؤلفه BUD-E می‌تواند در نهایت با برنامه‌ها و خدمات بدون مجوز، حتی تجاری، یکپارچه شود - که لزوماً برای سایر تلاش‌های دستیار باز صادق نیست.

همکاری با مؤسسه الیس در توبینگن، شرکت مشاوره فناوری Collabora و مرکز هوش مصنوعی توبینگن، BUD-E - کوتاه‌نویسی بازگشتی برای «رفیق برای درک و همدلی دیجیتال» - یک نقشه راه بلندپروازانه دارد. در یک پست وبلاگ، تیم LAION آنچه را که امیدوار است در چند ماه آینده انجام دهد، ارائه می‌کند، عمدتاً «هوش عاطفی» را در BUD-E ایجاد می‌کند و اطمینان می‌دهد که می‌تواند مکالمه‌هایی را که شامل چندین سخنران به طور همزمان است انجام دهد.

برندل گفت: «نیاز زیادی به یک دستیار صوتی طبیعی کارآمد وجود دارد. LAION در گذشته نشان داده است که در ایجاد جوامع عالی است، و موسسه ELLIS Tübingen و مرکز هوش مصنوعی Tübingen متعهد هستند که منابع را برای توسعه دستیار فراهم کنند.

BUD-E راه‌اندازی و اجرا می‌شود - می‌توانید آن را امروز از GitHub بر روی اوبونتو یا رایانه شخصی ویندوزی (macOS در راه است) دانلود و نصب کنید - اما به وضوح در مراحل اولیه است.

LAION چندین مدل باز را برای مونتاژ یک MVP، از جمله Phi-2 LLM مایکروسافت، StyleTTS2 تبدیل متن به گفتار کلمبیا و FastConformer انویدیا برای گفتار به متن، وصله کرد. به این ترتیب، تجربه کمی بهینه نیست. پاسخگویی BUD-E به دستورات در حدود 500 میلی ثانیه - در محدوده دستیارهای صوتی تجاری مانند Google Assistant و Alexa - به یک GPU قوی مانند RTX 4090 Nvidia نیاز دارد.

Collabora به طور حرفه‌ای کار می‌کند تا تشخیص گفتار منبع باز و مدل‌های تبدیل متن به گفتار، WhisperLive و WhisperSpeech را برای BUD-E تطبیق دهد.

Jakub Piotr Clapa، محقق هوش مصنوعی در Collabora و عضو تیم BUD-E، «ساخت راه‌حل‌های تبدیل متن به گفتار و تشخیص گفتار به این معنی است که می‌توانیم آنها را تا حدی سفارشی کنیم که با مدل‌های بسته که از طریق APIها در معرض نمایش قرار می‌گیرند، امکان‌پذیر نیست». در یک ایمیل گفت. «Colabora در ابتدا شروع به کار بر روی [دستیارهای باز] کرد، زیرا ما در تلاش برای یافتن راه حل مناسب تبدیل متن به گفتار برای یک عامل صوتی مبتنی بر LLM برای یکی از مشتریان خود بودیم. ما تصمیم گرفتیم که با جامعه متن‌باز گسترده‌تر به نیروها بپیوندیم تا مدل‌های خود را به‌طور گسترده‌تر در دسترس و مفیدتر کنیم.»

در کوتاه مدت، LAION او میگوید که برای کاهش سخت‌افزاری مورد نیاز BUD-E و کاهش تأخیر دستیار کار خواهد کرد. یک کار افق طولانی تر، ایجاد مجموعه ای از دیالوگ ها برای تنظیم دقیق BUD-E است - و همچنین مکانیزم حافظه ای که به BUD-E اجازه می دهد اطلاعات مکالمات قبلی را ذخیره کند و یک خط لوله پردازش گفتار که می تواند صحبت کردن چندین نفر را ردیابی کند. فورا.

از آنجایی که سیستم‌های تشخیص گفتار از لحاظ تاریخی با زبان‌هایی که انگلیسی نیستند و لهجه‌هایی که ترانس آتلانتیک نیستند، عملکرد خوبی نداشته‌اند، از تیم پرسیدم که آیا دسترسی یک اولویت است. یک مطالعه استنفورد نشان داد که سیستم‌های تشخیص گفتار از آمازون، آی‌بی‌ام، گوگل، مایکروسافت و اپل تقریبا دو برابر بیشتر احتمال دارد که سخنرانان سیاه‌پوست را در مقایسه با سخنرانان سفیدپوست هم سن و جنس، بد شنیده کنند.

برندل بيان کرد که LAION دسترسی را نادیده نمی گیرد - اما این یک "تمرکز فوری" برای BUD-E نیست.

برندل گفت: «اولین تمرکز بر روی تعریف واقعی تجربه نحوه تعامل ما با دستیارهای صوتی قبل از تعمیم آن تجربه به لهجه ها و زبان های متنوع تر است.

برای این منظور ، LAION ایده های بسیار خوبی برای BUD-E دارد، از یک آواتار متحرک برای شخصیت دادن به دستیار تا پشتیبانی برای تجزیه و تحلیل چهره کاربران از طریق وب کم برای توضیح وضعیت عاطفی آنها.

اصول اخلاقی آن بیت آخر - تجزیه و تحلیل چهره - کمی بی نیاز به گفتن است. اما Robert Kaczmarczyk، یکی از بنیانگذاران LAION، تاکید کرد که LAION به ایمنی متعهد باقی خواهد ماند.

او با اشاره به چارچوب قانونی حاکم بر فروش و استفاده از هوش مصنوعی در اتحادیه اروپا از طریق ایمیل به TechCrunch گفت: «[ما] به شدت به دستورالعمل‌های ایمنی و اخلاقی تدوین‌شده توسط قانون هوش مصنوعی اتحادیه اروپا پایبند هستیم». قانون هوش مصنوعی اتحادیه اروپا به کشورهای عضو اتحادیه اروپا اجازه می دهد تا قوانین و تدابیر محدودکننده تری را برای هوش مصنوعی "پرخطر" از جمله طبقه بندی کننده های احساسات اتخاذ کنند.

کازمارچیک گفت : «این تعهد به شفافیت نه تنها شناسایی و اصلاح زودهنگام سوگیری‌های بالقوه را تسهیل می‌کند، بلکه به یکپارچگی علمی کمک می‌کند». ما با در دسترس قرار دادن مجموعه داده‌های خود، جامعه علمی گسترده‌تری را قادر می‌سازیم تا در تحقیقاتی شرکت کنند که بالاترین استانداردهای تکرارپذیری را حفظ می‌کند.»

کار قبلی LAION از نظر اخلاقی بکر نبوده است و در حال حاضر پروژه جداگانه ای تا حدودی بحث برانگیز را در زمینه تشخیص احساسات دنبال می کند. اما شاید BUD-E متفاوت باشد. باید صبر کنیم و ببینیم

خبرکاو