متن خبر

چرا هوش مصنوعی نمی تواند “توت فرنگی” را بنویسد

چرا هوش مصنوعی نمی تواند “توت فرنگی” را بنویسد

شناسهٔ خبر: 715970 -




حرف "ر" چند بار در کلمه "توت فرنگی" آمده است؟ با توجه به محصولات قدرتمند هوش مصنوعی مانند GPT-4o و Claude، پاسخ دو برابر است.

مدل های زبان بزرگ (LLM) می توانند مقاله بنویسند و معادلات را در چند ثانیه حل کنند. آن‌ها می‌توانند ترابایت داده را سریع‌تر از آنچه انسان می‌تواند یک کتاب باز کند ترکیب کند. با این حال، این هوش مصنوعی‌های به ظاهر دانای کل گاهی اوقات چنان شگفت‌انگیز شکست می‌خورند که این اتفاق ناگوار به یک الگوی رفتاری ویروسی تبدیل می‌شود، و همه ما از این که شاید هنوز زمان وجود داشته باشد تا به اربابان جدید هوش مصنوعی خود تعظیم کنیم، خوشحالیم.

شکست مدل‌های زبان بزرگ در درک مفاهیم حروف و هجاها نشان‌دهنده حقیقت بزرگ‌تری است که ما اغلب آن را فراموش می‌کنیم: این چیزها مغز ندارند. آنها مثل ما فکر نمی کنند. آنها نه انسان هستند و نه حتی به طور خاص شبیه انسان.

بیشتر LLM ها بر روی ترانسفورماتورها ساخته می شوند که نوعی معماری یادگیری عمیق است. مدل‌های ترانسفورماتور متن را به نشانه‌هایی تقسیم می‌کنند که بسته به مدل می‌توانند کلمات، هجاها یا حروف کامل باشند.

LLM ها بر اساس این معماری ترانسفورماتور هستند، که به ویژه در واقع متن را نمی خواند. متیو گوزیال، محقق هوش مصنوعی و استادیار دانشگاه آلبرتا، به TechCrunch گفت: وقتی یک درخواست را وارد می‌کنید این است که آن را به یک رمزگذاری ترجمه می‌کنید. "وقتی کلمه "the" را می‌بیند، رمزگذاری معنای "the" را دارد، اما از "T"، "H" "E" اطلاعی ندارد."

این به این دلیل است که ترانسفورماتورها قادر به دریافت یا خروجی متن واقعی نیستند. در عوض، متن به نمایش های عددی خود تبدیل می شود، که سپس برای کمک به هوش مصنوعی در ارائه یک پاسخ منطقی، متنی می شود. به عبارت دیگر، هوش مصنوعی ممکن است بداند که نشانه‌های «نی» و «توت» «توت فرنگی» را تشکیل می‌دهند، اما ممکن است متوجه نشود که «توت فرنگی» از حروف «s»، «t»، «r» تشکیل شده است. «a»، «w»، «b»، «e»، «r»، «r» و «y» به ترتیب خاص. پس ، نمی تواند به شما بگوید که چند حرف - چه رسد به اینکه چند "r" - در کلمه "توت فرنگی" وجود دارد.

رفع این مشکل آسان نیست، زیرا در همان معماری تعبیه شده است که باعث می شود این LLM ها کار کنند.

کایل ویگرز از TechCrunch ماه گذشته به این مشکل پی برد و با شریدان فوخت، دانشجوی دکترا در دانشگاه نورث ایسترن که در حال مطالعه تفسیرپذیری LLM بود صحبت کرد.

دور زدن این سوال که دقیقاً یک کلمه باید برای یک مدل زبان باشد، به نوعی سخت است، و حتی اگر متخصصان انسانی را بر سر یک واژگان کامل به توافق برسانیم، مدل‌ها احتمالاً هنوز هم برای مدل‌سازی مفید خواهند بود. فوشت به TechCrunch گفت. "حدس من این است که به دلیل این نوع تیرگی، چیزی به نام توکنایزر کامل وجود ندارد."

این مشکل با یادگیری زبان های بیشتری توسط یک LLM پیچیده تر می شود. به عنوان مثال، برخی از روش‌های نشانه‌سازی ممکن است فرض کنند که یک فاصله در یک جمله همیشه قبل از یک کلمه جدید قرار می‌گیرد، اما بسیاری از زبان‌ها مانند چینی، ژاپنی، تایلندی، لائوسی، کره‌ای، خمر و دیگران از فاصله برای جدا کردن کلمات استفاده نمی‌کنند. ینی جون، محقق هوش مصنوعی Google DeepMind، در مطالعه‌ای در سال 2023 دریافت که برخی از زبان‌ها به 10 برابر بیشتر از زبان انگلیسی برای برقراری ارتباط یکسان به نشانه نیاز دارند.

Feucht گفت: «احتمالاً بهتر است که مدل‌ها بدون اعمال توکن‌سازی مستقیماً به کاراکترها نگاه کنند، اما در حال حاضر این فقط از نظر محاسباتی برای ترانسفورماتورها غیرممکن است.

مولدهای تصویر مانند Midjourney و DALL-E از معماری ترانسفورماتور که در زیر هود مولدهای متنی مانند ChatGPT قرار دارد استفاده نمی کنند. در عوض، مولدهای تصویر معمولاً از مدل‌های انتشار استفاده می‌کنند که تصویر را از نویز بازسازی می‌کنند. مدل‌های انتشار بر روی پایگاه داده‌های بزرگ تصاویر آموزش داده می‌شوند، و آنها انگیزه دارند تا چیزی شبیه آنچه را که از داده‌های آموزشی آموخته‌اند، دوباره ایجاد کنند.

اعتبار تصویر: Adobe Firefly

Asmelash Teka Hadgu، یکی از بنیانگذاران Lesan و یکی از همکاران موسسه DAIR، به TechCrunch گفت: «تصویر مولدها روی مصنوعاتی مانند ماشین‌ها و صورت افراد بسیار بهتر عمل می‌کنند و در موارد کوچک‌تر مانند انگشتان دست و دست‌خط عملکرد کمتری دارند.»

این ممکن است به این دلیل باشد که این جزئیات کوچک‌تر اغلب در مجموعه‌های آموزشی به‌اندازه مفاهیمی مانند اینکه درخت‌ها معمولاً برگ‌های سبز دارند ظاهر نمی‌شوند. با این حال، مشکلات مدل‌های انتشار ممکن است آسان‌تر از مشکلاتی که ترانسفورماتورها را آزار می‌دهند، برطرف شوند. برخی از مولدهای تصویر در نمایش دست ها بهبود یافته اند، به عنوان مثال، با آموزش تصاویر بیشتر از دست های واقعی و انسان.

گوزیال توضیح داد: «حتی همین سال گذشته، همه این مدل‌ها واقعاً از نظر انگشتان بد بودند و این دقیقاً همان مشکل متن است. "آنها به صورت محلی در این کار بسیار خوب می شوند، پس اگر به دستی با شش یا هفت انگشت روی آن نگاه کنید، می توانید بگویید: "اوه وای، این شبیه یک انگشت است. " به طور مشابه، با متن تولید شده، می‌توانید بگویید که به نظر می‌رسد «H» و شبیه یک «P» است، اما آنها واقعاً در ساختاربندی کل این چیزها با هم بد هستند.

اعتبار تصویر: Microsoft Designer (DALL-E 3)

به همین دلیل است که اگر از یک تولیدکننده تصویر هوش مصنوعی بخواهید یک منو برای یک رستوران مکزیکی ایجاد کند، ممکن است آیتم های معمولی مانند «Tacos» را دریافت کنید، اما به احتمال زیاد پیشنهادهایی مانند «Tamilos»، «Enchidaa» و «Burhiltos» را خواهید یافت. "

از آنجایی که این یادداشت ها درباره املای "توت فرنگی" در اینترنت پخش می شود، OpenAI در حال کار بر روی یک محصول جدید هوش مصنوعی با نام رمز توت فرنگی است که قرار است حتی در استدلال مهارت بیشتری داشته باشد. رشد LLM با این واقعیت محدود شده است که داده های آموزشی کافی در جهان برای دقیق تر کردن محصولاتی مانند ChatGPT وجود ندارد. اما طبق گزارش‌ها، Strawberry می‌تواند داده‌های مصنوعی دقیق تولید کند تا LLM‌های OpenAI را حتی بهتر کند. طبق اطلاعات، توت فرنگی می تواند پازل های کلمه Connections نیویورک تایمز را حل کند، که برای حل آنها نیاز به تفکر خلاق و تشخیص الگو دارد و می تواند معادلات ریاضی را حل کند که قبلاً ندیده است.

در همین حال، Google DeepMind اخیرا از سیستم‌های هوش مصنوعی AlphaProof و AlphaGeometry 2 که برای استدلال ریاضی رسمی طراحی شده‌اند، رونمایی کرد. گوگل او میگوید این دو سیستم چهار مشکل از شش مشکل المپیاد بین‌المللی ریاضی را حل کرده‌اند که عملکرد کافی برای کسب مدال نقره در این رقابت‌های معتبر خواهد بود.

این که همزمان با گزارش‌هایی درباره توت فرنگی OpenAI منتشر می‌شود، میم‌هایی درباره ناتوانی هوش مصنوعی در املای «توت فرنگی» کمی ترسناک است. اما سام آلتمن، مدیر عامل OpenAI، از فرصت استفاده کرد و به ما نشان داد که محصول توت بسیار چشمگیری در باغ خود دارد.

خبرکاو

ارسال نظر




تبليغات ايهنا تبليغات ايهنا

تمامی حقوق مادی و معنوی این سایت متعلق به خبرکاو است و استفاده از مطالب با ذکر منبع بلامانع است