چرا هوش مصنوعی نمی تواند “توت فرنگی” را بنویسد
حرف "ر" چند بار در کلمه "توت فرنگی" آمده است؟ با توجه به محصولات قدرتمند هوش مصنوعی مانند GPT-4o و Claude، پاسخ دو برابر است.
مدل های زبان بزرگ (LLM) می توانند مقاله بنویسند و معادلات را در چند ثانیه حل کنند. آنها میتوانند ترابایت داده را سریعتر از آنچه انسان میتواند یک کتاب باز کند ترکیب کند. با این حال، این هوش مصنوعیهای به ظاهر دانای کل گاهی اوقات چنان شگفتانگیز شکست میخورند که این اتفاق ناگوار به یک الگوی رفتاری ویروسی تبدیل میشود، و همه ما از این که شاید هنوز زمان وجود داشته باشد تا به اربابان جدید هوش مصنوعی خود تعظیم کنیم، خوشحالیم.
شکست مدلهای زبان بزرگ در درک مفاهیم حروف و هجاها نشاندهنده حقیقت بزرگتری است که ما اغلب آن را فراموش میکنیم: این چیزها مغز ندارند. آنها مثل ما فکر نمی کنند. آنها نه انسان هستند و نه حتی به طور خاص شبیه انسان.
بیشتر LLM ها بر روی ترانسفورماتورها ساخته می شوند که نوعی معماری یادگیری عمیق است. مدلهای ترانسفورماتور متن را به نشانههایی تقسیم میکنند که بسته به مدل میتوانند کلمات، هجاها یا حروف کامل باشند.
LLM ها بر اساس این معماری ترانسفورماتور هستند، که به ویژه در واقع متن را نمی خواند. متیو گوزیال، محقق هوش مصنوعی و استادیار دانشگاه آلبرتا، به TechCrunch گفت: وقتی یک درخواست را وارد میکنید این است که آن را به یک رمزگذاری ترجمه میکنید. "وقتی کلمه "the" را میبیند، رمزگذاری معنای "the" را دارد، اما از "T"، "H" "E" اطلاعی ندارد."
این به این دلیل است که ترانسفورماتورها قادر به دریافت یا خروجی متن واقعی نیستند. در عوض، متن به نمایش های عددی خود تبدیل می شود، که سپس برای کمک به هوش مصنوعی در ارائه یک پاسخ منطقی، متنی می شود. به عبارت دیگر، هوش مصنوعی ممکن است بداند که نشانههای «نی» و «توت» «توت فرنگی» را تشکیل میدهند، اما ممکن است متوجه نشود که «توت فرنگی» از حروف «s»، «t»، «r» تشکیل شده است. «a»، «w»، «b»، «e»، «r»، «r» و «y» به ترتیب خاص. پس ، نمی تواند به شما بگوید که چند حرف - چه رسد به اینکه چند "r" - در کلمه "توت فرنگی" وجود دارد.
رفع این مشکل آسان نیست، زیرا در همان معماری تعبیه شده است که باعث می شود این LLM ها کار کنند.
کایل ویگرز از TechCrunch ماه گذشته به این مشکل پی برد و با شریدان فوخت، دانشجوی دکترا در دانشگاه نورث ایسترن که در حال مطالعه تفسیرپذیری LLM بود صحبت کرد.
دور زدن این سوال که دقیقاً یک کلمه باید برای یک مدل زبان باشد، به نوعی سخت است، و حتی اگر متخصصان انسانی را بر سر یک واژگان کامل به توافق برسانیم، مدلها احتمالاً هنوز هم برای مدلسازی مفید خواهند بود. فوشت به TechCrunch گفت. "حدس من این است که به دلیل این نوع تیرگی، چیزی به نام توکنایزر کامل وجود ندارد."
این مشکل با یادگیری زبان های بیشتری توسط یک LLM پیچیده تر می شود. به عنوان مثال، برخی از روشهای نشانهسازی ممکن است فرض کنند که یک فاصله در یک جمله همیشه قبل از یک کلمه جدید قرار میگیرد، اما بسیاری از زبانها مانند چینی، ژاپنی، تایلندی، لائوسی، کرهای، خمر و دیگران از فاصله برای جدا کردن کلمات استفاده نمیکنند. ینی جون، محقق هوش مصنوعی Google DeepMind، در مطالعهای در سال 2023 دریافت که برخی از زبانها به 10 برابر بیشتر از زبان انگلیسی برای برقراری ارتباط یکسان به نشانه نیاز دارند.
Feucht گفت: «احتمالاً بهتر است که مدلها بدون اعمال توکنسازی مستقیماً به کاراکترها نگاه کنند، اما در حال حاضر این فقط از نظر محاسباتی برای ترانسفورماتورها غیرممکن است.
مولدهای تصویر مانند Midjourney و DALL-E از معماری ترانسفورماتور که در زیر هود مولدهای متنی مانند ChatGPT قرار دارد استفاده نمی کنند. در عوض، مولدهای تصویر معمولاً از مدلهای انتشار استفاده میکنند که تصویر را از نویز بازسازی میکنند. مدلهای انتشار بر روی پایگاه دادههای بزرگ تصاویر آموزش داده میشوند، و آنها انگیزه دارند تا چیزی شبیه آنچه را که از دادههای آموزشی آموختهاند، دوباره ایجاد کنند.
Asmelash Teka Hadgu، یکی از بنیانگذاران Lesan و یکی از همکاران موسسه DAIR، به TechCrunch گفت: «تصویر مولدها روی مصنوعاتی مانند ماشینها و صورت افراد بسیار بهتر عمل میکنند و در موارد کوچکتر مانند انگشتان دست و دستخط عملکرد کمتری دارند.»
این ممکن است به این دلیل باشد که این جزئیات کوچکتر اغلب در مجموعههای آموزشی بهاندازه مفاهیمی مانند اینکه درختها معمولاً برگهای سبز دارند ظاهر نمیشوند. با این حال، مشکلات مدلهای انتشار ممکن است آسانتر از مشکلاتی که ترانسفورماتورها را آزار میدهند، برطرف شوند. برخی از مولدهای تصویر در نمایش دست ها بهبود یافته اند، به عنوان مثال، با آموزش تصاویر بیشتر از دست های واقعی و انسان.
گوزیال توضیح داد: «حتی همین سال گذشته، همه این مدلها واقعاً از نظر انگشتان بد بودند و این دقیقاً همان مشکل متن است. "آنها به صورت محلی در این کار بسیار خوب می شوند، پس اگر به دستی با شش یا هفت انگشت روی آن نگاه کنید، می توانید بگویید: "اوه وای، این شبیه یک انگشت است. " به طور مشابه، با متن تولید شده، میتوانید بگویید که به نظر میرسد «H» و شبیه یک «P» است، اما آنها واقعاً در ساختاربندی کل این چیزها با هم بد هستند.
به همین دلیل است که اگر از یک تولیدکننده تصویر هوش مصنوعی بخواهید یک منو برای یک رستوران مکزیکی ایجاد کند، ممکن است آیتم های معمولی مانند «Tacos» را دریافت کنید، اما به احتمال زیاد پیشنهادهایی مانند «Tamilos»، «Enchidaa» و «Burhiltos» را خواهید یافت. "
از آنجایی که این یادداشت ها درباره املای "توت فرنگی" در اینترنت پخش می شود، OpenAI در حال کار بر روی یک محصول جدید هوش مصنوعی با نام رمز توت فرنگی است که قرار است حتی در استدلال مهارت بیشتری داشته باشد. رشد LLM با این واقعیت محدود شده است که داده های آموزشی کافی در جهان برای دقیق تر کردن محصولاتی مانند ChatGPT وجود ندارد. اما طبق گزارشها، Strawberry میتواند دادههای مصنوعی دقیق تولید کند تا LLMهای OpenAI را حتی بهتر کند. طبق اطلاعات، توت فرنگی می تواند پازل های کلمه Connections نیویورک تایمز را حل کند، که برای حل آنها نیاز به تفکر خلاق و تشخیص الگو دارد و می تواند معادلات ریاضی را حل کند که قبلاً ندیده است.
در همین حال، Google DeepMind اخیرا از سیستمهای هوش مصنوعی AlphaProof و AlphaGeometry 2 که برای استدلال ریاضی رسمی طراحی شدهاند، رونمایی کرد. گوگل او میگوید این دو سیستم چهار مشکل از شش مشکل المپیاد بینالمللی ریاضی را حل کردهاند که عملکرد کافی برای کسب مدال نقره در این رقابتهای معتبر خواهد بود.
این که همزمان با گزارشهایی درباره توت فرنگی OpenAI منتشر میشود، میمهایی درباره ناتوانی هوش مصنوعی در املای «توت فرنگی» کمی ترسناک است. اما سام آلتمن، مدیر عامل OpenAI، از فرصت استفاده کرد و به ما نشان داد که محصول توت بسیار چشمگیری در باغ خود دارد.
ارسال نظر