تینا مزدکی: سیستم بینایی ما انسان ها به گونه ای تکامل یافته است که اشیاء را با رنگ های ثابت در ذهن ما ثبت می کند. بنابراین چه طلوع خورشید باشد و چه زمانی که هوا تاریک است، حتی اگر برگ ها رنگ های مختلفی را منعکس کنند، باز هم برگ ها را سبز می بینید. چنین سازگاری در مغز ما باعث می شود رنگ های کاذب و در نتیجه خطای دید را ببینیم. در آزمایشی، محققان GPT-V4 (آخرین نسخه ChatGPT) را در معرض نوعی فریب بصری قرار دادند که باعث ایجاد خطاهای بینایی در افراد می شود. پاسخ های این ربات اغلب با پاسخ های احتمالی افراد مطابقت داشت.
از آنجایی که دانشمندان GPT را با تصویری که دارای خطای دید رنگی بود آزمایش کردند، در ابتدا فکر کردند که ربات ممکن است داده های تصویر را پردازش کند و با حذف بخشی از آن به پاسخ برسد. اما طبق گفته OpenAI، ChatGPT دمای رنگ یا سایر ویژگیهای تصویر را قبل از تفسیر GPT-V4 تنظیم نمیکند. بنابراین محقق این آزمایش بر این باور است که این امکان برای ربات وجود دارد که زبان بصری را بیاموزد و رنگ را در متن تفسیر کند، اشیاء موجود در تصویر را در مقایسه با یکدیگر ارزیابی کند و پیکسل ها را بر اساس آن شبیه آنچه مغز انسان انجام می دهد. انجام می دهد، ارزیابی می کند.
محقق دیگری که با این نظر موافق است، توضیح می دهد که این مدل می تواند مانند انسان رنگ ها را به صورت متنی یاد بگیرد، یک شی را شناسایی کند و برای ظاهر این شی پاسخی داشته باشد. به عنوان مثال، در مورد لباسی که چند سال پیش در فضای مجازی مورد بحث قرار گرفت، دانشمندان فکر میکنند که افراد مختلف رنگها را بر اساس فرضیات خود در مورد منبع نوری که رنگ پارچه را قابل مشاهده میکند، به دو روش متفاوت تفسیر میکنند.
او میگوید این واقعیت که مدل هوش مصنوعی میتواند تصاویر را به روشی مشابه ما تفسیر کند، به ما کمک میکند بفهمیم چگونه هوش مصنوعی مجموعهای از مهارتهای مشابه را توسعه میدهد. به عبارت سادهتر، اگر الگوریتمی که با دادههای آموزشی زیادی تغذیه میشود، شروع به تفسیر ذهنی رنگها کند، به این معنی است که ادراک انسان و ماشین ممکن است حداقل در این مورد نزدیک باشد.
با این حال، همانطور که مطالعات اخیر نشان می دهد، این مدل ها در موارد دیگر اصلاً مانند ما رفتار نمی کنند. این واقعیتی است که تفاوتهای کلیدی بین نحوه «دیدن» جهان توسط مردم و ماشینها را برجسته میکند. برخی از محققان دریافته اند که مدل های ترانسفورماتور توسعه یافته زبان بصری جدید به توهمات متناقض پاسخ می دهند. گاهی اوقات آنها مانند انسان پاسخ می دهند. در موارد دیگر پاسخ های کاملاً منطقی و عینی دقیقی ارائه می دهند. اما گاهی اوقات پاسخ آنها به گونه ای است که گویی نتیجه توهم است.
انگیزه پشت چنین مطالعاتی این نیست که ثابت کنیم انسان و هوش مصنوعی شبیه هم هستند. تفاوت اصلی بین آنها این است که مغز ما پر از اتصالات غیر خطی و حلقه های بازخوردی است که سیگنال ها را به عقب و جلو می فرستند.
یک عصبشناس محاسباتی در دانشگاه یورک در انتاریو که در آزمایشهای خطای بینایی شرکت نداشت، میگوید: «از آنجایی که چشمها و سایر اندامهای حسی ما اطلاعاتی را از دنیای خارج جمعآوری میکنند، این شبکههای تکرارشونده به مغز ما کمک میکنند تا هر شکافی را پر کند. اگرچه برخی از شبکههای عصبی مکرر برای تقلید از این جنبه از مغز انسان ایجاد شدهاند، بسیاری از مدلهای یادگیری ماشینی برای داشتن اتصالات مکرر و دو جهته طراحی نشدهاند.
محبوب ترین مدل های هوش مصنوعی، ژنراتورهای ترانسفورماتور بر اساس توابع ریاضی Feed Forward هستند. این بدان معنی است که اطلاعات از طریق آنها فقط در یک جهت جریان می یابد: از ورودی به خروجی. مطالعه نحوه واکنش چنین سیستم هوش مصنوعی به خطای بینایی می تواند به دانشمندان کمک کند تا توانایی ها و سوگیری های این مدل های یادگیری ماشینی یک طرفه را بهتر درک کنند.
به گفته تیمی از دانشمندان کامپیوتر که چهار مدل زبان بصری منبع باز را ارزیابی کردند، یکی از عوامل تاثیرگذار اندازه مدل است. محققان دریافتند که مدلهای بزرگتر، یعنی مدلهایی که با وزنها و متغیرهای بیشتر توسعه یافتهاند، نسبت به مدلهای کوچکتر با پاسخهای انسان به خطاهای بینایی سازگارتر هستند.
به طور کلی، مدلهای هوش مصنوعی که دانشمندان آزمایش کردند، در تثبیت عناصر توهمآمیز در یک تصویر بهخوبی عمل نکردند و میانگین دقت کمتر از ۳۶ درصد داشتند. به طور متوسط، آنها تنها در حدود 16 درصد مواقع با پاسخ های انسانی مطابقت داشتند. با این حال، این مطالعه همچنین نشان داد که مدلها نسبت به سایر مدلها در پاسخ به انواع خاصی از خطاهای بینایی با دقت بیشتری از انسان تقلید میکنند.
به عنوان مثال، پاسخ این مدل ها در مورد خطای دید یکی از مشابه ترین خروجی های انسانی را به همراه داشت. محققان از مدل ها خواستند تا تصاویر را به شیوه ای خاص قضاوت کنند. آنها قصد داشتند این مدل را «شبیه انسان» بنامند اگر پاسخهای هوش مصنوعی 75 درصد به ادراک خطای بینایی انسان نزدیک بود.
در مطالعه دیگری که قبلا منتشر شده بود، محققان توانایی های GPT-4V و Gemini-Pro گوگل را برای ارزیابی 12 دسته مختلف از اختلالات بینایی آزمایش کردند. این توهمات شامل اشیاء غیرممکن است که اشکال دوبعدی اجسامی هستند که نمی توانند در فضای سه بعدی وجود داشته باشند و توهمات تصویر پنهان که در آن سایه های اجسام بدون اینکه فوراً آشکار شوند در یک تصویر قرار می گیرند.
در 9 دسته از 12 دسته، مدل ها در تشخیص آنچه در خطای دید اتفاق می افتد بدتر از افراد بودند، با دقت متوسط 59 درصد در مقابل 94 درصد برای پاسخ دهندگان انسانی. اما در سه دسته خطای دید رنگ، زاویه و اندازه، GPT-4V به طور قابل مقایسه یا حتی کمی بهتر از بازبینان انسانی عمل کرد.
یکی از نویسندگان این مطالعه از آزمایشگاه هوش مصنوعی خدمات وب آمازون معتقد است که این تفاوت به این بستگی دارد که تجزیه و تحلیل خطاها و توهمات بینایی نیاز به استدلال کمی یا کیفی دارد. انسان ها در هر دو کار خوب هستند، اما مدل های یادگیری ماشین ممکن است آمادگی کمتری برای قضاوت بر اساس چیزهایی داشته باشند که به راحتی قابل اندازه گیری نیستند. هر سه دسته از توهماتی که دستگاههای هوش مصنوعی در تفسیر آنها بهترین بودند، علاوه بر ویژگیهای ذهنی، دارای ویژگیهای قابل اندازهگیری کمی بودند.
دانشمندان میگویند برای استقرار مسئولانه دستگاههای هوش مصنوعی، باید آسیبپذیریها و نقاط کور آنها و همچنین مکانهایی که تمایلات انسانی تکرار میشوند و نمیشوند را درک کنیم. همسویی یک مدل با انسان ها می تواند به همان اندازه خوب باشد که بد باشد. همچنین در برخی موارد، ابزارهایی مانند ابزارهای تشخیص پزشکی هوش مصنوعی که تصاویر رادیولوژی را تجزیه و تحلیل می کنند، زیرا در حالت ایده آل مستعد خطاهای بینایی نیستند، باعث خوش بینی برای این نوع فناوری می شوند.
بنابراین، مشاهده تست خطا در GPT-4V OpenAI و دیگر مدلهای بزرگ یادگیری ماشینی که اغلب به عنوان جعبه سیاه توصیف میشوند، میتواند نشان دهد که واقعاً در داخل هوش مصنوعی چه میگذرد.
منبع: Scientificamerican
54323