چشمان من باش؛ چگونه GPT-4 زندگی افراد نابینا را دگرگون می‌سازد

be my eyes 1

مقدمه

چشمان من باش؛ چگونه GPT-4 زندگی افراد نابینا را دگرگون می‌سازد ؛ برنامه Be My Eyes یک اپلیکیشن رایگان برای تلفن‌های همراه است که به کاربران نابینا و کم‌بینا خدمات ارائه می‌دهد. این کاربران می‌توانند از طریق تماس تصویری با داوطلبان یا پشتیبانان شرکت‌ها، راهنمایی‌های لازم را دریافت کنند. هیچ محدودیتی در تعداد دفعات استفاده از این برنامه وجود ندارد و خدمات آن به‌طور کامل رایگان است و در هر نقطه از جهان و بدون هیچ‌گونه محدودیت زبانی قابل دسترسی است.

 

از سال ۲۰۱۲، Be My Eyes در تلاش است تا ابزارهای فناوری را برای کمک به جامعه ۲۵۰ میلیون نفری افراد نابینا و کم‌بینا توسعه دهد. این استارتاپ دانمارکی به افراد نابینا یا کم‌بینا این امکان را می‌دهد که با داوطلبان ارتباط برقرار کنند تا در انجام کارهای روزمره‌ای مانند شناسایی محصولات یا پیدا کردن مسیر در فرودگاه به آن‌ها یاری رسانند.

با افزودن قابلیت تحلیل تصاویر به GPT-4 (که در حال آزمایش است)، Be My Eyes یک دستیار مجازی به نام «داوطلب مجازی» ایجاد کرده است. این دستیار با بهره‌گیری از هوش مصنوعی GPT-4، قادر است درکی مشابه انسان داشته باشد و به افراد نابینا یا کم‌بینا در انجام فعالیت‌های روزمره یاری رساند.

به طور خلاصه، Be My Eyes یک برنامه است که در آن داوطلبان و افراد بینا از طریق تماس تصویری به افراد نابینا کمک می‌کنند. اکنون این برنامه با استفاده از هوش مصنوعی قصد دارد یک دستیار هوشمند اضافه کند تا این کمک‌ها به صورت خودکار و کارآمدتری انجام شود.

چشمان من باش؛ چگونه GPT-4 زندگی افراد نابینا را دگرگون می‌سازد

هوشمند کردن برنامه Be My Eyes با استفاده از هوش مصنوعی GPT-4

مایکل باکلی، مدیرعامل Be My Eyes، اظهار می‌دارد: «در مدت زمان کوتاهی که به این فناوری دسترسی پیدا کرده‌ایم، عملکردی بی‌نظیر را در مقایسه با سایر ابزارهای موجود برای تبدیل تصویر به متن مشاهده کرده‌ایم. تأثیر این فناوری بر دسترسی جهانی بسیار چشمگیر است. در آینده‌ای نزدیک، جامعه‌ی نابینایان و کم‌بینایان نه تنها برای تفسیر تصاویر به این ابزارها متکی خواهند بود، بلکه با کمک آن‌ها می‌توانند سطح بالاتری از استقلال را در زندگی خود تجربه کنند.»

به عنوان مثال، زمانی که کاربری تصویری از محتویات یخچال خود ارسال می‌کند، فناوری GPT-4 نه تنها قادر به شناسایی اقلام موجود در آن است، بلکه به تاریخ انقضا نیز اشاره می‌کند. همچنین، این فناوری تحلیلی فراتر ارائه می‌دهد و مشخص می‌کند که با آن مواد اولیه چه غذاهایی می‌توان تهیه کرد. این موضوع نشان‌دهنده‌ی کاربردهای تقریباً نامحدود این ابزار است و قطعاً می‌تواند کیفیت زندگی افراد نابینا را بهبود بخشد.

باکلی در ادامه بیان می‌کند: «این یک تغییر اساسی و بنیادین است. در نهایت، کاربران قادر خواهند بود هر آنچه را که می‌خواهند یا به آن نیاز دارند، از این ابزار درخواست کنند و به سرعت اطلاعات کاربردی و مفیدی را دریافت نمایند.»

دستیار مجازی Be My Eyes بر پایه فناوری GPT-4

تفاوت اصلی هوش مصنوعی GPT-4 با سایر مدل‌های زبانی و یادگیری ماشین، در توانایی آن برای برقراری مکالمه‌ای طبیعی و همچنین درک و تحلیل عمیق‌تری است که ارائه می‌دهد. به عنوان مثال، در یک مورد واقعی، کاربری توانست با استفاده از این فناوری، مسیریابی در سیستم پیچیده مترو را انجام دهد؛ کاری که حتی برای افراد بینا نیز چالش‌برانگیز به نظر می‌رسد. این مسیریابی نه تنها اطلاعات دقیقی درباره موقعیت خود روی نقشه به دست آورد، بلکه دستورالعمل‌های گام به گام برای رسیدن ایمن به مقصدش را نیز دریافت کرد.

چشمان من باش؛ چگونه GPT-4 زندگی افراد نابینا را دگرگون می‌سازد

درک محتوای بصری در GPT-4: چالش‌ها و راهکارها

مواجهه با موانع فیزیکی و جابجایی در دنیای واقعی تنها بخشی از مشکلاتی است که افراد نابینا با آن دست و پنجه نرم می‌کنند. فهم محتوای تصویری موجود در نمایشگرهای مختلف برای این افراد به مراتب دشوارتر است. نرم‌افزارهای صفحه‌خوان که در سیستم‌عامل‌های مدرن وجود دارند، محتوای صفحات وب یا برنامه‌های کامپیوتری را به صورت خط به خط و بخش به بخش خوانده و کلمات را بیان می‌کنند. اما تصاویر، که بخش اساسی از ارتباطات آنلاین به شمار می‌روند، می‌توانند چالش‌های بیشتری ایجاد کنند، زیرا این نرم‌افزارها معمولاً قادر به توصیف محتوای تصاویر نیستند.

با این حال، هنریکسن، مدیر ارشد فناوری، بیان می‌کند که با بهره‌گیری از هوش مصنوعی GPT-4 و پس از ساعت‌ها آموزش الگوریتم‌های یادگیری عمیق، این سیستم توانایی تحلیل صفحات وب و شناسایی بخش‌های مهم آن‌ها را دارد و می‌تواند آن‌ها را بخواند یا خلاصه کند. این فناوری نه تنها فرآیند خواندن اخبار آنلاین را تسهیل می‌کند، بلکه دسترسی به صفحات شلوغ وب، مانند سایت‌های خرید و فروش آنلاین، را برای افرادی که به راهنمایی بصری نیاز دارند، فراهم می‌آورد.

هوش مصنوعی GPT-4 قادر است نتایج جستجو را به شیوه‌ای خلاصه کند که افراد بینا به طور طبیعی آن‌ها را بررسی می‌کنند؛ به این معنا که بر نکات کلیدی تمرکز می‌کند و از خواندن تمام جزئیات پرهیز می‌کند. این امر به افراد کم‌بینا و نابینا کمک می‌کند تا تصمیمات خرید بهتری اتخاذ کنند. در این راستا، باکلی اظهار می‌دارد که این یک پیشرفت شگفت‌انگیز برای بشریت است و همچنین فرصتی بزرگ برای کسب‌وکارها به شمار می‌آید.

Hossein Kardan
ارسال دیدگاه