خطای الگوریتم سرنوشت ۱۴۰۰ دانشآموز را تغییر داد

باشگاه خبرنگاران جوان - در هفتههای پایانی سال تحصیلی، در میانه اضطراب انتشار نتایج امتحانات سراسری در ایالت ماساچوست آمریکا، اتفاقی غیرمنتظره رخ داد. مسئولان آزمون اعلام کردند که یک خطای فنی در سیستم «نمرهگذاری خودکار» باعث شده است نمرات حدود ۱۴۰۰ دانشآموز اشتباه محاسبه شود. این عدد تنها یک رقم نبود.
پشت این عدد، سرنوشت تحصیلی، شاخصهای ارزیابی مدارس و اعتبار کل نظام امتحانی ایالت قرار داشت. آنچه رسانهها گزارش کردند، تصویری روشن از یک واقعیت رو به گسترش بود. مدلهای زبانی بزرگ، که قرار بود ابزارهای هوشمند یاریدهنده باشند، اکنون در بسترهای آموزشی مستقیم وارد کار قضاوت و نمرهدهی شدهاند؛ و خطاهای این مدلها حالا پیامدهای بسیار انسانی و بزرگی دارد. این پرونده، نخستین هشدار جدی نبود و قطعاً آخرین هم نخواهد بود. چند ماه پیشتر از این ماجرا، یک دانشجوی دانشگاه «نورثایسترن» به صورت رسمی درخواست بازپرداخت بخشی از شهریه خود را ارائه کرد.
دلیل این درخواست آن بود که استاد واحد درسی از محتوای تولیدشده با هوش مصنوعی برای ارائه مطالب استفاده کرده بود. این در حالی بود که استفاده دانشجویان از ابزارهای هوش مصنوعی ممنوع اعلام شده بود. این شکایت که با رقم حدود ۸۰۰۰ دلار در رسانهها بازتاب یافت، به بحثی گستردهتر درباره «حق آموزشی» دامن زد.
هرچند دانشگاه درخواست او را نپذیرفت، اما ماجرا بحثی را آغاز کرد که امروز در بسیاری از محیطهای آموزشی شنیده میشود. وقتی دانشگاه از ابزارهای هوش مصنوعی استفاده میکند و خطایی رخ میدهد، چه کسی مسئول است؟ این گزارش تلاش دارد تصویری روایی از پیامدهای واقعی استفاده از مدلهای زبانی در تصحیح امتحان ارائه دهد.
مرکز آزمون اعتراف کرد: اختلال در بخش خودکار نمرهگذاری بود
گزارش رسمی مرکز آزمون نشان میدهد که ایراد نه یک مشکل موردی یا یک خطای اپراتوری، بلکه اختلال در بخش خودکار نمرهگذاری بوده است. این بخشی است که بر پایه مدلهای زبانی و تحلیل خودکار پاسخها عمل میکند. نتیجه، نمراتی بود که پس از بازبینی انسانی اصلاح شدند.
در گفتوگوهایی که معلمان در رسانهها مطرح کردند، یک مضمون مشترک دیده میشد: «سیستم قرار بود سرعت ما را بالا ببرد، نه اینکه بار مضاعف ایجاد کند.» معلمان گفتند که پس از اعلام خطا، باید کل نمرات را دوباره بازبینی میکردند. این کار به گفته برخی از آنها «هفتهها زمان اضافه» گرفت.
در سطح انسانی، مسئله پیچیدهتر بود. نمره آزمون سراسری برای بسیاری از دانشآموزان معیار پذیرش در برنامههای حمایتی، دورههای پیشرفته یا حتی تشخیص نیاز به کلاسهای جبرانی است. اشتباه در این سطح، به معنای جابهجایی مسیر تحصیلی یک دانشآموز است.
این پرونده نشان داد که استفاده از مدلهای زبانی بزرگ بدون نظارت موثر، نه فقط یک امکان فنی ناقص، بلکه یک تصمیم سیاستی بسیار پرریسک است.
«ممنوعیت استفاده» برای دانشجو و «استفاده پنهان» توسط استاد
در پرونده دانشگاه «نورثایسترن»، اعتراض دانشجو به یک موضوع متفاوت شکل گرفت. او به دلیل استفاده بیاعلام استاد از محتوای تولیدشده با هوش مصنوعی در تدریس، شکایت خود را مطرح کرد. رسانهها گزارش دادند که این دانشجو پس از بررسی منابع کلاس، متوجه شد برخی بخشهای محتوای ارائهشده «ساختار و سبک خاص خروجی هوش مصنوعی» را دارد.
او با استناد به سیاست دانشگاه که استفاده دانشجویان از هوش مصنوعی را بدون اعلام، تخلف میداند، مدعی شد که استاد همان رفتاری را انجام داده که از دانشجویان منع شده است. او در شکایت خود نوشت: «اگر بخشی از تدریس به جای انسان توسط یک ابزار خودکار انجام میشود، دانشگاه موظف است این موضوع را شفاف اعلام کند.» او افزود: «ما هزینه آموزش انسانی را پرداخت کردهایم.»
هرچند دانشگاه طبق گزارشها، درخواست بازپرداخت او را نپذیرفت. اما این پرونده به سرعت دست به دست شد، چون یک مسئله بنیادی را مطرح میکرد: آیا دانشگاهها موظف هستند استفاده خود از هوش مصنوعی را همانگونه که از دانشجویان انتظار دارند، شفاف کنند؟
این ماجرای خاص باعث شده بسیاری از رسانهها از «آغاز دوره مطالبه بازپرداخت مبتنی بر کیفیت آموزشی» سخن بگویند. این مطالبه مشخصاً زمانی مطرح میشود که کیفیت آموزش تحت تأثیر اتکا به هوش مصنوعی قرار گیرد.
دلایل فنی شکست: نوسانپذیری، سوگیری زبانی و ضعف در تحلیل عمیق
مطالعات علمی نشان میدهد که مدلهای زبانی بزرگ در وظایفی مانند خلاصهسازی یادداشتها یا پیشنهاد بازخورد اولیه قابل استفاده هستند، اما برای نمرهگذاری مستقیم، همتراز با انسان عمل نمیکنند. سه مشکل کلیدی در نمرهدهی مبتنی بر هوش مصنوعی شناسایی شده است.
۱. نوسانپذیری و عدم تکرارپذیری: پاسخ یک مدل زبانی به یک ورودی ثابت ممکن است در زمانهای مختلف، خروجی متفاوت بدهد. ۲. سوگیری زبانی و ساختاری: برخی مدلها به سبک نوشتار خاصی امتیاز بیشتری میدهند و نه به کیفیت واقعی محتوا. ۳. کمتوجهی به شواهد و استدلال: مدلهای هوش مصنوعی ساختار نوشتاری را خوب تشخیص میدهند، اما در تحلیل عمیق محتوا شکست میخورند.
این مسائل یک پدیده خطرناک را ایجاد میکند که متخصصان آن را «توهم ارزیابی» مینامند. این پدیده شامل ظاهری از ارزیابی دقیق است، اما بدون زیرساخت منطقی و استدلالی.
ابزارهای تشخیص هوش مصنوعی نیز بدون خطا نیستند
همزمان با استفاده از مدلهای زبانی در نمرهدهی، ابزارهای «تشخیص متن تولیدشده با هوش مصنوعی» نیز در دانشگاهها رایج شدهاند. اما شرکتهای توسعهدهنده این ابزارها در هشدارهای رسمی تأکید کردهاند که امکان «مثبت کاذب» در این ابزارها وجود دارد.
آنها هشدار دادند که شناسایی جملهبهجمله میتواند چند درصد خطا داشته باشد. همچنین، متن انسانی ممکن است به اشتباه «تولیدشده توسط هوش مصنوعی» شناسایی شود. این خطاها زمانی که وارد فرایندهای انضباطی یا نمرهدهی شوند، میتوانند سرنوشت دانشجویان را تغییر دهند.
این موضوع یکی دیگر از دلایلی است که مطالبه سیاستهای بازپرداخت و اصلاح نمره را افزایش داده است. بررسی مستندات رسمی سیستمهای پرکاربرد مانند «گرِید اِسکُوپ» نشان میدهد که هرچند از «کمک هوش مصنوعی» صحبت میشود، اما توسعهدهندگان تصریح میکنند که این ابزارها برای کمک به ناظر انسانی طراحی شدهاند.
مسئولیت نهایی نمرهگذاری همچنان بر عهده «انسان» است. با این حال، گزارشهای میدانی از دانشگاهها نشان میدهد که در فشار حجم کار، برخی نمرهدهیها عملاً خودکار انجام میشوند. همین «فاصله میان طراحی و کاربرد» است که زمینه خطاهای گسترده را فراهم میکند.
پروندهها نشان دادند: زیان مالی و حقوقی دانشجویان قابل مطالبه است
استفاده از مدلهای زبانی در نمرهگذاری و تدریس، در حال تبدیلشدن به موضوعی حقوقی است. به ویژه وقتی سه نوع زیان برای دانشجو قابل شناسایی است:
۱. زیان تحصیلی: خطای نمره در آزمونهای سراسری میتواند مسیر تحصیلی دانشجو را تغییر دهد. نمونه ایالت ماساچوست تنها نمونه کوچکی از این پیامد است. ۲. زیان اعتباری: در مواردی که ابزارهای تشخیص هوش مصنوعی، متن انسانی را «متقلبانه» معرفی میکنند، دانشجو ممکن است وارد فرایند انضباطی شود. ۳. زیان مالی: پرونده دانشگاه «نورثایسترن» نشان داد که دانشجو میتواند ادعا کند «خدمت آموزشی ارائهشده» با آنچه پرداخت کرده همخوان نبوده و خواستار بازپرداخت بخشی از شهریه شود.
هرچند هنوز پرونده بزرگی که منجر به حکم قضایی علیه دانشگاه شده باشد گزارش نشده، اما موارد رسانهای فشار اجتماعی را بالا بردهاند. اکنون بحث «سیاست بازپرداخت» در برخی دانشگاهها وارد جلسات داخلی شده است.
سه خلأ سیاستی، آموزش را در برابر فناوری بیمحافظ گذاشت
سه شکاف سیاستی در ماجراهای اخیر به وضوح دیده میشود:
۱. عدم شفافیت درباره استفاده از هوش مصنوعی: دانشجو حق دارد بداند آیا استاد از هوش مصنوعی در تولید محتوا استفاده کرده یا بخشی از نمرهگذاری خودکار است. اکنون این موارد نه الزامی هستند و نه در اغلب سرفصلهای دروس ذکر میشوند. ۲. نبود الزام به بازبینی انسانی: اگر مدلهای زبانی بخشی از فرایند نمرهگذاری باشند، وجود بازبینی انسانی باید «اجباری» باشد، نه «اختیاری». ۳. نبود پروتکل شفاف برای بازپرداخت: در پروندههای اخیر، مسیر مشخصی برای جبران وجود نداشته است. این خلأها اعتماد عمومی را به شدت تضعیف میکنند.
گفتههای منتشرشده از معلمان لحنی محتاط، اما گلایهمند دارد. یکی از آنها گفته بود: «وقتی نمره اشتباه منتشر میشود، فقط اصلاح عدد نیست؛ باید به دانشآموز و خانواده توضیح داد که چرا این اتفاق افتاد. این وقت و انرژی عظیمی میگیرد.»
دانشجوی معترض در «نورثایسترن» نوشت: «ما هزینه تدریس انسانی را پرداخت کردهایم. اگر دانشگاه رویکرد آموزشی را تغییر دهد، دستکم باید اطلاع دهد. اگر کیفیت تغییر کند، دانشجو حق مطالبه دارد.»
جمعبندی: ضرورت بازتعریف مسئولیت در عصر ارزیابی ماشینی
ماجرای آزمون سراسری و شکایت دانشجوی «نورثایسترن»، دو سر یک طیف واحدند: گسترش اتکا به مدلهای زبانی در ارزیابی و تدریس بدون آنکه چارچوبی مناسب برای پاسخگویی طراحی شده باشد.
این دو پرونده، پیامهای مشترکی دارند: ارزیابی خودکار بدون نظارت انسانی، قابل اتکا نیست. تشخیص خودکار تقلب، بدون احتمال خطا، ممکن نیست؛ و مهمتر از همه: وقتی دانشجو زیان میبیند، مسیر جبران باید روشن و قابل مطالبه باشد.
اگر سیاستگذاران آموزشی و دانشگاهها نتوانند سریعتر از سرعت پیشرفت فناوری، چارچوبهای حقوقی و عملیاتی طراحی کنند، تعداد پروندههایی شبیه این موارد افزایش خواهد یافت. در دنیایی که ماشینها بخشی از فرایند ارزیابی شدهاند، باید این اصل ساده را فراموش نکرد: نمره، فقط یک عدد نیست؛ تصمیمی است درباره آینده یک انسان.
منبع: فارس
12243946
مهمترین اخبار وبگردی











