ابزار جدید Microsoft به توسعه‌دهندگان اجازه می‌دهد با استفاده از توضیحات متنی، تست‌های رفتاری هوش مصنوعی راه‌اندازی کنند

mehrdad.mot
هوش مصنوعی

محققان و آزمایشگاه‌های هوش مصنوعی در ارزیابی مدل‌ها از جنبه‌های گوناگون – از ایمنی و انطباق گرفته تا چاپلوسی (sycophancy) و هم‌راستایی (alignment) – پیشرفت‌های چشمگیری داشته‌اند. اما به نظر می‌رسد شرکت‌ها و توسعه‌دهندگان با نیاز جدید و خاصی روبرو شده‌اند: اطمینان از اینکه سیستم هوش مصنوعی‌شان برای محصول یا خدمت خاص آن‌ها به درستی رفتار می‌کند.

Microsoft روز سه‌شنبه برای ساده‌تر کردن این فرآیند تست، از ابزاری به نام ASSERT رونمایی کرد. این نام مخفف عبارت Adaptive Spec-driven Scoring for Evaluation and Regression Testing (امتیازدهی تطبیقی مبتنی بر مشخصات برای ارزیابی و تست رگرسیون) است.

Microsoft می‌گوید این فریمورک متن‌باز، ارزیابی رفتار خاص هر اپلیکیشن را آسان می‌کند. ASSERT از خود هوش مصنوعی استفاده می‌کند تا توصیف‌های سطح بالا و زبان طبیعی از اهداف، سیاست‌ها، یا رفتارهای مورد نظر را به تست‌های دقیق و نمره‌دهی‌شده تبدیل کند که بتوان آنها را بررسی کرد.

ASSERT توصیف‌های ساده و روان از رفتار و سیاست‌های مورد انتظار یک مدل هوش مصنوعی را می‌گیرد، آنها را به مجموعه‌ای ساختاریافته از رفتارهای قابل قبول و غیرقابل قبول تبدیل می‌کند، سناریوهای مشکل‌ساز و کیس‌های تستی تولید می‌کند، آنها را روی سیستم هدف اجرا می‌کند و نتایج را نمره‌دهی می‌کند. همچنین می‌تواند مسیرهایی را که سیستم هوش مصنوعی طی می‌کند ثبت کند، از جمله اقدامات میانی و فراخوانی ابزارها، تا توسعه‌دهندگان بتوانند ببینند نقص در کجا رخ داده است.

توسعه‌دهندگان در صورت تمایل می‌توانند برای شخصی‌سازی بیشتر ارزیابی‌ها، بافت سیستم، ابزارها و محدودیت‌ها را نیز ارائه دهند.

برای مثال، یک توسعه‌دهنده می‌تواند مشخص کند که یک عامل هوش مصنوعی پژوهشی (که قرار است اسناد را بررسی کند) نباید به افراد خارج از شرکت ایمیل بفرستد، و باید اطلاعات محرمانه را محدود به مدیران ارشد (C-level executives) کند و خلاصه‌های مختصری با در نظر گرفتن بافت قبلی ارائه دهد. ASSERT از این قوانین برای تولید کیس‌های تستی استفاده می‌کند که بررسی کند آیا سیستم به طور مداوم از این قوانین پیروی می‌کند یا نه.

به گفته Microsoft، این فریمورک خلاهایی را پر می‌کند که ارزیابی‌های عمومی و گسترده‌تر نمی‌توانند پر کنند – به ویژه وقتی مدل‌های هوش مصنوعی قرار است رفتاری متناسب با بافت، سیاست‌ها و ابزارهای یک اپلیکیشن یا محصول خاص داشته باشند.

سارا برد، مدیر ارشد محصول هوش مصنوعی مسئول در Microsoft، گفت: «یکی از چیزهایی که یاد گرفته‌ایم این است که ارزیابی‌ها برای تصمیم‌گیری صحیح کاملاً حیاتی هستند. چون اگر رفتار سیستم هوش مصنوعی را درک نکنید، تشخیص اینکه آیا استاندارد سازمان شما را برآورده می‌کند یا نه بسیار دشوار است. دریافته‌ایم که اگر واقعاً یک سیستم قابل اعتماد می‌خواهید، باید ابعاد بیشتری را ارزیابی کنید – ابعادی که مختص همان اپلیکیشن هستند.»

برد گفت ASSERT را می‌توان هم در حین ساخت سیستم‌ها، هم پس از استقرار (deployment) و حتی برای نظارت مستمر استفاده کرد.

عرضهٔ این ابزار در میانهٔ تغییر تدریجی اما گسترده‌تری در صنعت هوش مصنوعی انجام می‌شود. با توانمندتر شدن مدل‌ها، محققان روی تست‌های تکرارپذیر و بررسی‌های رگرسیون تمرکز کرده‌اند. پروژه‌هایی مثل HELM از Stanford، AILuminate از MLCommons و گروه‌های ارزیابی مثل METR در حال ارائه معیارهایی (benchmarks) برای اندازه‌گیری رفتار مدل‌ها در شرایط مختلف هستند.