OpenAI، شرکت پیشگام در حوزه هوش مصنوعی، در روز چهارشنبه از ابزار جدیدی به نام PaperBench رونمایی کرد که هدف آن ارزیابی دقیق توانایی مدلهای هوش مصنوعی در بازتولید تحقیقات علمی پیشرفته است. این ابزار بخشی از «چارچوب آمادگی» (Preparedness Framework) شرکت OpenAI است؛ ابتکاری که برای سنجش آمادگی و قابلیتهای مدلهای هوش مصنوعی در انجام وظایف پیچیده و حساس طراحی شده است.
PaperBench با هدفی مشخص طراحی شده: بررسی اینکه آیا مدلهای هوش مصنوعی میتوانند پژوهشهای علمی واقعی را بازتولید کنند یا خیر. در این راستا، ۲۰ مقاله برگزیده از کنفرانس معتبر ICML 2024 (کنفرانس بینالمللی یادگیری ماشین) انتخاب شدهاند که هر یک شامل مفاهیم علمی، الگوریتمها، کدنویسی و تحلیلهای آماری پیشرفته است.
برای هر مقاله، فرایند بازتولید به مجموعهای از ۸٬۳۱۶ زیروظیفه تقسیم شده است؛ از جمله خواندن مقاله، درک روششناسی، پیادهسازی کدها، اجرای آزمایشها و مقایسه نتایج با پژوهش اصلی. این زیروظایف بر اساس مجموعهای از روبریکها (Rubrics) طراحی شدهاند که با مشارکت نویسندگان اصلی مقالات تنظیم شدهاند تا ارزیابیها واقعی و دقیق باشد.
جالب توجه اینکه، برای اجرای فرایند ارزیابی، OpenAI از یک مدل زبان بزرگ (LLM) بهره گرفته که به عنوان داور عمل میکند و خروجی مدلهای دیگر را به صورت خودکار نمرهدهی میکند. این مدل با معیارهای دقیق روبریکها سنجش میکند که آیا عامل هوش مصنوعی موفق شده مقاله را بازتولید کند یا خیر.
در آزمایشهای اولیه، مدل Claude 3.5 Sonnet (نسخه جدید) توانست با بهرهگیری از ابزارهای متنباز، امتیاز متوسط ۲۱ درصد را در بازتولید مقالات به دست آورد. برای سنجش سطح دشواری، OpenAI همچنین آزمایشی انجام داد که طی آن دانشجویان دکترای یادگیری ماشین، برخی از این زیروظایف را انجام دادند. نتایج نشان داد که هنوز مدلهای هوش مصنوعی از سطح عملکرد انسان عقبتر هستند، هرچند پیشرفتها چشمگیر است.
این اقدام OpenAI در راستای افزایش شفافیت و پیشرفت پژوهشهای هوش مصنوعی بوده و به همین دلیل، کدهای PaperBench به صورت متنباز منتشر شدهاند. پژوهشگران، توسعهدهندگان و دانشگاهیان اکنون میتوانند از این بنچمارک برای آزمایش و ارزیابی مدلهای خود استفاده کنند و در بهبود ابزارهای هوش مصنوعی مؤثر باشند.
به گفته کارشناسان، PaperBench یک گام مهم در جهت تبدیل هوش مصنوعی از تولید متن و تصویر، به ابزار کمکپژوهشی در سطح علمی است. مدلهایی که بتوانند تحقیقات علمی را بازتولید کنند، میتوانند در آینده به شتابگیری کشفهای علمی در حوزههایی همچون زیستفناوری، فیزیک، داروسازی و علوم داده کمک شایانی کنند.
در مجموع، معرفی PaperBench OpenAI نه تنها استانداردی نوین برای سنجش توان مدلهای هوش مصنوعی ایجاد کرده، بلکه درهای جدیدی برای همکاری گسترده بین انسان و ماشین در حوزه تحقیق و توسعه علمی باز کرده است.