Bilgisayarlarla çalışan insanların görevlerini otomatikleştirmek ve basitleştirmek için üretken yapay zeka ve büyük dil modellerinin kullanımı artmaya devam ediyor. Bununla birlikte, yapay zekanın görevleri yerine getirmek için ne kadar iyi çalışabileceğini görmeye de ihtiyaç var. Bu hafta Microsoft Research, özellikle Windows PC’lerde yapay zeka ajanlarını test etmek için bir Windows Agent Arena geliştirdiğini duyurdu.
Microsoft, Windows Agent Arena’yı Tanıttı
Microsoft’un GitHub sayfasında açıklanan ölçüt, Windows Agent Arena olarak adlandırılıyor. Bu çerçeve, yapay zeka ajanlarının insanların genellikle kullandığı Windows uygulamalarıyla ne kadar iyi ve ne kadar hızlı etkileşime girebileceğini test etmek için tasarlanmıştır. Windows Agent Arena’da yapay zeka ajanlarıyla test edilen uygulamalar arasında Microsoft Edge ve Google Chrome gibi web tarayıcıları, Dosya Gezgini Ayarları gibi işletim sistemi işlevleri, Visual Studio Code gibi kodlama uygulamaları, Not Defteri, Saat ve Paint gibi önceden yüklenmiş basit Windows uygulamaları ve hatta VLC Player ile video izleme yer aldı.
Microsoft belirtti: OSWorld çerçevesini, planlama, ekran anlama ve araç kullanımında aracı yetenekleri gerektiren temsili etki alanlarında 150’den fazla farklı Windows görevi oluşturmak için uyarlıyoruz. Kıyaslama ölçütümüz de ölçeklenebilir ve 20 dakika gibi kısa bir sürede tam bir kıyaslama değerlendirmesi için Azure’da sorunsuz bir şekilde paralelleştirilebilir.
Microsoft Research ayrıca Windows Agent Arena kıyaslamasında test etmek üzere Navi adında kendi çok modlu ajanını yarattı. Navi’den “Baktığım web sitesini bir PDF dosyasına dönüştürüp ana ekranıma, yani Masaüstüne koyabilir misin?” gibi belirli metin istemleriyle görevleri yerine getirmesi istendi. Navi’nin ortalama yüzde 19,5’lik bir performans başarı oranına sahip olduğu tespit edildi ki bu oran yüzde 74,5’lik insan performansı oranına kıyasla hala oldukça düşük.
Windows Agent Arena gibi bir kıyaslama ölçütüne sahip olmak, yapay zeka ajanlarının oluşturulması için büyük bir gelişme olabilir, böylece geliştirilebilir ve insan performansı seviyesine daha yakın performans gösterebilirler.