Microsoft, üretken yapay zeka aracılarını kıyaslamak için Windows Agent Arena’yı tanıttı

Yazar

15/09/2024

Microsoft, üretken yapay zeka aracılarını kıyaslamak için Windows Agent Arena'yı tanıttı

Bilgisayarlarla çalışan insanların görevlerini otomatikleştirmek ve basitleştirmek için üretken yapay zeka ve büyük dil modellerinin kullanımı artmaya devam ediyor. Bununla birlikte, yapay zekanın görevleri yerine getirmek için ne kadar iyi çalışabileceğini görmeye de ihtiyaç var. Bu hafta Microsoft Research, özellikle Windows PC’lerde yapay zeka ajanlarını test etmek için bir Windows Agent Arena geliştirdiğini duyurdu.

Microsoft, Windows Agent Arena’yı Tanıttı

Microsoft’un GitHub sayfasında açıklanan ölçüt, Windows Agent Arena olarak adlandırılıyor. Bu çerçeve, yapay zeka ajanlarının insanların genellikle kullandığı Windows uygulamalarıyla ne kadar iyi ve ne kadar hızlı etkileşime girebileceğini test etmek için tasarlanmıştır. Windows Agent Arena’da yapay zeka ajanlarıyla test edilen uygulamalar arasında Microsoft Edge ve Google Chrome gibi web tarayıcıları, Dosya Gezgini Ayarları gibi işletim sistemi işlevleri, Visual Studio Code gibi kodlama uygulamaları, Not Defteri, Saat ve Paint gibi önceden yüklenmiş basit Windows uygulamaları ve hatta VLC Player ile video izleme yer aldı.

Microsoft belirtti: OSWorld çerçevesini, planlama, ekran anlama ve araç kullanımında aracı yetenekleri gerektiren temsili etki alanlarında 150’den fazla farklı Windows görevi oluşturmak için uyarlıyoruz. Kıyaslama ölçütümüz de ölçeklenebilir ve 20 dakika gibi kısa bir sürede tam bir kıyaslama değerlendirmesi için Azure’da sorunsuz bir şekilde paralelleştirilebilir.

Microsoft Research ayrıca Windows Agent Arena kıyaslamasında test etmek üzere Navi adında kendi çok modlu ajanını yarattı. Navi’den “Baktığım web sitesini bir PDF dosyasına dönüştürüp ana ekranıma, yani Masaüstüne koyabilir misin?” gibi belirli metin istemleriyle görevleri yerine getirmesi istendi. Navi’nin ortalama yüzde 19,5’lik bir performans başarı oranına sahip olduğu tespit edildi ki bu oran yüzde 74,5’lik insan performansı oranına kıyasla hala oldukça düşük.

Windows Agent Arena gibi bir kıyaslama ölçütüne sahip olmak, yapay zeka ajanlarının oluşturulması için büyük bir gelişme olabilir, böylece geliştirilebilir ve insan performansı seviyesine daha yakın performans gösterebilirler.

Ses Yalıtımı ve Akustik Çözümler

ANINDA 50 TL KAZANDIRAN KODLAR: RİSKLER VE FIRSATLAR | TEKNOBİLİM ADAMI

Çocuklarda İşitme Cihazı Kullanımı ve Ailelerin Rolü

BEDAVA GOOGLE PLAY KODU: 2025 GÜNCEL KOD LİSTESİ & KAZANMA YÖNTEMLERİ…

Türkiye’nin en yeni teknoloji kanalı: BeeTekno’yu keşfedin

Bağımlılık Yaratan En İyi Mobil Oyunlar (2025)

Geleceğin Oyun Dünyası: Bulut Oyun Teknolojisi ve VR ile Yepyeni Bir…

Instagram Story İndir: 2025’te Hikaye Kaydetmenin Bilimsel Yaklaşımı

Türkiye’nin en yeni teknoloji kanalı: BeeTekno’yu keşfedin

Fiber İnternet Nedir? 2025’te Fiber Teknolojisi Rehberi

Ses Yalıtımı ve Akustik Çözümler

Çocuklarda İşitme Cihazı Kullanımı ve Ailelerin Rolü

Teknede Şirket Yemeği: İstanbul Boğazı’nda Kurumsal Davetlere Özel Bir Deneyim

Nevzat Onay’dan Öneri: Rugan Ayakkabıyı Ne Zaman Tercih Etmeli?

Efendi Derneği ile Kurban Bağışı: Bayramı Gerçekten Bayram Yapan Paylaşım

CRM Satış Pipeline ile Satış Süreçlerinizi Görünür Kılın

Fiber İnternet Nedir? 2025’te Fiber Teknolojisi Rehberi

CapCut ile Ne Yapılır?

Samsung, Las Vegas’taki CES 2025 öncesinde beş yeni monitörünü tanıttı

Apple, Windows için iTunes’u yeni iPad Air ve Pro desteğiyle güncelledi

Microsoft, üretken yapay zeka aracılarını kıyaslamak için Windows Agent Arena’yı tanıttı

Microsoft, Windows Agent Arena’yı Tanıttı

CEVAP VER İptal