Samsung'dan Yapay Zeka'da Devrim: TRUEBench ile Performans Ölçümü Çağı Başlıyor!

Teknoloji 106

Yayınlama: 3 Ekim 2025 Cuma 10:02 Kaynak: Kapsül Haber Ajansı

Samsung, yapay zeka modellerinin gerçek dünya performansını ölçen TRUEBench çözümünü tanıttı. Bu yenilik, yapay zeka değerlendirmelerinde yeni bir standart belirliyor.

Samsung'dan Yapay Zeka'da Devrim: TRUEBench ile Performans Ölçümü Çağı Başlıyor!. Samsung, yapay zeka alanındaki iddiasını TRUEBench ile bir adım öteye taşıyor. Mevcut yapay zeka benchmarklarının yetersizliklerini hedefleyen TRUEBench, çok dilli ve gerçek dünya senaryolarını kapsayan kapsamlı bir değerlendirme sunuyor. İçerik oluşturma, veri analizi ve çeviri gibi çeşitli görevlerde yapay zeka verimliliğini ölçen bu çözüm, şirketlerin yapay zeka yatırımlarından en iyi şekilde yararlanmalarına olanak tanıyacak. TRUEBench, sadece doğruluğu değil, kullanıcı ihtiyaçlarını da dikkate alarak yapay zeka değerlendirmelerine yeni bir boyut kazandırıyor. Samsung'un bu yeniliği, yapay zeka teknolojilerinin geleceğine yön verecek.Samsung’un çok dilli verimlilik senaryolarını destekleyen tescilli benchmark çözümü, mevcut yapay zekâ benchmark’larındaki eksiklikleri gideriyor.Samsung Electronics, yapay zekâ verimliliğini değerlendirmek üzere Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench'i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük dil modellerinin (LLM'ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini ölçen kapsamlı bir metrik seti sunuyor. Çözüm, gerçekçi bir değerlendirme sağlamak için çeşitli diyalog senaryoları ve çok dilli koşullardan faydalanıyor. Samsung'un verimlilik çalışmalarında kullandığı kendi yapay zekâ teknolojilerini temel alan TRUEBench, içerik oluşturma, veri analizi yapma, özet çıkarma ve çeviri yapma gibi yaygın kullanılan kurumsal görevleri 10 temel kategori ve 46 alt kategoride değerlendiriyor. Benchmark, yapay zekâ destekli otomatik değerlendirmeler yaparak görevlere güvenilir bir puanlama veriyor. Bu değerlendirmeler, insan ve yapay zekâ iş birliği içinde tasarlanan ve geliştirilen kriterlere dayanıyor.

Samsung Electronics Dijital Deneyimler CTO'su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, “Samsung Research, gerçek dünyadaki yapay zekâ deneyimleriyle müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench'in üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung'un teknolojideki liderliğini daha da güçlendireceğine inanıyoruz” dedi.

Son zamanlarda şirketler yapay zekâyı daha çok benimsedikçe büyük dil modellerinin üretkenliğini ölçme talebinde artış yaşanıyor. Ancak, çoğunlukla İngilizce odaklı olan mevcut kriterler öncelikle genel performansı ölçüyor ve tek turdan oluşan soru-cevap yöntemleriyle sınırlı bir değerlendirme yapıyor. Bu durum, bu değerlendirmelerin gerçek çalışma ortamlarını yansıtma doğruluğunu sınırlandırıyor. Bu sınırlamaları kaldırmak için geliştirilen TRUEBench hem 10 kategori ve 12 dilde çalışan 2.485 test setinden oluşuyor hem de diller arası senaryoları destekliyor. Test setleri, yapay zekâ modellerinin gerçekte hangi noktalara çözüm sunabileceğini inceliyor. Samsung Research’in geliştirdiği TRUEBench, kolay taleplerden uzun belgeleri özetlemeye kadar çeşitli görevleri inceliyor ve içeriği 8 karakterden 20.000 karakterin üzerine kadar değişen test setleri uyguluyor.

Yapay zekâ modellerinin performansını değerlendirirken yapay zekâ tarafından sağlanan yanıtların doğru olup olmadığını anlamaya imkân veren net kriterlere sahip olmak büyük önem taşıyor. Gerçek yaşam senaryolarında, kullanıcıların tüm istekleri, talimatlarda açıkça belirtilmeyebiliyor. Bu nedenle TRUEBench, yalnızca yanıtların doğruluğunu değil aynı zamanda kullanıcıların örtük ihtiyaçlarını gözeten ayrıntılı koşulları da dikkate alıyor ve gerçekçi değerlendirmeler yapıyor.

Gerçek insanlar ile yapay zekâ iş birliğiyle değerlendirme öğelerini doğrulayan Samsung Research çözümünde, ilk olarak, gerçek yorumcular değerlendirme kriterlerini oluşturuyor, ardından yapay zekâ bunları inceleyerek hataları, çelişkileri veya gereksiz kısıtlamaları kontrol ediyor. Daha sonra, gerçek yorumcular kriterleri tekrar daha iyi hale getiriyor. Bu süreç tekrarlanarak giderek daha hassas değerlendirme standartları oluşturuluyor. Söz konusu çapraz doğrulama kriterlerine dayanan yapay zekâ modellerinin otomatik değerlendirmesiyle kişisel önyargılar en aza indiriliyor ve tutarlılık sağlanıyor. Her testte, modelin değerlendirmeden geçebilmesi için tüm koşulların karşılanması gerekiyor. Bu da görevlerin daha ayrıntılı ve hassas puanlanmasını sağlıyor.

TRUEBench'in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face'de yer alıyor. Bu da kullanıcıların beş modele kadar karşılaştırma yapmasına ve yapay zekâ model performanslarını bir bakışta kapsamlı bir şekilde incelemesine imkân tanıyor. Ayrıca, ortalama yanıt süresi sonuçlarına ilişkin veriler de yayınlanıyor. Böylece, performans ve verimlilik eşzamanlı karşılaştırılabiliyor.

Kaynak: (KAHA) Kapsül Haber Ajansı
Samsung'un geliştirdiği TRUEBench, yapay zeka modellerinin verimliliğini ve performansını değerlendirmek için kapsamlı bir çözüm sunuyor. Mevcut benchmarkların eksikliklerini gidermeyi amaçlayan TRUEBench, çok dilli destek, gerçek dünya senaryoları ve detaylı değerlendirme kriterleriyle öne çıkıyor. Hugging Face platformunda da erişilebilir olan TRUEBench, kullanıcıların farklı yapay zeka modellerini karşılaştırmasına ve en uygun çözümü seçmesine imkan tanıyor. Bu yenilik, yapay zeka teknolojilerinin geliştirilmesi ve şirketlerin yapay zeka stratejilerini optimize etmeleri için önemli bir araç olacak.

Samsung, yapay zeka alanındaki iddiasını TRUEBench ile bir adım öteye taşıyor. Mevcut yapay zeka benchmarklarının yetersizliklerini hedefleyen TRUEBench, çok dilli ve gerçek dünya senaryolarını kapsayan kapsamlı bir değerlendirme sunuyor. İçerik oluşturma, veri analizi ve çeviri gibi çeşitli görevlerde yapay zeka verimliliğini ölçen bu çözüm, şirketlerin yapay zeka yatırımlarından en iyi şekilde yararlanmalarına olanak tanıyacak. TRUEBench, sadece doğruluğu değil, kullanıcı ihtiyaçlarını da dikkate alarak yapay zeka değerlendirmelerine yeni bir boyut kazandırıyor. Samsung'un bu yeniliği, yapay zeka teknolojilerinin geleceğine yön verecek.

Samsung’un çok dilli verimlilik senaryolarını destekleyen tescilli benchmark çözümü, mevcut yapay zekâ benchmark’larındaki eksiklikleri gideriyor.

Samsung Electronics, yapay zekâ verimliliğini değerlendirmek üzere Samsung Research tarafından geliştirilen tescilli benchmark çözümü TRUEBench'i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük dil modellerinin (LLM'ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini ölçen kapsamlı bir metrik seti sunuyor. Çözüm, gerçekçi bir değerlendirme sağlamak için çeşitli diyalog senaryoları ve çok dilli koşullardan faydalanıyor. Samsung'un verimlilik çalışmalarında kullandığı kendi yapay zekâ teknolojilerini temel alan TRUEBench, içerik oluşturma, veri analizi yapma, özet çıkarma ve çeviri yapma gibi yaygın kullanılan kurumsal görevleri 10 temel kategori ve 46 alt kategoride değerlendiriyor. Benchmark, yapay zekâ destekli otomatik değerlendirmeler yaparak görevlere güvenilir bir puanlama veriyor. Bu değerlendirmeler, insan ve yapay zekâ iş birliği içinde tasarlanan ve geliştirilen kriterlere dayanıyor.

Yaz Sıcaklarında Telefonunuzun Performansını Korumanın 7 Yolu

Kaynak: (KAHA) Kapsül Haber Ajansı

Samsung'un geliştirdiği TRUEBench, yapay zeka modellerinin verimliliğini ve performansını değerlendirmek için kapsamlı bir çözüm sunuyor. Mevcut benchmarkların eksikliklerini gidermeyi amaçlayan TRUEBench, çok dilli destek, gerçek dünya senaryoları ve detaylı değerlendirme kriterleriyle öne çıkıyor. Hugging Face platformunda da erişilebilir olan TRUEBench, kullanıcıların farklı yapay zeka modellerini karşılaştırmasına ve en uygun çözümü seçmesine imkan tanıyor. Bu yenilik, yapay zeka teknolojilerinin geliştirilmesi ve şirketlerin yapay zeka stratejilerini optimize etmeleri için önemli bir araç olacak.

BENZER HABER