Yandex, öneri sistemleri alanında ezber bozan bir adım atarak Yambda (Yandex Music Billion-Interactions Dataset) veri setini kullanıma sundu. Müzik akış platformu Yandex Music üzerindeki yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren bu devasa veri seti, türünün en büyüğü olarak kabul ediliyor. Yambda, e-ticaretten sosyal ağlara kadar pek çok alanda öneri sistemlerinin geliştirilmesine katkı sağlayacak. Peki bu veri seti ne gibi yenilikler sunuyor ve neden bu kadar önemli? İşte detaylar...
Yandex, müzik akış platformu Yandex Music'teki ses parçalarıyla yaklaşık 5 milyar anonimleştirilmiş kullanıcı etkileşimini içeren ve öneri sistemleri için dünyanın en büyük açık veri seti olan Yambda'yı (Yandex Music Billion-Interactions Dataset) yayınladı.
Yambda, öneri sistemlerini kullanan tüm alan adlarında (e-ticaret, sosyal ağlar ve kısa video platformları) yeni yaklaşım ve algoritmaları test etmek için evrensel bir ölçüt olarak hizmet veriyor.
Veri seti, araştırmacıların yeni öneri algoritmalarını baz modellerle karşılaştırarak geliştirmelerini ve test etmelerini sağlayarak inovasyonu hızlandırıyor. Sınırlı veriye sahip startup’lar ölçeklendirmeden önce Yambda kullanarak sistem oluşturmak ve test etmek için veri setinden faydalanabiliyor. Böylece, dünya çapında iş ihtiyaçlarına göre uyarlanmış ileri teknolojilerin oluşturulması hızlandırılıyor.
Araştırma ve sektör arasındaki boşluk dolduruluyor
Eğitim verilerinin kalitesi ve ölçeği; yayın hizmetleri, sosyal ağlar, kısa video uygulamaları ve e-ticaret pazaryerleri gibi platformlarda amaca uygun önerileri sunabilmek için kritik önem taşır. Bununla birlikte, öneri sistemlerine yönelik araştırmalar büyük ölçekli veri setlerine sınırlı erişim nedeniyle büyük dil modelleri gibi hızla ilerleyen alanların gerisinde kalmıştır. Etkili öneri modelleri, ticari platformların sahip olduğu fakat nadiren kamuya açık olarak paylaştığı terabaytlarca davranış verisi gerektiriyor.
Araştırmacılar genellikle modern kullanımın karmaşıklığını yakalayamayan küçük ve eski veri setleriyle baş başa kalıyor:
Spotify Million Playlists veri seti, ticari ölçekli öneri sistemleri için çok küçüktür.Netflix Prize veri seti, yaklaşık 17.000 öğesi ve yalnızca tarih damgalarıyla zamansal modelleme ve büyük ölçekli araştırmalar için elverişli değil.Criteo 1TB Click Logs veri seti, uygun dokümantasyondan ve tanımlayıcılardan yoksun olup, reklam tıklamalarına odaklanıyor.
Yandex Öneri Sistemleri Başkanı Nikolai Savushkin, "Öneri sistemleri, yapısı gereği hassas verilere bağlıdır. Şirketler öneri sistemi veri setlerini ancak kapsamlı ve yorucu bir anonimleştirme işleminden sonra kamuya açık olarak yayınlayabilirler. Bu da açık inovasyonu yavaşlatan, yoğun kaynak gerektiren bir süreçtir" diyor.
Bu veri kıtlığı bir boşluk yaratıyor: Akademik ortamlarda mükemmel olan modeller gerçek dünya uygulamalarında genellikle düşük performans sergiliyor. Öneri sistemlerini gelişmiş yapılarla entegre etme çabaları da uygun eğitim verilerinin yokluğu nedeniyle kısıtlanıyor.
Yambda Veri Seti Hakkında
Yambda, aylık yaklaşık 28 milyon kullanıcısı olan müzik akışı servisinin büyük ve anonimleştirilmiş veri setini sunarak öneri sistemi zorluklarına çözüm getiriyor. Bu veri seti, dinleme deneyimini her bir kullanıcının zevkine göre uyarlayan My Wave öneri sistemiyle tanınan Yandex Music servisinin içerikleriyle kullanıcıların nasıl etkileşime girdiğine dair önemli bilgiler sağlıyor. Gizliliği korumak için tüm kullanıcı ve izleme verileri, gizlilik standartları doğrultusunda sayısal tanımlayıcılarla anonimleştirilmiş oluyor.
Veri setinin temel özellikleri:
10 ay boyunca toplanan 4,79 milyar anonimleştirilmiş kullanıcı etkileşimi.1 milyon kullanıcıdan alınan veriler ve 9,39 milyon parça için anonimleştirilmiş tanımlayıcılar.İki geri bildirim türü içerir: örtülü etkileşimler (dinleme) ve açık etkileşimler (beğenme, beğenmeme ve bunların iptali).Ses katıştırmaları (konvolüsyonel sinir ağları aracılığıyla oluşturulan vektör temsilleri) ve parçalar hakkında anonimleştirilmiş bilgiler sunar.Kullanıcıların parçaları bağımsız olarak mı yoksa öneriler yoluyla mı keşfettiğini gösteren bir “is_organic” işareti içerir ve daha derin davranış analizi sağlar.Tüm etkinliklerin zaman damgalı olması, kullanıcı davranışının zaman içinde analizini destekler ve modellerin gerçek dünya kullanımına çok benzeyen koşullar altında değerlendirilmesine olanak tanır.
Veri seti Spark ve Hadoop gibi dağıtık işleme sistemlerinin yanı sıra Pandas ve Polars gibi analiz kütüphaneleriyle uyumlu Apache Parquet formatında yayınlanıyor
Nikolai Savushkin "Yambda, araştırmacıların yenilikçi hipotezleri test etmelerini ve işletmelerin daha akıllı öneri sistemleri oluşturmalarına yardımcı oluyor. Sonuçta, kullanıcılar da mükemmel şarkıyı, ürünü veya hizmeti bularak bundan yararlanıyor" diyor.
Veri Seti Sürümleri ve Değerlendirme
Yaklaşık 5 milyar, 500 milyon ve 50 milyon etkinlik olmak üzere üç farklı büyüklükte kullanılabilen Yambda veri seti, farklı ihtiyaçları ve hesaplama kapasiteleri olan araştırmacılara ve geliştiricilere hitap ediyor.
Veri seti, değerlendirme için etkinlik dizilerini korumak amacıyla verileri zaman damgalarına göre bölen bir yöntem olan Global Temporal Split (GTS) kullanılıyor. Test için her kullanıcının geçmişindeki son pozitif etkileşimi kaldıran Leave-One-Out yönteminin aksine GTS, eğitim ve test setleri arasındaki zaman bağlarını koparmıyor. Bu sayede, ileriye dönük verilerin olmadığı gerçek dünya koşullarını taklit eden daha gerçekçi bir modelleme elde edilebiliyor.
Yeni öneri sistemi yaklaşımlarını karşılaştırmaya yönelik ölçütler sunan temel uygulamalar arasında MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA ve SASRec yer alıyor. Bu temeller, aşağıdakiler de dahil olmak üzere standart metriklerle değerlendirilir:
NDCG@k (sıralama kalitesi)
Recall@k (geri alım etkililiği)
Coverage@k (katalog çeşitliliği)
Nikolay Savushkin, “Sektör liderleri zor kazanılan araçları ve verileri paylaştığında, yükselen bir dalga etkisi yaratır. Araştırmacılar gerçek dünya ölçütlerine kavuşur, startup’lar sadece teknoloji devlerinin erişebildiği kaynaklara erişir ve kullanıcılar da daha iyi bir kullanım deneyiminin keyfini çıkarır” diye ekliyor.
Dünyanın en büyük açık öneri sistemi veri seti olan Yambda’ya artık Hugging Face'ten erişilebiliyor.
Yandex'in Yambda veri seti, öneri sistemleri araştırmacıları ve geliştiricileri için eşsiz bir kaynak sunuyor. Yaklaşık 5 milyar kullanıcı etkileşimini içeren bu açık veri seti, algoritmaların geliştirilmesi ve test edilmesi için gerçek dünya senaryolarını yansıtıyor. Özellikle sınırlı veriye sahip startup'lar için büyük bir fırsat sunan Yambda, aynı zamanda araştırma ve sektör arasındaki boşluğu doldurarak daha iyi kullanıcı deneyimlerine katkıda bulunmayı hedefliyor. Veri setine Hugging Face üzerinden erişilebilir.