Teknoloji
Moderator
Video oluşturmaya odaklanan yapay zeka modeli Pyramid Flow, 10 saniye uzunluğuna ulaşan yüksek kaliteli video klipler sunuyor. Yapay zeka video üretimi platformu Kling AI'ı hayata geçiren Kuaishou Technology, Pekin Üniversitesi ve Pekin Posta ve Telekomünikasyon Üniversitesi'nden araştırmacılarla bir araya gelerek Pyramid Flow'u hayata geçirdi.
Piramitsel akış eşleştirme kavramı üzerine inşa edilen Pyramid Flow, yeni bir teknikten yararlanıyor. Bu teknik kapsamında tek bir yapay zeka modeli, aşamalı olarak video üretiyor. Üretilen videoların çoğu düşük çözünürlüklüyken, model yalnızca üretim sürecinin sonu için tam çözünürlüklü bir sürümü kaydediyor. Önerilen piramitsel akış, geleneksel difüzyon modellerine kıyasla token sayısını dört kat azaltıyor ve bu da daha verimli bir eğitim sağlıyor. Ayrıca model video üretimini farklı aşamalarda sıkıştırma ve optimize etme yeteneğine sahip. Bu yetenek sayesinde eğitim sırasında daha hızlı yakınsama sağlayan Pyramid Flow, eğitim grubu başına daha fazla örnek üretebiliyor. Piramitsel akış eşleştirme kavramını Pyramidal Flow Matching for Efficient Video Generative Modeling başlıklı makalede detaylı olarak inceleyebilirsiniz.
Model, açık kaynaklı veri kümeleri üzerinde eğitilirken 768p çözünürlükte ve saniyede 24 kare hızında 5 ila 10 saniyelik videolar üretebiliyor. Modelin eğitildiği veri kümeleri arasında; çok modlu yapay zeka araştırmaları için büyük bir veri kümesi olan LAION-5B, web'de taranan görüntü-metin çiftlerinden oluşan bir veri kümesi olan CC-12M, yüksek kaliteli, bulanık olmayan görüntüler içeren SA-1B, metinden video oluşturma için yaygın olarak kullanılan video veri kümeleri olan WebVid-10M ve OpenVid-1M yer alıyor.
Araştırmacılar, toplamda yaklaşık 10 milyon tek çekim videonun küratörlüğünü yaptıklarını belirtiyor. Veri kümelerinin açık kaynaklı olması telif hakkı ihlalleri ve yasa dışı içerikler üretilmesi gibi problemleri de beraberinde getirmekte.
Model, çıkarım sırasında 5 saniyelik 384p videoyu sadece 56 saniyede üretebiliyor. Modelin diğer difüzyon modelleriyle karşılaştırıldığında onlarla eşit veya onlardan daha hızlı bir performans gösterdiğini söyleyebiliriz. Yine de Runway'in Gen 3-Alpha Turbo'su, yapılan testlerde bir dakikanın altında ve çoğu zaman 10-20 saniyede üretim yapması, yapay zeka video oluşturma hızı açısından kriterleri üst seviyeye taşıyor. Öte yandan açık kaynaklı Pyramid Flow'un, abonelikle ilerleyen Runway'in Gen-3 Alpha, Luma'nın Dream Machine, Kling ve Haulio gibi rakiplerine meydan okuduğunu söyleyebiliriz.
Buna rağmen Pyramid Flow'un bazı sınırlamaları bulunduğunu da belirtmekte fayda var. Model, Runway Gen-3 Alpha gibi modellerde bulunan bazı gelişmiş ince ayar yeteneklerinden yoksun. Bu ince ayar yetenekleri, kamera açıları, ana kareler ve insan hareketleri gibi sinematik unsurlar üzerinde hassas kontrol sunabiliyor.
Modelin ham kod olarak Hugging Face ve Github'dan indirilebileceğini belirtelim Aynı şekilde model, bir çıkarım kabuğunda (shell) çalıştırılabilir. Ancak modelin çıkarım kabuğunda çalışması için kullanıcının model kodunu kendi makinesinde indirip çalıştırması gerekmekte. MIT Lisansı altında yayınlanan Pyramid Flow, lisans kapsamında telif hakkı bildiriminin korunması koşuluyla ticari uygulamalar, değişiklikler ve yeniden dağıtım dahil olmak üzere geniş bir kullanım yelpazesine sahip. Buna ek olarak tüm kod ve model ağırlıkları, resmi proje sayfaları aracılığıyla kullanıcılara ücretsiz olarak sunulacak.
Modelin detayları
Piramitsel akış eşleştirme kavramı üzerine inşa edilen Pyramid Flow, yeni bir teknikten yararlanıyor. Bu teknik kapsamında tek bir yapay zeka modeli, aşamalı olarak video üretiyor. Üretilen videoların çoğu düşük çözünürlüklüyken, model yalnızca üretim sürecinin sonu için tam çözünürlüklü bir sürümü kaydediyor. Önerilen piramitsel akış, geleneksel difüzyon modellerine kıyasla token sayısını dört kat azaltıyor ve bu da daha verimli bir eğitim sağlıyor. Ayrıca model video üretimini farklı aşamalarda sıkıştırma ve optimize etme yeteneğine sahip. Bu yetenek sayesinde eğitim sırasında daha hızlı yakınsama sağlayan Pyramid Flow, eğitim grubu başına daha fazla örnek üretebiliyor. Piramitsel akış eşleştirme kavramını Pyramidal Flow Matching for Efficient Video Generative Modeling başlıklı makalede detaylı olarak inceleyebilirsiniz.
Eğitim verileri
Model, açık kaynaklı veri kümeleri üzerinde eğitilirken 768p çözünürlükte ve saniyede 24 kare hızında 5 ila 10 saniyelik videolar üretebiliyor. Modelin eğitildiği veri kümeleri arasında; çok modlu yapay zeka araştırmaları için büyük bir veri kümesi olan LAION-5B, web'de taranan görüntü-metin çiftlerinden oluşan bir veri kümesi olan CC-12M, yüksek kaliteli, bulanık olmayan görüntüler içeren SA-1B, metinden video oluşturma için yaygın olarak kullanılan video veri kümeleri olan WebVid-10M ve OpenVid-1M yer alıyor.
Araştırmacılar, toplamda yaklaşık 10 milyon tek çekim videonun küratörlüğünü yaptıklarını belirtiyor. Veri kümelerinin açık kaynaklı olması telif hakkı ihlalleri ve yasa dışı içerikler üretilmesi gibi problemleri de beraberinde getirmekte.
Model, çıkarım sırasında 5 saniyelik 384p videoyu sadece 56 saniyede üretebiliyor. Modelin diğer difüzyon modelleriyle karşılaştırıldığında onlarla eşit veya onlardan daha hızlı bir performans gösterdiğini söyleyebiliriz. Yine de Runway'in Gen 3-Alpha Turbo'su, yapılan testlerde bir dakikanın altında ve çoğu zaman 10-20 saniyede üretim yapması, yapay zeka video oluşturma hızı açısından kriterleri üst seviyeye taşıyor. Öte yandan açık kaynaklı Pyramid Flow'un, abonelikle ilerleyen Runway'in Gen-3 Alpha, Luma'nın Dream Machine, Kling ve Haulio gibi rakiplerine meydan okuduğunu söyleyebiliriz.
Buna rağmen Pyramid Flow'un bazı sınırlamaları bulunduğunu da belirtmekte fayda var. Model, Runway Gen-3 Alpha gibi modellerde bulunan bazı gelişmiş ince ayar yeteneklerinden yoksun. Bu ince ayar yetenekleri, kamera açıları, ana kareler ve insan hareketleri gibi sinematik unsurlar üzerinde hassas kontrol sunabiliyor.
Modelin ham kod olarak Hugging Face ve Github'dan indirilebileceğini belirtelim Aynı şekilde model, bir çıkarım kabuğunda (shell) çalıştırılabilir. Ancak modelin çıkarım kabuğunda çalışması için kullanıcının model kodunu kendi makinesinde indirip çalıştırması gerekmekte. MIT Lisansı altında yayınlanan Pyramid Flow, lisans kapsamında telif hakkı bildiriminin korunması koşuluyla ticari uygulamalar, değişiklikler ve yeniden dağıtım dahil olmak üzere geniş bir kullanım yelpazesine sahip. Buna ek olarak tüm kod ve model ağırlıkları, resmi proje sayfaları aracılığıyla kullanıcılara ücretsiz olarak sunulacak.