Stability, Yeni Nesil Yapay Zeka Görüntü Oluşturucu Stable Diffusion 3'ü Duyurdu

Stability, Yeni Nesil Yapay Zeka Görüntü Oluşturucu Stable Diffusion 3'ü Duyurdu
Yakınlaştır / Sürekli Yayılma 3. Nesil İstemi: Siyah arka planda bir bukalemunun stüdyo fotoğrafı yakın çekimi.

Perşembe günü Stability AI, açık ağırlıklı yeni nesil görüntü kompozisyon modeli olan Stable Diffusion 3'ü duyurdu. Metin oluşturmada gelişmiş kalite ve hassasiyetle ayrıntılı, çok nesneli görüntüler oluşturarak öncüllerini takip ediyor. Herkese açık demoyla değil istikrarla kısa duyuru Bekleme listesini açar Bugün denemek isteyenler için.

Kararlılık, boyutları 800 milyon ila 8 milyar parametre arasında değişen standart 3 model ailesine (“vaha” adı verilen metinsel açıklamaları alan ve bunları eşleşen görüntülere dönüştüren) dayanmaktadır. Boyut aralığı, modelin farklı sürümlerinin akıllı telefonlardan sunuculara kadar çeşitli cihazlarda yerel olarak çalışmasına olanak tanır. Parametre boyutu, ne kadar ayrıntı üretebileceği açısından kabaca örnek kapasitesine karşılık gelir. GPU hızlandırıcılar daha büyük modelleri çalıştırmak için daha fazla VRAM gerektirir.

2022'den itibaren Stability AI'nin görüntü oluşturma modellerinde ilerlemeye başladığını göreceğiz: Stable Dispersion 1.4, 1.5, 2.0, 2.1, XL, XL Turbo ve şimdi de 3. Telif hakkıyla korunan eğitim verilerini kullanması nedeniyle tartışmasız olmasa da, Stability, OpenAI'nin DALL-E 3 gibi tescilli görüntü kompozit modellerine daha açık bir alternatif olarak adından söz ettirdi. . , önyargı ve istismar potansiyeli. (Bu, çözülmemiş vakalara yol açmıştır.) Standart yayılma modelleri açık ağırlıklıdır ve kaynakta mevcuttur; bu, modellerin yerel olarak çalıştırılabileceği ve çıktılarını değiştirecek şekilde ince ayar yapılabileceği anlamına gelir.

Teknolojik gelişmelere gelince, Stability CEO'su Emmett Mostak yazdı X'te, “Akış eşleştirme ve diğer iyileştirmelerin yanı sıra yeni bir tür difüzyon transformatörü (Sora'ya benzer) kullanıyor. Transformatör iyileştirmelerinden yararlanıyor ve ölçeklenebilir değil ancak çok modlu girişleri kabul edebiliyor.”

READ  Microsoft envía tarjetas de regalo por correo electrónico a su tienda en línea

Mostak'ın belirttiği gibi standart spread 3 aileyi kullanır Difüzyon transformatörü konfigürasyonuGeleneksel görüntü oluşturma modüllerinin (ör. U-NET mimarisi) görüntünün küçük parçaları üzerinde çalışan bir sistem için. Bu desen, şekilleri ve sahneleri değiştirmede harika olan Transformers'tan ilham almıştır. Bu yaklaşım verimliliği artırmanın yanı sıra yüksek kaliteli görüntüler de üretir.

Standart yayılma 3 kullanım “Akış eşleştirme“, rastgele gürültüden yapılandırılmış bir görüntüye nasıl sorunsuz bir şekilde geçiş yapılacağını öğrenerek görüntüler oluşturabilen yapay zeka modelleri oluşturmaya yönelik bir tekniktir. Sürecin her adımını simüle etmeye gerek kalmadan genel yöne veya akışa odaklanır. Görüntü oluşturma, takip etmek.

OpenAI'nin DALL-E 3 ve Stabil Difüzyon 3 arasındaki çıktıların istemle karşılaştırılması, "Metinli spor arabanın gece fotoğrafı "SD3" Yan tarafta, araba yüksek hızda bir yarış pistinde, 'HIZLI' yazan büyük bir yol tabelası var."
Yakınlaştır / OpenAI'nin DALL-E 3 ve Stable Diffusion 3 arasındaki çıktıların karşılaştırılması, “yan tarafında “SD3” yazısı bulunan bir spor arabanın gece fotoğrafını, yarış pistinde yüksek hızda giden arabayı, üzerinde “SD3″ yazan büyük bir yol tabelasını gösterir. 'HIZLI' yaz.”

Stable Dispersion 3'e (SD3) erişimimiz yok, ancak Stability'nin web sitesinde ve ilgili sosyal medya hesaplarında yayınlanan örneklerden Generations'ın şu anda diğer son teknoloji görüntü birleştirme modelleriyle karşılaştırılabilir olduğu görülüyor. yukarıda bahsedilen DALL-E 3, Adobe Firefly, Imagine with Meta AI, Midjourney ve Google Image dahil.

SD3'ün metin oluşturmayı çok iyi yönettiği başkaları tarafından sağlanan örnekler özenle seçilmiştir. Metin oluşturma, önceki görüntü kompozisyonu modellerinin belirli bir zayıflığıydı, dolayısıyla bu yeteneğin ücretsiz modelde geliştirilmesi büyük önem taşıyor. Ayrıca anlık güvenilirlik (talimatlardaki açıklamalara ne kadar yakından uyduğu) DALL-E 3'e benzer görünüyor, ancak henüz test etmedik.

Stable Spread 3 yaygın olarak mevcut olmasa da, test tamamlandıktan sonra Stability, ağırlıklarının ücretsiz olarak indirilip yerel olarak çalıştırılabileceğini söylüyor. Stabilite şöyle yazıyor: “Bu önizleme aşaması, önceki modeller gibi, açık sürüm öncesinde performansını ve güvenliğini artırmak için öngörü toplamak açısından kritik öneme sahip.”

READ  Google Photos elimina Magic Eraser de Pixel 6

Tutarlılık son zamanlarda farklı görüntü kompozit mimarileriyle denemeler yapıyor. Şirket, SDXL ve SDXL Turbo dışında geçen hafta duyurdu Sabit katmanMetinden görüntüye sentez için üç aşamalı bir süreç kullanır.

Resmi listeler Emad Mostak (Sürdürülebilirlik Yapay Zekası)

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir