DALL·E 2 nedir? Yeni başlayanlar için örneklerle açıklama

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



DALL·E 2 nedir?

DALL·E 2, bir araştırma şirketi olan OpenAI tarafından Perşembe günü açıklanan metin açıklamalarından görüntüler oluşturan bir yapay zeka programıdır.





Doğal dil girdilerini yorumlamak ve karşılık gelen görüntüleri oluşturmak için GPT-3 trafo modelinin 12 milyar parametreli eğitim sürümünü kullanır. Örneğin, 'küçük bir köpeğin siyah beyaz fotoğrafı' cümlesi sağlandığında, bir Chihuahua'nın doğru bir şekilde işlenmiş siyah beyaz görüntüsünü üretti.





Sistem mükemmel değil - bazen yorumlanması zor veya tamamen hedef dışı görüntüler üretiyor. Örneğin, 'bir volkanın üzerinde ip üzerinde tek tekerlekli bisiklete binen bir kişi' görüntüsünü oluşturması istendiğinde, (bence güzel) ancak ön planda küçük bir figürle su üzerinde bir gün batımının tamamen alakasız bir görüntüsünü üretti. .





Yine de sonuçlar etkileyici ve OpenAI, DALL·E 2'nin 'metin açıklamalarından profesyonel insan sanatçıların kalitesiyle rekabet edebilecek görüntüler üreten ilk yapay zeka modeli olduğunu' söylüyor.



Sistem, OpenAI tarafından kazınmış ve küratörlüğünü yapılmış internetten yaklaşık 1,3 milyon resim ve başlıktan oluşan bir metin-resim çifti veri seti üzerinde eğitildi. Eğitim verileri daha sonra GPT-3 modelinde ince ayar yapmak için kullanıldı, böylece metin açıklamalarından görüntüler üretebilirdi.

OpenAI, sistemin soyut, somut ve hatta şiirsel olanlar da dahil olmak üzere çok çeşitli metinsel tanımlardan 'yüksek kaliteli' görüntüler üretebileceğini söylüyor.

Chihuahua örneğine ek olarak, DALL·E 2 tarafından üretilen diğer görüntü örnekleri arasında Adolf Hitler'in doğru şekilde işlenmiş bir portresi, sebzelerden yapılmış bir ejderha görüntüsü ve kızarmış ekmekten yapılmış bir Mona Lisa görüntüsü yer alır.



Sistem aynı zamanda 'floof' (uydurulmuş bir hayvan) veya 'tulpa' (düşünce formu) gibi var olmayan şeylerin görüntülerini de üretebilir.

Genel olarak, sonuçlar etkileyici ve OpenAI, sistemin 'metinsel açıklamalardan görüntüler oluşturmak için yeni olanaklar açtığını' söylüyor.

E 2'DEN Bu CLIP sistemi metin bilgilerini görsel bilgilere dönüştürür. Bu bir kodlayıcı-kod çözücü paradigmasıdır, yani giriş metni sağlandığında önce makine girişine dönüştürülür, ardından sistem tarafından işlenir ve son olarak kodlanmış verileri bir görüntüye dönüştüren kod çözücüye iletilir.

DALL E 2 nedir

DALL·E 2 nedir?

Bu, tamamen yeni görsel efektler yaratmak için ifadeler kullanan üretken bir dil modeli olan DALL·E'nin en yeni neslidir. DALL E 2, GPT-3 kadar büyük olmasa da devasa bir 3.5V modelidir. İlginç bir şekilde, selefinden (12B) de daha hafiftir. Açıklama hizalaması ve fotogerçekçilik açısından DALL·E 2, daha büyük boyutuna rağmen DALL·E 2'den %70 daha iyidir.

DALL.E 2- yeni başlayanlar için örneklerle açıklama

Spesifik olarak, DALL·E 2, doğal dil işleme için derin öğrenmeyi görüntü üretimi için bilgisayar görüşü ile birleştiren hiyerarşik bir koşullu metin görüntü sentezi modelidir. Amacı iki model yetiştirmek olup, eğitim seti eşleştirilmiş resim ve açıklamalardan oluşmaktadır. İlki, yazılı bir başlık verildiğinde, bir CLIP görüntü yerleştirme oluşturmak için eğitilebilen bir önseldir. Daha sonra, bir CLIP görüntüsünü (ve varsa altyazıyı) yerleştirirken eğitilmiş bir görüntü oluşturabilen bir kod çözücümüz var.

DALLE 2, internetten altyazılı yüz milyonlarca fotoğraf kullanılarak eğitildi ve modelin öğrendiklerini değiştirmek için bu görüntülerin bir kısmı kaldırıldı ve yeniden düzenlendi. Birden çok görüntü seçeneğini alır CLIP ekleri ve sonra kullan kod çözücü her birini geçin. Ardından, kullanıcının girişi verilen tüm bu bilgilerin ilginç bir karışımını oluşturur.

Örnek DALL IS 2

DALL·E'yi anlamak için küçük bir oyun oynayalım. Bunu sonraki üç adıma ayıralım.

  1. Mavi gökyüzünde uçan gökkuşaklarını, bulutları ve tek boynuzlu atları hayal edin. Hayal gücünüzde bir resmin nasıl olabileceğini hayal edin. İnsanlar, bir görüntü yerleştirmenin mükemmel analoğuna sahip olduğumuz en yakın şeydir ve az önce aklınıza gelen resim bunun mükemmel bir örneğidir. Nihai ürün hakkında yalnızca tahminde bulunabilirsiniz, ancak nelerin dahil edilmesi gerektiğine dair iyi bir fikriniz var. A priori model, okuyucuyu bir cümledeki kelimelerden hayal gücündeki bir sahneye götürür.
  2. Şimdi çizmeye başlayabilirsiniz. unCLIP'in yaptığı, zihinsel resminizi gerçek bir taslağa dönüştürmektir. Artık aynı tanımdan, aynı temel istatistiklere sahip, ancak tamamen yeni bir görsel stille başka bir karakteri doğru bir şekilde yeniden oluşturabilirsiniz. DALL·E 2, bu şekilde gömülü mevcut bir görüntüden benzersiz görüntüler de oluşturabilir.
  3. Yaptığınız taslağa dikkat edin. 'Bulutların ortasında bir tek boynuzlu at ve gökyüzüne karşı bir gökkuşağı yükseliyor' tanımını çizdiğinizde olan budur. Şimdi neyin diğerini (güneş, ev, ağaç vb.) ve konuyu, stili, renkleri vb. en iyi neyin gösterdiğini belirlemek için resmi ve metni inceleyin. CLIP'in yaptığı şey, özellikleri kodlamaktır. metin ve resimler.

Artık DALL-E'nin ne olduğunu öğrendiğimize göre bir sonraki bölüme geçelim ve özelliklerini anlayalım.

Uç: DALL-E-2 AI hizmeti ile gerçekçi görüntüler nasıl oluşturulur?

Özellikler DALL E 2

DALL·E 2'nin teknik özellikleri aşağıdadır.

  1. Varyasyonlar
  2. Boyama
  3. Metin Farklılıkları

Onlar hakkında ayrıntılı olarak konuşalım.

word 2010'da kartvizit nasıl yapılır

1] Varyasyonlar

DALL·E 2, bir cümleyi bir görüntüye çevirmenin ötesine geçer. OpenAI, sağlam CLIP katıştırmaları sayesinde belirli bir imza için farklı sonuçlar üreterek üretim sürecini deneyebilir. CLIP'in 'zihninde' 'gördüğü', girdiden önemli gördüğü (tüm görüntüler için aynı kalır) ve nelerin değiştirilebileceğidir (farklı görüntüler için değişir). Mümkün olduğunda, DALL·E 2 hem 'anlamlı bilgileri... hem de estetik yönleri' koruyacaktır.

2] Boyama

DALL·E 2, otomatik doldurma ile mevcut fotoğrafları değiştirebilir. Aşağıdaki örnekte, soldaki resim orijinal resimdir ve ortadaki ve sağdaki fotoğraflarda öğe farklı yerlere çizilmiştir. DALL·E 2, Resim Stiline ek bir öğe eşleştirir. Ayrıca, yeni öğeyi yansıtmak için dokuları ve yansımaları günceller.

Okumak : ChatGPT ile neler yapabilirsiniz?

3] Metin farklılıkları

DALL·E 2, metin farklılıklarını kullanarak görüntüleri dönüştürür. DALL·E 2 ayrıca nesneleri değiştirmenize izin veren gelişmiş enterpolasyon yeteneklerine sahiptir. Bir Twitter kullanıcısı, iPhone'unu 'eskileştirmeyi' başardı. twitter.com kontrol etmek için.

Bu özellikleri beğendiyseniz, yapmanız gereken tek şey gitmek openai.com ve ardından kayıt olun. Kaydolmak için yeni bir hesap oluşturabilir veya mevcut Microsoft veya Google hesaplarınızı kullanabilirsiniz. Bunu yaptığınızda, bazı ücretsiz krediler alacaksınız, daha fazlasını istiyorsanız parasını ödemeniz gerekiyor.

Bunlar DALL·E 2'nin özelliklerinden bazılarıdır, birçok harika kullanım durumu vardır, ancak her zaman yapay zeka araçlarına çok fazla güvenmemeniz önerilir. Ne de olsa, işi yapmak için kullanılan araçlardan başka bir şey değiller, asla bir kişinin duygusal zekasının yerini alamazlar.

Ayrıca okuyun: En İyi Deepfake Uygulamaları, Yazılımları ve Web Siteleri.

DALL E 2 nedir
Popüler Mesajlar