Karşıt görüntüler, bilgisayarlı görme sistemlerini kandırmak için tasarlanmış, özenle hazırlanmış desenler içeren resimlerdir. Kalıplar, aksi takdirde güçlü yüz veya nesne tanıma sistemlerinin normalde tanıyacakları şeyleri veya yüzleri yanlış tanımlamasına neden olur.
Kötü niyetli kullanıcılar bunu güvenlik sistemlerini atlamak için kullanabileceğinden, bu tür kasıtlı hilelerin önemli sonuçları vardır.
Ayrıca, metinden görüntüye sistemler gibi diğer bilgi işlem zekası türleri hakkında da ilginç sorular ortaya çıkarmaktadır. Kullanıcılar bir kelime veya cümle yazarlar ve özel olarak eğitilmiş bir sinir ağı, fotogerçekçi bir görüntü oluşturmak için bunu kullanır. Ancak bu sistemler aynı zamanda düşmanca saldırılara da açık mı ve eğer öyleyse, nasıl?
Bugün, New York’taki Columbia Üniversitesi’nde yapay zeka araştırmacısı olan Raphaël Millière’in çalışmaları sayesinde bir yanıt alıyoruz. Millière, belirli yanıtları tetiklemek için tasarlanmış sözcükleri kullanarak metinden görüntüye oluşturucuları kandırmanın bir yolunu keşfetti.
Olumsuz Sonuçlar
Çalışma yine güvenlik sorunlarını gündeme getiriyor. Millière, “Sinir ağlarını yanlış sınıflandırmaya veya gerçek hayatta olumsuz sonuçlara yol açabilecek sorunlu çıktılar üretmeye kandırmak için kasıtlı ve kötü niyetli olarak dağıtılabilir” diyor.
Son aylarda, metinden görüntüye sistemler, kullanıcıların ata binen bir astronot gibi bir cümle yazabilecekleri ve yanıt olarak şaşırtıcı derecede gerçekçi bir görüntü alabilecekleri noktaya geldi. Bu sistemler mükemmel değil ama yine de etkileyici.
Saçma sapan kelimeler, insanları belirli sahneleri hayal etmeleri için kandırabilir. Ünlü bir örnek, Lewis Carroll şiiri Jabberwocky: “’Twas parlak ve kaygan toves, Wabe içinde girdap ve yalpaladı mı…” Çoğu insan için, onu okumak fantastik görüntüler çağrıştırır.
Millière, metinden görüntüye sistemlerin benzer şekilde savunmasız olup olmayacağını merak etti. Farklı dillerden gerçek kelimelerin parçalarını birleştirerek anlamsız kelimeler oluşturmak için “makarnayla yönlendirme” adı verilen bir teknik kullandı. Yani “uçurum” kelimesi klippe Almanca’da, Skogliera italyanca, yalan Fransızca ve akantilado ispanyolca’da. Millière bu kelimelerin bir kısmını alarak anlamsız bir terim yarattı.falaiscoglieklippantilado”.
Şaşırtıcı bir şekilde, bu kelimeyi DALL-E 2 metinden görüntü oluşturucuya yerleştirmek, bir dizi uçurum görüntüsü üretti. Karşılaştırılabilir sonuçlarla aynı şekilde başka kelimeler de yarattı: insekafetti hatalar için, farpapmaripterling kelebek için, coniglapkanınc tavşan ve benzeri için. Her durumda, jeneratör İngilizce kelimenin gerçekçi görüntülerini üretti.
Millière bu uydurma kelimelerden cümleler bile üretti. Örneğin, cümle “Bir maripofarterling yiyen bir eidelucertlagarzard”, bir kelebeği yiyen bir kertenkelenin görüntülerini üretti. “Ön deneyler, hibritleştirilmiş nonce dizelerinin, gerektiği gibi hemen hemen her konunun görüntülerini oluşturmak için metodik olarak üretilebileceğini ve hatta daha karmaşık sahneler oluşturmak için bir araya getirilebileceğini gösteriyor” diyor.
Metinden görüntüye üreteci DALL-E 2’nin (Kaynak; https://arxiv.org/abs/2208.04135) hayal ettiği gibi, bir farpapmaripterling bir feuerpompbomber’a iner.
Millière, metinden görüntüye oluşturucuların, bazıları yabancı dillerde etiketlenmiş olması gereken çok çeşitli resimler üzerinde eğitilmeleri nedeniyle mümkün olduğunu düşünüyor. Bu, uydurulmuş sözcüklerin makinenin anlayabileceği bilgileri kodlamasını sağlar.
Metinden görüntüye oluşturucuları kandırma yeteneği bir takım endişeleri beraberinde getiriyor. Millière, teknoloji şirketlerinin teknolojilerinin yasa dışı kullanımını önlemeye büyük özen gösterdiğine dikkat çekiyor.
Millière, “Bu yöntemle ilgili bariz bir endişe, kara listeye alınmış istemlere dayalı içerik filtrelerinin atlatılmasıdır” diyor. “Prensipte, makaronik yönlendirme, şiddet içeren, nefret dolu, ırkçı, cinsiyetçi veya pornografik görüntüler ve belki de fikri mülkiyet veya gerçek kişileri tasvir eden.
İstenmeyen Görüntü?
İstenmeyen görüntülerin oluşturulmasını önlemenin bir yolunun, AI sistemini eğitmek için kullanılan veri kümelerinden herhangi bir örneğini kaldırmak olduğunu öne sürüyor. Diğer bir seçenek de, oluşturduğu tüm görüntüleri, onları herkese açık hale getirmeden önce bir görüntüden metne sistemine besleyerek kontrol etmek ve istenmeyen metin açıklamaları üretenleri filtrelemektir.
Şu an için metinden görüntüye oluşturucularla etkileşim fırsatları sınırlıdır. Google, en gelişmiş üç tanesinden ikisini, Parti ve Imagen’i geliştirdi ve girdilerinde ve çıktılarında keşfettiği çeşitli önyargılar nedeniyle bunları kamuya açıklamıyor.
Üçüncü sistem, DALL-E 2, Open AI Initiative tarafından geliştirildi ve sınırlı sayıda araştırmacı, gazeteci ve diğerleri tarafından kullanılabilir. Bu, Millière’in kullandığıdır.
Öyle ya da böyle, bu sistemler veya diğer benzer sistemler daha yaygın olarak kullanılmaya mahkumdur, bu nedenle sınırlamalarını ve zayıflıklarını anlamak, kamuoyu tartışmasını bilgilendirmek için önemlidir. Teknoloji şirketleri ve daha geniş anlamda toplum için kilit bir soru, bu sistemlerin nasıl kullanılması ve düzenlenmesi gerektiğidir. Böyle bir tartışmaya acilen ihtiyaç var.
Ref: Uydurma Sözcüklerle İmaj Üretimine Yönelik Düşmanca Saldırılar : arxiv.org/abs/2208.04135
Kaynak : https://www.discovermagazine.com/technology/made-up-words-trick-ai-text-to-image-generators