ChatGPT ve onun yapay zeka kuzenlerinin dünyayı nasıl dönüştüreceğini henüz kimse bilmiyor ve bunun bir nedeni, içlerinde neler olup bittiğini kimsenin gerçekten bilmemesi. Bu sistemlerin bazı yetenekleri, yapmak için eğitildiklerinin çok ötesine geçiyor ve mucitleri bile bunun nedenini şaşırmış durumda. Giderek artan sayıda test, bu yapay zeka sistemlerinin, tıpkı bizim beynimizin yaptığı gibi, makinelerin tekniği farklı olsa da, gerçek dünyanın dahili modellerini geliştirdiğini gösteriyor.
Brown Üniversitesi’nden Ellie Pavlick, “Onları daha iyi veya daha güvenli hale getirmek için onlarla yapmak istediğimiz her şey veya buna benzer herhangi bir şey, nasıl çalıştıklarını anlamadığımız takdirde kendimize yapmamızı istemek bana saçma geliyor” diyor. bu açıklayıcı boşluğu doldurmak için çalışan araştırmacılardan biri.
Bir düzeyde, o ve meslektaşları GPT’yi (üretken önceden eğitilmiş transformatörün kısaltması) ve diğer büyük dil modellerini veya LLM’leri mükemmel bir şekilde anlıyor. Modeller, sinir ağı adı verilen bir makine öğrenimi sistemine dayanıyor. Bu tür ağlar, insan beyninin bağlı nöronlarından sonra gevşek bir şekilde modellenen bir yapıya sahiptir. Bu programların kodu nispeten basittir ve yalnızca birkaç ekranı doldurur. Yüzlerce gigabaytlık İnternet metninin zahmetli istatistiksel analizine dayalı olarak bir pasajı tamamlamak için en olası kelimeyi seçen bir otomatik düzeltme algoritması kurar. Ek eğitim, sistemin sonuçlarını diyalog şeklinde sunmasını sağlar. Bu anlamda, yaptığı tek şey öğrendiklerini kusmaktır – bu bir “stokastik papağanWashington Üniversitesi’nden bir dilbilimci olan Emily Bender’in sözleriyle. Ancak LLM’ler ayrıca baro sınavında başarılı olmayı, Higgs bozonunu iambik pentametre ile açıklamayı ve kullanıcılarının evliliğini bozmak. Oldukça basit bir otomatik düzeltme algoritmasının bu kadar geniş yetenekler edinmesini çok az kişi beklemişti.
GPT ve diğer yapay zeka sistemlerinin, yapmak için eğitilmedikleri görevleri yerine getirerek onlara “ortaya çıkan yetenekler” kazandırması, LLM’ler hakkındaki abartıya genel olarak şüpheyle yaklaşan araştırmacıları bile şaşırttı. Santa Fe Enstitüsü’nden yapay zeka araştırmacısı Melanie Mitchell, “Bunu nasıl yaptıklarını veya genel olarak insanların yaptığı gibi yapıp yapamayacaklarını bilmiyorum ama benim görüşlerime meydan okudular” diyor.
Üniversitede bir AI araştırmacısı olan Yoshua Bengio, “Kesinlikle stokastik bir papağandan çok daha fazlası ve kesinlikle dünyanın bir tür temsilini oluşturuyor – ancak bunun, insanların bir iç dünya modeli oluşturmasına pek benzediğini düşünmüyorum” diyor. Montreal’in.
Mart ayında New York Üniversitesi’nde düzenlenen bir konferansta, Columbia Üniversitesi’nden filozof Raphaël Millière, LLM’lerin neler yapabileceğine dair dudak uçuklatan başka bir örnek daha sundu. Modeller, bilgisayar kodu yazma yeteneğini zaten göstermişti ki bu etkileyici ama çok da şaşırtıcı değil çünkü internette taklit edilecek çok fazla kod var. Ancak Millière bir adım daha ileri gitti ve GPT’nin de kod çalıştırabildiğini gösterdi. Filozof, Fibonacci dizisindeki 83. sayıyı hesaplamak için bir program yazdı. “Bu, çok yüksek derecede çok adımlı bir akıl yürütme” diyor. Ve bot onu çiviledi. Ancak Millière doğrudan 83. Fibonacci numarasını istediğinde, GPT yanlış anladı: Bu, sistemin sadece İnternet’i papağan gibi tekrarlamadığını gösteriyor. Daha doğrusu doğru cevaba ulaşmak için kendi hesaplamalarını yapıyordu.
Bir LLM bir bilgisayarda çalışsa da, kendisi bir bilgisayar değildir. Çalışan bellek gibi temel hesaplama öğelerinden yoksundur. GPT’nin kendi başına kod çalıştıramayacağını zımnen kabul eden mucidi, teknoloji şirketi OpenAI, o zamandan beri özel bir eklentiyi (ChatGPT’nin bir sorguyu yanıtlarken kullanabileceği bir araç) piyasaya sürdü. . Ancak bu eklenti Millière’in gösterisinde kullanılmadı. Bunun yerine, makinenin, sözcükleri bağlamlarına göre yorumlamak için mekanizmalarını kullanarak bir anı doğaçlama yaptığını varsayar – bu, doğanın mevcut kapasiteleri yeni işlevler için yeniden tasarlamasına benzer bir durumdur.
Bu doğaçlama yetenek, LLM’lerin sığ bir istatistiksel analizin çok ötesine geçen bir iç karmaşıklık geliştirdiğini gösterir. Araştırmacılar, bu sistemlerin öğrendiklerine dair gerçek bir anlayışa ulaştığını görüyorlar. Geçen hafta Uluslararası Öğrenme Temsilleri Konferansı’nda (ICLR) sunulan bir çalışmada, Harvard Üniversitesi’nden doktora öğrencisi Kenneth Li ve yapay zeka araştırmacısı meslektaşları Massachusetts Institute of Technology’den Aspen K. Hopkins, Northeastern Üniversitesi’nden David Bau ve Fernanda Viégas Hepsi Harvard’da olan Hanspeter Pfister ve Martin Wattenberg, GPT sinir ağının iç işleyişini inceleyebilmek için kendi küçük kopyalarını oluşturdular. Onu milyonlarca kibrit üzerinde eğittiler. masa oyunu Othello metin biçimindeki uzun hareket dizilerini besleyerek. Modelleri neredeyse mükemmel bir oyuncu oldu.
Sinir ağının bilgiyi nasıl kodladığını incelemek için yine Montreal Üniversitesi’nden Bengio ve Guillaume Alain’in 2016’da tasarladığı bir tekniği benimsediler. Ana ağı katman katman analiz etmek için minyatür bir “sonda” ağı oluşturdular. Li, bu yaklaşımı nörobilim yöntemleriyle karşılaştırır. “Bu, insan beynine bir elektrik sondası yerleştirdiğimiz zamana benzer” diyor. Yapay zeka söz konusu olduğunda, araştırma, “sinirsel etkinliğinin” kıvrımlı bir biçimde de olsa bir Othello oyun tahtasının temsiliyle eşleştiğini gösterdi. Bunu doğrulamak için araştırmacılar, ağa bilgi yerleştirmek için sondayı ters yönde çalıştırdılar; örneğin, oyunun siyah işaretleyici parçalarından birini beyaza çevirerek. Li, “Temel olarak, bu dil modellerinin beynine giriyoruz” diyor. Ağ, hareketlerini buna göre ayarladı. Araştırmacılar, Othello’yu kabaca bir insan gibi oynadığı sonucuna vardı: “zihin gözünde” bir oyun tahtasını tutarak ve bu modeli hamleleri değerlendirmek için kullanarak. Li, eğitim verilerinin en cimri açıklaması olduğu için sistemin bu beceriyi öğrendiğini düşündüğünü söylüyor. “Size bir sürü oyun betiği verildiyse, sıkıştırmanın en iyi yolu arkasındaki kuralı anlamaya çalışmaktır” diye ekliyor.
Dış dünyanın yapısını anlama yeteneği, basit oyun oynama hareketleriyle sınırlı değildir; aynı zamanda diyalogda da ortaya çıkıyor. Hepsi MIT’de çalışan Belinda Li (Kenneth Li ile ilişkisi yok), Maxwell Nye ve Jacob Andreas, metin tabanlı bir macera oyunu oynayan ağları inceledi. “Anahtar hazine sandığında” ve ardından “Anahtarı sen al” gibi cümlelerle beslediler. Bir yoklama kullanarak, ağların kendi içlerinde “sandık” ve “siz”e karşılık gelen, her biri anahtara sahip olma ya da olmama özelliğine sahip değişkenleri kodladığını ve bu değişkenleri cümle cümle güncellediklerini bulmuşlardır. Sistemin bir kutunun veya anahtarın ne olduğunu bilmenin bağımsız bir yolu yoktu, yine de bu görev için ihtiyaç duyduğu kavramları aldı. Belinda Li, “Modelin içinde gizlenmiş bir durum temsili var” diyor.
Araştırmacılar, LLM’lerin metinden ne kadar çok şey öğrenebildiğine hayret ediyor. Örneğin, Pavlick ve ardından Ph.D. öğrenci Roma Patel, bu ağların İnternet metninden renk açıklamalarını özümsediğini ve rengin dahili temsillerini oluşturduğunu keşfetti. “Kırmızı” kelimesini gördüklerinde onu sadece soyut bir sembol olarak değil, kestane rengi, kızıl, fuşya, pas rengi vb. Bunu göstermek biraz zordu. Araştırmacılar, bir ağa bir sonda yerleştirmek yerine, bir dizi metin istemine verdiği yanıtı inceledi. Bunun yalnızca çevrimiçi referanslardan renk ilişkilerini yansıtıp yansıtmadığını kontrol etmek için, kırmızının aslında yeşil olduğunu söyleyerek sistemi yanlış yönlendirmeye çalıştılar – tıpkı bir kişinin kırmızısının başka birinin yeşili olduğu eski felsefi düşünce deneyi gibi. Yanlış bir cevabı papağan gibi tekrarlamak yerine, doğru ilişkileri sürdürmek için sistemin renk değerlendirmeleri uygun şekilde değiştirildi.
Microsoft Research’ten makine öğrenimi araştırmacısı Sébastien Bubeck, otomatik düzeltme işlevini gerçekleştirmek için sistemin eğitim verilerinin altında yatan mantığı aradığı fikrinden yola çıkarak, veri aralığı ne kadar geniş olursa sistem kurallarının da o kadar genel olduğunu öne sürüyor. keşfedecek. “Belki de bu kadar büyük bir sıçrama görüyoruz, çünkü o kadar büyük bir veri çeşitliliğine ulaştık ki, hepsinin altında yatan tek ilke, onları zeki varlıkların ürettiğidir” diyor. “Ve bu yüzden tüm bu verileri açıklamanın tek yolu, [for the model] zeki olmak için.”
Dilin altında yatan anlamı çıkarmaya ek olarak, LLM’ler anında öğrenebilirler. Yapay zeka alanında, “öğrenme” terimi genellikle, geliştiricilerin sinir ağını gigabaytlarca veriye maruz bıraktığı ve dahili bağlantılarını ince ayar yaptığı hesaplama açısından yoğun süreç için ayrılmıştır. ChatGPT’ye bir sorgu yazdığınızda, ağ düzeltilmelidir; insanlardan farklı olarak öğrenmeye devam etmemelidir. Bu nedenle, LLM’lerin aslında kullanıcılarının istemlerinden öğrenmeleri şaşırtıcı geldi – “bağlam içinde öğrenme” olarak bilinen bir yetenek. Yapay zeka şirketi SingularityNET’in kurucusu Ben Goertzel, “Daha önce var olduğu gerçekten anlaşılmayan farklı bir öğrenme türü” diyor.
Bir LLM’nin nasıl öğrendiğine bir örnek, insanların ChatGPT gibi sohbet robotlarıyla etkileşim kurma biçiminden gelir. Sisteme nasıl tepki vermesini istediğinize dair örnekler verebilirsiniz, o da itaat edecektir. Çıktıları, gördüğü son birkaç bin kelimeye göre belirlenir. Bu kelimeler verildiğinde ne yaptığı, sabit dahili bağlantıları tarafından belirlenir – ancak kelime dizisi yine de bir miktar uyarlanabilirlik sunar. Tüm web siteleri, sistemin “korkuluklarını” (örneğin, sistemin kullanıcılara boru bombasının nasıl yapılacağını söylemesini engelleyen kısıtlamalar) – genellikle modeli korkuluksuz bir sistem gibi davranmaya yönlendirerek – aşan “jailbreak” istemlerine ayrılmıştır. Bazı insanlar jailbreak’i kabataslak amaçlar için kullanır, ancak diğerleri onu daha yaratıcı yanıtlar elde etmek için kullanır. Florida Atlantic Üniversitesi’nde Makine Algısı ve Bilişsel Robotik Laboratuvarı’nın eş direktörü William Hahn, “Bilimsel soruları, özel jailbreak istemi olmadan doğrudan sormanızdan daha iyi yanıtlayacaktır,” diyor. “Burslu olmak daha iyidir.”
Bağlam içi öğrenmenin başka bir türü, “düşünce zinciri” yönlendirmesi yoluyla gerçekleşir; bu, ağın muhakemesinin her adımını hecelemesini istemek anlamına gelir; bu taktik, birden çok adım gerektiren mantık veya aritmetik problemlerinde daha iyi performans göstermesini sağlar. (Fakat Millière’in örneğini bu kadar şaşırtıcı yapan bir şey, ağın Fibonacci sayısını böyle bir koçluk olmadan bulmuş olmasıdır.)
2022’de Google Research ve Zürih’teki İsviçre Federal Teknoloji Enstitüsü’nden bir ekip—Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, João Sacramento, Alexander Mordvintsev, Andrey Zhmoginov ve Max Vladymyrov—bağlam içi öğrenmenin aynı temel hesaplamayı izlediğini gösterdi. gradyan iniş olarak bilinen standart öğrenme prosedürü. Bu prosedür programlanmamıştır; sistem onu yardım almadan keşfetti. Google Research’ün başkan yardımcısı Blaise Agüera y Arcas, “Öğrenilmiş bir beceri olması gerekir” diyor. Aslında, LLM’lerin henüz kimsenin keşfetmediği başka gizli yetenekleri olabileceğini düşünüyor. “Ölçebileceğimiz yeni bir yeteneği her test ettiğimizde onu buluyoruz” diyor.
LLM’lerin yapay genel zeka veya hayvan beyninin becerikliliğine ulaşan bir makine için kullanılan terim olan AGI olarak nitelendirilemeyecek kadar kör noktaları olmasına rağmen, bu ortaya çıkan yetenekler bazı araştırmacılara teknoloji şirketlerinin AGI’ya iyimserlerin bile tahmin ettiğinden daha yakın olduğunu gösteriyor. Goertzel Mart ayında Florida Atlantic Üniversitesi’nde derin öğrenme üzerine bir konferansta “Muhtemelen AGI’dan o kadar da uzakta olmadığımızın dolaylı kanıtıdır” dedi. OpenAI eklentileri, ChatGPT’ye insan beynininkine biraz benzeyen modüler bir mimari kazandırdı. “GPT-4’ü birleştirmek [the latest version of the LLM that powers ChatGPT] MIT araştırmacısı Anna Ivanova, çeşitli eklentilerle birlikte, insan benzeri bir işlev uzmanlaşmasına giden bir yol olabilir” diyor.
Ancak aynı zamanda araştırmacılar, bu sistemleri inceleme yeteneklerine açılan pencerenin kapanıyor olabileceğinden endişe ediyorlar. OpenAI, GPT-4’ü nasıl tasarladığı ve eğittiğinin ayrıntılarını açıklamadı, çünkü kısmen Google ve diğer şirketlerle – diğer ülkelerden bahsetmiyorum bile – rekabet halinde. MIT’de teorik fizikçi olan ve mesleğinin tekniklerini yapay zekayı anlamak için uygulayan Dan Roberts, “Muhtemelen endüstriden daha az açık araştırma olacak ve ürünler oluşturmak için işler daha sessiz ve organize olacak” diyor.
Ve bu şeffaflık eksikliği sadece araştırmacılara zarar vermiyor; aynı zamanda yapay zeka teknolojisini benimseme telaşının sosyal etkilerini anlama çabalarını da engelliyor. Mitchell, “Bu modeller hakkında şeffaflık, güvenliği sağlamak için en önemli şeydir” diyor.
Kaynak : https://www.scientificamerican.com/article/how-ai-knows-things-no-one-told-it/