Yapay zeka modellerinin eğitimi için CAPTCHA testleri, oyunlar ve navigasyon uygulamalarından elde edilen kullanıcı verileri kullanılıyor. Uzmanlar, bu durumun gizlilik ve güvenlik endişeleri yarattığını belirtiyor.
Büyük dil modelleri (LLM) ChatGPT, Gemini ve Claude gibi yapay zeka teknolojileri, günde milyonlarca kullanıcı tarafından metin üretmek amacıyla kullanılıyor. Bu modellerin eğitimi için kitaplar, internet siteleri ve makaleler gibi çeşitli yazılı materyallerden yararlanılıyor. Son dönemde ise bu eğitim sürecinin, internet kullanıcılarının çevrimiçi hareketlerinden veri toplama üzerine yoğunlaştığı tartışılıyor.
İnternet hizmetlerine erişimden önce kullanıcıların robot olmadıklarını teyit eden CAPTCHA ve reCAPTCHA testleri, teknoloji firmaları için önemli bir güvenlik önlemi olmanın ötesinde anlam taşıyor. Kullanıcılardan istenen harf yazma veya görseldeki nesneleri ayırt etme gibi basit görevler, yapay zeka araçlarının eğitimi için kullanıldığı iddialarını güçlendiriyor. Özellikle Google’ın kullandığı testlerde yaya geçitleri, trafik lambaları gibi nesnelerin sorulması, bu verilerin yapay zeka destekli insansız araçlar için kullanıldığı yönünde spekülasyonlara yol açtı. Bir Google Cloud sözcüsü, reCAPTCHA kullanıcı verilerinin yalnızca hizmeti iyileştirmek amacıyla kullanıldığını ve bunun hizmet şartlarında açıkça belirtildiğini ifade etti.
Niantic firmasının popüler oyunu Pokemon Go da yapay zeka eğitimine veri sağlayan bir başka alan olarak öne çıkıyor. Oyuncuların cep telefonlarındaki GPS ve kameralar aracılığıyla gerçek dünyada Pokemon avladığı bu oyun, sokak görüntülerinden oluşan devasa bir veri havuzu oluşturdu. MIT Technology Review’a göre Niantic Spatial, bu 30 milyar görseli kullanarak gerçek dünyanın sanal bir modelini üretti. Bu teknoloji, GPS’in güvenilir olmadığı yerlerde robotların hareketini kolaylaştırmayı hedefliyor. Niantic, Kasım 2024’te yaptığı açıklamada, oyuncuların sunduğu verilerin kullanıldığını doğrulasa da bu özelliğin tamamen opsiyonel olduğunu vurguladı.
İsviçre Lozan Üniversitesi’nden Profesör Christian Peukert, yapay zeka eğitim materyalleri ile kullanıcı güvenliği ve mahremiyeti arasındaki dengeye dikkat çekti. Peukert, CAPTCHA testlerinin eski versiyonlarında, kullanıcının insan olduğunu doğrulamak için bilinen bir kelime ile birlikte yeni bir kelimeyi çözmesinin istendiğini belirtti. Sistem, bilinen kelimeyi kullanarak kullanıcıyı doğrularken, bilinmeyen kelimeye verilen yanıtın dijitalleşme çabaları kapsamında veri olarak saklandığını anlattı. Bu durumun, kullanıcıların metin tanıma sistemlerinin iyileştirilmesine doğrudan katkı sağladığı anlamına geldiğini vurgulayan Peukert, yapay zekanın eğitiminin büyük ölçüde kullanıcıların fark etmeden internette ürettiği pasif verilere dayandığını ifade etti.
Peukert, reCAPTCHA dışında da yapay zeka eğitimine veri sağlayan alanlara örnekler verdi. Reddit ve Twitter gibi sosyal medya platformlarının dil modellerini eğiten metinler sunduğunu, Instagram gibi görsel platformlarda eklenen açıklamalar ve etiketlerin görsel verinin etiketlenmesine katkı sağladığını belirtti. Google aramalarının dil anlama sistemlerini geliştirdiğini, Google Haritalar ve Waze gibi navigasyon uygulamalarının hareket verileriyle tahmin modellerini eğittiğini, sohbet robotları ve sesli asistanlarla yapılan görüşmelerin ise sistem iyileştirmede kullanıldığını kaydetti.
Bu süreçlerin gizlilik ve güvenlik açısından endişeler barındırdığını vurgulayan Peukert, büyük veri birikiminin ‘fişleme’, ‘sahte içerik üretimi’ ve ‘kullanıcıların kendileriyle rekabet eden sistemleri beslemesi’ gibi risklere yol açabileceğini belirtti. Bireysel tedbirlerin veri kullanımını azaltmada yetersiz kalacağını ifade eden Peukert, eğitim için kullanılan verilerin büyük kısmının zaten toplandığını ve kontrolünün zor olduğunu söyledi. Bununla birlikte Peukert, insan kaynaklı verilerin dil teknolojileri, çeviri, erişilebilirlik araçları ve arama motorları gibi gündelik hizmetlerdeki kullanımının faydalarına da işaret etti.
Yorum Yap