6.1 Simülatif Veri Üretimi

6.1.1 Giriş

Simülasyon ya da diğer bir ifade ile benzer koşulları oluşturma çalışmaları olasılıklara ilişkin en yakın sonuçları elde etmek için basit ve güvenilir bir yoldur (Albert & Rizzo, 2012). Bilimsel araştırma süreçlerinde sahadan toplanan verilerin yanı sıra gerçek durumlara benzer özellikler içeren yapay olarak üretilen veriler de kullanılabilir. Özellikle, istatistik, psikometri veya ölçme ve değerlendirme alanlarında bazı istatistiksel yöntemlerin farklı koşullardaki performanslarının incelendiği veya karşılaştırıldığı durumlarda yapay olarak üretilen veri setleri kullanılabilmektedir. Bu tip çalışmalarda sahadan elde edilen gerçek verilerin ilgili istatistiksel yöntemin test edilmek istendiği tüm koşulları içeremeyeceği gerçeği yapay veri üretimi kaçınılmaz kılmaktadır.

R programlama dili veri üretimi sürecinde kullanıcılara önemli esneklikler sağlar. R farklı dağılımlara ilişkin veri üretimine olanak verir. Örneğin “rnorm” normal dağılım altında rastgele veriler üretir. Fonksiyon içerisindeki “r” (“random”) seçkisizliği “norm” ise verinin normal dağılım altında üretileceğini belirtir. Bu mantıkla “rbniom” binom dağılımı , “rchisq” kay kare dağılımı , “rf” F dağılımı ve “runif” de tekbiçimli dağılım altında rastgele veri üretmek için kullanılan fonksiyonlardır. Burada bahsedilmeyen diğer olasılık dağılımları için de aynı yaklaşım kullanılır (log- normal dağılım, beta dağılımı vb.).

Yine çok benzer bir mantıkla kümülatif dağılım fonksiyonuna ilişkin bilgiler elde etmek için fonksiyon içerisinde “r”yerine “p” harfi yer alır. Örneğin “pnorm”, “pchisq”,“pt” sırasıyla normal, ki-kare ve t dağılımları için kümülatif dağılım fonksiyonunu verir. Bu fonksiyonlar daha çok ilgili dağılımlar altında “p değeri” başka bir ifade ile birinci tip hata olasılığını hesaplamada kullanılır. Aynı bakış açısı ile devam edersek fonksiyon içerisinde dağılım isminden önce kullanılan “d” harfi yoğunluk fonksiyonunu ( “dnorm”, “dbinom” vb. ) elde etmek için kullanılır. Fonksiyon içerisinde dağılım isminden önce kullanılan “q” harfi ise çeyrekliklere ilişkin bilgi verir ( “qnorm”, “qbinom” vb. ). Bu dağılımlara ve kullanımlarına ilişkin detaylı bilgileri burada sunmadık. Bunun için Atar & vd (2019) kaynağında daha detaylı açıklamalara ulaşabilirsiniz.

6.1.2 Monte Carlo Simülasyonları

Yapay olarak üretilen simülatif veriler genellikle Monte Carlo (MC) simülasyonları olarak adlandırılır. Bu yaklaşım daha önce de belirtildiği gibi gerçek hayatta sahadan toplanan veriler ile elde etmemiz pratik olarak zor olan veya mümkün olmayan çeşitli özelliklere sahip veri setlerini elde etmek amacıyla kullanılır. Aslında yapay veri üretme yaklaşımının neden Monte Carlo yöntemi olarak adlandırıldığı konusunda iki görüş vardır.

Bunlardan birincisi şöyledir; ikinci dünya savaşı sırasında Los Alamos Bilim Laboratuvarında çalışan fizikçiler nötronların farklı materyallerdeki hareketlerini incelerken simülasyondan faydalanmışlardır. Bu gizli bir çalışma olduğu için o dönemde takma bir isim kullanmak gerekmişti ve projede çalışan bilim insanları Monte Carlo kumarhanelerine atfen “Monte Carlo” ismini kullandılar. O zamandan itibaren olasılık modellerine dayalı simülasyon çalışmaları ” Monte Carlo Yöntemi” olarak adlandırıldı (Albert & Rizzo, 2012).

Diğer bir görüşü göre Karl Pearson 1800’lü yıllarda simülatif veri üretmeye çalışmaktadır ve doğal olarak bilgisayara sahip olmadığından bozuk para ile yazı tura atıp sonuçları kaydetmektedir. Daha sonra Pearson’ın bir arkadaşı kumarhanelerdeki rulet masalarında yansız veriler üretildiğini ve bu verileri kullanılabileceği fikrini ortaya atmıştır. Bir bilim insanının kumarhaneye gidip rulet masalarını gözlemleyip çıkan sayıları kaydetmesi doğal olarak çok mümkün olmamıştır. Bunun için kumarhane yöneticilerini ikna etmek yerine “Le Monaco” isimli ve kumarhanelerde rulet masalarında çıkan sayıları periyodik olarak sunulan bir derginin kopyasına 1 frank karşılığında ulaştılar. Bu nedenle simülatif veriler her ne kadar rulet masaları ile değil de bilgisayarlar aracılığı ile üretilse de “Monte Carlo” çalışmaları olarak adlandırılmaya başlandı (Pearson, 1894; Plackett, 1983; akt. Field, 2005).

“Monte Carlo” çalışmaları genel bir adlandırma olmakla beraber altında sonradan geliştirilmiş çeşitli simülasyon yaklaşımlarını barındırmaktadır. Örneğin “Markov Zinciri,”“Metropolis-Hasting Algoritması,” “Rastgele Yürüyüş Metropolis-Hasting Algoritması” ve “Gibbs Örneklemesi” en sık kullanılanlarıdır. Burada bu yöntemlerin detaylarına girilmemiştir. Detaylı bilgi için Albert & Rizzo, (2012) kaynağındaki 13. Bölümün incelenmesi önerilir.

İleriki kısımlarda ölçme ve değerlendirme alanında yaygın olarak kullanılan modeller çerçevesinde veri üretim sürecini R programlama dili üzerinden örneklendirmeye ve açıklamaya çalıştık.