Veri Madenciliği - Bilgisayar Programcılığı

Doğru Cevap: C

Soru 19

I. Büyük miktarda veri içerisinden anlamlı ve yararlı ilişki kurallarını ortaya çıkarmak
II. Elde edilen bilgi ile kâr sağlamak
III. Veriler arasındaki örüntüleri ve ilişkileri keşfetmek
IV. Topluma faydalı olacak verileri ortaya koyabilmek
Yukarıdakilerden hangileri veri madenciliğinin tanımını oluşturan özelliklerdendir?

I ve IV

II ve III

I ve III

III ve IV

Yalnız IV

Açıklama:

Veri madenciliği, büyük miktardaki veri yığınları üzerinde analiz yaparak veriler ara- sında var olan ve geleceğin tahmin edilmesine yardımcı olacak anlamlı ve yararlı ilişki ve kuralların bilgisayar yazılımları aracılığıyla aranması faaliyetleridir.
Veri madenciliği, çeşitli analiz araçlarını kullanarak veriler arasındaki örüntü (desen) ve ilişkileri keşfederek, bunları doğru tahminler yapmak için kullanan bir süreçtir.

Veri madenciliği, veri analizi için, gelişmiş ve karmaşık araçlar kullanarak yığın veri kümeleri içinden daha önceden bilinmeyen olgu ve olayları keşfetmek ve veriler arasındaki mantıklı ilişkileri ve kalıpları ortaya çıkarmak amacıyla yapılan çalışmalardır.

Veri madenciliği, istatistiksel ve matematiksel tekniklerle birlikte örüntü tanıma tekno- lojilerini kullanarak çeşitli depolama ortamlarında kayıtlı bulunan veri yığınları üzerinde gerçekleştirilen elemeler sonucunda anlamlı yeni korelasyon, örüntü ve eğilimlerin keş- fedilmesi sürecidir.

Yığın veri içinden anlamlı ilişkiler çıkarma ve yararlı bilgilere dönüştürme işlemine zaman içerisinde; bilgi çıkarımı, enformasyon keşfi, enformasyon hasadı, veri arkeolojisi, veri örüntü işleme, veri şablon işleme gibi farklı isimler verilmiştir.

Burada belirtilmesi gereken diğer bir nokta, veri madenciliği kavramı ile veritabanla- rında bilgi keşfi kavramının zaman zaman aynı anlamda kullanıldığıdır. Ancak bu doğru bir kullanım değildir. Çünkü veri madenciliği, veritabanlarında bilgi keşfi sürecinin yalnızca bir adımıdır.

Doğru Cevap: C

Soru 20

Aşağıdakilerden hangisi veritabanı yönetim sisteminin özelliklerinden biri değildir?

Veritabanı oluşturmak

Veritabanının bakımını yapmak

Veritabanının farklı kullanıcı yetkilerini belirlemek

Veritabanını görselleştirmek

Veritabanında işlem yapmak

Açıklama:

Veritabanını görselleşmek, veritabanı yönetim sisteminin özelliklerinden biri değildir. Doğru cevap D'dir.

Doğru Cevap: D

Soru 21

I. Modelin kurulması
II. Amacın tanımlanması
III. Modelin izlenmesi
IV. Veriler üzerinde ön işlemlerin yapılması
Yukarıdakilerden hangileri veri madeciliği öncesinde gerçekleştirilen işlemlerdendir?

I ve II

II ve III

I ve III

II ve IV

III ve IV

Açıklama:

Veri madenciliği öncesindeki işlemler; veri tabanlarında bilgi keşfi sürecinin ilk iki aşaması olan, amacın tanımlanması ve veriler üzerinde ön işlemlerin yapılması aşamalarına karşılık gelmektedir.
Veri madenciliği işlemlerinin kendisi, modelin kurulması ve değerlendirilmesi aşamasında gerçekleştirilen faaliyetlerdir.
Veri madenciliği sonrasındaki işlemler ise modelin kullanılması ve yorumlanması ile modelin izlenmesi aşamalarındaki işlemlerdir.

Doğru Cevap: D

Soru 22

"Büyük hacimli verilerin işlenmesi için geliştirilmiş algoritmalar ile geleneksel veri analiz yöntemlerinin karması olan teknolojiye ........... denir."
Yukarıdaki cümlede boş bırakılan yere uygun olan kavram hangisidir?

Veri analizi

Veri madenciliği

Veri modeli

Veri toplama

Veri inceleme

Açıklama:

Veri madenciliği büyük hacimli verilerin işlenmesi için geliştirilmiş algoritmalar ile geleneksel veri analiz yöntemlerinin karması olan bir teknolojidir.

Doğru Cevap: B

Soru 23

I. Regresyon
II. Kümeleme
III. İstisna analizi
IV. Genetik algoritmalar
Yukarıdakilerden hangileri veri madenciliğinde kullanılan tahmin edici modellerdendir?

I ve III

II ve III

I ve IV

III ve IV

Yalnız IV

Açıklama:

Veri madenciliğinde kullanılan modeller; tahmin edici modeller ve tanımlayıcı modeller olmak üzere temelde iki başlık altında incelenebilir. Tahmin edici modeller; regresyon, sınıflandırma, karar ağaçları, Bayes sınıflandırması, hatayı geri yayma, karar destek makineleri, k-en yakın komşu, yapay sinir ağları, genetik algoritmalar, zaman seri analizi ve diğer metotlar olarak öne çıkmaktadır. Tanımlayıcı modeller ise, kümeleme, birliktelik kuralları, sıra örüntü analizi, özetleme, tanımlayıcı istatistik, istisna analizi ve diğer metotlardır.

Doğru Cevap: C

Soru 24

Aşağıdakilerden hangisi veri madenciliğinde kullanılan tanımlayıcı modellerden biridir?

Karar ağaçları

Tanımlayıcı istatistik

Zaman serisi analizi

Hatayı geri yayma

Bayes sınıflandırması

Açıklama:

Doğru Cevap: B

Soru 25

Aşağıdakilerdir hangisi, veritabanlarında bilgi keşif sürecinde izlenmesi gereken temel aşamalardan birisi değildir?

Amacın tanımlanması

Veriler üzerinde ön işlemlerin yapılması

Modelin kurulması ve değerlendirilmesi

Modelin kullanılması ve yorumlanması

Verilerin yayımlanması

Açıklama:

Açıklama: Veritabanlarında Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalar:

Amacın tanımlanması
Veriler üzerinde ön işlemlerin yapılması
Modelin kurulması ve değerlendirilmesi
Modelin kullanılması ve yorumlanması
Modelin izlenmesi

Doğru Cevap: E

Soru 26

Veritabanlarında bilgi keşif sürecinde en fazla zaman alan aşama hangisidir?

Amacın tanımlanması

Modelin kurulması ve değerlendirilmesi

Veriler üzerinde ön işlemlerin yapılması

Modelin kullanılması ve yorumlanması

Modelin İzlenmesi

Açıklama:

Açıklama: Veriler üzerinde yapılan ön işlemler, veri tabanlarında bilgi keşfi sürecinin en fazla zaman alan aşamasıdır.

Doğru Cevap: C

Soru 27

Verinin bir anlam oluşturacak şekilde düzenlenmiş haline ne ad verilir?

Kümeleme

Veri Bankası

İstatistik

Enformasyon

Veri Düzeneği

Açıklama:

Enformasyon, verinin bir anlam oluşturacak şekilde düzenlenmiş halidir.

Doğru Cevap: D

Soru 28

Aşağıdakilerden hangisi veritabanlarında bilgi keşif sürecinde izlenmesi gereken temel aşamalardan birisi olan; veriler üzerinde yapılan ön işlemlerin aşamalarından birisi değildir?

Verilerin toplanması ve birleştirilmesi

Verilerin ortak havuzdan çekilmesi

Kayıp veriler için işlem yapılması

Verilerdeki gürültünün temizlenmesi

Verilerin yeniden yapılandırılması

Açıklama:

Veriler Üzerinde Yapılan Ön İşlemler

Verilerin toplanması ve birleştirilmesi
Verilerin temizlenmesi
Kayıp veriler için işlem yapılması
Verilerdeki gürültünün temizlenmesi
Verilerin yeniden yapılandırılması
Verilerin normalizasyonu
Verilerin azaltılması
Verilerin dönüştürülmesi

Doğru Cevap: B

Soru 29

Veri toplama sürecinde yanlış araçların kullanması, veri girişinde hataların yapılması ve veri toplama aşamasında sorulara eksik cevap verilmesi sonucu ortaya çıkan veriye ne ad verilir?

İşlenmiş veri

Depolanmış veri

Dönüştürülmüş veri

Normalizasyonu yapılmış veri

Kayıp veri

Açıklama:

Kayıp veri, veritabanlarındaki kayıtlarda eksik olan verilerdir. Veri toplamada yanlış araçların kullanılması, veri girişinde hata yapılması yada veri toplama aşamasında sorulara eksik cevap verilmesi bu nedenlerden bazılarıdır.

Doğru Cevap: E

Soru 30

Aşağıda verilenlerden hangisi, kayıp verilerin neden olacağı olumsuzlukları ortadan kaldırmak amacıyla kullanılan yaklaşımlardan birisi değildir?

Kayıp veri içeren kaydı veri kümesinden çıkarmak

Kayıp verilerin olduğu düşünülen dosyayı silmek

Kayıp verilerin hepsi için aynı veriyi girmek

Kayıp veri yerine tüm verilerin ortalama değerinin girilmesi:

Kayıtlarda yer alan diğer değişkenler yardımıyla kayıp verilerin tahmin edilmesi

Açıklama:

Kayıp verilerin neden olacağı olumsuzlukları ortadan kaldırmak amacıyla kullanılan
yaklaşımlar:

Kayıp veri içeren kaydı veri kümesinden çıkarmak
Kayıp verileri tek tek yazmak:
Kayıp verilerin hepsi için aynı veriyi girmek
Kayıp veri yerine tüm verilerin ortalama değerinin girilmesi:
Kayıtlarda yer alan diğer değişkenler yardımıyla kayıp verilerin tahmin edilmesi:

Doğru Cevap: B

Soru 31

Veri ambarlarında aykırı veriyi bulma ve düzeltme için, verilerdeki gürültünün temizlenmesi yaklaşımlarından hangisi kullanılır?

Bölümleme yöntemi yaklaşımı

Sınır değerleri yaklaşımı

Kümeleme yöntemi yaklaşımı

Regresyon yöntemiyle yaklaşımı

Ayıklama yöntemi yaklaşımı

Açıklama:

Kümeleme yöntemi yaklaşımı: aykırı değerlerin ortaya çıkarılması ve düzeltilmesinde kullanılır. Buna göre, veri setinde yer alan veriler birbirlerine olan benzerlik ve yakınlıklarına göre kümelere ayrılır. Bu kümeleme işlemi sırasında uç değer olarak kabul edilen bazı veriler hiçbir küme içinde yer alamayacaktır. Bu şekilde belirlenen her bir aykırı değere, en yakın olduğu kümenin ortalama değeri veya en küçük ya da en büyük değeri atanarak aykırı veriler temizlenmiş olur.

Doğru Cevap: C

Soru 32

Aşağıda verilen ve veri madenciliğinde kullanılan modellerden hangisi, sınıflandırma modelleri arasında yer almaz?

Sıra Örüntü Analizi

Genetik Algoritmalar

Hatayı Geri Yayma

Yapay Sinir Ağları

Zaman Serisi Analizi

Açıklama:

Veri Madenciliğinde Kullanılan Sınıflandırma Modelleri:

Karar Ağaçları

Bayes Sınandırması

Hatayı Geri Yayma

Karar Destek Makineleri

k-En Yakın Komsu

Yapay Sinir Ağları

Genetik Algoritmalar

Zaman Serisi Analizi

Doğru Cevap: A

Soru 33

Aşağıda verilen veri madenciliği uygulama konularından hangisi, eğitim alanında yapılan veri madenciliği uygulama konularından değildir?

Öğrenci verilerinin analiz edilmesi

Öğrenci başarı ve başarısızlık nedenlerinin tespit edilmesi

Üretim süreçlerinin kontrol edilmesi ve tespit edilmesi

Eğitim-öğretim ortamlarındaki aksaklıkların tespit edilmesi

Daha etkili eğitim-öğretim ortamlarının oluşturulması

Açıklama:

Eğitim alanında yapılan veri madenciliği uygulama konuları:

Öğrenci verilerinin analiz edilmesi
Öğrenci başarı ve başarısızlık nedenlerinin tespit edilmesi
Öğrenci başarılarının arttırılması
Eğitim-öğretim ortamlarındaki aksaklıkların tespit edilmesi
Daha etkili eğitim-öğretim ortamlarının oluşturulması

Üretim süreçlerinin kontrol edilmesi- Endüstri ve Mühendislik Alanındaki Uygulamalarındandır.

Doğru Cevap: C

Soru 34

Zaman içinde giderek büyüyen veri tabanlarının düzenlenmesi için üretilen, ilk basit veri modelleri hangileridir?

Hiyerarşik veri modeli ve hipodermik veri modeli

Örümcek veri modeli ve hiyerarşik veri modeli

Hiyerarşik veri modeli ve ağ veri modeli

Sıra örüntü analizi modeli ve veri madenciliği modeli

Veri madenciliği modeli ve veri işçiliği modeli

Açıklama:

Zaman içinde giderek büyüyen veri tabanlarının organizasyonu, düzenlenmesi ve yönetimi de doğal olarak zorlaşmıştır. Bu zorlukların üstesinden gelebilmek amacıyla ise veri modelleme kavramı ortaya atılmıştır. Ilk veri modelleri; Hiyerarşik Veri Modeli ve Ağ Veri Modeli olarak adlandırılan basit veri modelleridir.

Doğru Cevap: C

Soru 35

İşletmelerin varlığını sürdürebilmesi için yöneticilerinin doğru kararları ve doğru stratejileri belirlemesi için bilgiyi hangi koşullarda elde etmelidir?

Doğru yer

Doğru zaman

Doğru kişi

Doğru karar

Doğru strateji

Açıklama:

İletişim ve bilişim teknolojilerinde yaşanan gelişmeler dünyada her şeyin hızla değişmesine neden olmaktadır. İster kâr amaçlı işletmeler, ister diğer kurum ve kuruluşlar açısından olsun, değişimlere ayak uydurabilmek başarı için önemli bir gerekliliktir. İşletmeler açısından ele alındığında bu değişimler; ekonomik koşullarda, iş yapma biçimlerinde, müşteri beklentilerinde, müşteri eğilimlerinde, rakiplerin stratejilerinde vb. ortaya çıkmaktadır. İşletmelerin bu değişimlere ayak uydurabilmesi, rakipleriyle yarışabilmesi ve varlıklarını başarılı bir biçimde sürdürebilmesi için, işletmelerde karar verici konumunda olan yöneticilerin, doğru kararlar vererek doğru stratejiler belirlemeleri gerekmektedir. Bu da ancak zamanında elde edilebilen doğru bilgilerin kullanımıyla mümkün olacaktır.

Doğru Cevap: B

Soru 36

Veri madenciliğinin tarihsel süreci içerisinde düşünüldüğünde veri tabanı kavramı hangi amaçla ortaya çıkmıştır?

Veri düzeni

Eksik verileri tamamlama

Verilerin depolanması

Verilerin kayıt altına alınması

Veri aktarımı

Açıklama:

Veri madenciliğinin tarihi bilgisayarların hayatımıza girmesiyle başlamıştır. 1950’li yıllardaki ilk bilgisayarların geliştirilme ve kullanım amacı sayım ve karmaşık hesaplamaları kolaylıkla yapabilmekti. Daha sonra kullanıcıların ihtiyaçları doğrultusunda, bilgisayarlar veri depolama işlemleri için de kullanılmaya başlanmıştır. Verilerin depolanması ihtiyacı ile birlikte, 1960’lı yıllardan itibaren teknoloji dünyası veri tabanı kavramı ile tanışmıştır.

Doğru Cevap: C

Soru 37

Veri madenciliğine etki eden disiplinler düşünüldüğünde verilerin analizi ve değerlendirilmesi işlemlerini gerçekleştiren disiplin seçeneklerden hangisidir?

Makine öğrenimi

Görselleştirme

Örüntü tanıma

Veritabanı sistemleri

İstatistik

Açıklama:

İstatistik, verilerin analizi ve değerlendirilmesi konusunda geçmişten günümüze yoğun bir biçimde kullanılan bir disiplindir. Bilgisayar sistemlerinde hem donanım hem de yazılım alanında sağlanan gelişmeler doğal olarak istatistik alanını da etkilemiştir. İstatistiksel çalışmaların bilgisayar desteğiyle daha güçlü biçimde yapılması, daha önce gerçekleştirilmesi çok mümkün olmayan istatistiksel araştırmaları ve analizleri yapılabilir hâle getirmiştir. Bu anlamda 1990’lardan sonra, ilgilenilen verinin yığınlar içinden çekilip çıkarılması ve analizinin yapılarak kullanıma hazır hâle getirilmesi sürecinde istatistik, veri madenciliği ile ortak bir platformda ve sıkı bir çalışma birlikteliği içinde olmuştur.

Doğru Cevap: E

Soru 38

Veri madenciliğine etki eden disiplinler düşünüldüğünde verilerin işlenmesinde algoritmalar aracılığıyla sonuçlar elde edilmesi işlemlerini gerçekleştiren disiplin seçeneklerden hangisidir?

İstatistik

Veritabanı sistemleri

Görselleştirme

Örüntü tanıma

Makine öğrenimi

Açıklama:

Makine öğrenimi bilgisayarların kendisine algoritmalar yoluyla verilen kuralları uygulaması ve büyük veri kümeleri içinden örnekler çıkararak verileri bu kurallara göre sınıflamaları, tanımlamaları ve dolayısıyla öğrenmeleri olarak ifade edilebilir. Bu öğrenmeler sonucunda çıkarımlarda bulunarak geçmiş veri örnekleri yardımıyla gelecekte daha iyi sonuçlar üretme konusunda veri madenciliği uygulamasına katkıda bulunurlar.

Doğru Cevap: E

Soru 39

Veri madenciliğine etki eden disiplinler düşünüldüğünde verilerin tablo ve grafikler ile sunulmasını sağlayan disiplin seçeneklerden hangisidir?

Makine öğrenimi

İstatistik

Görselleştirme

Örüntü tanıma

Veritabanı sistemleri

Açıklama:

Veri madenciliğinde söz konusu diğer bir disiplin olan görselleştirme; verilerin, tablolar ve grafikler gibi görseller yardımıyla sunulmasını sağlayan teknolojileri ifade eder.
Görselleştirme; verilerin daha kolay anlaşılmasına, analiz edilmesine ve geleceğe yönelik tahminlerde bulunulmasına önemli katkı sağlamaktadır.

Doğru Cevap: C

Soru 40

Veri madenciliğine etki eden disiplinler düşünüldüğünde verilerin depolanmasını ve kullanıcıların veriler üzerinde işlem yapmasına olanak sağlayan disiplin seçeneklerden hangisidir?

Makine öğrenimi

İstatistik

Görselleştirme

Veritabanı sistemleri

Örüntü tanıma

Açıklama:

Veri madenciliğinin olmazsa olmazlarından biri de veritabanlarıdır. Bilindiği gibi işletmelerde ve yapısal diğer tüm kurumlarda günlük işlemler ve bu işlemlere konu olan veriler kaydedilmektedir. Bununla birlikte veritabanı kavramı gelişigüzel veri yığınları olmayıp birbiriyle ilişkili olan ve amaca uygun biçimde düzenlenmiş, mantıksal ve fiziksel olarak tanımlanmış veriler bütünüdür. Veritabanı yönetim sistemi ise kısaca veritabanı tanımlamak, veritabanı oluşturmak, veritabanında işlem yapmak, veritabanının farklı kullanıcı yetkilerini belirlemek, veritabanının bakımını ve yedeklemesini yapmak için geliştirilmiş programlar bütünüdür. Son olarak, veritabanı ve veri tabanı yönetim sisteminin birlikte oluşturduğu bütün de veritabanı sistemi olarak ifade edilir.

Doğru Cevap: D

Soru 41

Veri madenciliğine etki eden disiplinler düşünüldüğünde verilerin düzenli ve sistematik bir biçimde sıralanmasını saptayan disiplin seçeneklerden hangisidir?

Örüntü tanıma

Makine öğrenimi

İstatistik

Veritabanı sistemleri

Görselleştirme

Açıklama:

Örüntü, olaylar ve nesneler arasında düzenli ve sistematik bir biçimde tekrarlanan ilişki modellerini ifade etmek için kullanılan bir kavramdır. Örüntü tanıma teknolojisi ise daha önceden tanımlanmış, bir model olarak düşünülebilen çok boyutlu bir örüntünün veritabanındaki benzerlerini ya da en benzerini arama ve bulma amacına yönelik yazılımları ifade eder. Örüntünün konusu yazılı bir metin olabileceği gibi parmak izi, ses, yüz tanıma, kan hücrelerinin karşılaştırılması, el yazılarının belirlenmesi gibi alanlar da olabilir. Verilen son örneklerde örüntü, el, yüz, resim, çizim ve ses gibi nesnelerin bilgisayar ortamlarında sayısal olarak ifade edilmesi anlamındadır.

Doğru Cevap: A

Soru 42

Harf, rakam ya da çeşitli sembol ve işaretler ile temsil edilen ham gözlemler, işlenmemiş gerçekler ya da izlenimler ifadesi seçeneklerdeki kavramlardan hangisinin tanımıdır?

Veri madenciliği

Veritabanı

Makine öğrenimi

Veri

Veri yönetimi

Açıklama:

Veri, ham gözlemler, işlenmemiş gerçekler ya da izlenimlerdir. Bu gözlemler, gerçekler ya da izlenimler harf, rakam ya da çeşitli sembol ve işaretler yardımıyla temsil edilir.

Doğru Cevap: D

Soru 43

"İşletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlar" ifadesi seçeneklerden hangisinin tanımıdır?

Veritabanı

Veritabanı sistemleri

Veri işleme

Makine öğrenmesi

Veri ambarı

Açıklama:

Veri ambarı işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir.

Doğru Cevap: E

Soru 44

Veritabanlarında bilgi keşfi süreci adımları düşünüldüğünde verilerin toplanması, birleştirilmesi, temizlenmesi ve yeniden yapılandırılması işlemleri hangi adımda gerçekleştirilir?

Amacın Tanımlanması

Veriler Üzerinde Ön İşlemlerin Yapılması

Modelin Kurulması ve Değerlendirilmesi

Modelin Kullanılması ve Yorumlanması

Modelin İzlenmesi

Açıklama:

Veriler üzerindeki ön işlemler genel olarak;
• Verilerin toplanması ve birleştirilmesi,
• Verilerin temizlenmesi,
• Verilerin yeniden yapılandırılması
biçiminde sınıflandırılabilir.

Doğru Cevap: B

Amacın tanımlanması

Modelin izlenmesi

Modelin kurulması ve değerlendirilmesi

Modelin kullanılması ve yorumlanması

Veri üzerinde ön işlemlerin yapılması

Yukarıdakilerden hangileri veri madenciliğinin sonrasındaki işlemlerdendir?

I ve II

II ve III

III ve V

II ve IV

III ve IV

Açıklama:

"Modelin kullanılması ve yorumlanması" ve "modelin izlenmesi" veri madenciliği sonrasında yapılan işlemlerdendir. Doğru cevap D'dir.

Doğru Cevap: D

Soru 51

Farklı değerlerdeki verilerin 0,0-1,0 gibi aralıklardaki değerlerle temsil edilmesi işlemine ______________ denir?

Ortalama

Varyans

Hipotez

Normalizasyon

Akış

Açıklama:

Farklı değerlerdeki verilerin 0,0-1,0 gibi aralıklardaki değerlerle temsil edilmesi işlemine normalizasyon denir.

Doğru Cevap: D

Soru 52

_____________, insan öğrenmesinde söz konusu olan özelliklerin algoritmalar yardımıyla bilgisayarlara da uygulanabileceği ve bilgisayarların da insanlar gibi öğrenebileceği düşüncesini temel alan bir disiplindir.

Fare arayüzü

Klavye

İstatistik

Veri

Makine öğrenmesi

Açıklama:

Makine öğrenimi, insan öğrenmesinde söz konusu olan özelliklerin algoritmalar yardımıyla bilgisayarlara da uygulanabileceği ve bilgisayarların da insanlar gibi öğrenebileceği düşüncesini temel alan bir disiplindir.

Doğru Cevap: E

Soru 53

Seçeneklerden hangisi veri madenciliğinin etkileşimde olduğu disiplinler arasında yer almaz?

İstatistik

Görselleştirme

Örüntü Tanıma

Gümrük

Veritabanı sistemleri

Açıklama:

Doğru Cevap: D

Soru 54

____________ ise en yalın tanımıyla verinin işlenmiş ve dönüştürülmüş halidir?

İnsan

Makine

Bilgi

Veri

Deney

Açıklama:

Bilgi ise en yalın tanımıyla verinin işlenmiş ve dönüştürülmüş halidir.

Doğru Cevap: C

Soru 55

Veri ambarında yer alan veriler üzerinde çok boyutlu,
çok yönlü analiz ve sorgulama yapılmasını sağlayan sistemler nedir?

GLMS

OLAP

DNS

HTTPS

VIAD

Açıklama:

Çevrimiçi Analitik İşleme olarak adlandırılan bu sisteme kısaca OLAP (On- Line Analytical Processing) denir. OLAP uygulamaları veri ambarından çekilen veriler üzerinde gerçekleştirilir. OLAP sorgulamaları işlemsel veri tabanlarında gerçekleştirilen basit analiz ve sorgulamalardan farklı olarak, veriyi çok boyutlu biçimde analiz eder ve analiz sonucunda yöneticilere stratejik kararlarında destek olacak yararlı bilgiler sunar.

Doğru Cevap: B

Soru 56

Seçeneklerden hangisi Veritabanlarında Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalar arasında son aşamada yer alır?

Amacın tanımlanması

Modelin İzlenmesi

Veriler üzerinde önizleme yapılması

Aritmetik ortalama hesaplama

Hipotez testi

Açıklama:

Veritabanlarında Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalar aşağıdaki gibi sıralanabilir.
1. Amacın Tanımlanması
2. Veriler Üzerinde Ön İşlemlerin Yapılması
3. Modelin Kurulması ve Değerlendirilmesi
4. Modelin Kullanılması ve Yorumlanması
5. Modelin İzlenmesi

Doğru Cevap: B

Soru 57

Veri madenciliği _____________ işlemler ise modelin kullanılması ve yorumlanması ile modelin izlenmesi aşamalarındaki işlemlerdir.

beraberindeki

öncesindeki

kendisi

sonrasındaki

belirsizliğindeki

Açıklama:

Veri madenciliği sonrasındaki işlemler ise modelin kullanılması ve yorumlanması ile modelin izlenmesi aşamalarındaki işlemlerdir.

Doğru Cevap: D

Soru 58

Veriler üzerinde yapılan ön işlemler göz önüne alındığında seçeneklerden hangisi verilerin temizlenmesi aşamasında yer alır?

Normalizasyon

Azaltma

Dönüştürme

Kayıp veri işlemi

Veri birleştirme

Açıklama:

Veri temizleme aşamasında kayıp (eksik) veri, gürültülü veri ve tutarsızlıklar giderilir. Doğru cevap D.

Doğru Cevap: D

Soru 59

Aşağıdakilerden hangisi 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır?

Destek Vektör Makineleri

K-En Yakın Komşu

Perseptron

Yapay Sinir Ağları

Naive Bayes

Açıklama:

Perseptron, insan beyninde yer alan sinir hücrelerinin (nöronların) ilk yapay modeline verilen isim olup algılayıcı, fark edici anlamındadır. 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır.

Doğru Cevap: C

Soru 60

Hangi tarihten itibaren teknoloji dünyası veri tabanı kavramı ile tanışmıştır?

1940

1950

1960

1970

1980

Açıklama:

Verilerin depolanması ihtiyacı ile birlikte, 1960’lı yıllardan itibaren teknoloji dünyası veri tabanı kavramı ile tanışmıştır.

Doğru Cevap: C

Soru 61

Aşağıdakilerden hangisi olaylar ve nesneler arasında daha önceden tanımlanmış, düzenli ve sistematik biçimde tekrar eden ilişkileri bir model olarak kabul eden ve bu modelin (örüntünün) benzerlerini ya da en benzerini veritabanı içinden arama ve bulmaya yönelik teknolojidir?

Yapay Sinir Ağları

Destek Vektör Makineleri

Örüntü Tanıma

Perseptron

Çevrimiçi Analitik İşleme

Açıklama:

Örüntü tanıma: Olaylar ve nesneler arasında daha önceden tanımlanmış, düzenli ve sistematik biçimde tekrar eden ilişkileri bir model olarak kabul eden ve bu modelin (örüntünün) benzerlerini ya da en benzerini veritabanı içinden arama ve bulmaya yönelik teknolojidir.

Doğru Cevap: C

Soru 62

Aşağıdakilerden hangisi işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir?

SQL

Veri Ambarı

Hard Disk

İç Veri Kaynakları

Dış Veri Kaynakları

Açıklama:

Doğru Cevap: B

I. Hiyerarşik veri modeli
II. Ağ analizi modeli
III. Ağ veri modeli
IV. Veri depolama modeli
Yukarıdakilerden hangisi ilk veri modellerindendir?

I, II ve III

I ve III

II ve IV

Yalnız III

II ve III

Açıklama:

Doğru Cevap: B

Soru 72

Veri madenciliği açısından ilk yazılım ne zaman geliştirilmiştir?

1972

1982

1992

2002

2012

Açıklama:

1992 yılında veri madenciliği için ilk yazılım geliştirilmiştir.

Doğru Cevap: C

Soru 73

I. Mekatronik
II. İstatistik
III. Örüntü tanıma
IV. Güzel sanatlar
Yukarıdakilerden hangileri veri madenciliğinin etkileşimde olduğu disiplinlerdir?

I ve II

II ve III

III ve IV

I ve III

II ve IV

Açıklama:

Veri madenciliğinin etkileşimde olduğu disiplinler;

İstatistik
Makine Öğrenimi
Göreselleştirme
Örüntü tanıma
Veri tabanı sistemleri
Diğer disiplinler

Doğru Cevap: B

Soru 74

"Verinin bir anlam oluşturacak şekilde düzenlenmiş hâline .......... denir."
Yukarıdaki boş bırakılan alana gelmesi gereken uygun kavram hangisidir?

Bilgi

Veri

Analiz

Tecrübe

Enformasyon

Açıklama:

Enformasyon, verinin bir anlam oluşturacak şekilde düzenlenmiş hâlidir.

Doğru Cevap: E

Soru 75

"Büyük miktardaki veri yığınları üzerinde analiz yaparak veriler arasında var olan ve geleceğin tahmin edilmesine yardımcı olacak anlamlı ve yararlı ilişki ve kuralların bilgisayar yazılımları aracılığıyla aranması faaliyetlere ......... denir."
Yukarıdaki boş bırakılan alana gelmesi gereken uygun kavram hangisidir?

Bilgi

Enformasyon

Veri madenciliği

Bilgi arkeolojisi

Data analizi

Açıklama:

Veri madenciliği, büyük miktardaki veri yığınları üzerinde analiz yaparak veriler arasında var olan ve geleceğin tahmin edilmesine yardımcı olacak anlamlı ve yararlı ilişki ve kuralların bilgisayar yazılımları aracılığıyla aranması faaliyetleridir.

Doğru Cevap: C

Soru 76

I. Yapay sinir ağları
II. Sıra örüntü analizi
III. Zaman serisi analizi
IV. İstisna analizi
Yukarıdakilerden hangisi veri madenciliğinde tanımlayıcı modellerdendir?

I ve II

II ve III

III ve IV

I ve III

II ve IV

Açıklama:

Veri Madenciliği Modelleri
Veri Madenciliği Modellerinin Sınıflandırılması
Tahmin Edici (Predictive)
Regresyon (Regression)
Sınıflandırma (Classification)
Karar Ağaçları (Decision Trees)
Bayes Sınıflandırması (Bayesian Classification)
Hatayı Geri Yayma (Backpropagation)
Karar Destek Makineleri (Support Vector Machines)
k-En Yakın Komşu (k- nearest Neighbour)
Yapay Sinir Ağları (Neural Networks)
Genetik Algoritmalar (Genetic Algorithms)
Zaman Serisi Analizi (Time Series Analysis)
Diğer Metotlar (Other Methods)
Tanımlayıcı (Descriptive)
Kümeleme (Clustering)
Birliktelik Kuralları (Association Rules)
Özetleme (Summaerization)
Sıra örüntü analizi (Sequence Analysis)
İstisna Analizi (Outlier Analysis)
Diğer Metotlar (Other Methods)

Doğru Cevap: E

Soru 77

Aşağıdakilerden hangisi veri madenciliğinde tahmin edici modellerdendir?

Tanımlayıcı istatistik

Yapay sinir ağları

Kümeleme

İstisna analizi

Birliktelik kuralları

Açıklama:

Sorunun doğru cevabını 19. sayfadaki tablodan kontrol edebilirsiniz.

Doğru Cevap: B

Soru 78

Aşağıdakilerden hangisi veri madenciliğinin yoğun olarak kullanıldığı alanlardan biri değildir?

Pazarlama

Finans

Eğitim

Tarım

Genetik

Açıklama:

Veri madenciliğinin yoğun ve başarılı bir biçimde kullanıldığı başlıca alanlar; pazarlama, finans (bankacılık, sigortacılık, borsa), parekendecilik, sağlık, telekomünikasyon, endüstri ve mühendislik, eğitim, tıp, biyoloji, genetik, kamu, istihbarat ve güvenlik biçiminde sıralanabilir.

Doğru Cevap: D

Soru 79

Olaylar ve nesneler arasında daha önceden tanımlanmış, düzenli ve sistematik biçimde tekrar eden ilişkileri bir model olarak kabul eden ve bu modelin benzerlerini ya da en benzerini veritabanı içinden arama ve bulmaya yönelik teknolojiye ne ad verilir?

İstatistik

Makine Öğrenmesi

Örüntü Tanıma

Veri Tabanı

Görselleştirme

Açıklama:

Söz konusu tanım, örüntü tanıma ile açıklanabilir.

Doğru Cevap: C

Soru 80

İç veri ve dış veri kaynaklarının bir araya gelmesiyle oluşturulmuş ve üzerinde veri madenciliği işlemlerinin gerçekleştirilebileceği veriyi sağlayan veritabanlarına ne ad verilir?

Veri ambarı

Veri deposu

İstatistiksel öğrenme

Üst veri

Örüntü

Açıklama:

Veri madenciliği işlemlerinin yürütüldüğü çok büyük veritabanlarına veri ambarı adı verilir.

Doğru Cevap: A

Soru 81

MEB'in yönetim bilgi sisteminde sorgu yapan bir uzman, Türkiye'deki tüm 9. sınıf öğrencilerinin ilk dönem birinci matematik sınav notlarını raporlarken, 143 öğrencinin 100'ün üzerinde puan aldığını görmüştür.
Bu 143 birimin oluşturduğu veriye ne ad verilir?

Kayıp veri

Gürültülü veri

Büyük veri

Değerli veri

Değişken veri

Açıklama:

Öğrencilerin alabileceği en yüksek sınav puanı 100'dür. Veri setinin doğasına uygun olmayan bu tip aşırı uç veriler "gürültü" olarak adlandırılır.

Doğru Cevap: B

Soru 82

Değişkenler arasındaki yordayıcı ilişkiye dayalı olarak verideki gürültünün temizlenmesine dayalı yönteme ne ad verilir?

Bölümleme

Kümeleme

Sınır değer

Regresyon

En yakın komşular

Açıklama:

Söz konusu yöntem, gürültünün temizlenmesinde kullanılan yöntemlerden regresyondur.

Doğru Cevap: D

Soru 83

Bir araştırmacı yürüttüğü veri madenciliği sürecinde değişkenlerden bir kısmının 25-185, bir kısmının 5-12, kalan kısmının ise 0-50 arasında değerler aldığını görmüştür.
Araştırmacı, analizlerinin değişkenlerin ölçek düzeylerinin farklılığından etkilenmemesi için aşağıdaki yöntemlerden hangisini uygulamalıdır?

Normalizasyon

Azaltma

Dönüştürme

Çevirme

Harmanlama

Açıklama:

Farklı ölçek düzeylerindeki verilerin aynı ölçek düzeyine getirilerek analizlerdeki olası yanlılığın engellenmesi normalizasyon ile mümkündür.

Doğru Cevap: A

Soru 84

Bir araştırmacı, belirlediği bir veri setinde yanıt aradığı sorusuna çözüm üretmek için bir algoritma eğitmiştir. Ancak bu algoritmanın aynı amaçla kullanılan başka bir veri setinde beklenen sonucu vermediği, öğrenmenin gerçekleştiği veri setinden çok daha kötü çıkarımlarda bulunduğu görülmüştür.
Bu duruma ne ad verilir?

Aşırı öğrenme

Çapraz geçerlik

En yakın komşular

İstatistiksel öğrenme

Yapay sinir ağları

Açıklama:

Bir algoritma sadece öğrendiği-eğitildiği veri setinde iyi bir performans sergiliyorsa, bu durum aşırı öğrenme adını alır.

Doğru Cevap: A

Soru 85

Ozan, telefonunun fotoğraflar bölümünde yeni bir klasör açıldığını ve en çok fotoğraf çektirdiği arkadaşlarının her biri için yeni bir klasör oluştuğunu görmüştür.
Klasörler isimsiz olduğuna göre, kullanılan veri madenciliği modeli aşağıdakilerden hangisi olabilir?

Karar ağaçları

Kümeleme

Yapay sinir ağları

k-en yakın komşular

Regresyon

Açıklama:

Söz konusu durumda, algoritma için bir öğrenme referansı yoktur. Verileri, benzer özellliklerine göre gruplamıştır. Bu nedenle bir denetimsiz öğrenme yöntemidir. Seçenekler arasındaki tek denetimsiz öğrenme yöntemi kümeleme yöntemidir.

Doğru Cevap: B

Soru 86

"Öklid" ve "Manhattan" benzeri uzaklık ölçülerini temel alan denetimli öğrenme yöntemi aşağıdakilerden hangisidir?

k-en yakın komşular

Bayes

Regresyon

Karar ağaçları

Rassal orman

Açıklama:

Nesnelerin birbirine olan uzaklıklarının baz alındığı denetimli öğrenme yöntemi k-en yakın komşular yöntemidir.

Doğru Cevap: A

Soru 87

"Kola alanlar %70 ihtimalle cips de alılar" biçiminde bir dönüt veren veri madenciliği yöntemi aşağıdakilerden hangisidir?

Kümeleme

Özetleme

Sıra örüntü analizi

Birliktelik kuralları

Lojistik regresyon

Açıklama:

Söz konusu yöntem, birliktelik kuralları olarak adlandırılır.

Doğru Cevap: D

Soru 88

Bir çevrimiçi öğrenme platformu yöneticisi, platforma kayıt olan öğrencilerin büyük kısmının bir süre sonra derslere devam etmediğini görmüş ve gelecekte bu durumu engellemek adına bir çalışma başlatmıştır. Buna göre eldeki veri setinden yola çıkarak gelecekte bırakma potansiyeli olan öğrencilerin belirlenmesi ve bunlar üzerinde özel bir çalışma yürütülmesi amaçlanmaktadır.
Yönetici bu amaçla aşağıdaki yöntemlerden hangisini kullanabilir?

İstisna

Karar ağaçları

Kümeleme

Özetleme

Sıra örüntü

Açıklama:

Soruda yer alan örnek bir tahmin edici modelin geliştirilmesini gerekmektedir. Seçenekler arasında yer alan tek tahmin modeli karar ağaçları yöntemidir. Doğru cevap B.

Doğru Cevap: B

Soru 89

........... , 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir
algoritmadır.
Yukarıdaki cümlede boş bırakılan yeri aşağıdakilerden hangisi doğru şekilde tamamlar?

Perseptron

Örüntü tanıma

Veri ambarı

Çevrimiçi analitik işleme

Kayıp veri

Açıklama:

Perseptron, 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır.
Dolayısıyla, doğru cevap A şıkkıdır.

Doğru Cevap: A

Soru 90

Veri madenciliği için ilk yazılım hangi tarihte gerçekleştirilmiştir?

1989

1990

1991

1992

2000

Açıklama:

1990’lara gelindiğinde ise artık araştırma konusu; veri miktarının sürekli katlanarak arttığı veri tabanları içinden, faydalı bilgilerin nasıl çıkarılabileceği konusudur. Bu amaçla pek çok çalışma ve yayın yapılmıştır. Bu çalışmalardan en önemlisi, 1989’da yapılan KDD (Knowledge Discovery in Database) IJCAI-89 Veri Tabanlarında Bilgi Keşfi Çalışma Grubu toplantısıdır. 1991 yılında ise KDD (IJCAI)-89’un sonuç bildirgesi sayılabilecek “Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop” makalesi ile Bilgi Keşfi ve Veri Madenciliği ile ilgili temel tanım ve kavramlar ortaya konmuştur. Bu makaleden sonra süreç daha da hızlanmış ve 1992 yılında veri madenciliği için ilk yazılım geliştirilmiştir.
Dolayısıyla doğru cevap D şıkkıdır.

Doğru Cevap: D

Soru 91

........... , veritabanlarındaki kayıtlarda eksik olan verilerdir.
Yukarıdaki cümlede boş bırakılan yeri aşağıdakilerden hangisi doğru bir şekilde tamamlar?

Kayıp veri

Aykırı değer

Gürültülü veri

Yanlış veri

Veri kümesi

Açıklama:

Kayıp veri, veritabanlarındaki kayıtlarda eksik olan verilerdir. Veritabanlarında doğru olmayacak kadar uç değerler, aykırı değer ya da sıra dışı değer olarak
tanımlanır. Bu şekildeki aykırı değerler ya da farklı sebeplerle yanlış girilmiş değerler genel olarak gürültülü veri olarak tanımlanır.
Dolayısıyla, doğru cevap A şıkkıdır.

Doğru Cevap: A

Soru 92

.............. , istatistiksel ve matematiksel tekniklerle birlikte örüntü tanıma teknolojilerini kullanarak çeşitli depolama ortamlarında kayıtlı bulunan veri yığınları üzerinde gerçekleştirilen elemeler sonucunda anlamlı yeni korelasyon, örüntü ve eğilimlerin keşfedilmesi sürecidir.
Yukarıdaki cümlede boş bırakılan yeri aşağıdakilerden hangisi doğru şekilde tamamlar?

Aykırı değer

Denetimli öğrenme

Veri madenciliği

Gürültülü veri

Kayıp veri

Açıklama:

Kayıp veri, veritabanlarındaki kayıtlarda eksik olan verilerdir.
Veritabanlarında doğru olmayacak kadar uç değerler, aykırı değer ya da sıra dışı değer olarak tanımlanır. Bu şekildeki aykırı değerler ya da farklı sebeplerle yanlış girilmiş değerler genel olarak gürültülü veri olarak tanımlanır.
Veri madenciliği ise, istatistiksel ve matematiksel tekniklerle birlikte örüntü tanıma teknolojilerini kullanarak çeşitli depolama ortamlarında kayıtlı bulunan veri yığınları üzerinde gerçekleştirilen elemeler sonucunda anlamlı yeni korelasyon, örüntü ve eğilimlerin keşfedilmesi sürecidir.
Dolayısıyla, doğru cevap C şıkkıdır.

Doğru Cevap: C

Soru 93

.......... (1), veritabanlarındaki kayıtlarda eksik olan verilerken; veritabanlarındaki doğru olmayacak kadar uç değerler, ......... (2) olarak tanımlanır.
Yukarıdaki cümlede boş bırakılan yerlere aşağıdaki şıklardan hangisi doğru şekilde tamamlar?

Aykırı değer/kayıp veri

Kayıp veri/aykırı değer

Tutarsız değer/gürültülü veri

Kayıp veri/tutarsız veri

Gürültülü veri/aykırı değer

Açıklama:

Kayıp veri, veritabanlarındaki kayıtlarda eksik olan verilerken; veritabanlarındaki doğru olmayacak kadar uç değerler, aykırı değer olarak tanımlanır.
Aykırı değerler ya da farklı sebeplerle yanlış girilmiş değerler ise, genel olarak gürültülü veri olarak tanımlanır.
Dolayısıyla doğru cevap B şıkkıdır.

Doğru Cevap: B

Soru 94

Veri madenciliğinde kullanılan modeller iki başlık altında incelenebilmektedir. Bunlardan biri olan ................ modeller, eldeki verilerden hareketle bir model geliştirilmesi ve geliştirilen bu model kullanılarak önceden sonuçları bilinmeyen veri kümeleri için sonuçların tahmin edilmesini amaçlarken; ................ modeller ise analiz edilen verilerin özelliklerini incelemek için kullanılır. Yukarıdaki cümlede boş bırakılan yeri aşağıdakilerden hangisi doğru şekilde tamamlar?

Tanımlayıcı/tahmin edici

Tanımlayıcı/regresyon

Sınıflandırma/regresyon

Tahmin edici/regresyon

Tahmin edici/tanımlayıcı

Açıklama:

Veri madenciliğinde kullanılan modeller;
• Tahmin edici modeller,
• Tanımlayıcı modeller
olmak üzere temelde iki başlık altında incelenebilmektedir. Tahmin edici modeller; eldeki verilerden hareketle bir model geliştirilmesi ve geliştirilen bu model kullanılarak önceden sonuçları bilinmeyen veri kümeleri için sonuçların tahmin edilmesini amaçlar. Tanımlayıcı modeller ise, verilerdeki örüntü veya ilişkileri tanımlar. Bu modeller tahmin edici modellerin aksine analiz edilen verilerin özelliklerini incelemek için kullanılan modellerdir.
Regresyon modelleri ve sınıflandırma modelleri ise, doğrudan tahmin edici modellerin kapsamına girmektedir.
Dolayısıyla doğru cevap E şıkkıdır.

Doğru Cevap: E

Soru 95

I. Bilinenden yola çıkarak bilinmeyeni tahmin etme çabasıdır.
II. Özellikle karar verme süreci açısından büyük önem taşır.
III. Verilerdeki örüntü veya ilişkileri tanımlar.
IV. Analiz edilen verilerin özelliklerini incelemek için kullanılır.
Veri madenciliğinde kullanılan modeller; tahmin edici modeller ve tanımlayıcı modeller olmak üzere temelde iki başlık altında incelenebilmektedir.
Buna göre, yukarıdakilerden hangisi tahmin edici modelleri açıklarken kullanılabilecek doğru bir ifadedir?

I ve II

I ve III

Yalnız II

III ve IV

Yalnız IV

Açıklama:

Tahmin edici modeller; eldeki verilerden hareketle bir model geliştirilmesi ve geliştirilen bu model kullanılarak önceden sonuçları bilinmeyen veri kümeleri için sonuçların tahmin edilmesini amaçlar. Kısaca bilinenden yola çıkarak bilinmeyeni tahmin etme çabasıdır. Tahmin edici modeller özellikle karar verme süreci açısından büyük önem taşır.
Tanımlayıcı modeller ise, verilerdeki örüntü veya ilişkileri tanımlar. Bu modeller tahmin edici modellerin aksine analiz edilen verilerin özelliklerini incelemek için kullanılan modellerdir.
Dolayısıyla, doğru cevap A şıkkıdır.

Doğru Cevap: A

Soru 96

Veri madenciliğinde kullanılan modeller, temelde iki başlık altında incelenebilir. Bunlardan biri ise, analiz edilen verilerin özelliklerini incelemek için kullanılır.
Bu modelin adı aşağıdaki şıkların hangisinde verilmiştir?

Tahmin edici modeller

Denetimli öğrenme

Tanımlayıcı modeller

Sınıflandırma modelleri

Denetimsiz öğrenme

Açıklama:

Tahmin edici modeller; eldeki verilerden hareketle bir model geliştirilmesi ve geliştirilen bu model kullanılarak önceden sonuçları bilinmeyen veri kümeleri için sonuçların tahmin edilmesini amaçlar. Sınıflandırma modelleri de, tahmin edici modellerdendir. Tahmin edici modeller de kendisine verilen veritabanını inceler ve bu veritabanındaki temel unsurları birbirine benzeterek tanımlamaya, onları isimlendirmeye ve sınıflamaya çalışır. Burada öğrenme işlevinin denetimli ve denetimsiz öğrenme olarak ikiye ayrılır.
Tanımlayıcı modeller ise, verilerdeki örüntü veya ilişkileri tanımlar. Bu modeller tahmin edici modellerin aksine analiz edilen verilerin özelliklerini incelemek için kullanılan modellerdir.
Dolayısıyla, doğru cevap C şıkkıdır.

Doğru Cevap: C

Soru 97

I. Üretim süreçlerinin kontrol edilmesi
II. Hisse senedi fiyatlarının tahmin edilmesi
III. Kalite kontrol analizlerinin gerçekleştirilmesi
IV. Sigorta dolandırıcılıklarının belirlenmesi
Veri madenciliği bir çok alanda yoğun bir şekilde kullanılmaktadır. Endüstri ve mühendislik alanı da bunlardan biridir.
Yukarıdakilerden hangisi veri madenciliğinin endüstri ve mühendislik alanındaki uygulamalarına örnek teşkil edemez?

I ve II

I ve III

II ve III

II, III ve IV

II ve IV

Açıklama:

Hisse senedi fiyatlarının tahmin edilmesi ve sigorta dolandırıcılıklarının belirlenmesi veri madenciliğinin finans alanındaki uygulamalarına örnek teşkil etmektedir.
Bu sebeple, doğru cevap E şıkkıdır.

Doğru Cevap: E

Soru 98

".................., insan beyninde yer alan sinir hücrelerinin (nöronların) ilk yapay modeline verilen isim olup algılayıcı, fark edici anlamındadır. 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır."
Metinde boş bırakılan yere aşağıdaki seçeneklerden hangisi getirilmelidir?

Terabyte

Perseptron

Peta

Exa

Zetta

Açıklama:

Perseptron, insan beyninde yer alan sinir hücrelerinin (nöronların) ilk yapay modeline verilen isim olup algılayıcı, fark edici anlamındadır. 1957 yılında Frank Rosenblatt tarafından geliştirilen ve tekrar eden, benzerlik gösteren
özelliklerin bilgisayar tarafından algılanabilmesini sağlayan bir algoritmadır.

Doğru Cevap: B

Soru 99

İstatistiksel çalışmalar bilgisayar desteğiyle daha güçlü biçimde yapılmaktadır.
Gerçekleştirilmesi çok mümkün olmayan istatistiksel araştırmaları ve analizleri yapılabilir.
İlgilenilen verinin yığınlar içinden çekilip çıkarılması ve analizinin yapılarak kullanılabilir.
Veri madenciliği çalışmalarında etkili olan ve yapay zekâ çalışmalarının da temelini oluşturan istatistiktir.

Yukarıdaki maddelerden hangileri istatistik ve veri madenciliği arasındaki ilişkilerdendir?

Yalnız IV

II - III

III - IV

I - II - III

I - II - III - IV

Açıklama:

Doğru Cevap: D

Soru 100

Örüntü tanıma
Veritabanı sistemleri
Makine öğrenimi
Görselleştirme
İstatistik

Yukarıdakilerden hangileri veri madenciliğinin etkileşimde olduğu disiplinler arasında yer almaktadır?

Yalnız I

II - III

III - IV - V

I - III - IV - V

I - II - III - IV - V

Açıklama:

Görselde veri madenciliğinin etkileşimde olduğu disiplinler verilmiştir.

Doğru Cevap: E

Soru 101

"...................., işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği
işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir."
Metinde verilen boşluğa aşağıdaki seçeneklerden hangisi getirilmelidir?

Veri ambarı

Üst veri

OLAP sunucusu

Meta data

Veri tabanı

Açıklama:

Veri ambarı, işletmelerde iç veri kaynakları ile dış veri kaynaklarının birleştirilmesi ve düzenlenmesi ile oluşturulmuş, üzerinde veri madenciliği
işlemlerinin gerçekleştirileceği veriyi sağlayan daha geniş ve özel veritabanlarına verilen isimdir.

Doğru Cevap: A

Soru 102

Aşağıdakilerden hangisi veri madenciliği kavramına ilişkin tanımlardan değildir?

Veri madenciliği, büyük miktardaki veri yığınları üzerinde analiz yaparak veriler arasında var olan ve geleceğin tahmin edilmesine yardımcı olacak anlamlı ve yararlı ilişki ve kuralların bilgisayar yazılımları aracılığıyla aranması faaliyetleridir.

Veri madenciliği, çeşitli analiz araçlarını kullanarak veriler arasındaki örüntü (desen) ve ilişkileri keşfederek, bunları doğru tahminler yapmak için kullanan bir süreçtir.

Veri madenciliği sürecinde, işlemsel veritabanlarında depolanmış olan verinin sorgulama ve analiz için uygun hâle getirilmesi işlemleri yürütülür.

Veri madenciliği, veri analizi için, gelişmiş ve karmaşık araçlar kullanarak yığın veri kümeleri içinden daha önceden bilinmeyen olgu ve olayları keşfetmek ve veriler arasındaki mantıklı ilişkileri ve kalıpları ortaya çıkarmak amacıyla yapılan çalışmalardır.

Veri madenciliği, istatistiksel ve matematiksel tekniklerle birlikte örüntü tanıma teknolojilerini kullanarak çeşitli depolama ortamlarında kayıtlı bulunan veri yığınları üzerinde gerçekleştirilen elemeler sonucunda anlamlı yeni korelasyon, örüntü ve eğilimlerin keşfedilmesi sürecidir.

Açıklama:

Veri madenciliği kavramı için çeşitli tanımlar yapılmıştır. Bu tanımlardan bir kısmı aşağıda verildiği gibidir:
Veri madenciliği, büyük miktardaki veri yığınları üzerinde analiz yaparak veriler arasında var olan ve geleceğin tahmin edilmesine yardımcı olacak anlamlı ve yararlı ilişki ve kuralların bilgisayar yazılımları aracılığıyla aranması faaliyetleridir. Bu anlamda veri madenciliği, çok büyük miktardaki veriler arasındaki bağlantıları inceleyerek aralarındaki ilişkiyi ortaya çıkaran ve veritabanları içinde açıkça fark edilemeyen, gizli kalmış yararlı bilgilerin açığa çıkarılmasını sağlayan veri analizi tekniğidir.
Veri madenciliği, çeşitli analiz araçlarını kullanarak veriler arasındaki örüntü (desen) ve ilişkileri keşfederek, bunları doğru tahminler yapmak için kullanan bir süreçtir. Veri madenciliğinin amacı, geçmiş faaliyetleri analiz ederek bu analizleri geleceğe yönelik tahminlerde temel almak ve karar vermeye destek olacak modeller oluşturmada kullanmaktır. Buna göre veri madenciliği, büyük miktarda veri içinden, gizli kalmış, değeri olan, kullanılabilir bilgileri açığa çıkarmak ve bu bilgileri özellikle stratejik kararlarda destek sağlayacak biçimde elde etmek amacıyla kullanılmaktadır.
Veri madenciliği, veri analizi için, gelişmiş ve karmaşık araçlar kullanarak yığın veri kümeleri içinden daha önceden bilinmeyen olgu ve olayları keşfetmek ve veriler arasındaki mantıklı ilişkileri ve kalıpları ortaya çıkarmak amacıyla yapılan çalışmalardır. Burada vurgulanması gereken önemli nokta, veri madenciliği ile elde edilecek bilginin daha önceden bilinmeyen yeni keşfedilen olmasıdır. Önceden bilinmeyen bilgi, önceden tahmin bile edilemeyen bilgi anlamındadır. Bu anlamda veri madenciliği, tahmin edilen ya da farklı teknikler yardımıyla daha önceden ulaşılmış sonuçların doğruluğunu ispatlamak amacıyla kullanılan bir araç değildir. Diğer tekniklerden temel farkı, daha önce düşünülmemiş hiç akla gelmemiş sonuçları ortaya çıkarmasıdır.
Veri madenciliği, istatistiksel ve matematiksel tekniklerle birlikte örüntü tanıma teknolojilerini kullanarak çeşitli depolama ortamlarında kayıtlı bulunan veri yığınları üzerinde gerçekleştirilen elemeler sonucunda anlamlı yeni korelasyon, örüntü ve eğilimlerin keşfedilmesi sürecidir.
C seçeneği Veritabanlarında Bilgi Keşfi sürecinden bahsetmektedir.

Doğru Cevap: C

Soru 103

Amacın Tanımlanması
Veriler Üzerinde Ön İşlemlerin Yapılması
Modelin Kullanılması ve Yorumlanması
Modelin Kurulması ve Değerlendirilmesi
Modelin İzlenmesi

Veritabanlarında Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalardan hangileri yer değiştirilmelidir?

1 - 2

2 - 3

3 - 4

4 - 5

1 - 5

Açıklama:

Veritabanlarında Bilgi Keşfi sürecinde izlenmesi gereken temel aşamalar aşağıdaki gibi sıralanabilir.
1. Amacın Tanımlanması
2. Veriler Üzerinde Ön İşlemlerin Yapılması
3. Modelin Kurulması ve Değerlendirilmesi
4. Modelin Kullanılması ve Yorumlanması
5. Modelin İzlenmesi

Doğru Cevap: C

Soru 104

Verilerin toplanması
Verilerin birleştirilmesi
Verilerin temizlenmesi
Verilerin yeniden yapılandırılması

Yukarıdaki maddelerden hangileri veriler üzerindeki ön işlemler arasındadır?

Yalnız I

Yalnız II

II - III

II - III - IV

I - II - III - IV

Açıklama:

Doğru Cevap: E

Veri madenciliğinin ortaya çıkışı hangi ihtiyaçtan ortaya çıkmıştır?

Büyük miktarda veriyi analiz edebilme ve işleyebilme ihtiyacı

Büyük miktarda veriyi saklayabilme ve yayınlayabilme ihtiyacı

Veriyi analiz edebilme ve paylaşma ihtiyacı

Veriyi organize edebilme ihtiyacı

Sanal veri üretme ihtiyacı

Açıklama:

Anlamlı bilgilere ulaşabilmek amacıyla geçmişten beri kullanılan farklı yöntemler bulunmaktadır. Bununla birlikte verilerin analiz edilmesinde kullanılan geleneksel yöntemler veri miktarında meydana gelen büyük artış karşısında yetersiz kalmaya başlamıştır. Veri madenciliğinin ortaya çıkışı da büyük miktarda veriyi analiz edebilme ve işleyebilme ihtiyacından kaynaklanmıştır.

Doğru Cevap: A

Soru 109

Veri mdenciliğinin tarihsel gelişimi göz önünde bulundurulduğunda hangi yılın karşısındaki bilgi yanlış verilmiştir?

1950’ler • İlk bilgisayarlar (sayım ve hesaplama amaçlı)

1960’lar • İlişkisel Veritabanı Yönetim Sistemleri

1970’ler • Basit kurallara dayanan uzman sistemler ve makine öğrenimi

1980’ler • Büyük miktarda veri içeren veri tabanları

1990’lar • Veritabanlarında Bilgi Keşfi Çalışma Grubu ve Sonuç Bildirgesi

Açıklama:

1950’ler • İlk bilgisayarlar (sayım ve hesaplama amaçlı)
1960’lar • Verilerin depolanması ve veritabanları
• Perseptronlar
1970’ler • İlişkisel Veritabanı Yönetim Sistemleri
• Basit kurallara dayanan uzman sistemler ve makine öğrenimi
1980’ler • Büyük miktarda veri içeren veri tabanları
• SQL sorgu dili
1990’lar • Veritabanlarında Bilgi Keşfi Çalışma Grubu ve Sonuç Bildirgesi
• Veri madenciliği için ilk yazılım
2000’ler • Tüm alanlar için veri madenciliği uygulamaları

Doğru Cevap: B

Soru 110

Veri madenciliğinin etkileşimde olduğu disiplinler düşünüldüğünde hangi seçenekte yer alan disiplin bu sınıflamanın dışında kalmaktadır?

İstatistik

Görselleştirme

Temalandırma

Makina öğrenimi

Örüntü tanıma

Açıklama:

Veri Madenciliğinin
Etkileşimde Olduğu
Disiplinler:
Makine Öğrenimi
İstatistik Veritabanı Sistemleri
Görselleştirme
Örüntü Tanıma Diğer
Disiplinler

Doğru Cevap: C

Soru 111

Ham gözlemler, işlenmemiş gerçekler ya da izlenimlerin genel ismi aşağıdakilerden hangisidir?

Veri

İstatistik

İşletim sistemi

Analiz

İşlemleme

Açıklama:

Veri madenciliği kavramını tanımlamadan önce veri, enformasyon ve bilgi kavramlarını hatırlatmak faydalı olacaktır. Veri, ham gözlemler, işlenmemiş gerçekler ya da izlenimlerdir.

Doğru Cevap: A

Soru 112

Veri madenciliği ismi verilerin işlenmesi ile analoji kurularak adlandırılmıştır. Veri madenciliğinin adının nerden geldiğini açıklamak isteyen bir uzman aşağıdaki benzetmelerden hangisini kullanırsa doğru olur?

Kuyumcuların vitrininde ürünlerini sergilemesi ile verinin görselleştirilmesi

Muhasebe şirketinin hesaplamaları ile istatistik

Öğretmenin ders anlatımı ile görselliştirme

Yer altında duran madenin işlenmedikçe değerli olmayışı ile veri madenciliği

Mühendisin çalışma şekli ile makine öğrenimi

Açıklama:

Bilindiği gibi ekonomik yönden değer taşıyan maddelerin (altın, gümüş, elmas, bor,
kömür vb.) bulundukları yerlere maden, bu maddelerin çıkarılıp işlenmesi ile ilgili olarak gerçekleştirilen faaliyetlere de madencilik denir. Bu maddeler bulundukları yerden
çıkarılıp işlenmedikleri sürece bir değer taşımazlar. Benzer durum veritabanlarında yığınlar biçiminde bulunan veriler için de geçerlidir. Veritabanlarında kayıtlı olan veriler
de madenlerden çıkarılıp işlenmeyi bekleyen değerli maddelere benzetilebilir. Bu nedenle büyük miktarda yığın veri içinden bilgiye ulaşmak amacıyla kullanılan teknikler bütünü de veri madenciliği adı altında ele alınmaktadır.

Doğru Cevap: D

SQL sorgu dilinin ortaya çıkışı hangi döneme karşılık gelmektedir?

1920'ler

1940'lar

1980'ler

2000'ler

2020 ve sonrası

Açıklama:

Doğru Cevap: C

Soru 119

Sınır değerleri kullanılarak veride nasıl bir işlem yapılır?

Aşağıdakilerden hangisi bir vektörü en basit şekliyle yaratmak için kullanılan komuttur?

Açıklama:

Bir vektörü en basit şekilde yaratmak için c () fonksiyonu kullanılır.

Doğru Cevap: C

Soru 14

Aşağıdakilerden hangisi bir değişkenin karekökünü hesaplamada kullanılan komuttur?

qwer

bhyt

sqrt

matrix

khgd

Açıklama:

Bir
değişkenin karekökü sqrt() fonksiyonu yardımıyla hesaplanabilir.

Doğru Cevap: C

Soru 15

"Çeşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde ........... faydalanılır."
Aşağıdakilerden hangisi boş bırakılan yere getirilmesi gereken uygun kavramdır?

Matrix

Mantık fonksiyonları

List nesneleri

Temel komutlar

Length

Açıklama:

Çeşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde List Nesnelerinden faydalanılır.

Doğru Cevap: C

Soru 16

"R yazılımında veri seti içerisindeki faktör listeleri ve gözlem birimleri .......... olarak bir araya getirilirler."
Aşağıdakilerden hangisi boş bırakılan yere gelmesi uygun olan kavramdır?

Data frame

Matrix

List nesneler

sqrt

Mantıksal operatörler

Açıklama:

R yazılımında veri seti içerisindeki faktör listeleri ve gözlem birimleri data frame olarak bir araya getirilirler.

Doğru Cevap: A

Soru 17

I. > (veya)
II. < (küçüktür)
III. & (ve)
IV. != (eşittir)
Yukarıdaki mantık operatörleri ve açıklamalarından hangileri doğru verilmiştir?

I ve II

II ve III

III ve IV

Yalnız I

I ve IV

Açıklama:

Operatör	Kullanımı
<	Küçüktür
>	Büyüktür
<=	Küçük ya da eşittir
>=	Büyük ya da eşittir
==	Eşittir
!=	Eşit değildir
&	Ve
\|	Veya
!	Değil

Doğru Cevap: B

Soru 18

I. sqrt
II. matrix
III. read.fwf
IV. scan
Yukarıdakilerden hangileri hazır veri okuma fonksiyonlarındandır?

I ve II

II ve III

I ve III

Yalnız III

III ve IV

Açıklama:

Çoğunlukla veri setleri başka programlardan hazır olarak elde edilirler. Verinin R yazılımına okutulabilmesi için bir kaç farklı teknik bulunmaktadır. Bu işlem için kullanılabilecek fonksiyonlar sırasıyla; scan() düşük seviyeli veri okutma işlemi, read.table() dosyalardan formatlanmış data frame elde edilmesi işlemi, read.fwf() belirgin bir genişlik tanımlanmış veri dosyalarından okuma işlemi, read.csv() değişkenlerin virgülle ayrıldığı dosyalardan okuma işlemi olur.

Doğru Cevap: E

Soru 19

Aşağıdaki seçeneklerden hangisinde kütüphanelerde meydana gelen değişimlerin güncellenmesi için kullanılan doğru kavram verilmiştir?

matrix

update packages

scan

return

R yazılımında;
matrix(c(2,3,4,3,2,7,1,2,9,8,7,4,5,6,8),x))
matrisinin 3 satırdan oluşması için x ile gösterilen ifadenin yerine ne yazılmalıdır?

ncol=3

nrow=3

nrow=5

Açıklama:

R yazılımında matris oluşturmak için matrix() fonksiyonu kullanılır. Bu fonksiyonun genel
yazılımı;
matrix(veri, nrow(satırsayısı), ncol(sütünsayısı) şeklindedir. x yerine; nrow=3 veya ncol=5 yazılması durumunda 3 satırdan oluşan bir matris elde edilebilir.
Doğru cevap B şıkkıdır.

Doğru Cevap: B

Soru 26

R yazılımda matematik dersinde alınan notlar x vektöründe tanımlanmıştır. Notları 45 üzerinde olan öğrenci sayıları belirlenmek istenmektedir. Bunun için ilgili satıra yazılması gereken fonksiyon aşağıdakilerden hangisidir?

x[x>45]

x[x<45]

X[X>45]

lenght(x[x>45])

sort(x[x>45])

Açıklama:

R yazılımında ve genel olarak diğer yazılımlarda içten dışa doğru işlemler yapılır. lenght(x[x>45]) ifadesinde x[x>45] ile 45'ten büyük notlar belirlenir. length fonksiyonu ile de bu notların kaç tane olduğu bulunur. Ayrıca değişken isimleri küçük-büyük harflere duyarlıdır yani x, X eşit değildir.
Doğru cevap D şıkkıdır.

Doğru Cevap: D

Soru 27

Microsoft EXCEL programıyla hazırlanmış bir dosya, R yazılımı yardımıyla işlenmiş veri haline getirilerek gerekli sonuçlar elde edilmek istenmektedir. Bu EXCEL dosyasının R yazılımında çalışabilmesi için hangi uzantıya sahip olması gerekir?

exe

pdf

csv

png

djvu

Açıklama:

Microsoft Excel dosyalarından okuma işlemleri gerçekleştirilirken, her bir çalışma sayfası “csv” dosyası olarak kaydedilerek daha sonra bunların her biri read.csv() fonksiyonu ile elde edilebilir.
Doğru cevap C şıkkıdır.

Doğru Cevap: C

Soru 28

3x3 tipinde x ve y gibi iki kare matris çarpımı yapabilmek için ilgili satıra aşağıdakilerden hangisi yazılmalıdır?

x*y

x3**y3

x&*y

x%*%y

x.y

Açıklama:

x ve y gibi iki kare matris çarpımı yapabilmek için ilgili satıra x%*%y yazılmalıdır. Matris iç çarpımı yapabilmek için ise, x*y yazılmalıdır. Kısacası %*% işlemi matris çarpımı için kullanılır.
Doğru cevap D şıkkıdır.

Doğru Cevap: D

Soru 29

R yazılımında iki sayının toplamını (örneğin 72+45) hesaplamak için komut satırına yazılması gereken ifade aşağıdakilerden hangisidir?

> 72 + 45

> 72 + 45 ?

> 72 + 45 = ?

> ? 72 + 45

> 72 + 45 > ?

Açıklama:

Herhangi bir atama yapılması ya da matematiksel bir ifadenin hesaplanması için en basit komutlar olarak meydana çıkan komutlar grubudur. Örneğin; R Console’da
> 72+45
komutu yazılarak Enter’a basıldığında
[1] 117
sonucu ekranda görüntülenecektir. Matematiksel işlemin hemen sonucunu elde etmek yerine sonuçlar herhangi bir değişkene de atanabilir. Bu atama işlemi için “değişken <- işlem” yapısı kurulmalıdır. Örneğin önceki toplam x gibi bir değişkene atanmak istenirse > x <- 72+45 komutunun verilmesi yeterli olacaktır. Yeni bir atama yapılmadığı sürece x değişkeni bu toplamın sonucundan oluşacaktır.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 30

R dilinde bir değişkene değer ataması yapılması (örneğin, 72 + 45 toplamının sonucunun x değişkenine atanması) için kullanılan söz dizimi aşağıdaki seçeneklerden hangisinde doğru uygulanmıştır?

> x <- 72 + 45

> 72 + 45 -> x

> x = 72 + 45

> 72 + 45 = x

> x eşittir 72 + 45

Açıklama:

Matematiksel işlemin hemen sonucunu elde etmek yerine sonuçlar herhangi bir değişkene de atanabilir. Bu atama işlemi için “değişken <- işlem” yapısı kurulmalıdır. Örneğin önceki 72 + 45 toplamı x gibi bir değişkene atanmak istenirse
> x <- 72+45
komutunun verilmesi yeterli olacaktır. Yeni bir atama yapılmadığı sürece x değişkeni bu toplamın sonucundan oluşacaktır.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 31

Aşağıdaki R komutları uygulandığında ekranda hangi sonuç görüntülenir? > isim <- c(“Defne”, “Kuzey”, “Alara”, “Miray”) > yenix <- c(isim, 17, 22, 45) > length(yenix)

[1] 7

[1] 3

[1] 4

[1] 8

[1] 12

Açıklama:

R yazılımının en büyük özelliklerinden biri de değişkenler ile çalışılırken vektör ve matris kullanımına olanak tanımasıdır. En basit şekliyle bir vektörü oluşturabilmek için c() fonksiyonu kullanılmaktadır. Daha önce kullanılan x değişkenini 5 birimlik bir vektör hâline dönüştürme işlemi ve sonucu aşağıda verilmiştir.
> x <- c(1,2,3,4,5)
> x
[1] 1 2 3 4
5 Görüldüğü gibi burada ilk satırda x vektörüne 5 adet değer atanmakta ikinci satırda ise x’e ataması yapılan değerlerin görüntülenmesi komutu verilmektedir. Bu noktada önemli olan konu; R yazılımının büyük ve küçük harfe olan duyarlılığıdır. X ve x değişkenleri tamamen farklı değişkenlerdir. Önceden tanımlanmış bir vektörün birim sayısını öğrenmek için length() fonksiyonu kullanılır. Örnekteki birim sayısı aşağıdaki gibi öğrenilebilir.
> length(x)
[1] 5
c() fonksiyonu karakter değişkenleri yaratmak için de kullanılır. 4 isimden oluşan isim değişkenini c() fonksiyonunu kullanarak oluşturunuz. 4 isimden oluşan isim değişkeni aşağıdaki gibi oluşturulabilir.
> isim <- c(“Defne”, “Kuzey”, “Alara”, “Miray”)
> isim
[1] “Defne” “Kuzey” “Alara” “Miray”
Ayrıca, c() fonksiyonu birden fazla vektörün tek bir vektör olarak birleştirilmesinde ya da karakter değişkeninin sayılarla birleştirilmesinde de kullanılabilir. Yukarıdaki örnekteki isim değişkenine 17, 22, 45 rakamlarını ekleyerek yenix değişkenini oluşturmak için aşağıdaki işlemler yapılmalıdır.
> yenix <- c(isim, 17, 22, 45)
> yenix
[1] “Defne” “Kuzey” “Alara” “Miray” “17” “22” “45”
Elde edilen yenix dizisinin öğe sayısı 7 olmuştur.
> length(yenix)
Komutu ile
[1] 7
Sonucu elde edilecektir.
Bu nedenle doğru yanıt A seçeneğidir.

Doğru Cevap: A

Soru 32

R yazılımında sıfırdan sekize kadar 2’er artan rakamlardan oluşan vektörü oluşturmak için aşağıdaki komutlardan hangisi kullanılır?

> seq(0, 8, 2)

> rep(0, 8, 2)

> c(0, 8, 2)

> sqrt(0, 8, 2)

> seq(rep(0, 8, 2))

Açıklama:

Sıfırdan sekize kadar 1’er artan rakamlardan oluşan vektör için aşağıdaki işlemler yapılır.
> seq(0, 8, 1)
[1] 0 1 2 3 4 5 6 7 8
Dörtten on altıya kadar 4’er artan rakamlardan oluşan vektör için aşağıdaki işlemler yapılır.
> seq(4, 16,4)
[1] 4 8 12 16
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 33

R yazılımında
> matrix(c(6,5,4,3,2,1,1,2,3,4,5,6),ncol=2)
Komutu ile oluşturulan matrisin görünümü aşağıdakilerden hangisi olacaktır?

[,1] [,2]
[1,] 6 1
[2,] 5 2
[3,] 4 3
[4,] 3 4
[5,] 2 5
[6,] 1 6

[,1] [,2]
[1,] 1 1
[2,] 2 2
[3,] 3 3
[4,] 4 4
[5,] 5 5
[6,] 6 6

[,1] [,2]
[1,] 1 6
[2,] 2 5
[3,] 3 4
[4,] 4 3
[5,] 5 2
[6,] 6 1

[,1] [,2]
[1,] 6 6
[2,] 5 5
[3,] 4 4
[4,] 3 3
[5,] 2 2
[6,] 1 1

[,1] [,2]
[1,] 1 4
[2,] 2 5
[3,] 3 6
[4,] 3 6
[5,] 2 5
[6,] 1 4

Açıklama:

Birçok araştırmada, yapılan analizler sırasında matris oluşturulması gerekmektedir. R yazılımında matris oluşturmak için matrix() fonksiyonu kullanılır. Bu fonksiyonun genel yazılımı; matrix(veri, nrow(satırsayısı), ncol(sütünsayısı), byrow=F(veri sütun olarak girilsin)) şeklindedir. 2 değişken ve 6 gözlem değerinden oluşan veri seti için iki sütun ve altı satırlık bir matris oluşturalım. Veriyi hem matrix() komutu içerisinde hem de bir değişken kullanarak atayalım. Veri, matrix() komutu içinde aşağıdaki gibi oluşturulabilir.
> matrix(c(6,5,4,3,2,1,1,2,3,4,5,6),ncol=2)
[,1] [,2]
[1,] 6 1
[2,] 5 2
[3,] 4 3
[4,] 3 4
[5,] 2 5
[6,] 1 6
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 34

R yazılımında bir matrisin (Örneğin, matris2 isimli bir matrisin) evriği ile matris çarpımı aşağıdaki komutlardan hangisi ile elde edilebilir?

> matris2 %*% t(matris2)

> matris2 * t(matris2)

> matris2 %+% t(matris2)

> t(matris2) %*% matris2

> t(matris2) * matris2

Açıklama:

R dilinde matris çarpımı %*% operatörü ile yapılır. Matris çarpımında A%*%B ile B%*%A birbirine eşit değildir. Bir matrisin evriği t(matris) işlevi ile hesaplanır. Bu durumda matris2 isimli bir matrisi kendi evriği ile çarpmak
> matris2 %*% t(matris2)
İle gerçekleştirilir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 35

R yazılımında çeşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde aşağıdaki komutların hangisinden faydalanılır?

list

data.frame

matris

c()

seq

Açıklama:

Çeşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde List Nesnelerinden faydalanılır. Örneğin; ilgilenilen veri kümesi ile bunlara ait korelasyon matrisi aynı nesne içerisinde görüntülenebilir (ya da hafızada birlikte saklanmaları sağlanabilir). Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 36

R yazılımında veri seti içerisindeki faktör listeleri ve gözlem birimlerini bir araya getirmek için aşağıdakilerden hangisi kullanılır?

data.frame

list

matris

c()

seq

Açıklama:

Birçok araştırmada ilgilenilen değişkenin çeşitli seviyeleri ve bu seviyeler için gözlem değerleri bulunmaktadır. R yazılımında veri seti içerisindeki faktör listeleri ve gözlem birimleri data frame olarak bir araya getirilirler. “data.frame” fonksiyonunda her sütunda eşit sayıda birim yer almaktadır. Her satır bir gözlem birimini temsil etmektedir. Örneğin; 8 adet öğrencinin 4 farklı dersten aldıkları başarı puanları bir değişkende bir araya getirilebilir.

Doğru Cevap: A

Soru 37

R dilinde yazılmış olan aşağıdaki kullanıcı tanımlı fonksiyon dikkate alındığından aşağıdaki seçeneklerden hangisindeki ifade doğru değildir?
> ozetle<-function(veri)
{ # BU FONKSİYON VERİNİN ÖZETLEYİCİ İSTATİSTİKLERİNİ HESAPLAR VE GÖRÜNTÜLER
+ozet<-summary(veri)
+sapma<-var(veri)
+return(ozet,sapma)
+}

Fonksiyonun dışarıdan verilen parametresi “ozet” değişkeninde tutulmaktadır.

Fonksiyonun dışarıdan verilen parametresi “veri” değişkeninde tutulmaktadır.

Fonksiyon “ozet” ve “sapma” değerlerini döndürmektedir.

Fonksiyon “veri” değeri üzerinde “summary” ve “var” işlemlerini gerçekleştirmektedir.

Fonksiyonun adı “özetle” dir.

Açıklama:

R yazılımında hazır yazılmış fonksiyonlar bazen analizler için yeterli olmayabilir. Bu tür durumlar için kullanıcılar kendi fonksiyonlarını yazabilirler. R yazılımında bu işlem function (parametreler) komutu yardımıyla gerçekleştirilir. Yukarıdaki örnekte “özetle” fonksiyonunun parametresi “veri” değişkendir. Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 38

R yazılımında değişkenlerin virgülle birbirinden ayrıldığı veri dosyalarını okumak için aşağıdaki işlevlerden hangisi kullanılır?

read.csv()

scan()

read.table()

read.fwf()

load

Açıklama:

Çoğunlukla veri setleri başka programlardan hazır olarak elde edilirler. Verinin R yazılımına okutulabilmesi için bir kaç farklı teknik bulunmaktadır. Bu işlem için kullanılabilecek fonksiyonlar sırasıyla; scan() düşük seviyeli veri okutma işlemi, read.table() dosyalardan formatlanmış data frame elde edilmesi işlemi, read.fwf() belirgin bir genişlik tanımlanmış veri dosyalarından okuma işlemi, read.csv() değişkenlerin virgülle ayrıldığı dosyalardan okuma işlemi olur. Özellikle Microsoft Excel dosyalarından okuma işlemleri gerçekleştirilirken, her bir çalışma sayfası “csv” dosyası olarak kaydedilerek daha sonra bunların her biri read.csv() fonksiyonu ile elde edilebilir. Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 39

R yazılımı ile ilgili olarak verilen ifadelerden hangisi veya hangileri doğrudur?
I-R yazılımı kullanılarak, istatistiksel analiz, grafik çizme ve veri işleme işlemleri yapılabilir.
II-R yazılımının kaynak kodu açık bir şekilde sunulmaktadır.
III-R yazılımı ücretli bir programdır.
IV-R yazılımın en büyük üstünlüklerinden biri de hemen hemen bütün işletim sistemlerinde çalışabilmektedir.
V-Temel olarak R, Becker and Chembers tarafından geliştirilen S dilinin bir çeşididir.

I-II-IV-V

I-II-III-IV-V

I-II-III

II-III-V

I-III-IV

Açıklama:

R yazılımı İnternet aracılığı ile ücretsiz olarak dağıtılan genel lisanslı bir programdır. Yazılım, lisans kapsamında serbest bir şekilde dağıtılabilir ve kullanılabilir. Ayrıca yazılımı elde eden herkes asıl kaynağı belirterek dağıtma ve kullanma hakkına sahiptir. Yazılımın kaynak kodu da açık bir şekilde sunulmaktadır. Dolayısıyla herhangi bir programlama bilgisine sahip kişiler bu kod üzerinde değişiklikler ve geliştirmeler yapma hakkına sahiptir. Yazılımın en büyük üstünlüklerinden biri de hemen hemen bütün işletim sistemlerinde çalışabiliyor olmasıdır. R yazılımı kullanılarak, istatistiksel analiz, grafik çizme ve veri isleme işlemleri yapılabilir. Doğru cevap A'dır.

Doğru Cevap: A

Soru 40

Windows işletim sistemi için derlenmiş programa hangi linkten ulaşılabilmektedir?

R for office

Base

Download R for Windows

R Console

Temel komutlar

Açıklama:

Windows işletim sistemi için derlenmiş program “Download R for Windows” linkinde yer
almaktadır. Doğru cevap C'dir.

Doğru Cevap: C

Soru 41

R yazılımında komutların girilmesi için kullanılan bölgeye ne ad verilmektedir?

Temel komutlar

R console

c () fonksiyonu

Arayüz

Define

Açıklama:

Komutların girilmesi için kullanılan bölgeye “R Console” denir. Doğru cevap B'dir.

Doğru Cevap: B

Soru 42

R yazılımında bir vektör oluşturabilmek için aşağıdakilerden hangisi kullanılmaktadır?

sqrt() fonksiyonu

rep() fonksiyonu

matrix() fonksiyonu

c() fonksiyonu

length() fonksiyonu

Açıklama:

R yazılımında bir vektör c() fonksiyonu ile oluşturulabilmektedir. Doğru cevap D'dir.

Doğru Cevap: D

Soru 43

sqrt() fonksiyonu yardımı ile aşağıdaki ifadelerden hangisi gerçekleştirilebilmektedir?

Belirli bir düzene sahip verileri oluşturma

Bir değişkenin karekökünü hesaplama

Önceden tanımlanmısş bir vektörün birim sayısını öğrenme

Matris oluşturma

Mantıksal fonksiyonlar

Açıklama:

Bir değişkenin karekökü sqrt() fonksiyonu yardımıyla hesaplanabilir. Doğru cevap B'dir.

Doğru Cevap: B

Soru 44

R yazılımında read.csv() ile hangi işlem gerçekleştirilebilmektedir?

Düşük seviyeli veri okutma işlemi,

belirgin bir genişlik tanımlanmış veri dosyalarından okuma işlemi

Değişkenlerin virgülle ayrıldığı dosyalardan okuma işlemi

veriseti.csv kayıt işlemi

Dosyalardan formatlanmış data frame elde edilmesi işlemi

Açıklama:

read.csv() fonksiyonu ile değişkenlerin virgülle ayrıldığı dosyalardan okuma işlemi gerçekleştirilir. Doğru cevap C'dir.

Doğru Cevap: C

Soru 45

Başka kullanıcılar ya da R projesi ekibi tarafından oluşturulan ek kütüphanelere hangi seçenek ile ulaşılabilmektedir?

Packages menüsündan Install Package(s) seçeneği ile

Cran ile

Html Help seçeneği ile

Update packages seçeneği ile

Edit menüsü ile

Açıklama:

Başka kullanıcılar ya da R projesi ekibi tarafından oluşturulan ek kütüphaneler “Packages” menüsündan “Install Package(s)” seçeneği yardımıyla yürütülebilir. Doğru cevap A'dır.

Doğru Cevap: A

Soru 46

R yazılımında veri seti içerisindeki faktör listeleri ve gözlem birimleri nasıl bir araya getirilebilmektedir?

Data frame

rep()

Length()

Packages

R Console

Açıklama:

R yazılımında veri seti içerisindeki faktör listeleri ve gözlem birimleri data frame olarak bir araya getirilirler. Doğru cevap A'dır.

Doğru Cevap: A

Soru 47

Bir veri kümesi ile bunlara ait korelasyon matrisinin aynı nesne içerisinde görüntülenebilmesi aşağıdakilerin hangisi ile sağlanabilmektedir?

$korelasyon<<

TRUE

List nesneleri

Mantık operatörü

Data frame

Açıklama:

Çeşitli istatistiksel analizler için oluşturulan farklı nesnelerin bir araya getirilmesinde
List Nesnelerinden faydalanılır. Örneğin; ilgilenilen veri kümesi ile bunlara ait korelasyon
matrisi aynı nesne içerisinde görüntülenebilir. Doğru cevap C'dir.

Doğru Cevap: C

Soru 48

R yazılımı ile sıfırdan ona kadar ikişer artan rakamlardan oluşan bir vektör nasıl oluşturulabilir?

>length (8,8,2)

0 1 2 3 4 5 6 7 8

[2] 0 1 2 3 4 5 6 7

[2] 2 - 8

> seq (0, 10, 2)
[2] 0 2 4 6 8 10

Açıklama:

Belirli bir düzene sahip olan vektörlerin oluşturulmasında da seq() fonksiyonu kullanılır.
Bu fonksiyonun genel yazılımı seq(altlimit, üstlimit, artışmiktarı) şeklindedir. Doğru cevap E'dir.
>seq (0, 10, 2)
[2] 0 2 4 6 8 10

Doğru Cevap: E

Soru 49

R yazılım aşağıda yer alan hangi adres yardımıyla temin edilebilir?

www.cran.com

www.rpr.com

www.r-project.org

www.rinwindows.com

www.rformac.org

Açıklama:

www.r-project.org üzerinden ilgili işletim sistemine uygun sürüm elde edilebilir.

Doğru Cevap: C

Soru 50

R yazılımı ne kadar bir ücret karşılığında temin edilir?

Ücretsizdir, internet üzerinden indirilir

Üyelik ile 10 Dolar ücret karşılığı internet üzerinden indirilir

150 dolar ödenerek CDle temin edilir

250 Dolar karşılığı CD veya internet üzerinden indirilir

1500 dolar yıllık üyelik aidatı vardır.

Açıklama:

R istatistiksel bilgisayar yazılımı İnternet aracılığı ile dağıtılmaktadır. İsteyen kullanıcılar programın ana sitesini kullanarak ücreti karşılığında CD üzerinden de programı elde edebilmektedirler. Programın lisansı, genel kullanıcı lisansı türündendir. Bu lisans, kullanıcılara ellerinde bulundurdukları programı serbestçe dağıtma ve kullanma hakkını vermektedir. Sadece bu lisans kapsamında ürünü elde eden kişiler aynı hakka sahip olabilmektedir. Ayrıca kullanıcılar kaynak kodun kendisini de ücretsiz olarak elde edebilmektedirler. Microsoft Windows, Linux ve Unix sistemleri ve Apple MacOS işletim sistemleri için çeşitli sürümler elde edilebilmektedir.

Doğru Cevap: A

Soru 51

Standart R yazılımında komutların girilmesi için ayrılan bölgeye ne ad verilir?

R Help

Rcmdr

R Console

R Graph

R data

Açıklama:

Komutların girilmesi için kullanılan bölgeye “R Console” denir.

Doğru Cevap: C

Soru 52

R yazılımında console üzerinden >85+15 komutu işletildiğinde karşımıza çıkan sonuç görüntüsü seçeneklerden hangisinde yer almaktadır?

> 100

--> 100

<- 100

[1] 100

[3,4] 100

Açıklama:

Herhangi bir atama yapılması ya da matematiksel bir ifadenin hesaplanması için en basit komutlar olarak meydana çıkan komutlar grubudur. Örneğin; R Console’da
> 85+15
komutu yazılarak Enter’a basıldığında
[1] 100
sonucu ekranda görüntülenecektir.

Doğru Cevap: D

Soru 53

Herhangi bir komut için yardım istendiğinde (örneğin mean) seçeneklerden hangisi ilgili komutun yardım bilgisini getirir?

> Search(mean)

> search.help.mean()

> x<- mean(x)

> help(mean)

> help.base(mean)

Açıklama:

R ile çalışırken herhangi bir fonksiyon ya da kitaplık hakkında yardım almanın iki yolu vardır. Öncelikle aritmetik ortalama hesabında kullanılan mean() komutunu bildiğimizi varsayalım. Bu fonksiyonun hangi parametreleri aldığını ve diğer ayrıntıları görebilmek için
help(mean)
komutunun verilmesi yeterli olacaktır.

Doğru Cevap: D

Soru 54

R'de oluşturulmuş bir vektörün birim sayısı hangi komut ile bulunur?

mean()

length()

dist()

area()

ort()

Açıklama:

Önceden tanımlanmış bir vektörün birim sayısını öğrenmek için length() fonksiyonu kullanılır.

Doğru Cevap: B

Soru 55

aşağıda verilen komutta 6 isimlik bir öğrenci isim listesi oluşturulmak istenmektedir. Burada yapılan hata nedir?
> isim<-c("Ayşe","Fatma","Mualla","Kezban,"Şahika","Betül")

isim değişkeni önceden tanımlanmamış

isimler çok kısa

isimler çok uzun

atama komut işareti hatalı

İsimlerden birinde tırnak işareti unutulmuş

Açıklama:

4 isimden oluşan isim değişkenini c() fonksiyonunu kullanarak oluşturunuz.
4 isimden oluşan isim değişkeni aşağıdaki gibi oluşturulabilir.
> isim <- c(“Defne”, “Kuzey”, “Alara”, “Miray”)
> isim
[1] “Defne” “Kuzey” “Alara” “Miray”
Ayrıca, c() fonksiyonu birden fazla vektörün tek bir vektör olarak birleştirilmesinde ya da karakter değişkeninin sayılarla birleştirilmesinde de kullanılabilir.

Doğru Cevap: E

Soru 56

Verilen komut sonucu ortaya çıkan seri seçeneklerden hangisinde yer almaktadır?
seq(0, 8, 1)

[] 1,2,3,4,5,6,7,8

[2] 1,2,3,4,5,6,7,8

[1] 0,1,2,3,4,5,6,7,8

[] 0,1,2,3,4,5,6,8

[3,4] 1,2,3,4,5

Açıklama:

Sıfırdan sekize kadar 1’er artan rakamlardan oluşan vektörü oluşturunuz.
Sıfırdan sekize kadar 1’er artan rakamlardan oluşan vektör için aşağıdaki işlemler yapılır.
> seq(0, 8, 1)
[1] 0 1 2 3 4 5 6 7 8

Doğru Cevap: C

Soru 57

Aşağıda verilen komut sonucunda seride elde edilecek en büyük sayı nedir?
rep(seq(1,6),2)

Açıklama:

1’den 6’ya kadar olan rakamları 2 tekrar olacak biçimde içeren vektör aşağıdaki işlem- ler yardımıyla oluşturulur.
> rep(seq(1,6),2)
[1] 1 2 3 4 5 6 1 2 3 4 5 6

Doğru Cevap: D

Soru 58

"!=" mantık operatörü ne anlama gelir?

Eşittir

Büyük yada eşittir

Veya

Eşit değildir

Açıklama:

!=	Eşit değildir

Doğru Cevap: E

Aşağıdaki mantıksal operatörlerden hangisi, bir değerin diğerine eşit olduğu yönünde bir varsayım için kullanılır?

Açıklama:

== operatörünün iki yanına yazılan nesnelerin karşılaştırılmasında, iki değerin birbirine eşit olduğu yönündeki soruya cevap vermek için kullanılır. Eğer eşit değiller FALSE dönütü alınacaktır.

Doğru Cevap: A

Soru 67

Bir excel dosyasından R ortamına veri aktarmak için hangi komut kullanılır?

read.table

read.csv()

scan()

read.file(excel)

excel.read.file()

Açıklama:

Doğru yanıt B seçeneğidir.

Doğru Cevap: B

Soru 68

R'ye ilişkin aşağıda yer alan bilgilerin hangisi yanlıştır?

Açık kaynak kodludur.

Ücretli bir yazılımdır.

Komutların yazılması için kullanılan bölgeye R Console adı verilir.

S dili temel alınarak geliştirilmiştir.

Geliştirilmesindeki çekirdek grup, 17 kişiden oluşmaktadır.

Açıklama:

R, açık kaynak kodlu, ücretsiz bir yazılımdır.

Doğru Cevap: B

Ünite 3

Soru 1

En büyük özelliği yokluk anlamına gelen belirli bir sıfır değerini barındırıyor olmasıdır.
Sıfır başlangıç noktası tüm ölçüm araçları için aynı anlamı taşır.

Yukarıda özellikleri belirtilen dğişken tipi aşağıdakilerden hangisidir?

İkili (Binary) Değişkenler

İsimsel (Nominal) Değişkenler

Sıra Gösteren (Ordinal) Değişkenler

Aralıklı Ölçümlendirilmiş (Interval-Scaled) Değişkenler

Oranlı Ölçümlendirilmiş (Ratio-Scaled) Değişkenler

Açıklama:

Oranlı Ölçümlendirilmiş (Ratio-Scaled) Değişkenler soruda belirtilen özellikleri taşıyan değişkenlerdir.

Doğru Cevap: E

Soru 2

Aşağıdakilerden hangisi veri hazırlama süreçlerinden değildir?

Veri toplama

Veri temizleme

Veri dönüştürme

Veri birleştirme

Veri indirgeme

Açıklama:

Veri toplama, veri hazırlama süreçlerinden değildir.

Doğru Cevap: A

Soru 3

Aşağıdakilerden hangisi veri indirgeme yöntemlerinden değildir?

Veri küpü birleştirme

Boyut indirgeme

Gürültü indirgeme

Büyük sayıların indirgenmesi

Veri sıkıştırma

Açıklama:

Gürültü indirgeme, veri indirgeme yöntemlerinden değildir.

Doğru Cevap: C

Soru 4

Sıkıştırma
Düzeltme
Bir araya getirme
İndirgeme
Normalleştirme

Yukarıda verilenlerden hangileri veri dönüşümünde, verilerin veri madenciliği için uygun formlara dönüştürülmesi için kullanılan işlemlerdendir?

I, II ve III

I, III ve IV

II, III ve V

II, IV ve V

III, IV ve V

Açıklama:

Düzeltme, bir araya getirme, normalleştirme ve özellik oluşturma verilerin veri madenciliği için uygun formlara dönüştürülmesi için kullanılan işlemlerdendir.

Doğru Cevap: C

Soru 5

Minimum değeri 120 maksimum değeri 440 olan bir değişkenin, 200 değerinin enk-enb normalleştirme yöntemine göre dönüşümü sonucu kaçtır?

-0,1

-0,40

0,25

0,50

0,75

Açıklama:

X veri değeri ise; (X-Xmin)/(Xmax-Xmin)=(200-120)/(440-120)=80/320=0,25

Doğru Cevap: C

Soru 6

Minimum değeri 100 olan bir değişkenin 300 değerinin enk-enb normalleştirme yöntemine göre dönüşümü sonucu 0,5 ise değişkenin maksimum değeri kaçtır?

400

500

600

800

1000

Açıklama:

(X-Xenk)/(Xenb-Xenk)=0,50 ise (300-100)/(Xenb-100)=0,5 Xenb yani maksimum değeri 500'dür.

Doğru Cevap: B

Soru 7

X=[120,150,180,190] gözlem değerleri verilen değişkende 150 değeri için z-skor normalleştirme yöntemine göre dönüşüm değeri kaçtır?

0,255

0,478

-0,505

-0,316

-0,229

Açıklama:

X*=(X-X_aort)/s X_aort: değişken değerlerin aritmetik ortalaması, s: standart sapma)
X_aort=(120+150+180+190)/4 =160 ve s=[((120-160)²+(150-160)²+(180-160)²+(190-160)²)/3]^1/2
^s=31,62
^{150 değeri için; (150-160)/31,62=-0,316}

Doğru Cevap: D

Soru 8

X=[199,211,359] değişkeninde gözlem değeri X₁=199 için, ondalık ölçekleme normalleştirme yöntemi j=3 olacak şekilde dönüşümü aşağıdakilerden hangisidir?

-0,199

-1,99

0,0199

0,199

1,99

Açıklama:

X₁=199 için, ondalık ölçekleme normalleştirme yöntemi j=3 olacak şekilde dönüşümü: 199/10^j =0,199 'dur.

Doğru Cevap: D

Soru 9

Aşağıdakilerden hangisi temel değişken tiplerinden değildir?

İkili Değişkenler

Sıra Gösteren Değişkenler

Normalleştirilmiş Değişkenler

İsimsel Değişkenler

Aralıklı Ölçümlendirilmiş Değişkenler

Açıklama:

Normalleştirilmiş değişkenler temel değişken tiplerinden değildir.

Doğru Cevap: C

Soru 10

Veri kalitesi probleminin farkına varılması ve doğrulanması ........... olarak adlandırılır.
..........., veri madenciliği tekniği ile analiz edilmek istenilen verilerdeki beklenen değerlerden sapan aykırı değerler veya hatalardır.

Yukarıda verilen ifadelerde boşluklara sırası ile aşağıdakilerden hangisi gelmelidir?

A:Veri hazırlama
B:Normalleştirme

A: Veri temizleme
B: Gürültü

A: Veri dönüştürme
B: Eksik veri

A: Veri birleştirme
B: Kirlilik

A:Veri sıkıştırma
B:Tutarsızlık

Açıklama:

Veri kalitesi probleminin farkına varılması ve doğrulanması veri temizleme olarak adlandırılır.
Gürültü, veri madenciliği tekniği ile analiz edilmek istenilen verilerdeki beklenen değerlerden sapan aykırı değerler veya hatalardır.

Doğru Cevap: B

Soru 11

Birimler arasında özellik farklarının matematiksel olarak belirlendiği değişken türüne ne ad verilir?

Tam sayılı değişken

Aralıklı ölçümlendirilmiş değişken

Sıra gösteren değişken

İkili değişken

Nominal değişken

Açıklama:

Birimler arasında özellik farklarının matematiksel olarak belirlendiği değişken türüne aralıklı ölçümlendirilmiş değişken denir. Bu nedenle doğru cevap B seçeneğidir.

Doğru Cevap: B

Soru 12

Sıfır başlangıç noktasının tüm ölçüm araçlarında aynı anlamı taşıdığı değişken türüne ne ad verilir?

İkili değişken

Sıra gösteren değişken

Tam sayılı değişken

Oranlı ölçümlendirilmiş değişken

Aralıklı ölçümlendirilmiş değişken

Açıklama:

Sıfır başlangıç noktasının tüm ölçüm araçlarında aynı anlamı taşıdığı değişken türüne oranlı ölçümlendirilmiş değişken denir. Bu nedenle doğru cevap D olmaktadır.

Doğru Cevap: D

Soru 13

Bir okuldaki erkek öğretmenlerin sayısı ne tür değişkene örnek olarak verilebilir?

Tam sayılı değişken

İkili değişken

Nominal değişken

Ordinal değişkeni

Aralıklı ölçümlendirilmiş değişken

Açıklama:

Bir ouldaki erkek öğretmenlerin sayısı tam sayılı değişkene örnek olarak verilebilir. Bu yüzden doğru cevap A seçeneğidir.

Doğru Cevap: A

Soru 14

Aşağıdakilerden hangisi eksik verinin tahmin edilmesinde kullanılan stratejilerden birisi değildir?

El ile doldurma

Genel sabitin kullanılması

Göz ardı etme

Özelliğin diğer veriler dikkate alınarak tamamlanması

En uygun değerin kullanılması

Açıklama:

Eksik verinin tahmin edilmesinde kullanılan stratejiler şu şekilde verilebilir:
a)Eksik verinin el ile doldurulması
b)Eksik verinin tamamlanmasında genel bir sabitin kullanılması
c)Eksik verinin özelliğin diğer veriler dikkate alınarak tamamlanması
d)Kendi sınıfında yer alan değerlerin ortalaması ile tamamlanması
e)En uygun değerin kullanılması.

Doğru Cevap: C

Soru 15

Aşağıdakilerden hangisi veri indirgeme yöntemlerinden birisi değildir?

Boyut indirgeme

Veri sıkıştırma

Büyük sayıların indirgenmesi

Veri küpü birleştirme

Normalizasyon

Açıklama:

Veri indirgeme yöntemleri şu şekilde sıralanmaktadır: veri küpü birleştirme, boyut indirgeme, veri sıkıştırma ve büyük sayıların indirgenmesi. Bu nedenle doğru cevap E seçeneğidir.

Doğru Cevap: E

Soru 16

Aşağıdakilerden hangisi veri dönüştürme işlemlerinden birisi değildir?

Düzeltme

Bir araya getirme

Genelleme

Özellik oluşturma

Veri küpü birleştirme

Açıklama:

Veri dönüştürme işlemleri düzeltme, bir araya getirme, genelleme, normalleştirme ve özellik oluşturma biçiminde sıralanır. Bu yüzden doğru cevap E olmaktadır.

Doğru Cevap: E

Soru 17

Aylık temelde bulunan bir veri özelliğinin yıllık temele dönüştürülmesi işlemine ne ad verilir?

Düzeltme

Genelleme

Normalleştirme

Bir araya getirme

Özellik oluşturma

Açıklama:

Aylık temelde bulunan bir veri özelliğinin yıllık temele dönüştürülmesi işlemi bir araya getirmeye örnektir. Bu nedenle doğru cevap D seçeneğidir.

Doğru Cevap: D

Soru 18

Düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesi işlemine ne ad verilir?

Düzeltme

Bir araya getirme

Genelleme

Özellik oluşturma

Standartlaştırma

Açıklama:

Düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesi işlemine genelleme denilir. Bu nedenle doğru cevap C olmaktadır.

Doğru Cevap: C

Soru 19

Minimum değeri 140, maksimum değeri 350 olan bir değişkenin, 230 değerini enk-enb normalleştirme yöntemine göre dönüşüm sonucu kaçtır?

0,43

0,27

0,15

-0,27

Bölmeleme, kümeleme ve regresyon gibi teknikler kullanılarak verilerdeki gürültünün temizlenmesi süreci aşağıdaki veri dönüştürme işlemlerinden hangisine aittir?

Düzeltme

Bir araya getirme

Genelleme

Normalleştirme

Özellik oluşturma

Açıklama:

Düzeltme; bölmeleme, kümeleme ve regresyon gibi teknikler kullanılarak verilerdeki gürültünün temizlenmesidir.
Bir araya getirme; veriler bir araya getiren gruplama fonksiyonları kullanılarak gerçekleştirilir. Günlük temelde bulunan bir veri özelliğinin aylık temele dönüştürülmesi örnek verilebilir.
Genelleme; düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesidir. Örneğin; yaş gibi sayısal verilerin kategorik olan genç, orta yaşlı veya yaşlı gibi değerlere dönüştürülmesi ya da cadde isimlerinden oluşan kategorik verilerin şehir veya ülke şeklinde daha yüksek kavramlara dönüştürülmesidir.
Normalleştirme veya standartlaştırma; bir değişkenin standartlaştırılması veya normalleştirilmesi yaygın olarak kullanılan veri dönüşüm tekniğidir. Veri madenciliği terminolojisinde her iki terim birbiri yerine kullanılmaktadır. Ancak buradaki normalleştirme terimi, istatistikte kullanılan bir değişkenin normal dağılmış bir değişkene dönüştürülmesi ile karıştırılmamalıdır. Standartlaştırma veya normalleştirmenin amacı sayısal veri değerlerinin küçük bir bölgede yer alması için ölçeklenmesidir. Normalleştirilmiş veriler sınıflama için kullanılan yapay sinir ağları algoritmalarının öğrenme aşamasının hızlanmasına yardım edecektir. Kümeleme gibi mesafe ölçümlerine dayalı algoritmalarda normalleştirilmiş verilerin kullanılması faydalı olacaktır.
Özellik oluşturma; yeni özellikler madencilik sürecine yardımcı olmak için verilen özellikler kümesinden oluşturulur ve düzenlenir. Özellik oluşturma karar ağacı algoritmaları sınıflama için kullanıldığında bölümleme problemini azaltmaya yardımcı olabilir. Yükseklik ve genişlik özelliklerinden alan özelliğinin oluşturulması bu duruma bir örnek olarak verilebilir

Bu nedenle doğru yanıt a) seçeneğidir.

Düzeltme; bölmeleme, kümeleme ve regresyon gibi teknikler kullanılarak verilerdeki gürültünün temizlenmesidir.
Bir araya getirme; veriler bir araya getiren gruplama fonksiyonları kullanılarak gerçekleştirilir. Günlük temelde bulunan bir veri özelliğinin aylık temele dönüştürülmesi örnek verilebilir.
Genelleme; düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesidir. Örneğin; yaş gibi sayısal verilerin kategorik olan genç, orta yaşlı veya yaşlı gibi değerlere dönüştürülmesi ya da cadde isimlerinden oluşan kategorik verilerin şehir veya ülke şeklinde daha yüksek kavramlara dönüştürülmesidir.
Normalleştirme veya standartlaştırma; bir değişkenin standartlaştırılması veya normalleştirilmesi yaygın olarak kullanılan veri dönüşüm tekniğidir. Veri madenciliği terminolojisinde her iki terim birbiri yerine kullanılmaktadır. Ancak buradaki normalleştirme terimi, istatistikte kullanılan bir değişkenin normal dağılmış bir değişkene dönüştürülmesi ile karıştırılmamalıdır. Standartlaştırma veya normalleştirmenin amacı sayısal veri değerlerinin küçük bir bölgede yer alması için ölçeklenmesidir. Normalleştirilmiş veriler sınıflama için kullanılan yapay sinir ağları algoritmalarının öğrenme aşamasının hızlanmasına yardım edecektir. Kümeleme gibi mesafe ölçümlerine dayalı algoritmalarda normalleştirilmiş verilerin kullanılması faydalı olacaktır.
Özellik oluşturma; yeni özellikler madencilik sürecine yardımcı olmak için verilen özellikler kümesinden oluşturulur ve düzenlenir. Özellik oluşturma karar ağacı algoritmaları sınıflama için kullanıldığında bölümleme problemini azaltmaya yardımcı olabilir. Yükseklik ve genişlik özelliklerinden alan özelliğinin oluşturulması bu duruma bir örnek olarak verilebilir

Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 39

X* : Dönüştürülmüş değeri, X: Gözlem değerini, Xenk: Verideki en küçük gözlem değeri ve Xenb: Verideki en büyük değeri ifade ettiğine göre Enk-Enb Normalleştirme dönüşümü için aşağıdaki formüllerden hangisi kullanılır?

X - Xenk
X*= -----------------
Xenb - Xenk

X - Xenk
X*= -----------------
Xenk - Xenb

X - Xenb
X*= -----------------
Xenb - Xenk

Xenk - X
X*= -----------------
Xenb - Xenk

Xenb - X
X*= -----------------
Xenb - Xenk

Açıklama:

Orijinal veri üzerinde doğrusal bir dönüşüm yapan bu yöntem veri içindeki en büyük ve en küçük sayısal değerin belirlenerek diğer değerleri buna uygun bir şekilde dönüştürülmesiyle yapılır. Enk-Enb normalleştirme sonucunda veri sıfır (en küçük değer) ile bir (en büyük değer) arasında sayısal bir değere dönüşür. Dönüştürme için aşağıdaki eşitlikten yararlanılır.
X - Xenk
X*= -----------------
Xenb - Xenk
Bu eşitlikte; X* : Dönüştürülmüş değeri X: Gözlem değerini Xenk: Verideki en küçük gözlem değeri Xenb: Verideki en büyük değeri ifade eder.
Bu nedenle doğru yanıt a) seçeneğidir.

Seçeneklerden hangisi eksik verinin tahmin edilmesi için kullanılan başlıca stratejilerden değildir?

El ile doldurma

Genel sabit kullanma

Özellik ve diğer veri uyumu ile doldurma

Ortalama ile tamamlama

Hipotez testi ile sonuç oluşturma

Açıklama:

Eksik verinin tahmin edilmesi için kullanılan başlıca stratejiler aşağıda verilmiştir.

Eksik verinin el ile doldurulması; bu strateji zaman alıcıdır ve eksik verinin fazla
olduğu büyük veri kümelerinde kullanılması uygun değildir.
Eksik verinin tamamlanmasında genel bir sabitin kullanılması; tüm eksik verinin belirlenecek bir sabit değer ile değiştirilmesidir. Bu değişiklik uygulandığında veri madenciliği algoritmalarını olumsuz etkileyebilir. Bu nedenle basit bir strateji olmasına rağmen tercih edilmez.
Eksik verinin verinin özelliğin diğer veriler dikkate alınarak tamamlanması; bu stratejide eksik veri, aynı özelliğin eksik olmayan kayıtları göz önüne alınarak ortalama, medyan, mod gibi verinin tamamını temsil eden tek bir değer ile değiştirilir.
Eksik verinin kendi sınıfında yer alan değerlerin ortalaması ile tamamlanması; eksik verinin tamamlanması öncesinde veri üzerinde bir sınıflama çalışması yapılarak eksik verinin ait olduğu sınıflar belirlenir. Her eksik verinin bulunduğu sınıf eksik olmayan özellik verilerinin ortalaması ile tamamlanır.
Eksik verinin tamamlanmasında en uygun değerin kullanılması; eksik verinin bulunduğu özelliğin en uygun değeri regresyon yönteminin kullanıldığı sonuç çıkarmaya dayalı araçlar veya karar ağaçları kullanılarak belirlenebilir. Diğer stra- tejilere kıyasla bu strateji eksik veriyi tahmin etmede mevcut enformasyondan en fazla faydalanan yöntemdir. Bu nedenle en sık kullanılan stratejidir.

Doğru Cevap: E

Soru 44

Ölçülen bir değerdeki hata veya hatalı veri toplama, veri girişi problemleri, teknolojik kısıtlar gibi yanlış nitelik değerleri ne tür verinin olası nedenleridir?

Sıralayıcı verinin

İkili verinin

Gürültülü verinin

Bağlamsal verinin

Görsel verinin

Açıklama:

Ölçülen bir değerdeki hata veya hatalı veri toplama, veri girişi problemleri, teknolojik kısıtlar gibi yanlış nitelik değerleri gürültülü verinin olası nedenleridir.

Doğru Cevap: C

Soru 45

Bölmeleme yöntemlerinde öncelikle veriler __________ sıralanır.

artan sırada

kümelere göre

renge göre

şekile göre

bölgeye göre

Açıklama:

Bölmeleme yöntemlerinde öncelikle veriler artan sırada sıralanır.

Doğru Cevap: A

Soru 46

Aykırı değerler ___________ analizi ile ortaya çıkarılabilir?

ortalama

kümeleme

toplama

bölme

varyans

Açıklama:

Aykırı değerler kümeleme analizi ile ortaya çıkarılabilir.

Doğru Cevap: B

Soru 47

___________ iki farklı kaynaktan gelen verilerin eşleştirilmesi için aynı varlıklar belirlenerek veriler __________ yardımıyla birleştirilir?

OLAP ; gözlemler ile

Eksik bulma; varyanslar ile

Eksik tamamlamam; rassal gözlemlerle

Toplam birleştirme; ortalamalarla

Şema birleştirme; şemalar

Açıklama:

Şema birleştirme iki farklı kaynaktan gelen verilerin eşleştirilmesi için aynı varlıklar belirlenerek veriler şemalar yardımıyla birleştirilir.

Doğru Cevap: E

Soru 48

Bir değişken için 20 adet gözlem elde edilmiştir. Bu değişkene ait en büyük değer 25 ve en küçük değer 5 olarak bulunmuştur. herhangi bir gözlemin değeri 10 a eşit ise enk-enb normalleştirmesine göre bu gözlem değerinin normalleştirilmiş değeri ne olur?

0.15

0.20

0.25

0.30

0.50

Açıklama:

X(norm)= (10-5)/(25-5)=0.25 olur

Doğru Cevap: C

Soru 49

Bir değişkenin ortalaması 10 standart sapması 4 ise 12 değerine sahip bir gözlem birimi için z-skor değeri nedir?

0.05

0.20

0.35

0.50

0.80

Açıklama:

X(zskor)= (12-10)/4=2/4=0.50

Doğru Cevap: D

Soru 50

İşlenmemiş verinin, analize hazır duruma getirilmesi amacıyla yapılan tüm işlemlere ne ad verilir?

Veri Hazırlama

Veri Dönüştürme

Veri Analizi

Veri Temizleme

Veri Manipülasyonu

Açıklama:

Söz konusu amaçla yapılan bir çok işlem, bir bütün olarak veri hazırlama adını alır.

Doğru Cevap: A

Soru 51

Bir sınıftaki öğrenciler, kızlar ve erkekler olarak cinsiyetlerine göre iki gruba ayrılmıştır. Söz konusu durumda cinsiyet, ne tür bir değişkendir?

Ordinal

Nominal

Aralıklı Ölçümlendirilmiş

Sürekli

Bağımlı

Açıklama:

Cinsiyet, kategorik-nominal bir değişken türüdür.

Doğru Cevap: B

Soru 52

Bir okul yöneticisi, öğrencilerin kişisel bilgilerine yönelik oluşturduğu veri tabanına kardeş sayılarını da kaydetmiştir. Kardeş sayısı, hangi tür değişkendir?

Aralıklı

Eşit oranlı

Kesikli değişken

Binary

Sınıflayıcı

Açıklama:

Sınıf düzeyi tam sayılar alabileceğinden, integer bir değişken türüdür. Sayma sayıları biçimde sonuçlar ortaya çıkacağı için kesikli bir değişken olacaktır.

Doğru Cevap: C

Soru 53

Eksik verinin tamamlanması sürecinde çok zaman alan ve eksik verinin çok olması durumunda veri setinde yanlılığa neden olabilecek yöntem nedir?

El ile doldurma

Ortalama değer atama

Regresyon

Diğer verilere göre atama

Silme

Açıklama:

Veri setinde eksik verilerin el ile doldurulması, eğer veri setinde çok fazla kayıp veri var ise hemen çok zaman alıcı olacaktır, hem de yanlılığa, yanlış sonuçlara ulaşılmasına neden olabilecektir.

Doğru Cevap: A

Soru 54

Aykırı - aşırı uç değerlerin veri setinde yer alması, veri temizleme işlemini gerektiren hangi durumla ilgilidir?

Kayıp

Tutarsız

Eksik

Gürültü

Sıkıştırma

Açıklama:

Veri setinde analiz sonuçlarını etkileyebilecek aykırı değerlerin olması, "gürültü" olarak adlandırılır.

Doğru Cevap: D

Soru 55

Bir çok farklı kaynaktan gelen verinin, bir arada kullanılmak amacıyla bir yerde toplanmasına ne ad verilir?

İndirgeme

Sıkıştırma

Bölme

Dönüştürme

Birleştirme

Açıklama:

Veri birleştirme işlemiyle farklı yerlerde olan veri setleri bir araya getirilerek, aynı amaçla kullanılmaya hazır hale getirilmiş olur.

Doğru Cevap: E

Soru 56

Kümeleme, veri dönüştürmede kullanılan hangi işleme yönelik tekniklerden biridir?

Düzeltme

Bir araya getirme

Normalleştirme

Özellik oluşturma

Ölçekleme

Açıklama:

Kümeleme, düzeltme işlemlerinde kullanılan bir metottur.

Doğru Cevap: A

Soru 57

Verilerin, veri kümesinde yer alan minimum ve maksimum değerlere göre normalleştirilmesine ne ad verilir?

Z-Skor

Ondalık Ölçekleme

Enk-Enb

Standart Sapma

Aritmetik Ortalama

Açıklama:

Veri setindeki en büyük ve en küçük sayılara dayalı olarak kullanılan yöntem ENK-ENB yöntemidir.

Doğru Cevap: C

Soru 58

Normalleştirme işleminde ilgili değişkenin standart sapması ve aritmetik ortalamasına dayalı işleme ne ad verilir?

Z-Skor

Enk-Enb

Ondalık Ölçekleme

Ranj

Sınıflama

Açıklama:

Değişkenlerin -3, +3 aralığındaki değerlere doğrusal dönüşüm işlemi, standart sapma ve artimetik ortalama ile yapılan Z-skor işlemidir.

Doğru Cevap: A

Soru 59

Aşağıdakilerden hangisinin verinin uygun formlara dönüştürülmesinde yapılan işlemlerden biri değildir?

Düzeltme

Bir araya getirme

Genelleme

Sıkıştırma

Normalleştirme

Açıklama:

Sıkıştırma, veri indirgeme yöntemlerinden biridir.

Doğru Cevap: D

Soru 60

Veri madenciliğinde bir veri kavramı ile ilgili seçeneklerden hangisi söylenebilir?

Sabit bir yapısı ya da boyutu yoktur?

Hataya müsaade etmez.

Kaynak çeşitliliği yoktur.

Değişime kapalıdır.

En önemli veri kaynağı insandır.

Açıklama:

Veri madeninde bulunan veri insan tarafından oluşturulmuş bir bilgisayar dosyasından, verileri tasarlamak ve yönetmek için kullanılan bir işletme veri tabanı yönetim sisteminden, standart bir veri tabanı sisteminden, otomatik bilgi kaydı oluşturan bir araçtan, uydu üzerinden ve bunlara benzer şekilde kaynaklardan gelmiş olabilir. Farklı kaynaklardan gelen veri geliş kaynağının özelliğine göre çok çeşitli yapılarda, şekillerde ve tiplerde bulunabilir. Bu yapıdaki veri büyük olmasının yanı sıra çeşitli hatalar, kayıp değerler veya aykırı değerler içeriyor olabilir. Bir madenden çıkarılmayı bekleyen değerli taşlar gibi bu veri de çeşitli analizlerde kullanılmak üzere veritabanında bekler.

Doğru Cevap: A

Soru 61

Değişkenin sayı ile ifade edilebildiği ancak bu sayının aritmetik olarak bir anlam ifade etmediği değişken türü hangisidir?

İkili değişkenler

Sıra gösteren değişkenler

İsimsel değişkenler

Tam sayılı değişkenler

Aralıklı ölçümlendirilmiş değişkenler

Açıklama:

İsimsel (Nominal) Değişkenler
Sınıflayıcı ölçek, gözlem değerlerinin tek tek nitel kategori ya da sınıflara atanması sonucu oluşan ölçektir. Daha önce verilen bir markette satılan ürünlerin türlerine göre
sınıflanması örneğinde sınıflayıcı ölçek kullanılır. Cinsiyet sınıflaması veya hastaneye
başvuran hastaların rahatsızlıklarına göre sınıflandırılması sınıflayıcı ölçeğe örnek olarak verilebilir.
İsimsel değişken sayısal bir formda olabilir. Ancak bu sayısal değer matematiksel bir
hesaplama ya da işlem yapmak için uygun değildir. Örneğin; 5 kişi 1, 2, 3, 4, 5 olarak
sayılarla ifade edilebilir. Buradaki sayılar üzerinde aritmetik bir işlem yapmak anlamlı
olmayacaktır. Örnekteki sayılar sadece bir etiket görevi görecektir.

Doğru Cevap: C

Soru 62

Seçeneklerde verilen değişken tiplerinden hangisi diğerlerinin bütün özelliklerini taşımaktadır?

Sıra gösteren değişkenler

Tam sayılı değişkenler

Aralıkl ölçümlendirilmiş değişkenler

İkili değişkenler

Oranlı ölçümlendirilmiş değişkenler

Açıklama:

Oranlı ölçümlendirilmiş (ratio-scaled) değişkenler aralıklı ölçümlendirilmiş (interval-scaled) değişkenlere benzer olmakla beraber bu değişkende sıfır başlangıç noktası tüm ölçüm
araçlarında aynı anlamı taşır. Örneğin; bir varlığın ağırlığı için “sıfır” ifadesi kullanıldığında ölçüm metrik türüne bakılmadan bu varlığın ağırlığının olmadığı anlamı çıkarılır.
Diğer bir deyişle sıfır kilogram ve sıfır gram aynı anlamı taşır. Oranlı ölçümlendirilmiş
(ratio-scaled) değişkenler daha önce ele alınan değişken tiplerinin tüm özelliklerini içerir.
En büyük özelliği yokluk anlamına gelen belirli bir sıfır değerini barındırıyor olması bu nedenle ölçme düzeyleri arasında oransal analizler yapılabilmesine olanak tanıyor olmasıdır.

Doğru Cevap: E

Soru 63

Veri hazırlama sürecinin ilk aşaması seçeneklerden hangisinde verilmiştir?

Veri toplama

Veri temizleme

Veri dönüşürme

Veri birleştirme

Veri indirgeme

Açıklama:

.
Veri hazırlama süreçlerinden biri olan veri temizleme verideki tutarsızlıkların giderilmesi ve verideki gürültünün giderilmesi için uygulanır. Veri dönüştürme olarak normalleştirme kullanılabilir. Veri birleştirme farklı kaynaktan gelen veriyi uygun bir veri tabanında birleştirir. Veri indirgeme ise fazla olan bazı değişkenlerin çıkarılması, birleştirilmesi veya kümeleme yaparak veri büyüklüğünün azaltılması amaçlanır. Veri yapısına uygun olacak şekilde bu süreçlerden biri veya birkaçı veri madenciliğinden önce uygulanarak elde edilen sonuçların kalitesi, güvenilirliği ve veri madenciliği aşamasında harcanacak zaman arttırılabilir.

Doğru Cevap: B

Soru 64

Seçeneklerden hangisi eksik verinin tahmin edilmesinde kullanılan stratjilerden biri değildir?

Eksik verinin kendi sınıfında yer alan değerlerin ortalaması ile tamamlanması

Eksik verinin verinin özelliğin diğer veriler dikkate alınarak tamamlanması

Eksik verinin tamamlanmasında genel bir sabitin kullanılması

Eksik verinin gözardı edilmesi

Eksik verinin el ile doldurulması

Açıklama:

Eksik verinin tahmin edilmesi için kullanılan başlıca stratejiler aşağıda verilmiştir.
• Eksik verinin el ile doldurulması; bu strateji zaman alıcıdır ve eksik verinin fazla
olduğu büyük veri kümelerinde kullanılması uygun değildir.
• Eksik verinin tamamlanmasında genel bir sabitin kullanılması; tüm eksik verinin
belirlenecek bir sabit değer ile değiştirilmesidir. Bu değişiklik uygulandığında veri
madenciliği algoritmalarını olumsuz etkileyebilir. Bu nedenle basit bir strateji olmasına rağmen tercih edilmez.
• Eksik verinin verinin özelliğin diğer veriler dikkate alınarak tamamlanması; bu
stratejide eksik veri, aynı özelliğin eksik olmayan kayıtları göz önüne alınarak ortalama, medyan, mod gibi verinin tamamını temsil eden tek bir değer ile değiştirilir.
• Eksik verinin kendi sınıfında yer alan değerlerin ortalaması ile tamamlanması; eksik verinin tamamlanması öncesinde veri üzerinde bir sınıflama çalışması yapılarak eksik verinin ait olduğu sınıflar belirlenir. Her eksik verinin bulunduğu sınıf
eksik olmayan özellik verilerinin ortalaması ile tamamlanır.
• Eksik verinin tamamlanmasında en uygun değerin kullanılması; eksik verinin
bulunduğu özelliğin en uygun değeri regresyon yönteminin kullanıldığı sonuç
çıkarmaya dayalı araçlar veya karar ağaçları kullanılarak belirlenebilir. Diğer stratejilere kıyasla bu strateji eksik veriyi tahmin etmede mevcut enformasyondan en
fazla faydalanan yöntemdir. Bu nedenle en sık kullanılan stratejidir.

Doğru Cevap: D

Soru 65

Verideki gürültünün belirlenip giderilebilmesi için seçeneklerdeki yöntemlerden hangiis kullanılabilir?

Kümeleme

Göz ardı etme

Veri eksiltme

Aritmetik ortalama alma

Standart sapma uygulama

Açıklama:

Gürültü, veri madenciliği tekniği ile analiz edilmek istenilen verilerdeki beklenen
değerlerden sapan aykırı değerler veya hatalardır. Gürültülü veri büyük veritabanları ve
veri ambarlarında karşılaşılan yaygın problemlerdendir. Ölçülen bir değerdeki hata veya
hatalı veri toplama, veri girişi problemleri, teknolojik kısıtlar gibi yanlış nitelik değerleri
gürültülü verinin olası nedenleridir. Veri madenciliği uygulanmadan önce bu değerlerin
neden olduğu gürültü düzeltilmelidir. Verideki gürültünün belirlenip giderilmesi için
bölmeleme, kümeleme, bilgisayar ve insan denetiminin birleştirilmesi ve regresyon
yöntemleri kullanılabilir.

Doğru Cevap: A

Soru 66

Veri kümesi içerisindeki gereksiz özelliklerin çıkarılmasına ne ad verilmektedir?

Veri birleştirme

Veri küpü

Boyut indirgeme

Veri sıkıştırma

Veri dönüştürme

Açıklama:

Veri kümeleri analizle ilgisi olmayan veya gereksiz yüzlerce özellik içerebilir. Gereksiz
olan özelliklerin indirgenmesi bir başka deyişle boyut indirgeme pek çok veri madenciliği
algoritmasının daha verimli çalışmasını, daha anlaşılabilir bir modelin oluşturulmasını,
verilerin daha kolay görselleştirilmesini ve veri madenciliği algoritmaları için gerekli
olan işlemci süresi ve hafızasını azaltır. İyi bir özellik alt kümesi asıl özelliklerden seçilir.

Doğru Cevap: C

Soru 67

Veri dönüştürmede düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek
seviyeye dönüştürülmesine ne ad verilmektedir?

Düzeltme

Genelleme

Bir araya getirme

Normalleştirme

Özellik oluşturma

Açıklama:

Genelleme; düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek
seviyeye dönüştürülmesidir. Örneğin; yaş gibi sayısal verilerin kategorik olan
genç, orta yaşlı veya yaşlı gibi değerlere dönüştürülmesi ya da cadde isimlerinden oluşan kategorik verilerin şehir veya ülke şeklinde daha yüksek kavramlara
dönüştürülmesidir

Doğru Cevap: B

Soru 68

En çok kullanılan veri dönüştürme işlemi hangisidir?

Özellik oluşturma

Genelleme

Düzeltme

Bir araya getirme

Normalleştirme

Açıklama:

Normalleştirme veya standartlaştırma en çok kullanılan veri dönüştürme işlemidir.
Normalleştirmede enk-enb normalleştirme, z skor normalleştirme ve ondalık ölçekleme
yöntemleri kullanılır.

Doğru Cevap: E

Soru 69

Seçeneklerden hangisi z-skor normalleştirmenin bir özelliğidir?

En büyük ve en küçük değerlerin belirlenmesi

Standart sapmanın kullanılması

Ortancanın kullanılması

Eşitsizliklerin temel alınması

Eksi değerlerin işleme alınması

Açıklama:

z-skor normalleştirme diğer dönüştürme yöntemleri içinde uygulamada en çok kullanılan dönüştürme yöntemidir. Bir değişkene (özellik) ilişkin aritmetik ortalama ve standart
sapma hesaplamasından sonra elde edilir. z-skor normalleştirme sonucunda veri sıfır ile
bir arasında sayısal bir değere dönüşür. Dönüştürme için aşağıdaki eşitlikten yararlanılır.

Doğru Cevap: B

Soru 70

"..................., hakkında bilgi edinilmek istenen canlı, cansız varlıklar veya olayların sahip oldukları ve birbirinden ayırt edilmesine yardımcı olan değişkenler veri madenciliğinde bir veri setinin sunumunda kullanılan tablo
gösteriminde sütunlarda yer alır."

Deney

Analiz

Özellik

Ölçme

Nesne

Açıklama:

Özellik, hakkında bilgi edinilmek istenen canlı, cansız varlıklar veya olayların sahip oldukları ve birbirinden ayırt edilmesine yardımcı olan değişkenler veri madenciliğinde bir veri setinin sunumunda kullanılan tablo
gösteriminde sütunlarda yer alır.

Doğru Cevap: C

Soru 71

"Birimlerin sahip olduğu özelliklerin derecesinin belirlenerek sonuçların sayısal olarak ifade edilmesine .................. adı verilir. Diğer bir deyişle gözlem ya da deney sonucunda elde edilen verilerin nicel olarak belirtilebilmesidir."
Metinde boş bırakılan yere aşağıdaki seçeneklerden hangisi getirilmelidir?

ölçme

veri

nesne

özellik

değişken

Açıklama:

Birimlerin sahip olduğu özelliklerin derecesinin belirlenerek sonuçların sayısal olarak ifade edilmesine ölçme adı verilir. Diğer bir deyişle gözlem ya da deney sonucunda elde edilen verilerin nicel olarak belirtilebilmesi amacıyla ölçmeye başvurulur

Doğru Cevap: A

Soru 72

Bir nesnenin özelliklerinin ölçme şekline göre bir çok değişken tipi tanımlanabilir.

İsimsel (Nominal) Değişkenler
İkili (Binary) Değişkenler
Sıra Gösteren (Ordinal) Değişkenler
Tam sayılı (Integer) Değişkenler
Çıktı kaliteli değişkenler

Yukarıdaki maddelerden hangileri değişken tipleri arasındadır?

Yalnız V

I - II

III - IV

II - III - V

I - II - III - IV

Açıklama:

Bir nesnenin özelliklerinin ölçme şekline göre bir çok değişken tipi tanımlanabilir. Bu değişkenler şu şekilde sıralanabilir:

İsimsel (Nominal) Değişkenler
İkili (Binary) Değişkenler
Sıra Gösteren (Ordinal) Değişkenler
Tam sayılı (Integer) Değişkenler
Aralıklı Ölçümlendirilmiş (Interval-Scaled) Değişkenler
Oranlı Ölçümlendirilmiş (Ratio-Scaled) Değişkenler

Doğru Cevap: E

Veri dönüştürme işlemlerine ilişkin aşağıda verilen bilgilerden hangisi yanlıştır?

Düzeltme; bölmeleme, kümeleme ve regresyon gibi teknikler kullanılarak verilerdeki gürültü oluşturmaktır.

Bir araya getirme; veriler bir araya getiren gruplama fonksiyonları kullanılarak gerçekleştirilir.

Genelleme; düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek
seviyeye dönüştürülmesidir.

Normalleştirme veya standartlaştırma; bir değişkenin standartlaştırılması
veya normalleştirilmesi yaygın olarak kullanılan veri dönüşüm tekniğidir.

Özellik oluşturma; yeni özellikler madencilik sürecine yardımcı olmak için verilen özellikler kümesinden oluşturulur ve düzenlenir.

Açıklama:

Düzeltme; bölmeleme, kümeleme ve regresyon gibi teknikler kullanılarak verilerdeki gürültünün temizlenmesidir.

Bir araya getirme; veriler bir araya getiren gruplama fonksiyonları kullanılarak gerçekleştirilir. Günlük temelde bulunan bir veri özelliğinin aylık temele dönüştürülmesi örnek verilebilir.

Genelleme; düşük düzeydeki verinin kavram hiyerarşisi kullanılarak daha yüksek seviyeye dönüştürülmesidir. Örneğin; yaş gibi sayısal verilerin kategorik olan genç, orta yaşlı veya yaşlı gibi değerlere dönüştürülmesi ya da cadde isimlerinden oluşan kategorik verilerin şehir veya ülke şeklinde daha yüksek kavramlara dönüştürülmesidir.

Normalleştirme veya standartlaştırma; bir değişkenin standartlaştırılması
veya normalleştirilmesi yaygın olarak kullanılan veri dönüşüm tekniğidir. Veri madenciliği terminolojisinde her iki terim birbiri yerine kullanılmaktadır.

Özellik oluşturma; yeni özellikler madencilik sürecine yardımcı olmak için verilen özellikler kümesinden oluşturulur ve düzenlenir. Özellik oluşturma karar ağacı algoritmaları sınıflama için kullanıldığında bölümleme problemini azaltmaya yardımcı olabilir. Yükseklik ve genişlik özelliklerinden alan özelliğinin oluşturulması bu duruma bir örnek olarak verilebilir.

Doğru Cevap: A

Soru 77

Enk-Enb normalleştirme formülüne ilişkin aşağıdaki seçeneklerden hangisi doğrudur?

X: Dönüştürülmüş değer

X^*: Gözlem değeri

X_enk: Verideki en küçük gözlem değeri

X_enb: Verideki en küçük değer

X_enb: Verideki gözlem değeri

Açıklama:

Doğru Cevap: C

Soru 78

z-Skor normalleştirme formülüdür.

X: Gözlem değeri

X^*: Dönüştürülmüş değer

s: Değişkenin standart sapması

: Verideki en büyük değer

Formüle ilişkin yukarıdaki maddelerden hangileri doğrudur?

Yalnız I

Yalnız II

III - IV

I - II - III

I - II - III - IV

Açıklama:

Doğru Cevap: D

Soru 79

".......................... yönteminde değişkene (özellik) ilişkin gözlem değerlerinin ondalık bölümü hareket ettirilerek normalleştirme gerçekleştirilir. Hareket ettirilecek ondalık bölüm değişkenin maksimum mutlak değeri ile bağlantılıdır."
Metinde verilen boşluğa aşağıdaki seçeneklerden hangisi getirilmelidir?

Ondalık ölçekleme

Aritmetik ölçekleme

z-Skor normalleştirme

Enk normalleştirme

Enb normalleştirme

Açıklama:

Ondalık ölçekleme yönteminde değişkene (özellik) ilişkin gözlem değerlerinin ondalık bölümü hareket ettirilerek normalleştirme gerçekleştirilir. Hareket ettirilecek ondalık bölüm değişkenin maksimum mutlak değeri ile bağlantılıdır.

Doğru Cevap: A

Soru 80

Market çalışanlarının yönetim katından en alt kademeye kadar sıralanması örneği aşağıdaki hangi değişkene örnek olarak verilebilir?

İkili değişkenler

Sıra gösteren değişkenler

Tam sayılı değişkenler

Aralıklı ölçümlendirilmiş değişkenler

Oranlı ölçümlendirilmiş değişkenler

Açıklama:

Market çalışanlarının yönetim katından en alt kademeye kadar sıralanması örneği sıra gösteren değişkene örnek olarak verilebilir.

Doğru Cevap: B

Soru 81

Markette bir gün içinde satılan ekmek sayısı, belli bir depodaki koli sayısı ya da palet sayısı, bir ailedeki çocuk sayısı aşağıdaki hangi değişken türüne örnektir?

İsimsel Değişkenler

İkili Değişkenler

Sıra Gösteren Değişkenler

Tam Sayılı Değişkenler

Aralıklı Ölçümlendirilmiş Değişkenler

Açıklama:

Alacağı değerler 0, 1, 2, ... gibi tamsayılar olarak belirtilebilen değişkenlerdir. Bu nedenletam sayılı değişkenlerin ondalıklı değerler alması söz konusu değildir. Markette bir gün içinde satılan ekmek sayısı, belli bir depodaki koli sayısı ya da palet sayısı, bir ailedeki çocuk sayısı örnek olarak verilebilir. Tam sayılı değişkenlerle toplama, çıkarma ve çarpma işlemleri yapmak anlamlıdır.

Doğru Cevap: D

Soru 82

Hava sıcaklığı nicel ölçme düzeyine sahiptir ve yokluk anlamına gelmeyen sıfır değeri bulunabilir. Buradaki sıfır ölçme düzeyi havada sıcaklığın olmadığı anlamına gelmez. Bu değişken için matematiksel işlemler uygun olmakla beraber oran hesaplamaları için uygun değildir. Bu hangi değişken türüne örnektir?

Aralıklı Ölçümlendirilmiş Değişkenler

Oranlı Ölçümlendirilmiş Değişkenler

Sıra Gösteren Değişkenler

İkili Değişkenler

İsimsel Değişkenler

Açıklama:

Doğru Cevap: A

Soru 83

Aşağıdakilerden hangisi sürekli değişkenler grubunda yer alır?

İsimsel Değişkenler

İkili Değişkenler

Sıra Gösteren Değişkenler

Tam Sayılı Değişkenler

Hiçbiri

Açıklama:

Kategorik değişkenler grubunda isimsel (nominal), ikili (binary) ve sıra gösteren (ordinal) değişkenler girerken sürekli değişkenler grubuna tam sayılı (integer), aralıklı ölçümlendirilmiş (interval-scaled) ve oranlı ölçümlendirilmiş (ratio-scaled) değişkenler girer.

Doğru Cevap: D

R yazılımının “cluster.Sim” paketinde kaç tane veri normalleştirme yöntemi bulunmaktadır?

Açıklama:

R yazılımının “cluster.Sim” paketinde 16 tane veri normalleştirme yöntemi bulunmaktadır. Normalleştirme işlemini gerçekleştirmek için “data.Normalization(x,type=”n0”,normalization=”column”)” komutu kullanılır.

Doğru Cevap: D

Soru 89

Açıklama:

d(x,y)=|x-y|=|1-4|=3

Doğru Cevap: D

Soru 5

Bir ürünle ilgili olarak; Çok kötü=0, Kötü=1, Orta=2, İyi=3, ve Çok iyi=4, Mükemmel=5 olmak üzere değerlendirilme yapılmıştır ve sırasıyla Orta ve Mükemmel olarak iki ürün tespit edilmiştir. Buna göre bu iki ürün arasındaki uzaklık değerinin [0,1] aralığındaki ifadesi aşağıdakilerden hangisidir?

0,1

0,2

0,4

0,5

0,6

Açıklama:

d(x,y)=|x-y|=|2-5|=3
d(x,y)/(n-1) ise 3/5=0,6

Doğru Cevap: E

Soru 6

Sınıflayıcı ölçek
Sıralayıcı ölçek
Aralıklı ve oransal ölçek

Yukarıdaki ölçeklerden hangisi/hangileri ile ölçülebilen değişkenler nicel değişkenler olarak adlandırılırlar?

Yalnız I

Yalnız II

Yalnız III

I ve II

I, II ve III

Açıklama:

Sınıflayıcı ve sıralayıcı ölçek ile ölçülebilen değişkenler nitel, aralıklı ve oransal ölçek ile ölçülebilen değişkenler ise nicel değişkenler olarak adlandırılırlar.

Doğru Cevap: C

Soru 7

Aşağıdakilerden hangisi nicel değişkenlerden elde edilen gözlem değerleri arasındaki yakınlığın belirlenmesinde yararlanılan ölçülerden biri değildir?

Karl Pearson Uzaklığı

Thales Uzaklığı

Öklid Uzaklığı

Manhattan Uzaklığı

Mahalanobis Uzaklığı

Açıklama:

Thales uzaklığı, nicel değişkenlerden elde edilen gözlem değerleri arasındaki yakınlığın belirlenmesinde yararlanılan ölçülerden biri değildir.

Doğru Cevap: B

Soru 8

Öklid ve karesel öklid uzaklığı ile ilgili aşağıda verilen ifadelerden hangisi yanlıştır?

Uzaklık ölçüleri arasında en yaygın kullanılan uzaklık ölçüleri Öklid ve Karesel Öklid
uzaklık ölçüleridir.

Öklid uzaklığı, i’inci ve j’inci nesnelerin p tane değişken için farklarının kareleri toplamının karekökü alınarak elde edilir.

Öklid uzaklık ölçüsü, değişkenlerin birbirinden bağımsız olduklarını varsayar.

Öklid uzaklığının hesaplanabilmesi için verilerin oransal ya da aralıklı ölçekle ölçülmüş olması gerekir.

Öklid uzaklığı "sıfır" ile "bir" arasında değerler alır yani tanım aralığı [0,1]’dir.

Açıklama:

Öklid uzaklığı “sıfır” ile “sonsuz” arasında değerler alır yani tanım aralığı [0,∞)’dur.

Doğru Cevap: E

Soru 9

Uzaklık iki nesne arasındaki aşağıdakilerden hangi niteliğin bir ölçüsünü ifade etmektedir?

Mantıksallığın

Nesnenin benzerliğinin

Özelliğinin

Düzensizliğin ve bozukluğun

Ayrışmanın

Açıklama:

İki nesne arasındaki düzensizliğin veya bozukluğun bir ölçüsü olan uzaklık, farklılığın özel bir sınıfı, alt kümesidir.

Doğru Cevap: D

Soru 10

Benzerlik ve uzaklık değerleri ile ilgili olarak aşağıdakilerden hangisi doğrudur?

İki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olmadıklarını ifade eder.

İki nesne arasındaki yüksek benzerlik değeri nesnelerin ayrık olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olduklarını ifade eder.

Niteliksel olarak benzer olduklarını niceliksel olarak ayrık olduklarını ifade eder.

İki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olmadıklarını, yüksek uzaklık değeri ise nesnelerin benzer olduklarını ifade eder.

Niceliksel olarak benzer olduklarını niteliksel olarak ayrık olduklarını ifade eder.

Açıklama:

ki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olmadıklarını ifade eder.

Doğru Cevap: A

Soru 11

Özellikle ekolojik araştırmalarda belirli bir nesnenin farklı bölgelerde var olup olmadığının belirlenmesinde kullanılan ölçü aşağıdakilerden hangisidir?

Jaccard benzerlik katsayısı

Açısal benzerlik (cosine similarity)

Mahalanobis uzaklığı

Basit eşleştirme katsayısı

Binary Öklid uzaklığı

Açıklama:

Jaccard benzerlik katsayısı özellikle ekolojik araştırmalarda belirli bir nesnenin farklı bölgelerde var olup olmadığının belirlenmesinde kullanılmaktadır.

Doğru Cevap: A

Soru 12

Nicel değişkenlerden elde edilen gözlem değerleri arasındaki yakınlığın belirlenmesinde aşağıdakilerden hangisinden yararlanılmaz?

Öklid Uzaklığı

Manhattan Uzaklığı

Mahalanobis Uzaklığı

Korelasyon Uzaklığı

Büyüklük Farkı

Açıklama:

Nicel değişkenlerden elde edilen gözlem değerleri arasındaki yakınlığın belirlenmesinde Öklid uzaklığı, Karesel Öklid uzaklığı, Karl Pearson uzaklığı, Manhattan uzaklığı, Minkowski uzaklığı, Mahalanobis uzaklığı, Korelasyon uzaklığı ve Açısal benzerlik ölçülerinden yararlanılır.

Doğru Cevap: E

Soru 13

En yaygın olarak kullanılan uzaklık ölçüleri aşağıdakilerden hangisidir?

Lewinstein Uzaklık Ölçüsü

Öklid ve Karesel Öklid Uzaklık Ölçüleri

Manhattan Uzaklığk Ölçüsü

Mahalanobis Uzaklık Ölçüsü

Korelasyon Uzaklık Ölçüsü

Açıklama:

Uzaklık ölçüleri arasında en yaygın kullanılan uzaklık ölçüleri Öklid ve Karesel Öklid uzaklık ölçüleridir.

Doğru Cevap: B

Soru 14

R ile Öklid uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan aşağıdakilerden hangi fonksiyondan yararlanılır?

Abs()

Log()

Dist()

Exp()

Sqrt()

Açıklama:

R ile Öklid uzaklığı hesaplayabilmek için R’nin temel paketlerinden stats paketinde yer alan dist() fonksiyonundan yararlanılır.

Doğru Cevap: C

Soru 15

Aşağıdakilerden hangisi Karl Pearson uzaklık ölçüsünün tanımıdır?

İki kareler toplamının farkıdır.

Minkowski Uzaklığının kare köküdür.

Karesel öklid uzaklığının varyansının değişkene oranıdır.

Öklid uzaklığının değişkenin varyansına oranlanması ile elde edilen bir uzaklıktır.

Kareler arasındaki farkın kare köküdür.

Açıklama:

Karl Pearson uzaklığı, Öklid uzaklığının değişkenin varyansına oranlanması ile elde edilen bir uzaklıktır.

Doğru Cevap: D

Soru 16

n sayıda birim ve p sayıda değişken ile çalışılırken birimler yada değişkenler arasındaki uzaklıkları hesaplamak için kullanılan genel bir uzaklık ölçüsüdür.”
Yukarıda tanımı yapılan uzaklık ölçüsü aşağıdakilerden hangisidir?

Levinstein Uzaklığı

Öklid uzaklığı

Minkowski uzaklığı

Karl Pearson uzaklığı

kullback leibler uzaklığı

Açıklama:

Minkowski Uzaklığı , n sayıda birim ve p sayıda değişken ile çalışılırken birimler yada değişkenler arasındaki uzaklıkları hesaplamak için kullanılan genel bir uzaklık ölçüsüdür.

Doğru Cevap: C

Soru 17

Açısal benzerlik özellikle aşağıdakilerden hangisinde kullanılmaktadır?

Belge ve çoklu ortam nesnelerinin kıyaslanmasında ve metin madenciliğini uygulamalarında

Harita uzaklığının hesaplanmasında

Biçim farkınını içeren uygulamalarda

Büyüklük farkını içeren uygulamalarda

Resim işleme metodları ve yüz tanıma uygulamalarında

Açıklama:

Açısal benzerlik, özellikle belge ve çoklu ortam nesnelerinin kıyaslanmasında ve metin madenciliğinde kullanılmaktadır.

Doğru Cevap: A

Soru 18

İki sonuçlu değişkenler içeren gözlem çiftleri arasındaki yakınlığın belirlenmesinde aşağıdakilerden hangisinden yararlanılmaz?

Büyüklük Farkı (Size Difference)

Karl Pearson Uzaklık Ölçüsü

Biçim Farkı (Shape Difference)

Lance ve Williams Uzaklık Ölçüsü

Örüntü Farkı (Pattern Difference)

Açıklama:

İki sonuçlu değişkenler içeren gözlem çiftleri arasındaki yakınlığın belirlenmesinde Öklid, Karesel Öklid, Büyüklük Farkı (Size Difference), Örüntü Farkı (Pattern Difference), Lance ve Williams Uzaklık Ölçüsü, Biçim Farkı (Shape Difference) ve Jaccard Benzerliği (Jaccard Similarity) gibi birçok benzerlik ya da uzaklık ölçülerinden yararlanılmaktadır.

Doğru Cevap: B

Soru 19

ki sonuçlu değişkenler içeren nesne çiftinin karşılıklı eşleşen değerlerinin tekrar sayılarından oluşan tablonun adı aşağıdakilerden hangisidir?

T-Kare tablosu

Olasılık yoğunluk tablosu

Jaccard Benzerlik tablosu

Lawrance ve Williams Uzaklık tablosu

Kontenjans/Çapraz Sınıflama

Açıklama:

ki yönlü sınıflama tablosu olarak da adlandırılan kontenjans tablosu, iki sonuçlu değişkenler içeren nesne çiftinin karşılıklı eşleşen değerlerinin tekrar sayılarından oluşan tablodur.

Doğru Cevap: E

Soru 20

L₁ norm olarak da bilinir
Minkowski uzaklığının özel bir halidir.
Aykırı değerlere karşı hassasiyeti düşüktür.

Yukarıda özellikleri verilen uzaklık ölçüsü aşağıdakilerden hangisidir?

Manhattan uzaklığı

Karl Pearson uzaklığı

Öklid uzaklığı

Mahalanobis uzaklığı

Jaccard uzaklığı

Açıklama:

Özellikleri verilen uzaklık ölçüsü Manhattan uzaklığıdır.

Doğru Cevap: A

Soru 21

Benzerlik ve uzaklık ile ilgili aşağıdaki ifadelerden hangisi yanlıştır?

Uzaklık [-1,1] aralığında değer alır

Uzaklık farklılığın bir alt kümesidir

Benzerlik iki nesnenin birbirine benzeme derecesinin sayısal bir ölçüsüdür

Benzerlik [-1,1] aralığında değer alır

Yüksek uzaklık değeri nesnelerin benzer olmadıklarını ifade eder

Açıklama:

Uzaklık kimi zaman [0,1] aralığına düşecek şekilde tanımlansa da genel olarak

aralığındadır. Bu nedenle doğru cevap A seçeneğidir.

Doğru Cevap: A

Soru 22

Nesneler arasında 1 hiç benzerliğin olmadığını 100 ise tam benzerliğin olduğunu göstermek üzere elde edilmiş olan 65 benzerlik değerinin [0,1] aralığına düşen dönüşüm değeri nedir?

0,29

0,65

0,44

0,69

0,73

Açıklama:

s=65 için s'=(65-1)/(100-1)=(64/99)=0,65 olur. Bu nedenle doğru cevap B'dir.

Doğru Cevap: B

Soru 23

aralığında değerler alan ve d=60 olarak elde edilmiş uzaklık değerinin [0,1] aralığına düşen karşılığı nedir?

0,92

0,95

0,98

0,89

0,94

Açıklama:

d=60 için d'=d/(1+d)=60/(60+1)=(60/61)=0,98 olur. Bu nedenle doğru cevap C seçeneğidir.

Doğru Cevap: C

Soru 24

[30,60] kapalı aralığında hesaplanmış s=45 benzerlik değerinin [0,1] aralığındaki karşılığı nedir?

0,35

0,4

0,45

0,5

0,55

Açıklama:

s=45 için s'=(45-30)/(60-30)=(15/30)=0,5 olur. Bu nedenle doğru yanıt D olmaktadır.

Doğru Cevap: D

Soru 25

Ahmet'in yöneylem dersinden aldığı not 65 ve karar kuramı dersinden aldığı not 80 iken Mehmet'in aldığı notlar sırasıyla 50 ve 90'dır. Buna göre Ahmet ve Mehmet arasındaki öklid uzaklığı kaçtır?

18,02

11,25

35,73

27,16

15,93

Açıklama:

Bu nedenle doğru cevap A'dır.

Doğru Cevap: A

Soru 26

Ahmet'in yöneylem dersinden aldığı not 65 ve karar kuramı dersinden aldığı not 80 iken Mehmet'in aldığı notlar sırasıyla 50 ve 90'dır. Ayrıca yöneylem dersi varyansı

ve karar kuramı dersi varyansı

olduğu varsayıldığında Ahmet ile Mehmet arasındaki Karl Pearson uzaklığı kaçtır?

2,75

5,08

4,53

0,85

3,28

Açıklama:

Bu nedenle doğru cevap 5,08 olup B şıkkıdır.

Doğru Cevap: B

Soru 27

Ahmet'in yöneylem dersinden aldığı not 65 ve karar kuramı dersinden aldığı not 80 iken Mehmet'in aldığı notlar sırasıyla 50 ve 90'dır. Buna göre Ahmet ve Mehmet arasındaki Manhattan uzaklığı kaçtır?

Açıklama:

Bu nedenle doğru cevap C olmaktadır.

Doğru Cevap: C

Soru 28

C ve D değişkenleri için [-1,+1] aralığında değerler alan ve -0,65 olarak bulunan korelasyon katsayısı dikkate alındığında elde edilecek korelasyon uzaklığı değeri ne olur?

0,75

0,8

0,815

0,825

0,85

Açıklama:

Bu nedenle doğru cevap D olmaktadır.

Doğru Cevap: D

Soru 29

R yazılımında lsa paketindeki cosine() fonksiyonu neyi elde etmede kullanılır?

Karl Pearson uzaklığı

Jaccard uzaklığı

Korelasyon uzaklığı

Basit eşleştirme uzaklığı

Açısal benzerlik

Açıklama:

R ile Açısal benzerlik değerini hesaplayabilmek için lsa paketinde yer alan cosine() fonksiyonundan yararlanılır. Bu nedenle doğru cevap E olmaktadır.

Doğru Cevap: E

Soru 30

Aşağıdakilerden hangisi iki sonuçlu değişkenler için kullanılan yakınlık ölçülerinden birisidir?

Karl Pearson uzaklığı

Manhattan uzaklığı

Minkowski uzaklığı

Açısal benzerlik

Jaccard uzaklığı

Açıklama:

İki sonuçlu değişkenler için kullanılan yakınlık ölçüleri şu şekilde sıralanır: a)Basit eşleştirme katsayısı ve uzaklığı b)Binary öklid ve karesel öklid uzaklığı c)Jaccard benzerlik katsayısı ve uzaklığı. Bu nedenle doğru cevap E'dir.

Doğru Cevap: E

Soru 31

İki nesne arasındaki yüksek uzaklık değeri bu iki nesne için neyi ifade eder?

Benzer olduklarını

Benzer olmadıklarını

İlişkisiz olduklarını

d(x,y)=0 ifadesini sağladığını

s(x,y)=1 ifadesini sağladığını

Açıklama:

İki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olmadıklarını ifade eder.
Doğru cevap B şıkkıdır.

Doğru Cevap: B

Soru 32

Minkowski uzaklığı, n sayıda birim ve p sayıda değişken ile çalışılırken birimler yada değişkenler arasındaki uzaklıkları hesaplamak için kullanılan genel bir uzaklık ölçüsüdür. Minkowski uzaklığıL_λ norm olarak da bilinir. λ=1 olarak alınırsa hangi uzaklığa dönüşür?

Öklid Uzaklığı

Karl Pearson Uzaklığı

Manhattan (City-Block) Uzaklığı

Jaccard Benzerlik Uzaklığı

Mahalanobis Uzaklığı

Açıklama:

Minkowski uzaklık formülünde λ=1 olarak alınırsa Manhattan (City-Block) Uzaklığına dönüşür.
Doğru cevap C şıkkıdır.

Doğru Cevap: C

Soru 33

Minkowski uzaklığı, n sayıda birim ve p sayıda değişken ile çalışılırken birimler yada değişkenler arasındaki uzaklıkları hesaplamak için kullanılan genel bir uzaklık ölçüsüdür. Minkowski uzaklığı L_λ norm olarak da bilinir. λ=1 olarak alınırsa hangi uzaklığa dönüşür?

Manhattan Uzaklığı

Korelasyon Uzaklığı

Mahalanobis Uzaklığı

Jaccard Benzerlik Uzaklığı

Basit Eşleştirme Uzaklığı

Açıklama:

Minkowski uzaklık formülünde λ=1 olarak alınırsa Manhattan (City-Block) Uzaklığına dönüşür.
Doğru cevap A şıkkıdır.

Doğru Cevap: A

Soru 34

Veri matrisi olarak girilen x değişkenine ait nesneler arasındaki belirli uzaklık ölçüm değerlerini R ile hesaplamak için hangi fonksiyon kullanılmaktadır?

stats

data.frame

sqrt

sim

dist

Açıklama:

dist() fonksiyonu yardımıyla veri matrisi olarak girilen x değişkenine ait nesneler arasındaki belirli uzaklık ölçüm değerleri hesaplanabilir.
Doğru cevap E şıkkıdır.

Doğru Cevap: E

Soru 35

Açısal benzerlik, iki vektör arasındaki açı farkının kosinüsünün bu iki vektör arasındaki uzaklık olarak alınması suretiyle değişkenler arasındaki benzerliğin belirlenmesine yönelik bir benzerlik ölçüsüdür. İki vektör arasındaki açı farkının sıfır olması iki vektör için neyi ifade eder?

Benzer olduklarını

Farklı olduklarını

Bağımsız olduklarını

Birbirine dik olduklarını

Kesiştiklerini

Açıklama:

İki vektör arasındaki açı farkı sıfır olduğunda yani vektörler birbirlerine paralel olduklarında kosinüs değeri 1 olurken bu iki vektör arasındaki açı farkı 90° olduğunda yani vektörler birbirlerine dik olduklarında kosinüs değeri 0 olur.
Dolayısıyla açı farkının sıfır olması vektörlerin benzer olduğu anlamına gelir.

Doğru Cevap: A

Soru 36

İstatistik sınav notları ile değerlendirilen A ve B grupları arasındaki Pearson korelasyon katsayısı rAB = 0,4 olarak elde edilmiştir. Bu iki grup arasındaki korelasyon uzaklık değeri kaçtır?

0.2

0.50

0.15

0.65

0.3

Açıklama:

formülü yardımı ile hesaplandığında, korelasyon uzaklığının;
d_xy=(1-0.4)/2=0.3 olduğu görülür.

Doğru Cevap: E

Soru 37

Tesadüfi olarak seçilen bir değişkende her iki nesnenin de aynı özelliğe
sahip olma olasılığını veren bir katsayı aşağıdakilerden hangisidir?

Basit eşleştirme katsayısı

Alfa kesim noktası

Uzaklık katsayısı

Üyelik katsayısı

Referans katsayısı

Açıklama:

Basit eşleştirme katsayısı, p tane değişken açısından ilgilenilen nesnelerin her ikisinde de
olmama (0-0) ve olma (1-1) durum sayılarının oranını gösteren bir benzerlik ölçüsüdür.
Diğer bir anlatımla, tesadüfi olarak seçilen bir değişkende her iki nesnenin de aynı özelliğe sahip olma olasılığını veren bir katsayıdır.
Doğru cevap A şıkkıdır.

Doğru Cevap: A

Soru 38

[50,130] kapalı aralığında hesaplanmış s = 70 benzerlik değerinin [0,1] aralığındaki karşılığı kaçtır?

0.35

0,60

0.75

0.25

Açıklama:

formülünde sınır değerlerini (en küçük ve en büyük değerleri) ve istenen değeri yerine yazdığımızda istenen sonuç elde edilecektir.
s'=(70-50)/(130-50)=0.25
Doğru cevap E şıkkıdır.

Nesneler arasında 1 hiç benzerliğin olmadığını, 100 ise tam benzerliğin olduğunu göstermek üzere elde edilmiş olan 30 benzerlik değerinin [0,1] aralığına düşecek şekilde dönüşüm yapılmış karşılığı hangisidir?

0,44

0,29

0,35

0,17

0,56

Açıklama:

Birçok veri madenciliği uygulamasında özellikle benzerlik ölçüm değerlerinin [0,1] aralığında tanımlanmış veya bu aralıktaki değerlere dönüştürülmüş olması beklenir. Sonlu bir aralıkta değerler alan benzerlik ölçüm değerleri [0,1] aralığına uyacak şekilde dönüştürülmek istendiğinde, şu eşitlikten yararlanılır:

Doğru Cevap: B

Soru 44

Aşağıdaki eşitliklerden hangisi sonlu aralıkta olmayan yakınlık ölçüm değerlerini dönüştürmek için kullanılır?

Açıklama:

Yakınlık ölçüm değerleri her zaman sonlu aralıkta olmayabilir. Yakınlık ölçüm değerleri genellikle matematiksel olarak [0,∞) aralığında değerler almaktadırlar. Bu durumda yakınlık ölçüm değerlerini [0,1] sonlu aralığında ifade etmek için doğrusal olmayan bir dönüşüm uygulanır. Örnek olarak [0,∞) aralığında değerler alan bir uzaklık ölçümü için, şu eşitlik yardımıyla ölçüm değerleri [0,1] sonlu aralığına dönüştürülmüş olur:

Doğru Cevap: C

Soru 45

Belge ve metin madenciliğinde kullanılan benzerlik ölçüsü aşağıdakilerden hangisidir?

Pearson Korelasyon

Minkowski uzaklığı

City-Block uzaklığı

Mahalanobis

Açısal benzerlik

Açıklama:

Açısal benzerlik, iki vektör arasındaki açı farkının kosinüsünün bu iki vektör arasındaki uzaklık olarak alınması suretiyle değişkenler arasındaki benzerliğin belirlenmesine yönelik bir benzerlik ölçüsüdür. İki vektör arasındaki açı farkı sıfır olduğunda yani vektörler birbirlerine paralel olduklarında kosinüs değeri 1 olurken bu iki vektör arasındaki açı farkı 90° olduğunda yani vektörler birbirlerine dik olduklarında kosinüs değeri 0 olur. Dolayısıyla elde edilen değerin 1 olması değişkenler arasında tam bir benzerliğin olduğunun, 0 olması ise değişkenlerin hiç benzerliğin olmadığının göstergesi olmaktadır.
Açısal benzerlik, özellikle belge ve çoklu ortam nesnelerinin kıyaslanmasında ve metin madenciliğinde kullanılmaktadır.

Doğru Cevap: E

Soru 46

Aşağıdakilerden hangisi iki sonuçlu değişkenler içeren gözlem çiftleri arasındaki yakınlığın belirlenmesinde kullanılan yakınlık ölçülerinden biri değildir?

Öklid

Açısal benzerlik

Karesel Öklid

Büyüklük Farkı

Örüntü Farkı

Açıklama:

İki sonuçlu (binary) değişkenler, ölçüm değerleri sınıflama yoluyla elde edilen nitel değişkenlerdir. Bu değişkenler sadece evet/hayır, var/yok, erkek/kadın, doğru/yanlış gibi değerler alırlar. İki sonuçlu değişkenler için benzerlik veya uzaklık ölçüm değerlerin hesaplanabilmesi için her bir nesne incelenen değişkenlere ilişkin aldığı değerlerden oluşan bir vektör şeklinde ifade edilir. İki sonuçlu değişkenler içeren gözlem çi leri arasındaki yakınlığın belirlenmesinde Öklid, Karesel Öklid, Büyüklük Farkı (Size Difference), Örüntü Farkı (Pattern Difference), Lance ve Williams Uzaklık Ölçüsü, Biçim Farkı (Shape Difference) ve Jaccard Benzerliği (Jaccard Similarity) gibi birçok benzerlik ya da uzaklık ölçülerinden yararlanılmaktadır.

Doğru Cevap: B

Soru 47

R yazılımında vegan paketi içerisinde vegdist() fonksiyonu hangi uzaklığı hesaplamak için kullanılmaktadır?

Manhattan uzaklığı

Minkowski uzaklığı

Korelasyon uzaklığı

Jaccard uzaklığı

Karl Pearson uzaklığı

Açıklama:

R ile Jaccard uzaklığı değerini hesaplayabilmek için vegan paketi içerisinde yer alan vegdist() fonksiyonundan yararlanılır. Jaccard benzerlik katsayısı özellikle ekolojik araştırmalarda belirli bir nesnenin farklı bölgelerde var olup olmadığının belirlenmesinde kullanılmaktadır. İki nesnenin de araştırma bölgesi sınırları içerisinde var olmaması (0-0) durumu gözlem değeri sayısının (a’nın) göz ardı edildiği durumları dikkate alarak hesaplanan bir benzerlik ölçüsüdür.

Doğru Cevap: D

Soru 48

Aşağıdakilerden hangisi Pearson korelasyon katsayısı ile ilgili doğru değildir?

Değişken gözlem sayıları farklı olmalıdır.

Gözlem değerleri arasında benzerlik ölçüsüdür.

Doğrusal ilişki katsayısı olarak bilinir.

İlişki derecesini ve yönünü beliler.

r sembolü ile gösterilir.

Açıklama:

Doğrusal ilişki katsayısı olarak da bilinen Pearson korelasyon katsayısı, iki veya daha fazla ve en az aralıklı ölçeğe uygun şekilde ölçümlenmiş n adet gözlem içeren değişkenler arasındaki doğrusal ilişkinin yönünün ve derecesinin belirlenmesinde kullanılan bir katsayıdır ve r sembolü ile gösterilir. Aynı zamanda Pearson korelasyon katsayısı iki değişkenin gözlem değerleri arasındaki benzerliğin de bir ölçüsüdür. Korelasyon katsayısının hesaplanabilmesi için değişkenlerin gözlem sayılarının eşit olması gerekmektedir.

Doğru Cevap: A

Soru 49

Lλ norm olarak bilinen uzaklık ölçüsü aşağıdakilerden hangisidir?

Karesel Öklid uzaklığı

Karl Pearson uzaklığı

Binary Öklid uzaklığı

Minkowski uzaklığı

Manhattan uzaklığı

Açıklama:

n sayıda birim ve p sayıda değişken ile çalışılırken birimler yada değişkenler arasındaki uzaklıkları hesaplamak için kullanılan genel bir uzaklık ölçüsüdür. Lλ norm olarak da bilinir. Minkowski uzaklık ölçüsündeki λ değeri büyük ve küçük farklara verilen ağırlığı değiştirir. Farklı λ değerleri için farklı uzaklık ölçüleri elde edile- bileceği için genel uzaklık ölçüsü olarak nitelendirilir.

Doğru Cevap: D

Soru 50

Veri madenciliği çerçevesinde genellikle nesnelerin özelliklerini temsil eden boyutlara sahip olan uzaklığa ne denir?

Uzaklık

Özdeşlik

Benzerlik

Eşitlik

Karşılaştırma

Açıklama:

Veri madenciliği çerçevesinde benzerlik, genellikle nesnelerin özelliklerini temsil eden boyutlara sahip bir uzaklık olarak tanımlanabilir.

Doğru Cevap: C

Soru 51

Veri madenciliği çerçevesinde iki nesnenin birbirinden farklılık derecesinin sayısal ölçüsü nedir?

Uzaklık

Benzerlik

Dengesizlik

Zıtlık

Ardışıklık

Açıklama:

Veri madenciliği çerçevesinde iki nesne arasındaki uzaklık; iki nesnenin birbirinden farklılık derecesinin sayısal bir ölçüsüdür.

Doğru Cevap: A

Soru 52

İki nesne arasındaki yüksek uzaklık değeri neyi ifade eder?

Yüksek benzerlik değerini

Nesnelerin aynı olduklarını

Nesnelerin benzer olduklarını

Nesnelerin benzer olmadıklarını

Nesnelerin aynı olmadıklarını

Açıklama:

İki nesne arasındaki yüksek benzerlik değeri nesnelerin benzer olduklarını, yüksek uzaklık değeri ise nesnelerin benzer olmadıklarını ifade eder.

Doğru Cevap: D

Soru 53

Genellikle benzerlik ve uzaklıklara ilişkin ölçüm değerlerinin birbirlerine dönüştürülmesinde veya her ikisi için farklı aralıklarda elde edilmiş ölçüm değerlerinin [0,1] gibi belirli bir aralık içerisinde ölçeklendirilmesi amacıyla kullanılan kavram seçeneklerden hangisidir?

Uzaklıklar

Benzerlikler

Değişimler

Dönüşümler

Yakınlıklar

Açıklama:

Dönüşümler genellikle benzerlik ve uzaklıklara ilişkin ölçüm değerlerinin birbirlerine dönüştürülmesinde veya her ikisi için farklı aralıklarda elde edilmiş ölçüm değerlerinin [0,1] gibi belirli bir aralık içerisinde ölçeklendirilmesi amacıyla kullanılırlar.

Doğru Cevap: D

Soru 54

Seçeneklerden hangisi yanlıştır?

Veri madenciliğinde benzerlik ölçüm değerlerinin [0,1] aralığında tanımlanmış olması gerekir

Yakınlık ölçüm değerleri her zaman sonlu aralıkta olmayabilir

Yakınlık ölçüm değerleri her zaman sonlu aralıkta olur

Benzerlik ve uzaklık değerlerinin birbirlerine dönüşümü için herhangi bir monoton azalan fonksiyon da kullanılabilir

Benzerlik ve uzaklık değerlerinin birbirlerine dönüşümü sırasında probleme özgü diğer faktörlerin de göz önünde bulundurulmalıdır.

Açıklama:

Yakınlık ölçüm değerleri her zaman sonlu aralıkta olmayabilir. Hatırlanacağı gibi yakınlık ölçüm değerleri genellikle matematiksel olarak [0,∞) aralığında değerler almaktadırlar. Bu durumda yakınlık ölçüm değerlerini [0,1] sonlu aralığında ifade etmek için doğrusal olmayan bir dönüşüm uygulanır.

Doğru Cevap: C

Soru 55

Bir dizi niteliğe sahip nesnelerin yakınlığı nasıl tanımlanır?

Nesnelerin her bir niteliği için elde edilecek yakınlıklarının karşılaştırması

Nesnelerin her bir niteliği için elde edilecek yakınlıklarının birleşimi

Nesnelerin her bir niteliği için elde edilecek yakınlıklarının kıyaslaması

Nesnelerin her bir niteliği için elde edilecek yakınlıklarının değerlendirilmesi

Nesnelerin her bir niteliği için elde edilecek yakınlıklarının analizi

Açıklama:

Bir dizi niteliğe sahip nesnelerin yakınlığı, nesnelerin her bir niteliği için elde edilecek yakınlıklarının birleşimi olarak tanımlanır.

Doğru Cevap: B

Soru 56

Nitelendirilen iki ürünün benzerliklerini ölçmek için ilk olarak niteliğin her bir sonucuna 0 veya 1’den başlamak suretiyle {örneğin; kötü = 0, zayıf = 1, orta = 2, iyi = 3, mükemmel = 4} şeklinde tamsayı değerler atanması hangi karşılaştırmaya örnektir?

Kademeli karşılaştırma

Aşamalı karşılaştırma

Düzenleyici nitelik bakımından karşılaştırma

Özdeşlik bakımından karşılaştırma

Sıralayıcı nitelik bakımından karşılaştırma

Açıklama:

Sıralayıcı nitelik bakımından iki nesne karşılaştırıldığında durum karmaşıklaşır. Örneğin bir araştırmada üretilen bir ürünün kalitesinin {kötü, zayıf, orta, iyi, mükemmel} olarak değerlendirildiğini varsayalım. Bu şekilde nitelendirilen iki ürünün benzerliklerini ölçmek için ilk olarak niteliğin her bir sonucuna 0 veya 1’den başlamak suretiyle {kötü = 0, zayıf = 1, orta = 2, iyi = 3, mükemmel = 4} şeklinde tamsayı değerler atanır.

Doğru Cevap: E

Soru 57

Aralıklı veya oransal ölçekle ölçümlenmiş bir nitelik bakımından iki nesne arasındaki uzaklık ölçüm değeri belirlenmek istendiğinde ne yapılmalıdır?

Ölçüm değerlerinin farklarının alınması

Ölçüm değerlerinin mutlak farklarının alınması

Ölçüm değerlerinin kıyaslanması

Ölçüm değerlerinin sayısal veriye dönüştürülmesi

Ölçüm değerlerinin kıyaslanması

Açıklama:

Aralıklı veya oransal ölçekle ölçümlenmiş bir nitelik bakımından iki nesne arasındaki uzaklık ölçüm değeri belirlenmek istendiğinde ise ölçüm değerlerinin mutlak farklarının alınması gerekmektedir.

Doğru Cevap: B

Soru 58

Seçeneklerden hangisi değişkenlere ilişkin ölçüm değerlerinin, matematiksel özelliklerine göre belirlenmiş ölçeklerinden biri değildir?

Sınıflayıcı

Sıralayıcı

Aralıklı

Oransal

Sayısal

Açıklama:

Yakınlık ölçüleri, temel olarak ilgilenilen değişkenlerin nicel (sayısal) veya nitel (kategorik) olmasına göre farklılık gösterir. Değişkenlerin bu şekilde sınıflandırılmasının nedeni ise, değişkenlere ilişkin ölçüm değerlerinin matematiksel özelliklerine göre sınıflayıcı, sıralayıcı, aralıklı ve oransal olmak üzere dört ölçek ile ölçülmesidir.

Doğru Cevap: E

Soru 59

Öklid uzaklığının değişkenin varyansına oranlanması ile elde edilen uzaklık seçeneklerden hangisidir?

Karesel Öklid Uzaklığı

Manhattan Uzaklığı

City-Block Uzaklığı

Karl Pearson Uzaklığı

Minowski Uzaklığı

Açıklama:

Karl Pearson uzaklığı, Öklid uzaklığının değişkenin varyansına oranlanması ile elde edilen bir uzaklıktır. Bu özelliğinden dolayı standartlaştırılmış Öklid uzaklığı olarak da bilinmektedir.

Doğru Cevap: D

Soru 60

Aşağıda benzerlik ve uzaklık kavramlarına dair verilen bilgilerden hangisi yanlıştır?

Benzerlikler birbirine daha çok benzeyen nesne çiftleri için daha yüksektir.

Benzerlikler genellikle [0,1] arasında ölçeklendirilirler.

“1” sayısı ilgili nesnelerin özdeş olduklarını ifade eder.

Uzaklık iki nesne arasındaki düzensizliğin veya bozukluğun bir ölçüsüdür.

Birbirine benzemeyen nesne çiftleri için uzaklık ölçüsünün alacağı değer küçüktür.

Açıklama:

Benzerlikler birbirine daha çok benzeyen nesne çiftleri için daha yüksektir. Benzerlikler temel olarak [-1,1] arasında bir sayısal değer ile ifade edilebilmelerine rağmen, genellikle normalleştirilerek [0,1] arasında ölçeklendirilirler. Bu durumda “0” nesneler arasında hiç benzerliğin olmadığını, “1” ise ilgili nesnelerin tam benzer olduklarını, bir diğer ifadeyle aynı (özdeş) nesneler olduklarını ifade eder. Uzaklık iki nesne arasındaki düzensizliğin veya bozukluğun bir ölçüsü olarak düşünülebilir. Birbirine benzemeyen nesne çiftleri için farklılıklar fazla ve uzaklık ölçüsünün alacağı değer de o oranda büyüktür.

Doğru Cevap: E

Soru 61

En büyük değerin 100 ve en küçük değerin 1 olduğu bir problemde hesaplanan 50 benzerlik değerinin [0,1] aralığına düşecek şekilde dönüşüm yapılmış karşılığı aşağıdakilerden hangisidir?

0,29

0,44

0,49

0,50

0,52

Açıklama:

formülü ele alındığında 50-1/100-1= 49/99= 0, 49

Doğru Cevap: C

Soru 62

Bir araştırmada ilgilenilen değişkenin [0,∞) aralığında değerler aldığını varsayalım. Bu araştırmada nesneler arasındaki uzaklık değerleri 20 olarak elde edilmiş olsun. Bu uzaklık değeri [0,1] sonlu aralığında nasıl ifade edilir?

0,82

0,85

0,90

0,91

0,95

Açıklama:

formülü ele alındığında 20/1+20= 0,95.

Doğru Cevap: E

Soru 63

Bir fabrikada kakaolu ve sade olmak üzere iki çeşit bisküvi üretilmektedir. Ürünleri lezzet açısından değerlendirmek için {kötü = 0, zayıf = 1, orta = 2, iyi = 3, mükemmel = 4} değerleri kullanılmaktadır. İlgili ürünlerin lezzet açısından elde edilen değerlendirme sonuçlarının sırasıyla mükemmel ve zayıf olarak tespit edildiğini varsaydığımızda bu iki ürün arasındaki uzaklık değeri aşağıdakilerden hangisi olacaktır?

Açıklama:

formülü ele alındığında x=4, y=1; 4-1=3 olacaktır.

Doğru Cevap: C

Soru 64

Aşağıdakilerden hangisi nicel değişkenlerden elde edilen gözlem değerleri arasındaki yakınlığın belirlenmesinde kullanılmaz?

Öklid uzaklığı

Karesel Öklid uzaklığı

Karl Pearson uzaklığı

Soru 9-10’u aşağıda verilen x ve y araçlarının ABS, hız sabitleme, yokuş kalkış desteği, otomatik silecek özelliklerinin var olup olmama durumuna göre var(+) / yok(-) değerlendirildiği tabloya göre cevaplayınız.

Bu iki araca ilişkin basit eşleştirme katsayısı aşağıdakilerden hangisidir?

0,15

0,25

0,50

0,75

0,90

Açıklama:

formülü ele alındığında a= 0, b=2, c=1, d=1; 0+1= 1/ 0+ 2+ 1+ 1= 4; ¼= 0,25.

Doğru Cevap: B

Soru 69

Bu iki araca ilişkin basit eşleştirme uzaklığı aşağıdakilerden hangisidir?

0,15

0,25

0,50

0,75

0,90

Açıklama:

formülü ele alındığında a= 0, b=2, c=1, d=1; 1-1/4= 0,75.

Doğru Cevap: D

Soru 70

0-1 aralığına ölçeklendirilmiş bir benzerlik araştırmasında iki nesne arasındaki benzerlik sıfır ise seçeneklerden hangisi söylenir?

korelasyon 1'dir

Korelasyon -0.75'tir

Özdeş nesnelerdir.

Özdeşe yakın nesnelerdir

Benzerlik yoktur

Açıklama:

Benzerlikler birbirine daha çok benzeyen nesne çiftleri için daha yüksektir. Benzerlikler temel olarak [-1,1] arasında bir sayısal değer ile ifade edilebilmelerine rağmen, genellikle normalleştirilerek [0,1] arasında ölçeklendirilirler. Bu durumda “0” nesneler arasında hiç benzerliğin olmadığını, “1” ise ilgili nesnelerin tam benzer olduklarını, bir diğer ifadeyle aynı (özdeş) nesneler olduklarını ifade eder.

Doğru Cevap: E

Soru 71

Benzerlik ölçülerine göre iki nesne özdeş ise benzerlik değeri kaç olur?

-7

-0.5

0.59

Açıklama:

Doğru Cevap: D

Soru 72

Uzaklık için tanımlanan d(x,y)≥ 0 koşulu neyi ifade eder?

Özdeşlik

Bağımsızlık

Negatif olmama

Simetri

Üçgen eşitsizliği

Açıklama:

Doğru Cevap: C

Soru 73

Uzaklık için tanımlanan d(x,y)=0 koşulu neyi ifade eder?

özdeşlik

Simetri

Üçgen

Negatif olma

Varyans

Açıklama:

Doğru Cevap: A

Soru 74

Benzerlik konusu ele alındığında s(x,y)=s(y,x) durumuna ne ad verilir?

Maksimum benzerlik

Simetri

Üçgensellik

Negatiflik

Özdeşlik

Açıklama:

Doğru Cevap: B

Soru 75

Bir çalışmada sonlu aralıkta değerler alan değişken ölçüm değerleri [0,1] aralığına uyacak şekilde dönüştürülmek istenmektedir. İlgili gözlem değeri 45, değişken için en küçük değer 15 ve en büyük değer 95 ise bu gözlem değerinin dönüştürülmüş değeri nedir?

-0.45

0.25

0.375

0.90

Açıklama:

s= (45-15)/(95-15)=30/80=0.375

Doğru Cevap: D

Soru 76

[0,∞) aralığında değerler alan bir uzaklık ölçümü için, gözlemlenen değer 22 ise dönüştürülmüş değer nedir?

0,4535

0,9565

0,3495

0,8565

0,6743

Açıklama:

d'=22/(1+22)=0.9565

Doğru Cevap: B

Soru 77

[0,∞) aralığında değerler alan bir uzaklık ölçümü için, gözlemlenen değer 3 ise dönüştürülmüş değer nedir?

0,25

0,35

0,55

0,75

Açıklama:

d'=3/(3+1)

Doğru Cevap: D

Tablodaki değerlere göre, değişkenlerin binary öklid uzaklıkları nedir?

0.25

0.50

0.75

0.90

0.95

Açıklama:

Tabloda, uyuşmayan değerler olan 1 ve 8 toplanarak bu değerin kare kökü alınır. Sonrasında bu değer, 1 ile toplanmış değerine bölünerek (3/(1+3)) = 0.75 olarak bulunur.

Doğru Cevap: C

Soru 89

Özellikle ekolojik çalışmalarda kullanılan katsayı aşağıdakilerden hangisidir?

m = 6 adet nesne içeren bir I = {a, b, c, d, e, f} nesneler kümesinden ilişki kuralı oluşturmada kaç farklı nesne kümesi kullanılabilir?

Açıklama:

Boş küme ilişki kuralı oluşturmada kullanılamayacağından sorunun cevabı 2⁶ - 1: 63 'tür. Doğru cevap D.

Doğru Cevap: D

Soru 5

m=7 adet nesne içeren bir nesneler kümesinden k=3 içeren nesne kümelerinin sayısı kaçtır?

Açıklama:

M adet nesneler kümesinden k tane nesne içeren küme sayısı yani 7 adet nesne kümesinin 3 tane nesnelerolarak karşımıza çıkar. Dolayısıyla formülü kullandığımızda formülasyonundan sonucu 35 olarak elde ederiz. Formül: P(m,k)= (m!)/[(m-k)!.k!]
F(7,3)= (7!)/[(7-3)!.3!]
=(7.6.5.4!)/ (4!.3.2)
= 35

Güven ölçütü

Destek eşik değeri

Kaldıraç ölçütü

Açıklama:

İlgilenilen problemde ilişki kurallarını belirlemede kullanılacak nesneler kümesinin eleman sayısı arttıkça bu nesneler aracılığı ile oluşturulacak kural sayısı da katlanarak artmaktadır. Dolayısıyla bu kurallar içerisinden belirli ölçütler kullanmak suretiyle bilgi üretmek amacıyla kullanılmayacak, önemsiz kuralların elenmesi gerekir. Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralı ilginç kural olarak tanımlanabilir. Bir ilişki kuralının ilginç kural olarak değerlendirilebilmesi için,

Daha önceden keşfedilmemiş
Eyleme dönük, bir başka ifadeyle uygulanabilir

olması gerekir. Bir ilişki kuralının uygulanabilir olup olmadığı, ilgilenilen problemin amacı doğrultusunda konunun uzmanı olan karar verici tarafından verilen subjektif bir karardır. Dolayısıyla bir ilişki kuralının “ilginç kural” olarak değerlendirilmesi, problemin amacına ve karar vericinin tutumuna bağlı olarak değişebilmektedir. Elde edilen bir ilişki kuralı bir karar verici tarafından ilginç olarak değerlendirilirken, bir diğer karar verici tarafından ilginç olarak değerlendirilmeyebilir.
Bir ilişki kuralının “ilginç”liği, kişiden kişiye değişiklik gösterebilen yani subjektif bir karar olmasına rağmen, bu kararın verilebilmesi için verilerden elde edilebilecek ilişki kurallarının bilimsel veya objektif ölçütler aracılığı ile de elenmesi beklenir. İlginç kuralların belirlenebilmesi amacıyla kullanılan başlıca objektif ölçütler destek ve güven ölçütleridir. İlişki kurallarının elenerek sayılarının azaltılmasında çoğu zaman destek ve güven temel ölçütleri yeterli olmasına karşın bazı durumlarda yapılan eleme sonucunda elde edilen kural sayısı da arzu edilenden fazla olabilir. Bu gibi durumlarda ilave ölçütlere gereksinim duyulur. Bu amaçla geliştirilen birçok ölçüt mevcuttur. Bu ölçütler içerisinde en yaygın kullanılanı öncül ve sonuç nesne setleri arasındaki korelasyonu hesaba katan kaldıraç ölçütüdür.
Bu nedenle doğru yanıt a) seçeneğidir.

Daha önceden keşfedilmemiş
Eyleme dönük, bir başka ifadeyle uygulanabilir

Doğru Cevap: A

Soru 14

|D|, veritabanındaki tüm işlemlerin sayısını ve |A| ise tüm işlemler içerisinde A nesne setini içeren işlem sayısını ifade ettiğine göre A nesne setinin Destek(A) destek değeri aşağıdaki eşitliklerden hangisi ile hesaplanır?

Destek(A) = | A | / | D |

Destek(A) = | D | / | A |

Destek(A) = | A | * | D | / | A∪D |

Destek(A) = | A | / | A∪D |

Destek(A) = |D | / | A∪D |

Açıklama:

Bir A nesne setinin destek değeri, D işlemler veritabanında A nesne setini içeren işlem sayısının veritabanındaki tüm işlemlerin sayısına oranı şeklinde elde edilir ve
Destek(A) = | A |/ | D |
eşitliği yardımıyla hesaplanır. Eşitlikte |A|, tüm işlemler içerisinde A nesne setini içeren işlem sayısını, |D| ise işlemler veritabanındaki tüm işlemlerin sayısını ifade eder. Aslında bir A nesne setinin destek değeri, A nesne setindeki nesnelerin veritabanındaki işlemler içerisindeki bulunma olasığını ifade eder ve P (A) şeklinde gösterilir. Destek değeri [0,1] aralığında değer alır ve yüzde olarak yorumlanır.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 15

A⇒B şeklinde ifade edilen bir ilişki kuralının Destek (A⇒B) destek değeri; |A|, tüm işlemler içerisinde A nesne setini içeren işlem sayısını; |D|, işlemler veritabanındaki tüm işlemlerin sayısını; |A∪B|, tüm işlemler içerisinde hem A hem de B nesne setlerini birlikte içeren işlem sayısını ifade ederken, , aşağıdaki eşitliklerden hangisi ile hesaplanır?

Destek(A⇒B)=| A∪B | / | D |

Destek(A⇒B)=| D | / | A∪B |

Destek(A⇒B)= |A | * | B | / |A∪B|

Destek(A⇒B)=| A∪B | / | A | * | B |

Destek(A⇒B)=| A∪B | * | D |

Açıklama:

Bir nesne seti için destek değeri hesaplanabileceği gibi, benzer mantıkla A⇒B şeklinde ifade edilen bir ilişki kuralı için de destek değeri hesaplanabilir. Bir ilişki kuralının destek değeri, D işlemler veritabanında A ve B nesne setlerini birlikte içeren işlem sayısının veritabanındaki tüm işlemlerin sayısına oranı şeklinde elde edilir ve
Destek(A⇒B)=|A∪B|/|D|
eşitliği ile hesaplanır. Eşitlikte |A∪B|, tüm işlemler içerisinde hem A hem de B nesne setlerini birlikte içeren işlem sayısını ifade eder. Aslında bir ilişki kuralının destek değeri, o kuralın öncül (A) ve sonuç (B) kısmındaki nesne setlerinin birlikte gözlenme olasılığıdır ve P(A∪B) şeklinde ifade edilir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 16

D işlemler veritabanında A ve B nesne setleri içinde karar verici tarafından belirlenmiş olan destek eşik değerine eşit ya da daha büyük destek değerine sahip nesne setleri yani sık görülen nesne setleri ile A⇒B şeklinde oluşturulan bir ilişki kuralının güven değeri aşağıdaki eşitliklerden hangisi ile hesaplanır?

Güven(A ⇒ B) = Destek(A∪ B) / Destek(A)

Güven(A ⇒ B) = Destek(A∪ B) / Destek(B)

Güven(A ⇒ B) = Destek(A) / Destek(A∪ B)

Güven(A ⇒ B) = Destek(B) / Destek(A∪ B)

Güven(A ⇒ B) = Destek(A∪ B) * Destek(A)

Açıklama:

İlginç ilişki kuralı elde edebilmek için kullanılan ikinci ölçüt, güven değeridir. Öncelikle karar verici tarafından belirlenmiş olan destek eşik değerine eşit ya da daha büyük destek değerine sahip nesne setleri yani sık görülen nesne setleri ile oluşturulması mümkün tüm ilişki kuralları oluşturulur. Karar verici tarafından belirlenmiş olan güven eşik değerine eşit ya da daha büyük güven değerine sahip ilişki kuralları ilginç kural elde etmek için değerlendirilmeye alınırken, bu değerin altında güven değerine sahip ilişki kuralları ise elenir, değerlendirilmez. Sık görülen nesne setleri ile A⇒B şeklinde oluşturulan bir ilişki kuralı için hesaplanacak güven değeri, D işlemler veritabanında A’yı içeren ve aynı zamanda B’yi de içeren işlemlerin sayısının sadece A’yı içeren işlem sayısına oranıdır. Dolayısıyla A⇒B şeklinde ifade edilen ilişki kuralı için güven değeri,
Güven(A ⇒ B) = Destek(A∪ B) /Destek(A) = | A∪ B |/ | A |
eşitliği yardımıyla hesaplanır. Aslında bir ilişki kuralının güven değeri, o kuralın öncül(A) nesne setinin ortaya çıkması veya gözlenmesi durumunda sonuç (B) nesne seti- nin de ortaya çıkması, gözlenmesi olasılığıdır ve P(B│A) şeklinde gösterilir. Güven değeri [0,1] arasında değer alır ve yüzde olarak yorumlanır
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 17

A⇒B şeklinde ifade edilen bir ilişki kuralı için kaldıraç değeri aşağıdaki eşitliklerden hangisi ile hesaplanır?

Kaldıraç (A⇒ B)= Güven(A⇒ B) / Destek(B)

Kaldıraç (A⇒ B)= Güven(A⇒ B) / Destek(A)

Kaldıraç (A⇒ B)= Destek(A⇒ B) / Güven(B)

Kaldıraç (A⇒ B)= Güven(A⇒ B) * Destek(B)

Kaldıraç (A⇒ B)= Destek(A⇒ B) / Destek(B)

Açıklama:

İlişki kuralı oluşturmak için kullanılan algoritmalarının hepsi ilişki kuralı oluşturmada destek ve güven eşik değerlerini kullanır. Belirlenen destek ve güven eşik değerleri, güçlü olmayan birçok kuralın gereksiz yere elde edilmesini engellemesine rağmen, bazı durumlarda değerlendirilmesi gereken güçlü kural sayısı yine de fazla olabilmektedir. Böyle durumlarda ortaya çıkan güçlü kurallar içerisinden bir seçim yapabilmek ya da güçlü kuralları önem sırasına göre sıralamak ve problemin amacına en uygun ilişki kuralını belirleyebilmek için ilave kısıtlamalar kullanmak gerekmektedir. Bunlar içerisinden en çok kullanılan ölçüt ise, öncül(A) ve sonuç(B) nesne setleri arasındaki ilişkinin(korelasyonun) belirlenmesi temeline dayanarak hesaplanan kaldıraç(lift) değeridir. A⇒B şeklinde ifade edilen bir ilişki kuralı için kaldıraç değeri, A ve B nesne setlerinin istatistiksel olarak bağımsız oldukları varsayımı altında, kuralın güven değerinin sonucun (B’nin) destek değerine oranı şeklinde elde edilir ve
Kaldıraç (A⇒ B)= Güven(A⇒ B) / Destek(B) = Destek(A∪ B) / Destek(A) * Destek(B)
eşitliği yardımıyla hesaplanır. Oluşturulan güçlü ilişki kuralının ilginç yani bilgi üretme- de kullanılabilir bir kural olup olmadığının bir ölçüsü olarak hesaplanan kaldıraç değeri [0,∞) arasında değer alır ve yüzde olarak ifade edilir. Hesaplanan kaldıraç değerinin,

Kaldıraç (A⇒B)<1 olması, A ve B nesne setleri arasında ters yönlü (negatif) bir ilişki olduğunu,
Kaldıraç (A⇒B)=1 olması, A ve B nesne setleri arasında ilişki olmadığını
Kaldıraç (A⇒B)>1 olması, A ve B nesne setleri arasında aynı yönlü (pozitif) bir ilişki olduğunu ifade eder.

Kaldıraç değeri, öncül (A) nesne setinin gözlendiği durumlarda sonuç(B) nesne setinin olasılığındaki değişim hakkında bilgi verir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 18

Sık görülen nesne setleri elde etmek için aşağıdaki işlemlerden hangisi uygulanır?

Karar verici tarafından belirlenen destek eşik değerine eşit ya da daha yüksek destek değerine sahip nesne setleri belirlenir.

Karar verici tarafından belirlenen destek eşik değerinden daha küçük destek değerine sahip nesne setleri belirlenir.

Karar verici tarafından belirlenen güven eşik değerine eşit ya da daha yüksek destek değerine sahip nesne setleri belirlenir.

Karar verici tarafından belirlenen güven eşik değerinden daha küçük güven değerine sahip nesne setleri belirlenir.

Karar verici tarafından belirlenen kaldıraç değerine eşit ya da daha yüksek kaldıraç değerine sahip nesne setleri belirlenir.

Açıklama:

İlginç ilişki kuralı elde edebilmek için öncelikle nesne setlerinin destek değerleri he- saplanır. Belirlenen destek eşik değerine eşit ya da bu değerin üzerinde destek değerine sahip nesne setleri ilişki kuralları oluşturmada kullanılacak nesne setleridir. Destek eşik değerini geçen ve kural oluşturmada kullanılacak nesne setleri sık görülen nesne setleri (frequent itemset) olarak adlandırılır.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 19

“Eğer k nesneden oluşan nesne setleri kümesi en küçük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar” özelliği aşağıdakilerden hangisidir?

Apriori özelliği

Destek bazlı budama özelliği

Kaldıraç kuralı özelliği

Sık görülen nesne setleri özelliği

Güven eşik değeri özelliği

Açıklama:

İlişki kuralı oluşturabilmek için geliştirilen algoritmalar içerisinde en çok bilinen ve en sık kullanılan algoritmadır. Apriori algoritması, 1994 yılında Agrawal ve Srikant tarafından geliştirilmiştir. Algoritmanın ismi, sık görülen nesne kümelerin önsel bilgisini kullanmasından, diğer bir ifadeyle bilgileri bir önceki adımdan almasından dolayı bir önceki (prior) anlamına gelen “apriori” dir.
Apriori özelliği
Apriori algoritmasının temel yaklaşımı, “Eğer k nesneden oluşan nesne setleri kümesi en küçük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar.” şeklindedir.
Örneğin; I={a,b,c,d} nesne kümesi için, şayet {a,b,c} nesne kümesi bir sık görülen nesne kümesi ise, onun tüm alt kümeleri olan ∅, {a}, {b}, {c}, {a, b}, {a, c} ve {b, c} kümeleri de sık görülen nesne kümeleridir. Bu özelliğe apriori özelliği adı verilir.
Destek Bazlı Budama Özelliği
Apriori özelliğinin aksine, “Eğer bir alt küme sık görülen nesne kümesi değil ise, onun bütün üst kümeleri de sık görülen nesne kümesi değildir” temel yaklaşımına sahiptir. Böylece belirlenen destek eşik değerini geçemeyen az elemanlı kümelerin üst kümeleri de destek eşik değerini geçemeyeceği için değerlendirme dışı bırakılır. Bu yönteme destek-bazlı budama (support based pruning) denir.
Örneğin; I={a,b,c,d} nesne kümesi için, şayet {c, d} nesne kümesi bir sık görülen nesne kümesi değil ise, bu kümenin elemanlarını içeren tüm üst kümeleri olan {a, c, d}, {b, c, d} ve {a, b, c, d} kümeleri de sık görülen nesne kümeleri değildir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 20

> library(“arules”)
> verideğişkeni <- list(…)
> işlemdeğişkeni <- as(verideğişkeni, “transactions”)
> sonuçdeğişkeni <- apriori(işlemdeğişkeni, parameter = list(supp=destekdeğeri, conf=güvendeğeri, minlen=3))
> inspect(sonuçdeğişkeni)
Yukarıda verilen, ilişki kuralları belirleme amacıyla oluşturulmuş R komutları kümesinde liste şeklinde girilmiş olan işlem verilerinin apriori() fonksiyonu ile işlenebilmesi için gereken veri dönüşümünün yapıldığı atama komutu hangisidir?

> işlemdeğişkeni <- as(verideğişkeni, “transactions”)

> inspect(sonuçdeğişkeni)

> sonuçdeğişkeni <- apriori(işlemdeğişkeni, parameter = list(supp=destekdeğeri, conf=güvendeğeri, minlen=3))

> verideğişkeni <- list(…)

> library(“arules”)

Açıklama:

R ile ilişki kuralı oluşturabilmek için arules paketinin R’de kurulması ve hafızaya yüklenmesi gerekir. arules paketi içerisinde yer alan apriori() fonksiyonu yardımıyla güçlü ilişki kuralları oluşturulur.
https://cran.r-project.org/web/packages/arules/
apriori() fonksiyonunun temel parametreleri ilişki kurallarının oluşturulabilmesi için elde edilen tüm işlemleri (alışverişleri) barındıran veri değişkenini ifade eden data ve özellikle destek ve güven eşik değerleri vb. kısıtlamalara ilişkin eşik değerlerinin belirlendiği parameter’dır. Veri girişi standart veri girişlerinden herhangi birisi ile yapılabilir. Ancak girilen verinin apriori() fonksiyonu ile işlenebilmesi için işlemlerden oluşan veritabanı formatına dönüştürülmesi gerekir. Veri dönüşümü için help(“transactions”) komutundan ve fonksiyon ile ilgili yardım için ise, help(“apriori”) komutundan yararlanılabilir.
Örnek 4 için apriori() fonksiyonu yardımıyla dört işlemden oluşan veritabanından destek eşik değeri 0,50 ve güven eşik değeri 0,75 olan güçlü ilişki kurallarının elde edilmesine ilişkin komut dizisi ve hesaplama sonucu izleyen biçimde ortaya çıkacaktır.
> library(“arules”)
> v e r i < - l i s t ( c ( “ M a k a r n a ” , ” A y r a n ” , ” E t ” ) , c(“Peynir”,”Ayran”,”Tavuk”), c(“Makarna”,”Peynir”,”Ayran ”,”Tavuk”), c(“Peynir”,”Tavuk”))
> islem <- as(veri, “transactions”)
> kurallar <- apriori(islem, parameter = list(supp=0.50, conf=0.75, minlen=3))
> inspect(kurallar)
lhs rhs support confidence lift
1 {Ayran, Peynir} ⇒ {Tavuk} 0.5 1 1.333333
2 {Ayran, Tavuk} ⇒ {Peynir} 0.5 1 1.333333
Verilen komut dizisinin dördüncü satırınındaki “islem <- as(veri, “transactions”)” komutu, liste şeklinde girilmiş olan işlem verilerinin apriori() fonksiyonu ile işlenebilmesi için gereken veri dönüşümünün yapıldığı atama komutudur. Komut dizisinin en altında elde edilen “kurallar” değişkeni dört adet işlem içeren veritabanı üzerinden oluşturulan, destek değeri en az 0,50 ve güven değeri en az 0,75 olan güçlü ilişki kurallarını ve bu kuralların hesaplanan sırasıyla destek, güven ve kaldıraç değerlerini vermektedir. R aracılığı ile elde edilen güçlü ilişki kuralları ve bu kuralların hesaplanan destek, güven ve kaldıraç değerlerinin Örnek 4’ün çözümünde elde edilen sonuçlar ile aynı olduğu görülmektedir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 21

Aşağıdakilerden hangisi iletişim sektöründe, veri madenciliği ilişki kurallarının kullanıldığı alanlardan biridir?

Ek hizmet paketleri

Hastalık ve tedavi geçmişinin belirlenmesi

Yatırım ürünleri

Krediler

Sigorta dolandırıcılığı tedbiri

Açıklama:

İletişim sektöründeki müşterilerin isteğe bağlı olarak satın aldıkları telesekreter, çağrı aktarma, ilave süre, internet hızı ve internet kotası vb. gibi ek hizmet kullanımları, hizmet paketleri oluşturmak amacıyla kullanılabilir. Doğru cevap A'dır.

Doğru Cevap: A

Soru 22

"Bağlantıların ortaya çıkarılması ve bunun bir kural olarak değerlendirilmesi ilişki analizi ile mümkün olmaktadır."
Yukarıdaki ilişki analizine literatürde ne ad verilmektedir?

Veri tabanı

Pazar sepeti analizi

İlişki analizi

İlişki kuralları analizi

Veri analizi

Açıklama:

Bağlantıların ortaya çıkarılması ve bunun bir kural olarak değerlendirilmesi ilişki analizi ile mümkün olmaktadır. Buna da literatürde pazar sepeti analizi denmektedir. Doğru cevap B'dir.

Doğru Cevap: B

Soru 23

Aşağıdakilerden hangisi pazar sepeti analizinin faydalarından biri değildir?

Müşterinin kişisel tercihlerinin belirlenmesine yarar

Müşteri portföyünün genişlemesine yarar

Birlikte satışa sunulacak ürünlerin belirlenmesini sağlar

Ürün satış raflarının tasarlanmasına yardım eder

Promosyon düzenlemelerine imkan verir

Açıklama:

Pazar sepeti analizi, müşteri portföyünün genişlemesine olanak sağlamaz. Doğru cevap B'dir.

Doğru Cevap: B

Soru 24

Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralına ne denir?

Veri madenciliği

Pazar sepeti analizi

İlişki kuralları

İlginç kural

Enteresan kural

Açıklama:

Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralına ilginç kural denir.

Doğru Cevap: D

Soru 25

İlginç olarak nitelendirilen ve bilgi üretmek amacıyla kullanılacak bir ilişki kuralının belirlenebilmesi için kullanılan ilk ölçüt hangisidir?

Kaldıraç

Güven

Apriori Algoritması

Destek

Destek eşik değeri

Açıklama:

İlginç olarak nitelendirilen ve bilgi üretmek amacıyla kullanılacak bir ilişki kuralının belirlenebilmesi için kullanılan ilk ölçüt destektir. Doğru cevap D'dir.

Doğru Cevap: D

Soru 26

Belirlenen destek ve güven eşik değerleri üzerinde destek ve güven değerine sahip ilişki kuralına ne denir?

Güven eşik değeri

Destek eşik değeri

Güven

Destek

Güçlü kural

Açıklama:

Belirlenen destek ve güven eşik değerleri üzerinde destek ve güven değerine sahip ilişki kuralına güçlü kural denir. Doğru cevap E'dir.

Doğru Cevap: E

Soru 27

Aşağıdakilerden hangisi ilişki kuralı oluşturabilmek için geliştirilen algoritmalardan biri değildir?

CSS

AIS

SETM

FP-Growth

Eclat

Açıklama:

CSS, bir yazılım dilidir. Geliştirilen algoritmalardan biri değildir. Doğru cevap A'dır.

Doğru Cevap: A

Soru 28

Aşağıdakilerden hangisi Apriori algoritmasının temel yaklaşımıdır?

Eğer k nesneden oluşan nesne setleri kümesi en büyük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar.

Eğer k nesneden oluşan nesne setleri kümesi en küçük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar.

Eğer k ve l nesnelerinden oluşan nesne setleri kümesi en büyük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar.

Eğer k ve l nesnelerinden oluşan nesne setleri kümesi en küçük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar.

Eğer k nesneden oluşan nesne setleri kümesi en büyük destek kriterini sağlıyorsa, bu kümenin alt kümeleri en büyük destek kriterini sağlar.

Açıklama:

Apriori algoritmasının temel yaklaşımı, "Eğer k nesneden oluşan nesne setleri kümesi en küçük destek kriterini sağlıyorsa, bu kümenin alt kümeleri de en küçük destek kriterini sağlar."dır. Doğru cevap B'dir.

Doğru Cevap: B

Soru 29

Apriori algoritmasının 1. Adımının ilk aşaması aşağıdakilerden hangisidir?

L1 sık görülen nesne setleri kümesi elemanlarının ikili kombinasyonları alın- mak suretiyle birbirinden farklı tüm 2 adet nesne içeren nesne setleri oluşturulur. Ve oluşturulan bu nesne setlerinin destek değerleri hesaplanır.

Hesaplanan destek değerleri içerisinden destek eşik değeri olarak verilen 0,50 değerinin üzerinde destek değerine sahip nesne setlerinden bir nesneli sık görülen nesne kümesi L1 oluşturulur.

I nesneler kümesindeki 1 adet nesne içeren nesne setleri belirle- nir ve belirlenen her bir nesne seti için destek değerleri hesaplanır.

2 adet nesne içeren nesne setleri için hesaplanan destek değerleri içerisinden verilen destek eşik değeri 0,50 değerine eşit veya üzerinde destek değerine sahip nesne setlerinden iki nesneli sık görülen nesne setleri kümesi L2 oluşturulur.

Bu aşama giderek artan hesap yükünü azaltabilmek ve tekrar hesaplamalardan kaçınmak adına önceki aşamalarda elde edilen önsel bilgilerin değerlendirildiği aşamadır ve birleştirme ve budama adımlarından oluşur.

Açıklama:

İlk aşamada I nesneler kümesindeki 1 adet nesne içeren nesne setleri belirle- nir ve belirlenen her bir nesne seti için destek değerleri hesaplanır. Doğru cevap C'dir.

Doğru Cevap: C

Soru 30

Aprio algoritmasının 1. adımının üçüncü aşaması aşağıdakilerden hangisidir?

I nesneler kümesindeki 1 adet nesne içeren nesne setleri belirle- nir ve belirlenen her bir nesne seti için destek değerleri hesaplanır.

Giderek artan hesap yükünü azaltabilmek ve tekrar hesaplamalardan kaçınmak adına önceki aşamalarda elde edilen önsel bilgilerin değerlendirildiği aşamadır ve birleştirme ve budama adımlarından oluşur.

Açıklama:

Üçüncü aşamada, L1 sık görülen nesne setleri kümesi elemanlarının ikili kombinasyonları alın- mak suretiyle birbirinden farklı tüm 2 adet nesne içeren nesne setleri oluşturulur. Ve oluşturulan bu nesne setlerinin destek değerleri hesaplanır. Doğru cevap E'dir.

Doğru Cevap: E

Soru 31

6 adet nesne içerisinden oluşturulabilecek nesne set sayısı kaç olur

Açıklama:

nesne setlerinden bir tanesi boş kümedir ve boş küme ilişki kuralı belirlemek amacıyla kullanılamayacağından dolayı ilişki kuralı belirlemede kullanılacak nesne seti sayısı
2^m-1 tane olur. Sonuç 2⁶-1=63 tane nesne setidir.

Doğru Cevap: C

Soru 32

5 nesne seti içerisinden 3 tane nesne içeren küme sayısı kaçtır?

Açıklama:

formülü üzerinden
5!/3!*2!=10 nesne kümesi oluşturulur.

Doğru Cevap: A

Soru 33

3 nesne içeren nesneler kümesinden toplam kaç adet ilişki kuralı oluşturulur?

Açıklama:

3^m-2^m+1+1 formülü uygulandığında;
3³-2³⁺¹+1=12

Doğru Cevap: C

Soru 34

I. Daha önceden keşfedilmemiş,
II. Eyleme dönük, bir başka ifadeyle uygulanabilir,
III. Subjektif bir karar olabilir.
Yukarıdaki ifadelerden hangisi ya da hangileri ilginç kuralın özellikleri arasında sayılabilir?

I-II

I-III

II-III

I-II-III

Yalnız II

Açıklama:

İfadelerin tamamı ilginç kurallar ile ilişkilidir.

Doğru Cevap: D

7 adet nesne içeren bir sette sık görülen nesne seti toplam ilişki sayısı kaçtır?

128

127

126

Açıklama:

k adet nesne içeren bir sık görülen nesne seti L_k şeklinde gösterilir. L_k’nın elemanları kullanılarak oluşturulacak toplam ilişki kuralı sayısı 2^k-2 tanedir. Buradan doğru cevap: 126

Doğru Cevap: C

Soru 39

Apriori algoritması ile ilişki kuralı oluşturma adımları içerisinde hangi adımda birleştirme ve budama işlemleri gerçekleştirilir?

Aşama 1

Aşama 2

Aşama 4

Aşama 5

Aşama 6

Açıklama:

Bu aşama giderek artan hesap yükünü azaltabilmek ve tekrar hesaplamalardan kaçınmak adına önceki aşamalarda elde edilen önsel bilgilerin değerlendirildiği aşamadır ve birleştirme ve budama adımlarından oluşur.

Doğru Cevap: D

Soru 40

10 nesneli bir set içerisinden bir nesnenin destek değeri ne olur?

0,01

0,4

0,3

0,1

0,2

Açıklama:

Bir A nesne setinin destek değeri, aslında P(A)’dır. Yani A nesne setinin gözlenme olasılığıdır.

Doğru Cevap: D

Soru 41

Piyasa analizi

Satış tahmini

Pazar sepeti analizi

Destek değer

İlişki kuralı

Açıklama:

Doğru Cevap: C

Soru 42

5 adet nesne içeren bir I nesneler kümesinden ilişki kuralı belirlemede kullanmak üzere elde edilebilecek nesne seti sayısı kaçtır?

Açıklama:

m adet nesne içeren bir I nesneler kümesinden elemanları birbirinden farklı oluşturulması mümkün tüm nesne setlerinin sayısı 2^mtanedir. Ancak bu nesne setlerinden bir tanesi boş kümedir ve boş küme ilişki kuralı belirlemek amacıyla kullanılamayacağından dolayı ilişki kuralı belirlemede kullanılacak nesne seti sayısı 2^m-1 tane olur. =32-1=31 olur. Doğru cevap A'dır.

Doğru Cevap: A

Soru 43

Aşağıdakilerden hangisi I={a,b,c,d} nesneler kümesinden oluşturulabilecek nesne setlerinden biri değildir?

abcd

acd

abcde

Açıklama:

2^m-1= 2⁴-1=15 adet nesne sayısı oluşturulabilir. Bunlar;a,b,c,d, ab,ac,ad,bc,bd,cd, abc, abd, acd, bcd ve abcd'dir. Doğru cevap E'dir.

Doğru Cevap: E

Soru 44

İlginç kural ile ilgili olarak verilen ifadelerden hangileri doğrudur?
I-Karar vericinin tutumuna bağlı olarak değişebilmektedir.
II-Kuralın daha önce keşfedilmemiş olması gereklidir.
III-Objektif bir kuraldır.
IV-Belirli ölçütler kullanmak suretiyle bilgi üretmek amacıyla kullanılmayacak, önemsiz kuralların elenmesi ile elde edilebilir.
V-Kural uygulanabilir olmalıdır.

II-III-V

I-II-III-IV-V

II-IV-V

I-II-IV-V

I-III-V

Açıklama:

Bir alışveriş veritabanından oluşturulacak ilişki kuralları arasından işe yarayacak bilgiyi üretmek amacıyla kullanılacak ilişki kuralı ilginç kural olarak tanımlanabilir. Bir ilişki kuralının ilginç kural
olarak değerlendirilebilmesi için,
i. Daha önceden keşfedilmemiş
ii. Eyleme dönük, bir başka ifadeyle uygulanabilir olması gerekir. Bir ilişki kuralının uygulanabilir olup olmadığı, ilgilenilen problemin amacı doğrultusunda konunun uzmanı olan karar verici tarafından verilen subjektif bir karardır. Dolayısıyla bir ilişki kuralının “ilginç kural” olarak değerlendirilmesi, problemin amacına ve karar vericinin tutumuna bağlı olarak değişebilmektedir. Bir ilişki kuralının “ilginç”liği, kişiden kişiye değişiklik gösterebilen yani subjektif bir karar olmasına rağmen, bu kararın verilebilmesi için verilerden elde edilebilecek ilişki kurallarının bilimsel veya objektif ölçütler aracılığı ile de elenmesi beklenir. Doğru cevap D'dir.

Doğru Cevap: D

Bir ilişki kuralının gücü, o kural için hesaplanacak destek ve güven değerleri ile ölçümlenebilir.
Bir ilişki kuralının ilginç kural olarak değerlendirebilmesi için daha önceden de keşfedilmiş olması gereklidir.
Bir ilişki kuralının ilginç kural olarak değerlendirebilmesi için uygulanabilir olması gereklidir.
İlginç kuralların belirlenebilmesi amacıyla kullanılan ölçütler güven ve kaldıraç olmak üzere iki adettir.

Yukarıda verilen ifadelerden hangileri doğrudur?

I ve II

I ve III

II ve IV

Yalnız II

II, III ve IV

Açıklama:

Bir ilişki kuralının gücü, o kural için hesaplanacak destek ve güven değerleri ile ölçümlenebilir.
Bir ilişki kuralının ilginç kural olarak değerlendirebilmesi için daha önceden de keşfedilmemiş olması gereklidir.
Bir ilişki kuralının ilginç kural olarak değerlendirebilmesi için uygulanabilir olması gereklidir.
İlginç kuralların belirlenebilmesi amacıyla kullanılan ölçütler destek, güven ve kaldıraç olmak üzere üç adettir.

Doğru Cevap: B

Soru 53

Aşağıda verilen ifadelerden hangisi yanlıştır?

Destek değeri, A nesne setinin gözlenme olasılığıdır.

A ⇒ B şeklinde olan ilişki kuralının destek değeri, A ve B nesne setlerinin birlikte gözlenme olasılığıdır.

Yüksek destek eşik değeri, ilginç kural elde edilebilecek nesne setlerinin sayısını arttırır.

Belirlenen destek eşik değerine eşit veya daha büyük destek değerine sahip nesne setine sık görülen nesne seti denir.

A ⇒ B şeklindeki bir ilişki kuralının güven değeri, aslında A’ yı içeren işlemlerin aynı zamanda B’ yi de içerme olasılığıdır.

Açıklama:

Yüksek destek eşik değeri, ilginç kural elde edilebilecek nesne setlerinin sayısını azaltır.

Doğru Cevap: C

Soru 54

Destek
Güven
Kaldıraç
Doğruluk
Geçerlik

Yukarıda verilenlerden hangileri ilginç kuralların belirlenmesinde kullanılan ölçütlerdir?

III, IV ve V

I, III ve V

II ve IV

I-II ve III

Büyük veri kümeleri içerisinde belirli veriler arasındaki ilişkileri bulan ve olayların birlikte gerçekleşme ihtimallerini geçmiş verileri analiz edip ortaya koyarak geleceğe yönelik çalışmaları destekleyen veri madenciliği yöntemine ne denilir?

İlişki kuralları

Veri kuralları

Veri madenciliği kuralları

Sıralama kuralları

Sınıflandırma kuralları

Açıklama:

Doğru Cevap: A

Soru 62

Müşterilerin alışveriş alışkanlıklarının veritabanındaki bilgiler aracılığı ile ortaya çıkartılması işlemine ne denmektedir?

İlişki analizi

Pazar analizi

Sepet analizi

Müşteri analizi

Pazar sepeti analizi

Açıklama:

Pazar sepeti analizi, müşterilerin alışveriş alışkanlıklarının veritabanındaki bilgiler aracılığı ile ortaya çıkartılması işlemidir. Müşterilerin alışveriş alışkanlıklarının ortaya çıkartılması, mağazalardaki ürünlerin yerleştirilmesine, mağaza alanının tasarlanmasına ve satışı yapılacak ürünlerin belirlenmesine yardımcı olur.

Doğru Cevap: E

Soru 63

Bir ilişki kuralı oluşturmak amacıyla yapılacak ilişki analizinin amacı seçeneklerden hangisidir?

Eşik değerlerini sağlayan kuralların elde edilmesi

Veri kümeleri arasındaki ilişkinin saptanması

Veri analizi kurallarının elde edilmesi

Veri depolama yöntemlerinin belirlenmesi

Analiz kriterlerinin elde edilmesi

Açıklama:

Bir ilişki kuralı oluşturmak amacıyla yapılacak ilişki analizinin amacı, değerleri karar verici tarafından belirlenen destek ve güven değerlerini kısaca eşik değerlerini sağlayan kuralların elde edilmesidir.

Doğru Cevap: A

Soru 64

Seçeneklerden hangisi pazar sepet analizinin yapılması ile elde edilen çıktılardan biri değildir?

Müşterilerin kişisel tercihlerinin belirlenmesi

Birlikte satışa sunulacak ürünlerin belirlenmesi

Ürün satış raflarının tasarlanması

Promosyon düzenlemeleri

Apriori algoritmasında belirlenen destek eşik değerini geçemeyen az elemanlı kümelerin üst kümeleri de destek eşik değerini geçemeyeceği için değerlendirme dışı bırakılmasına ne denir?

Devre dışı bırakma

Kontrollü budama

Destek bazlı budama

Dereceli budama

Aşamalı budama

Açıklama:

Doğru Cevap: C

Soru 71

Pazar sepeti analizinde, bir işlemde alınan nesneler arasındaki ilişkiler incelenerek çeşitli ___________ oluşturulur?

Korelasyonlar

Ortalamalar

Testler

İlişki kuralları

Olaylar

Açıklama:

Pazar sepeti analizinde nesneler, müşteriler tarafından satın alınan ürünlerdir. Bir kalemde satın alınan ve içerisinde birçok nesneyi barındıran satın alma ise işlem veya kayıt olarak nitelendirilir. Dolayısıyla Pazar sepeti analizinde, bir işlemde alınan nesneler arasındaki ilişkiler incelenerek çeşitli ilişki kuralları oluşturulur.

Doğru Cevap: D

Soru 72

{Süt, Ekmek} ⇒ {Yumurta} kuralında sonuç hangisidir?

Hepsinin bileşkesi

Süt

Sonuç yoktur

Yumurta

eşittir

Açıklama:

Doğru Cevap: C

I={a,b,c,d,e} şeklinde verilen beş nesne içeren nesne kümesi için, {a} ve {c, e} nesne kümeleri sık görülen nesne kümeleri olmadığına göre, destek bazlı budama özelliğine göre ilişki kuralı oluşturmak için kullanılabilecek nesne seti sayısı kaçtır?

Açıklama:

İlişki kuralı oluşturulurken nesne sayısı 2ⁿ-1 formülüyle elde edilir. Buna göre nesne sayısı 31'dir. içerisinde a ya da (c,e)'nin bulunmadığı nesnelerin sayısı ise 11'dir.

Doğru Cevap: D

Soru 87

n sayıda nesneden oluşan bir nesne setleri kümesinin en küçük destek kriterini sağlaması durumunda, alt kümelerinin de en küçük destek kümelerini sağladığı yönündeki yaklaşıma ne ad verilir?

A priori

Destek bazlı budama

Kaldıraç

Güven

Destek

Açıklama:

Bu yaklaşım, a priori adını almaktadır.

Doğru Cevap: A

Soru 88

İlginç kurala ilişkin aşağıdakilerden hangisi doğrudur?

Daha önce keşfedilmelidir

Düşünceye dönüktür

Problemin amacına ve karar vericinin tutumuna bağlı olarak değişebilmektedir

İlginçlik niteliğine objektif olarak karar verilebilir

İlginç kuralların belirlenebilmesi amacıyla kullanılan başlıca subjektif ölçütler destek ve güven ölçütleridir

Açıklama:

İlginç kural problemin amacına ve karar vericinin tutumuna bağlı olarak değişebilmektedir.

Doğru Cevap: C

Soru 89

Destek Eşik Değeri'ne ilişkin olarak hangisi doğrudur?

İlginç kural elde edebilmek için ilk eleme işlemi,destek eşik değerinin belirlenmiş olması durumunda yapılabilmektedir

Elenen nesne setleri, ilişki kuralı oluşturmak amacıyla kullanılabilir

Belirlenecek destek eşik değerinin çok düşük bir değer olması, ilginç kural elde edebilmek için ele alınacak nesne setlerinin sayısını aşırı derecede azaltacaktır

ilginç kural elde edebilmek için ele alınacak nesne setlerinin sayısının çok olması durumunda ilişki kuralı sayısı çok olacaktır

Belirlenecek destek eşik değeri, tüm nesne setleri içerisinden bu destek eşik değerinden daha büyük destek değerine sahip nesne setlerinin elenmesini sağlar

Açıklama:

İlginç kural elde edebilmek için ilk eleme işlemi,destek eşik değerinin belirlenmiş olması durumunda yapılabilmektedir.

Doğru Cevap: A

Soru 90

Aşağıdakilerden hangisi öncül (A) nesne setinin gözlendiği durumlarda sonuç(B) nesne setinin olasılığındaki değişim hakkında bilgi verir?

Güven eşik değeri

Destek eşit değeri

Destek değeri

Kaldıraç değeri

Güven değeri

Açıklama:

Kaldıraç değeri, öncül (A) nesne setinin gözlendiği durumlarda sonuç (B) nesne setinin olasılığındaki değişim hakkında bilgi verir.

Doğru Cevap: D

Soru 91

İlişki kuralı oluşturabilmek için geliştirilen algoritmalar içerisinde en çok bilinen ve en sık kullanılan Apriori algoritması kaç yılında geliştirtilmiştir?

1994

1995

1996

1997

1998

Açıklama:

Apriori algoritması, 1994 yılında Agrawal ve Srikant tarafından geliştirilmiştir.

Doğru Cevap: A

Soru 92

Aşağıdakilerden hangisi yanlıştır?

Apriori algoritması “Eğer bir alt küme sık görülen nesne kümesi değil ise, onun bütün üst kümeleri de sık görülen nesne kümesi değildir” temel yaklaşımına sahiptir

Apriori özelliğine göre; I={a,b,c,d} nesne kümesi için, şayet {a,b,c} nesne kümesi bir sık görülen nesne kümesi ise, onun tüm alt kümeleri olan ∅, {a}, {b}, {c}, {a, b}, {a, c} ve {b, c} kümeleri de sık görülen nesne kümeleridir

Destek bazlı budama özelliğine göre; I={a,b,c,d} nesne kümesi için, şayet {c, d} nesne kümesi bir sık görülen nesne kümesi değil ise, bu kümenin elemanlarını içeren tüm üst kümeleri olan {a, c, d}, {b, c, d}
ve {a, b, c, d} kümeleri de sık görülen nesne kümeleri değildir

Apriori algoritması yaklaşımında k ögeli nesne setleri (k-1) ögeli nesne setlerinin birleştirilmesiyle oluşturulmaktadır

Apriori algoritması ile başlangıçta hesaplanan bilgiler daha sonraki yinelemelerde kullanıldığı için tekrar hesapların yapılması engellenmiş olur

Açıklama:

Destek bazlı budama özelliği, “Eğer bir alt küme sık görülen nesne kümesi değil ise, onun bütün üst kümeleri de sık görülen nesne kümesi değildir” temel yaklaşımına sahiptir.

Doğru Cevap: A

Soru 93

Apriori algoritması ile ilişki kuralı oluşturma adımlarına ilişkin hangisi doğrudur?

1. adımın ilk aşamasında L1 sık görülen nesne setleri kümesi elemanlarının ikili kombinasyonları alınmak suretiyle birbirinden farklı tüm 2 adet nesne içeren nesne setleri oluşturulur ve oluşturulan bu nesne setlerinin destek değerleri hesaplanır

1. adımın ikinci aşamasında I nesneler kümesindeki 1 adet nesne içeren nesne setleri belirlenir ve belirlenen her bir nesne seti için destek değerleri hesaplanır

1. adımın üçüncü aşamasında 2 adet nesne içeren nesne setleri için hesaplanan destek değerleri içerisinden verilen destek eşik değeri 0,50 değerine eşit veya üzerinde destek değerine sahip nesne
setlerinden iki nesneli sık görülen nesne setleri kümesi L2 oluşturulur

1.adımın 6. aşaması giderek artan hesap yükünü azaltabilmek ve tekrar hesaplamalardan kaçınmak adına önceki aşamalarda elde edilen önsel bilgilerin değerlendirildiği aşamadır ve birleştirme ve budama adımlarından oluşur

1. adımın 7. aşamasında L3 sık görülen nesne kümesinin sadece bir elemanı olduğu için 4 ve daha
fazla nesneden oluşan nesne setleri oluşturulamaz

Açıklama:

1. adımın 7. aşamasında L3 sık görülen nesne kümesinin sadece bir elemanı olduğu için 4 ve daha
fazla nesneden oluşan nesne setleri oluşturulamaz.

Doğru Cevap: E

Soru 94

Apriori algoritması ile ilişki kuralı oluşturma adımlarına ilişkin hangisi yanlıştır?

1. adım tüm sık görülen nesne setlerinin elde edilmesidir

2. adım sık görülen nesne setlerinden güçlü ilişki kuralının elde edilmesidir

1.adımda amaç, apriori algoritması ile verilen 0,50 destek eşik değerine eşit veya daha büyük destek değerine sahip olan sık görülen nesne setleri kümelerinin elde edilmesidir

2. adımda amaç, birinci adımda elde edilen en düşük mertebeye sahip sık görülen nesne setleri
kümesinin elemanları kullanılarak güçlü ilişki kurallarının oluşturulmasıdır

1. adım 7 aşamadan oluşmaktadır

Açıklama:

2. adımda amaç, birinci adımda elde edilen en yüksek mertebeye sahip sık görülen nesne setleri
kümesinin elemanları kullanılarak güçlü ilişki kurallarının oluşturulmasıdır.
2. adımda amaç, birinci adımda elde edilen en düşük mertebeye sahip sık görülen nesne setleri
kümesinin elemanları kullanılarak güçlü ilişki kurallarının oluşturulmasıdır.

Doğru Cevap: D

Soru 95

İlişki kurallarında R çözümüne ilişkin hangisi doğrudur?

R ile ilişki kuralı oluşturabilmek için arules paketinin R’de kurulması ve hafızaya yüklenmesi gerekir

Arules paketi içerisinde yer alan apriori() fonksiyonu yardımıyla zayıf ilişki kuralları oluşturulur

Veri dönüşümü için help (“apriori”) komutundan yararlanılabilir

Fonksiyon ile ilgili yardım için help(“transaction”) komutundan yararlanılabilir

Veri girişi standart olmayan veri girişlerinden herhangi birisi ile yapılabilir

Açıklama:

R ile ilişki kuralı oluşturabilmek için arules paketinin R’de kurulması ve hafızaya yüklenmesi gerekmektedir.

Doğru Cevap: A

Soru 96

İlişki kurallarını belirleme aşamalarından 2. aşamaya ilişkin hangisi doğrudur?

K adet nesne içeren bir sık görülen nesne seti Lk şeklinde gösterilir

Lk’nın elemanları kullanılarak oluşturulacak toplam İlişki kuralı sayısı 2k-1 tanedir

Oluşturulan ilişki kuralları içerisinden belirlenen güven eşik değerine eşit ya da daha düşük güven değerine sahip ilişki kuralları güçlü ilişki kuralları olarak nitelendirilir

İlişki kuralı oluşturmak amacıyla kullanılan algoritmalarının performansını belirleyen adım ikinci adımdır

İlişki kuralı oluşturma aşamalarından 2.adım 1.adıma göre işlem yükü açısından çok daha karmaşıktır

Açıklama:

K adet nesne içeren bir sık görülen nesne seti Lk şeklinde gösterilir.

Doğru Cevap: A

Soru 97

İlişki kurallarına ilişkin hangisi yanlıştır?

İlişki kuralları, veri madenciliğinin tanımlayıcı modellerinden birisidir

İlişki kuralları sayesinde büyük miktarlardaki veriler arasından ilginç birliktelik örüntüleri keşfedilerek karar verme, pazarlama ve iş yönetimi gibi konularda birçok fayda sağlanmaktadır

İlişki kuralları; ekonomi, eğitim, e-ticaret, pazarlama, iletişim ve sağlık gibi birçok sektörde geniş kullanıma sahip veri madenciliğinin özel bir uygulama alanıdır

İlişki kuralları, günlük hayatta özellikle insanların beklentilerinin belirlenmesinde çoğu zaman başarılı olmaktadır

Açıklama:

İlişki kuralları, günlük hayatta özellikle insanların beklentilerinin belirlenmesinde çoğu zaman başarısızdır.
İlişki kuralları, günlük hayatta özellikle insanların beklentilerinin belirlenmesinde çoğu zaman başarılı olmaktadır.

Doğru Cevap: E

Soru 98

5 adet nesne içeren nesneler kümesinde ilişki kuralı oluşturmak için kullanılabilecek toplam nesne seti sayısı kaçtır?

255

Açıklama:

İlişki kuralı oluşturmak için kullanılabilecek toplam nesne seti sayısı 2^m-1 'dir. Burada m=5 olduğuna göre:
2⁵-1=32-1=31 'tür

Doğru Cevap: C

Soru 99

m=5 adet nesne ya da ürün içeren bir nesneler kümesinden k=3 nesne içeren nesne kümelerinin sayısı kaçtır?

Açıklama:

C⁵₃= 5! / 3! (5-3)! = 5x4x3x2x1/3x2x1x2 = 10

Doğru Cevap: D

Soru 100

m=6 nesne içeren nesneler kümesinden kaç tane ilişki kuralı oluşturulabilir?

202

302

402

502

602

Açıklama:

Sayfa 106'da belirtildiği gibi m adet nesne içeren bir nesneler kümesinden toplamda 3^m-2^m+1 adet ilişki kuralı oluşturulabilir.
m=6 olduğuna göre; 3⁶-2⁶⁺¹+1 tane ilişki kuralı oluşturulabilir.
3⁶-2⁶⁺¹+1= 729-128+1= 602

Doğru Cevap: E

Soru 101

Aşağıdakilerden hangisi bir destek değeri olabilir?

-3,2

3,2

1,6

Bir markette o gün yapılan tüm alışlar içerisinde süt ve ekmeği birlikte alan kişi sayısı 18' dir. Süt ve ekmeği birlikte satın alan kişilerin yarısı yumurta da almıştır. Toplam alışveriş sayısı 36 ve yumurta alanların toplam sayısı 18 olduğuna göre "süt ve ekmek alanlar yumurta da almıştır" kuralının kaldıraç değeri kaçtır?

0,25

0,5

0,75

1,25

Açıklama:

Kaldıraç (A ⇒ B) = Güven(A⇒B) / Destek (B)
A süt ve ekmek alanlar ve B yumurta alanlar olduğuna göre;
Güven(A⇒B) 0,5' dir çünkü ekmek ve süt alanların yarısı yumurta almıştır.
Destek (B) de 0,5' bir çünkü tüm alışverişlerin yarısında yumurta alınmıştır (18/36).
Dolayısı ile Kaldıraç (A ⇒ B) = Güven(A⇒B) / Destek (B)= 1 'dir.
Süt ve ekmeği beraber almak ve yumurta almak arasında ilişki yoktur.

Doğru Cevap: D

Soru 106

5 nesne içeren bir sık görülen nesne setinden kaç tane ilişki kuralı üretilebilir?

142

Açıklama:

K adet nesne içeren bir sık görülen nesne seti L_kşeklinde gösterilir. L_k’nın elemanları kullanılarak oluşturulacak toplam ilişki kuralı sayısı 2^k-2 tanedir.
2⁵-2= 30' tir.

Doğru Cevap: C

Karar ağacının oluşturulmasında kök ve iç düğümlerde ayırma işlemini en iyi şekilde gerçekleştirecek olan niteliğin belirlenmesi işlemine ne ad verilir?

Ayırma kriterinin belirlenmesi

Durma kriterinin belirlenmesi

Yaprak düğümüne ait sınıfın belirlenmesi

Sınıflandırma işleminin yapılması

Olası karar ağaçlarının oluşturulması

Açıklama:

Karar ağaçlarını, sınıflandırma probleminin çözümlenmesinde kullanırken iki adıma ihtiyaç duyulur. Bu adımlar,

Karar ağacının oluşturulması
Veritabanında yer alan her bir kaydın (ti) sınıflandırmasının yapılması

şeklindedir. Karar ağacının oluşturulması sürecinde karşılaşılabilecek en önemli sorun, kök ve iç düğümlerde hangi niteliklerin yer alacağının tespit edilmesidir. Çünkü, sınırlı sayıda kayıttan oluşan bir veri yığını için olası tüm karar ağaçlarını oluşturmak ve bunların arasından en uygunu seçmek oldukça zor olacaktır. Bu nitelik, ayırma işlemini gerçekleştiren en iyi nitelik olacaktır ve ayırma kriteri olarak adlandırılır. Ayırma kriteri olarak öyle bir nitelik seçilmelidir ki diğer nitelikler ile karşılaştırıldığında en iyi ayırıcı nitelik olmalıdır. Karar ağacı oluşturulduktan sonra, her bir kayıt bu karar ağacının kök düğümden başlayarak, geçtiği her düğümdeki sorunun yönlendirmesine göre bir yaprak düğüme ulaşır ve böylece sınıflandırma işlemi tamamlanmış olur.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 3

Bir kaydı, önceden tanımlanmış çeşitli sınıflardan birine atayan bir modelin uygulanması işlemi aşağıdakilerden hangisidir?

Sınıflandırma

Sınıf kestirimi

Sınıflayıcı

Karar problemi

Ayırıcı belirleme

Açıklama:

Sınıflandırma, bir kaydı, önceden tanımlanmış çeşitli sınıflardan birine atayan bir modelin uygulanması işlemi olarak tanımlanabilir. Sınıflandırma yapabilmek için, girdi olarak nitelik değerlerinden oluşan örnek kayıt yığını ve karşılık gelen bir sınıf verilmelidir. Sınıflandırma modeli ise, mevcut olan nitelik değerleri ile yeni bir kaydın sınıfının kestirimini yapar ve sınıflayıcı olarak adlandırılır.
Karar ağaçları, veri madenciliğinde karşılaşılan sınıflandırma problemlerinin çözümü için en sık başvurulan mantıksal yaklaşım yöntemidir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 4

Bir banka müşteri veritabanında yer alan müşterilerin kredi riskleri kümesi R={iyi, kötü, kötü, iyi, iyi, kötü, iyi, iyi, kötü, iyi} olarak verilmiş olsun. Buna göre C1 iyi sonucunu, C2 kötü sonucunu temsil etmek üzere, risk niteliğinin olasılık dağılımı aşağıdakilerden hangisidir?

PR={6/10, 4/10}

PR={4/10, 6/10}

PR={10/6, 10/4}

PR={10/4, 10/6}

PR={6/100, 4/100}

Açıklama:

R={iyi, kötü, kötü, iyi, iyi, kötü, iyi, iyi, kötü, iyi} listesinde 6 adet iyi, 4 adet kötü değeri vardır. C1=iyi, C2=kötü olarak verilmiştir. Bu durumda
PR={6/10, 4/10}
olacaktır.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 5

Bir banka müşteri veritabanında yer alan BORÇ, GELİR, STATÜ niteliklerine göre müşterinin RİSK durumu belirlenmek istenmektedir. H entropi değeri olmak üzere, BORÇ niteliği ile ayırma yapılması istendiğinde elde edilen kazanç aşağıdaki eşitliklerden hangisi ile hesaplanır?

Kazanç(BORÇ, RİSK) =H(RİSK) - H(BORÇ, RİSK)

Kazanç(RİSK, BORÇ) =H(RİSK) - H(RİSK, BORÇ)

Kazanç(BORÇ) =H(RİSK) - H(BORÇ)

Kazanç(BORÇ, RİSK) =H(RİSK) / H(BORÇ, RİSK)

Kazanç(BORÇ, RİSK) =H(RİSK) * H(BORÇ, RİSK)

Açıklama:

T hedef niteliğini X niteliğine göre bölerek elde edilen bilgiyi ölçmek için kazanç ölçütünden yararlanılır ve hesaplama için izleyen eşitlik kullanılır.
Kazanç(X, T) = H(T) ‒ H(X, T)
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 6

Ayırma kritesi olarak kazanç ölçütünden yararlanan; durdurma kriteri olarak tüm kayıtların tek bir sınıfa ait olması veya kazanç ölçütünün sıfırdan büyük olmaması durumunu kullanan; karar ağacına herhangi bir budama uygulamayan; sayısal nitelikleri ve kayıp veriyi işleyemeyen; 1983 yılında Ross Quinlan tarafından önerilen karar ağacı oluşturma algoritması aşağıdakilerden hangisidir?

ID3

C4.5

CART

CHAID

QUEST

Açıklama:

ID3 karar ağacı oluşturma algoritması en basit karar ağacı oluşturma algoritmasıdır. Ayırma kriteri olarak kazanç ölçütünden yararlanılmaktadır. Karar ağacının büyümesini durdurma kriteri ise tüm kayıtların tek bir sınıfa ait olması veya kazanç ölçütünün sıfırdan büyük olmaması durumudur. ID3 algoritmasında, karar ağacına herhangi bir budama işlemi uygulanmaz, ek olarak bu algoritma sayısal (ölçüm düzeyi nicel) nitelikleri ve kayıp veriyi işleyememektedir. 1983 yılında Ross Quinlan tarafından önerilmiştir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 7

Bir karar ağacında bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, çıkartılmasına karar verilen dalın içerdiği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştürülmesi işlemine ne ad verilir?

Karar ağacı budama

Karar ağacı modelini test etme

Çapraz doğrulama

Eğitim verisi elde etme

Maliyet karmaşıklığını azaltma

Açıklama:

Budama bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, yaprak düğüm ile değiştirme işlemidir. Bu işlem, çıkartılmasına karar verilen dalın içerdiği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştürülmesine dayanır. Böylece, kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması hedeflenir. Kısaca ifade etmek gerekirse, karar ağacının en iyi duruma getirilmesi işlemidir. Budama işlemi, gerekli görülmesi hâlinde, büyümesi önceden belirlenmiş olan durma kriterine göre sonlandırılmış karar ağacına uygulanabileceği gibi, durma kriterini daha esnek tanımlayarak ağacın olabildiğince büyümesi sağlandıktan sonra, en iyi duruma getirmek için de kullanılabilir. Budama, özellikle çok az sayıda kayıt bulunduran yaprak düğümlerin kesilmesi bakımından önemlidir. Ancak, çok fazla budanmış bir karar ağacı ise, örnek uzayı hakkında yeterli bilgi sağlamayacaktır.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 8

İkili (binary) karar ağacı yapısından dolayı diğer algoritmalardan farklılık gösteren; ayırma kriteri için Entropi, Gini ve Twoing indekslerinden, karar ağacını budamak için ise maliyet-karmaşıklığı kriterinden faydalananan; yaprak düğümlerinde bir sınıf kestirimi yerine sayısal bir değer kestirimini içeren regresyon ağacını da oluşturulabilmesini sağlayan; 1984 yılında Breiman, Friedman, Olshen ve Stone tarafından önerilen sınıflandırma ve regresyon ağaçları algoritması aşağıdakilerden hangisidir?

CART

CHAID

QUEST

ID3

C4.5

Açıklama:

Kısaca CART olarak adlandırılan sınıflandırma ve regresyon ağaçları algoritması, ikili (binary) karar ağacı yapısından dolayı diğer algoritmalardan farklılık göstermektedir. Karar ağacındaki her bir düğüm yanlızca iki dala ayrılır. Ayırma kriteri için Entropi, Gini ve Twoing indekslerinden, karar ağacını budamak için ise maliyet-karmaşıklığı kriterinden faydalanılır. CART algoritmasının önemli bir işlevi ise, yaprak düğümlerinde bir sınıf kestirimi yerine sayısal bir değer kestirimini içeren regresyon ağacının da oluşturulabilmesidir. Bu durumda, ayırma kriteri olarak en küçük kareler sapması kriterine başvurulmaktadır. 1984 yılında Breiman, Friedman, Olshen ve Stone tarafından önerilmiştir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 9

Sınıflandırma ve regresyon ağacı oluşturabilmek için R’de yüklenmesi gereken paket aşağıdakilerden hangisidir?

rpart

stats

lsa

scrime

arules

Açıklama:

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için rpart paketinin R’de kurulu olması gerekmektedir. Eğer kurulu değilse, Paketler menüsünden Paket Kur seçeneği seçilerek kurulur. Kurulum bittikten sonra, paketin hafızaya yüklenmesi için, yine aynı menüde bulunan Paket Yükle seçeneği yardımıyla veya library(rpart) komutu yardımıyla rpart paketi hafızaya yüklenebilir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Soru 10

>library(rpart)
>agac<-rpart(formula=RİSK~BORÇ+GELİR+STATÜ,data=veri[,2:5],method=“class”)
>agac
n= 45
node), split, n, loss, yval, (yprob)
* denotes terminal node
1) root 45 22 iyi (0.5111111 0.4888889)
2) STATÜ=ücretli 28 12 iyi (0.5714286 0.4285714)
4) GELİR=düşük 13 4 iyi (0.6923077 0.3076923) *
5) GELİR=yüksek 15 7 kötü (0.4666667 0.5333333) *
3) STATÜ=işveren 17 7 kötü (0.4117647 0.5882353) *
Yukarıda verilen, sınıflandırma ve regresyon ağacı oluşturmak amacıyla kullanılan R komutları kümesinde (*) ile işaretlenen düğümler aşağıdakilerden hangisidir?

Yaprak düğüm

Kök düğüm

İç düğüm

Sınıflayıcı nitelik

Ayırıcı düğüm

Açıklama:

Verilen R komutu sonucu komut diziliminin en son satırında yer alan agac değişkeni bize elde edilen sonuçları göstermektedir. Sonuçlara göre, sırasıyla düğüm numarası (node), düğümü yaratan ayırıcı niteliğin tanımı (split), düğümdeki kayıt sayısı (n), düğümdeki kayıp kayıt sayısı (loss), düğüm için yapılan sınıf kestirimi (yval) ve ilgili düğümde yer alan kayıtların sınıflayıcı nitelik değerlerinin olasılıkları (yprob) yer almaktadır. “*” ile işaretlenen düğümler yaprak düğümleri ifade etmektedir.
Bu nedenle doğru yanıt a) seçeneğidir.

Doğru Cevap: A

Karar ağacı ile sınıflandırma sonucu iki küme oluşmuştur. Birinci kümenin olasılığı 0.57 ise, ikinci kümenin olasılığı kaçtır?

0.57

0.33

0.27

0.43

Açıklama:

Karar ağaçlarının son düğümleri yani yaprak düğümler sınıfları belirtir. Bu sınıfların olasılık değerleri toplamı 1'dir. Bu nedenle ikinci kümenin olasılık değeri, 1-0.57=0.43
Doğru cevap D şıkkıdır.

Doğru Cevap: D

Soru 15

Sınıflandırma problemlerinde bir karar ağacının oluşturulması için farklı algoritmalardan yararlanılabilir. Aşağıdakilerden hangisi bu algoritmalardan biri değildir?

QUEST

SLIQ

C4.5

ID3

ARENA

Açıklama:

Sınıflandırma problemlerinde bir karar ağacının oluşturulması için farklı algoritmalardan yararlanılabilir. Bu algoritmalara örnek olarak ID3, C4.5, CART, CHAID, QUEST, SLIQ, SPRINT ve MARS verilebilir. ARENA bu algoritmalardan biri değildir.
Doğru cevap E şıkkıdır.

Doğru Cevap: E

Soru 16

Karar ağaçlarında kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması amacıyla yapılan işleme ne denir?

Çoklu bağıntı azaltma

Ağırlıklandırma

Serpme

Budama

Standartlaştırma

Açıklama:

Budama bir ya da daha fazla dalı çıkartarak, karar ağacını daha basitleştirmek amacıyla, yaprak düğüm ile değiştirme işlemidir. Bu işlem, çıkartılmasına karar verilen dalın içerdiği kayıtların, bağlı olduğu üst düğüme dahil edilerek, düğümün yaprak düğüme dönüştürülmesine dayanır. Böylece, kestirim hata oranının, ortaya çıkan aşırı uyum (overfitting) sorununun giderilmesi, azaltılması ve sınıflandırma modelinin kalitesinin arttırılması hedeflenir.
Doğru cevap D şıkkıdır.

Doğru Cevap: D

Soru 17

Çoğu teknikte olduğu gibi karar ağacı oluşturulurken de, veritabanının bir kısmı modeli oluşturmak için kullanılırken, kalan kısım ise oluşturulan modelin test edilebilmesi için ayrılır. Veriyi ikiye ayırmanın amacı, kullanılan karar ağacı algoritmasının ortaya çıkardığı sınıflandırmanın test için saklanan veri ile tekrar denenerek, elde edilen sonuçlar arasında anlamlı bir farklılık olup olmadığının tespit edilmesidir. Aşağıdakilerden hangisi bu amaca yönelik olarak kullanılan tekniklerden biri değildir?

Çapraz-doğrulama tekniği

Hold-out tekniği

Out-come tekniği

Tekrarlı hold-out tekniği

Bootstrap tekniği

Açıklama:

Çoğu teknikte olduğu gibi karar ağacı oluşturulurken de, veritabanının bir kısmı modeli oluşturmak için kullanılırken, kalan kısım ise oluşturulan modelin test edilebilmesi için ayrılır. Veriyi ikiye ayırmanın amacı, kullanılan karar ağacı algoritmasının ortaya çıkardığı sınıflandırmanın test için saklanan veri ile tekrar denenerek, elde edilen sonuçlar arasında anlamlı bir farklılık olup olmadığının tespit edilmesidir. Bu tespit, elde edilen modelin performansını ölçen bir tespittir. Bu amaca yönelik olarak kullanılan tekniklerden bazıları hold-out tekniği, tekrarlı hold-out (repeated hold-out) tekniği, çapraz-doğrulama (cross-validation) tekniği ve bootstrap tekniğidir.
Doğru cevap C şıkkıdır.

Doğru Cevap: C

Soru 18

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için hangi paketinin R’de kurulu olması gerekmektedir?

data.frame

rpart

click

treeg

svrt

Açıklama:

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için rpart paketinin R’de kurulu olması gerekmektedir.

Doğru Cevap: B

Aşağıdakilerden hangisi karar ağacı oluşturma algoritmalarından birisi değildir?

CHAID

QUEST

NAIVE BAYESIAN

SLIQ

C4.5

Açıklama:

Doğru Cevap: C

Soru 27

Hangi karar ağacının büyümesini durdurma kriteri, ayrılacak olan kayıtların sayısının belirli bir eşiğin altına düşmesi durumudur?

ID3

CART

CHAID

C4.5

SLIQ

Açıklama:

C4.5 algoritması, ID3 algoritmasının geliştirilmiş hâlidir. Ayırma kriteri olarak kazanç oranından yararlanılmaktadır. Karar ağacının büyümesini durdurma kriteri, ayrılacak olan kayıtların sayısının belirli bir eşiğin altına düşmesi durumudur.

Doğru Cevap: D

Soru 28

Aşağıdakilerden hangisinde yaprak düğümlerinde bir sınıf kestirimi yerine sayısal bir değer kestirimini içeren regresyon ağacı da oluşturulabilmektedir?

ID3

C4.5

CHAID

CART

QUEST

Açıklama:

CART algoritmasının önemli bir işlevi ise, yaprak düğümlerinde bir sınıf kestirimi yerine sayısal bir değer kestirimini içeren regresyon ağacı da oluşturabilmesidir.

Doğru Cevap: D

Soru 29

R'ye excel verisi aktarımı hangi komut yardımıyla yapılmaktadır?

dim()

head()

read.csv()

help()

library()

Açıklama:

R’ye aktarılmak için hazır durumdadır. Aktarım için read.csv() fonksiyonundan yararlanılır.

Doğru Cevap: C

Soru 30

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için hangi paketin kurulu olması gerekmektedir?

digest

curl

colorspace

car

rpart

Açıklama:

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için rpart paketinin R’de kurulu olması gerekmektedir.

Doğru Cevap: E

Soru 31

Günümüzde aşağıdakilerden en çok hangisi 'karşılaşılan seçeneklerin sayısını arttırdığı gibi karar verme işleminin de hızlı bir şekilde yerine getirilmesini' zorunlu hâle getirmektedir?

içgüdüler ve eğilimler

hızlı yaşam şartları

insan ilişkileri

ekonomik şartlar

eğitim olanaklarının artması

Açıklama:

Günümüzün hızlı yaşam şartları, karşılaşılan seçeneklerin sayısını arttırdığı gibi karar verme işleminin de hızlı bir şekilde yerine getirilmesini zorunlu hâle getirmektedir.

Doğru Cevap: B

Soru 32

Karar verme sürecinde tüm seçeneklerin ve bunlara bağlı olarak elde edilecek tüm sonuçların rakamsal olarak takip edilmesi önemlidir. Bu durum pek çok karar verici için aşağıdakilerden hangisine neden olmaktadır?

kararları eleme

farklı yöntemlere başvurma

daha fazla iş yükü

yanlış karar verme

karardan şüphe etme

Açıklama:

Karar verme sürecinde, seçeneklerin, alınacak kararı etkileyen etmenlerin çokluğu ve hızlı karar verme gerekliliğinin getirdiği karmaşıklık, karar vericinin vereceği kararlarda olumsuz bir etkiye sahip olabilmektedir. Olası tüm seçeneklerin ve bunlara bağlı olarak elde edilecek tüm sonuçların rakamsal olarak takip edilmesi, pek çok karar vericinin daha fazla iş yüküyle karşılaşmasına neden olabilmektedir.

Doğru Cevap: C

Elde edilen veriler kesin sonuçlardır.

Elde edilen sınıflar çok küçük sınıflar olacaktır.

Araştırmacı güvenilir kestirimlere ulaşır.

Ayırmanın ne kadar iyi olduğunu belirlemek için kullanılır.

Kazanç oranı ölçütün hesaplanması izleyen eşitlik yardımıyla yürütülür.

Açıklama:

Doğru Cevap: B

Soru 39

Aşağıdakilerden hangisi 'ikili bölünmeye dayanan bir tekniktir ve hesaplanmasında nitelik değerlerinin sola ve sağa olmak üzere iki bölüme ayrılması işlemi' yürütülür?

entropi

statü niteliği

gini indeksi

ikili (binary) ayırma

kazanç oranı ölçütü

Açıklama:

Gini indeksi, ikili bölünmeye dayanan bir tekniktir. Bu indeksin hesaplanmasında nitelik değerlerinin sola ve sağa olmak üzere iki bölüme ayrılması işlemi yürütülür.

Doğru Cevap: C

Soru 40

'En basit karar ağacı oluşturma algoritmasıdır ve ayırma kriteri olarak kazanç ölçütünden yararlanılmaktadır' olarak tanımlanan algoritma aşağıdakilerden hangisinde doğru verilmiştir?

C4.5

CART

CHAID

ID3

QUEST

Açıklama:

ID3 algoritması en basit karar ağacı oluşturma algoritmasıdır. Ayırma kriteri olarak kazanç ölçütünden yararlanılmaktadır.

Doğru Cevap: D

Soru 41

Karar vericinin karşılaştığı bir problem çözümünde olumlu bir sonuca ulaşabilmek için, problemin sunduğu birden fazla olası seçenek içerisinden seçim yapması işlemine verilen isim aşağıdakilerden hangisidir?

Budama

Ayırma

Yaprak düğüm

Kestirim

Karar verme

Açıklama:

Karar verme, karar vericinin karşılaştığı bir problem çözümünde olumlu bir sonuca
ulaşabilmek için, problemin sunduğu birden fazla olası seçenek içerisinden seçim yapması işlemidir.

Doğru Cevap: E

Aşağıdakilerden hangisi sınıflandırma problemlerinde bir karar ağacının oluşturulması için yararlanılan algoritmalardan değildir?

SPRINT

BORC

QUEST

CART

MARS

Açıklama:

Doğru Cevap: B

Soru 51

Açıklanmalarının kolay olması
İnsani karar almayı diğer yaklaşımlara göre daha iyi yansıtması
Grafiksel olarak gösterilebilir olması
Problem çözümünde olumsuz sonuca ulaşılması

Yukarıdaki maddelerden hangileri karar ağaçlarının avantajları arasındadır?

Yalnız IV

I - II

III - IV

I - II - III

I - II - III - IV

Açıklama:

Karar ağaçlarının bazı avantajları:
• Açıklanmalarının kolay olması,
• İnsani karar almayı diğer yaklaşımlara göre daha iyi yansıtması,
• Grafiksel olarak gösterilebilir olması,
• Uzman olmayan kişiler tarafından da kolaylıkla yorumlanabilir olması,
• Temsili değişkenlere ihtiyaç duymadan nitel değişkenleri de işleyebiliyor olmalarıdır.

Doğru Cevap: D

Soru 52

".................., bir rassal değişkenin seçtiğimiz modele göre parametrelerinin yerine konulması ile elde edilen değerdir."
Metinde verilen boşluğa aşağıdaki seçeneklerden hangisi getirilmelidir?

Kestirim

Karar verici

Karar verme

Sınıflama

Sınıflayıcı

Açıklama:

Kestirim, bir rassal değişkenin seçtiğimiz modele göre parametrelerinin yerine konulması ile elde edilen değerdir.

Doğru Cevap: A

Soru 53

"Kök ve .............. düğüm bir karar ağacını başlatan ve büyüten düğümler, ................... düğüm ise dallanmayı sonlandıran düğümdür."
Metinde verilen boşluklara aşağıdaki seçeneklerden hangisi getirilmelidir?

yaprak - iç

iç - yaprak

dış - iç

yaprak - dış

dış - yaprak

Açıklama:

Problemde yer alan her bir nitelik için karar ağacında bir düğüm yer alır. Böylece niteliğin test edilmesi garanti altına alınır. Bir düğümden ayrılan dallar ise o düğümdeki testin tüm olası sonuçlarının her birine karşılık gelmektedir. Karar ağacının başlangıcını oluşturan ilk düğüm kök düğüm olarak adlandırılır. Karar ağacı bu düğümden başlayarak, problemin içerisindeki tüm karar seçeneklerini içerecek şekilde düğümlerin mantık sırasına göre eklenmesiyle tamamlanır. Son düğüm yaprak düğüm, diğer düğümler ise iç düğüm olarak adlandırılır. Yaprak düğümlerin her biri bir sınıfı temsil eder. Kimi sınıflandırma problemlerinde basit yapılı bir karar ağacı oluşurken, problemdeki nitelik sayısına bağlı olarak karar ağacı da karmaşık bir yapıya sahip olacaktır.
Kök ve iç düğüm bir karar ağacını başlatan ve büyüten düğümler, yaprak düğüm ise dallanmayı sonlandıran düğümdür.

Doğru Cevap: B

Soru 54

En Küçük Kareler Sapması
Entropi İndeksi
Gini İndeksi
Sınıflandırma Hatası İndeksi

Yukarıdaki maddelerden hangileri nitel veri ayırma kriterinin belirlenmesi için geliştirilen ölçüler arasındadır?

Yalnız I

Yalnız II

II - III

II - III - IV

I - II - III - IV

Açıklama:

Düğümün temsil ettiği, dolayısı ile ayırma işlemini en iyi şekilde gerçekleştirecek olan niteliğin seçilmesi, başka bir ifadeyle ayırma kriterinin belirlenmesi için çeşitli ölçüler geliştirilmiştir. Bu ölçüler, niteliğin veri tipine göre değişiklik göstermektedir. Nitel veri için Entropi İndeksi, Gini İndeksi, Sınıflandırma Hatası İndeksi ve Twoing ölçüleri kullanılır. Ek olarak Twoing ölçüsünün sıralı ölçekle ölçülmüş değişkenlerin bulunduğu veri için Ordered Twoing bulunmaktadır. Nicel veriler için ise En Küçük Kareler Sapması yöntemi en sık kullanılan ölçüdür. Bu ünitenin izleyen kesiminde ilgili ölçütlerden Entropi İndeksi ve Gini İndeksi ayrıntılı olarak incelenmiştir.

Doğru Cevap: D

Soru 55

"En yüksek kazancı sağlayan nitelik, ayırıcı nitelik olarak tanımlanır. Ancak, Entropi ve Gini indeksleri gibi indeksler belli değerleri çok sayıda bulunduran nitelikleri tercih etme eğilimindedirler. Dolayısıyla ayırma sayısı fazla olacağından elde edilen sınıflar çok küçük sınıflar olacaktır. Bu durum araştırmacının güvenilir kestirimler yapmasını mümkün kılamayabilir. Benzer durumlarda kullanılan stratejilerden bir tanesi sadece ikili (binary) ayırma yapacak şekilde testler oluşturmak veya ayırmanın ne kadar iyi olduğunu belirlemek için kullanılan .............................. ölçütünü kullanmaktır."
Metinde verilen boşluğa aşağıdaki seçeneklerden hangisi getirilmelidir?

rassallık miktarı

kazanç oranı

ordered twoing

entropi indeksi

bölünme blgisi

Açıklama:

En yüksek kazancı sağlayan nitelik, ayırıcı nitelik olarak tanımlanır. Ancak, Entropi ve Gini indeksleri gibi indeksler belli değerleri çok sayıda bulunduran nitelikleri tercih etme eğilimindedirler. Dolayısıyla ayırma sayısı fazla olacağından elde edilen sınıflar çok küçük sınıflar olacaktır. Bu durum araştırmacının güvenilir kestirimler yapmasını mümkün kılamayabilir. Benzer durumlarda kullanılan stratejilerden bir tanesi sadece ikili (binary) ayırma yapacak şekilde testler oluşturmak veya ayırmanın ne kadar iyi olduğunu belirlemek için kullanılan kazanç oranı ölçütünü kullanmaktır.

Doğru Cevap: B

Soru 56

CART
CHAID
ANOVA
LEVENE
MARS

Sınıflandırma problemlerinde bir karar ağacının oluşturulması için yararlanılan algoritmalardandır?

Yalnız V

IV - V

III - IV

I - II - V

I - II - III - IV

Açıklama:

Sınıflandırma problemlerinde bir karar ağacının oluşturulması için farklı algoritmalardan yararlanılabilir. Bu algoritmalara örnek olarak ID3, C4.5, CART, CHAID, QUEST, SLIQ, SPRINT ve MARS verilebilir. ANOVA ve LEVENE gibi testler algoritma değil analiz türleridir.

Doğru Cevap: D

Görseldeki grafiğe başlık olarak aşağıdaki seçeneklerden hangisi getirilmelidir?

R ile Çizilen Sınıflandırma Ağacı Grafiği

Veri Tabanı İçin Oluşan Üç Sınıflı Karar Ağacı

prp Fonksiyonu ile Sınıflandırma Ağacı Grafiği

fancyRpartPlot Fonksiyonu ile Sınıflandırma Ağacı Grafiği

Sınıflandırma Ağacındaki Kayıtların Sınıflayıcı Niteliğe Göre Dağılımı

Açıklama:

Metnin başlığı "prp Fonksiyonu ile Sınıflandırma Ağacı Grafiği" olmalıdır.

Doğru Cevap: C

Soru 61

Karar probleminin zaman içerisinde doğuracağı sonuçlardan etkilenen sorumlu kişiye ne ad verilir?

Karar verici

Veri Madencisi

Analizci

Sınıflandırıcı

Katılımcı

Açıklama:

Karar probleminin zaman içerisinde doğuracağı sonuçlardan etkilenen sorumlu kişiye karar verici adı verilir.

Doğru Cevap: A

Aşağıdakilerden hangisi karar ağaçlarının, sınıflandırma probleminin çözümlenmesinde kullanırken gereksinim duyduğu adımlardan biridir?

İnsani karar almayı, diğer yaklaşımlara göre daha iyi yansıtması

Veritabanında yer alan her bir kaydın (ti) sınıflandırmasının yapılması

Açıklanmalarının kolay olması

Grafiksel olarak gösterilebilir olması

Uzman olmayan kişiler tarafından da kolaylıkla yorumlanabilir olması

Açıklama:

..... tekniği, veritabanının, araştırmacının takdirinde olan bir oranda (yarı yarıya
veya 1/3’e 2/3 gibi) iki ayrık gruba bölünerek, eğitim ve test verisi olarak ele alınmasına
dayanır. Boş yere aşağıdakilerden hangisi gelmelidir?

kestirim hata oranı

aşırı uyum

cross-validation

Hold- out

bootstrap

Açıklama:

Doğru Cevap: D

Soru 81

Karar vericinin karşılaştığı bir problem çözümünde olumlu bir sonuca ulaşabilmek için, problemin sunduğu birden fazla olası seçenek içerisinden seçim yapması işlemine ne ad verilir?

Karar Verme.

Kestirim

Yaprak Düğüm

Entropi

Gini

Açıklama:

Karar vericinin karşılaştığı bir problem çözümünde olumlu bir sonuca ulaşabilmek için, problemin sunduğu birden fazla olası seçenek içerisinden seçim yapması işlemine "Karar verme" adı verilir.

Doğru Cevap: A

Soru 82

Düğümün temsil ettiği, dolayısı ile ayırma işlemini en iyi şekilde gerçekleştirecek olan niteliğe ne ad verilir?

Ayırma Kriteri

Karar Verme.

Kestirim

Yaprak Düğüm

Entropi

Açıklama:

Düğümün temsil ettiği, dolayısı ile ayırma işlemini en iyi şekilde gerçekleştirecek olan niteliğe "ayırma kriteri" adı verilir.

Doğru Cevap: A

Soru 83

Bir veri yığınındaki düzensizliğin, rassallığın miktarını ölçmek için kullanılan ölçüye ne ad verilir?

Entropi

Kestirim

Yaprak Düğüm

Karmaşıklık

Gini

Açıklama:

Bir veri yığınındaki düzensizliğin, rassallığın miktarını ölçmek için kullanılan ölçüye "Entropi" adı verilir.

Doğru Cevap: A

Soru 84

Bir ya da daha fazla dalı çıkartarak, karar ağacını basitleştirmek amacıyla, yaprak düğüm ile değiştirme işlemine ne ad verilir?

Budama

Entropi

Kestirim

Karmaşıklık

Alternatif model

Açıklama:

Bir ya da daha fazla dalı çıkartarak, karar ağacını basitleştirmek amacıyla, yaprak düğüm ile değiştirme işlemine "budama" adı verilir.

Doğru Cevap: A

Soru 85

Veritabanının, araştırmacının takdirinde olan bir oranda iki ayrık gruba bölünerek, eğitim ve test verisi olarak ele alınmasına dayanan yönteme ne ad verilir?

Hold-Out

Çapraz Doğrulama

Nonlineer

Entropi

Kestirim

Açıklama:

Veritabanının, araştırmacının takdirinde olan bir oranda iki ayrık gruba bölünerek, eğitim ve test verisi olarak ele alınmasına dayanan yönteme "Hold-Out" adı verilir.

Doğru Cevap: A

Soru 86

Veritabanının iki eşit gruba bölündüğü ve birinci grup eğitim verisi olurken ikinci grubun test verisi olarak ele alındığı tekniğe ne ad verilir?

Hold-Out

Çapraz Doğrulama

Nonlineer

Entropi

Kestirim

Açıklama:

Veritabanının iki eşit gruba bölündüğü ve birinci grup eğitim verisi olurken ikinci grubun test verisi olarak ele alındığı tekniğe "Çapraz Doğrulama" adı verilir.

Doğru Cevap: B

Soru 87

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için hangi paketin R’de kurulu olması gerekmektedir?

rpart

entropi

gini

oranlılık

xerror

Açıklama:

R ile sınıflandırma ve regresyon ağacı oluşturabilmek için "rpart" paketinin R’de kurulu olması gerekmektedir.

Doğru Cevap: A

Soru 88

Aşağıdakilerden hangisi R dilinde düğüm ve ayırıcı nitelik bilgilerini grafiğe ekleyen fonksiyondur?

text()

improve()

xerror()

splits()

summary()

Açıklama:

text() R dilinde düğüm ve ayırıcı nitelik bilgilerini grafiğe ekleyen fonksiyondur.

Doğru Cevap: A

Soru 89

Aşağıdakilerden hangisi budama yöntemlerinden biridir?

Kötümser hata.

Kararlılık.

Toplanabilirlik

Oranlılık.

Bölünebilirlik.

Açıklama:

"Kötümser Hata" budama yöntemlerinden biridir.

Doğru Cevap: A

Soru 90

Karar ağacındaki her bir düğümün yanlızca iki dala ayrıldığı, Ayırma kriteri için Entropi, Gini ve Twoing indekslerinden, karar ağacını budamak için ise maliyet-karmaşıklığı kriterinden faydalanılan yönteme ne ad verilir?

CART

CHAID

SPRINT

SLIQ

MARS

Açıklama:

Doğru Cevap: A

Soru 91

Seçeneklerden hangisi karar ağacı oluşturma algoritması olarak kullanılabilir?

Varyans Analizi

t testi

Regresyon

ID3

Korelasyon

Açıklama:

Sınıflandırma problemlerinde bir karar ağacının oluşturulması için farklı algoritmalardan yararlanılabilir. Bu algoritmalara örnek olarak ID3, C4.5, CART, CHAID, QUEST, SLIQ, SPRINT ve MARS verilebilir. Bu algoritmalar, veri yığınını işleme şekline ve kullanılan ayırma kriterine göre değişiklik göstermektedir.

Doğru Cevap: D

CART karar ağacı algoritmasında karar ağacını budamak için hangi kriterden faydalanılır?

Gini

Entropi

Kazanç

Maliyet karmaşıklığı

İyimserlik Ölçütü (Laplace)

Açıklama:

Doğru Cevap: D

Soru 96

Tek değişkenli ve doğrusal kombinasyon ayırmaları destekleyen karar ağacı algoritması hangisidir?

CART

ID3

C4.7

CHAID

QUEST

Açıklama:

QUEST algoritması, tek değişkenli ve doğrusal kombinasyon ayırmaları destekler. Her ayırma için (sıralayıcı veya sürekli niteliklerde) ANOVA F testi, Levene testi veya (sınıfla- yıcı niteliklerde) Pearson Ki-Kare testi kullanılarak, girdi niteliklerinin her biri ile hedef yani sınıf niteliğinin arasındaki birliktelik hesaplanır.

Doğru Cevap: E

Soru 97

Seçeneklerden hangisi entropi indeksi olarak hesaplanamaz?

0,25

0,12

-0,01

0,002

0,99

Açıklama:

Entropi, bir veri yığınındaki düzensizliğin, rassallığın miktarını ölçmek için kullanılan bir ölçüdür. Veri yığını içinde, örneğin bankanın oluşturduğu müşteri veritabanındaki müşterileri sınıflayan kredi riski niteliğinde, tek bir sınıf olması durumunda, entropinin 0 (sıfır) olması beklenir. Çünkü bir düzensizlikten veya rassallıktan söz edilemez. Bir başka deyişle, entropisi 0 olan bir grubun tam homojen bir grup, entropisi 1 olan grubun ise tam heterojen olduğu söylenebilir.

Doğru Cevap: C

Budama işlemi için kullanılan karmaşıklık parametresi aşağıdakilerden hangisiyle gösterilir?

xstd

nsplits

Gini indeks

Açıklama:

cp, "summary" komutuyla elde edilen çıktılarda karmaşıklık parametresini gösterir.

Doğru Cevap: A

Soru 110

Bir rassal değişkenin seçtiğimiz modele göre parametrelerinin yerine konulması ile elde edilen değere ne ad verilir?

Aşağıdakilerden hangisi birleştirici aşamalı kümeleme yöntemlerinden biri değildir?

Macqueens k-ortalamalar kümeleme yöntemi

Tek bağlantı kümeleme yöntemi

Tam bağlantı kümeleme yöntemi

Ortalama bağlantı kümeleme yöntemi

Mcquitty bağlantı kümeleme yöntemi

Açıklama:

Tek Bağlantı Kümeleme Yöntemi (TekBKY, SINGLE Linkage [SLINK], En Yakın Komşuluk, Nearest Neighbour Method)
Tam Bağlantı Kümeleme Yöntemi (TamBKY, COMPLETE linkage Method [CLINK], Furthest Neighbor Method)
Ortalama Bağlantı Kümeleme Yöntemi (OrtBKY, AVERAGE Linkage Method, [ALINK])
McQuitty Bağlantı Kümeleme Yöntemi (McQuitty linkage Method)
Küresel Ortalama Bağlantı Kümeleme Yöntemi (KOBKY, CENTROID linkage Method)
Medyan Bağlantı Kümeleme Yöntemi (MBKY, MEDIAN linkage Method)
Ward Bağlantı Kümeleme Yöntemi (WBKY, WARD linkage Method, En Küçük Varyans Kümeleme Yöntemi)

Bu nedenle doğru yanıt a) seçeneğidir

Doğru Cevap: A

Soru 10

Kümeleme analizinde sonuçların bağlantılar, uzaklıklar ve birimlerin bağlanma düzeylerinin bir ağaç biçiminde ele alınarak ayrıntılı bir biçimde özetlendiği; genellikle x ekseninde birimler ve y ekseninde de uzaklıklar olacak şekilde yapılandırıldığı; değişkenlerin ya da birimlerin hangi aşamada ve hangi uzaklık ya da benzerlik düzeyinde bir araya gelerek küme oluşturduklarının ayrıntılı biçimde görüldüğü grafiksel yöntem aşağıdakilerden hangisidir?

Dendrogram

Cluster

Manhattan (City-Block) uzaklığı

Farklılık matrisi

Plot

Açıklama:

Kümeleme analizinde sonuçlar dendrogram (ağaç diyagramı) adı verilen grafiksel yöntemle sunulurlar. Dendrogramlarda bağlantılar, uzaklıklar ve birimlerin bağlanma düzeyleri bir ağaç biçiminde ele alınarak şekillendirilir ve kümelenme süreci bu şekilde ayrıntılı bir biçimde özetlenir. Genellikle dendrogramlar; x ekseninde birimler ve y ekseninde de uzaklıklar olacak şekilde yapılandırılırlar.
Dendrogramlarda değişkenlerin ya da birimlerin hangi aşamada ve hangi uzaklık ya da benzerlik düzeyinde bir araya gelerek küme oluşturdukları ayrıntılı biçimde görülmektedir.
Bu nedenle doğru yanıt a) seçeneğidir

Doğru Cevap: A

Soru 11

Veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemi veri madenciliği yöntemlerinden hangisidir?

Birliktelik kuralları

Kümeleme

Sınıflandırma

Lojistik regresyon

Diskriminant analizi

Açıklama:

Kümeleme, veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemidir. Kümeleme yöntemlerinin çoğu veri arasındaki uzaklıkları kullanır. Uygulamada çok sayıda kümeleme yöntemi kullanılmaktadır. Bu yöntemler, değişkenler arasındaki benzerliklerden ya da farklılıklardan yararlanarak bir veri setini alt kümelere ayırmak için kullanılmaktadır. Kümeleme analizinin amacı, gruplanmamış verileri benzerliklerine göre sınıflandırmak ve araştırmacıya özetleyici bilgiler elde etmede yardımcı olmaktır.

Doğru Cevap: B

Soru 12

Hem veri madenciliğinin temeli olarak değerlendirilen hem de veri hazırlama aracı olarak kullanılan veri madenciliği yöntemi hangisidir?

Sınıflandırma

Kümeleme analizi

Birliktelik kuralları

Pazar sepeti analizleri

Faktör analizi

Açıklama:

Sınıflandırma, veri madenciliğinde sıklıkla kullanılmaktadır. Üzerinde çalışılan veritabanının bir kısmı eğitim seti olarak ele alınır ve buradan hareketle sınıflandırma kuralları oluşturulur. Bu kurallar yardımıyla yeni bir durum ortaya çıktığında nasıl karar verileceği belirlenir. Veri madenciliği yönteminin sınıflandırma grubu içerisinde en sık kullandığı teknik “karar ağaçları”dır. Aynı zamanda lojistik regresyon, diskriminant analizi, sinir ağları ve fuzzy setleri de sıklıkla kullanılmaktadır. İnsanlar yüzyıllardır verileri sınıflandırdıkları, kategorize ettikleri ve derecelendirdikleri için sınıflandırma, işlemi hem veri madenciliğinin temeli olarak hem de veri hazırlama aracı olarak kullanılmaktadır.

Doğru Cevap: A

Soru 13

Veri seti içerisinde yer alan kayıtların birbiriyle olan ilişkilerini inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan veri madenciliği yöntemleri seçeneklerden hangisidir?

Sınıflandırma

Karar ağaçları

Kümeleme analizi

Lojistik regresyon

Birliktelik kuralları

Açıklama:

Birliktelik Kuralları, veri seti içerisinde yer alan kayıtların birbiriyle olan ilişkilerini inceleyerek, hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerini ortaya koymaya çalışan yöntemler veri madenciliği yöntemleridir. Özellikle pazarlama alanında uygulanmaktadır (Pazar sepet analizleri). Bu yöntemler birlikte olma kurallarını belirli olasılıklarla ortaya koymaktadır.

Doğru Cevap: E

Dendogram

Karar ağaçları

Ayırıcı aşamalı kümeleme analizi

Aşamalı olmayan kümeleme analizi

Birleştirici aşamalı kümeleme analizi

Açıklama:

Doğru Cevap: D

Soru 21

Veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemine ne ad verilir?

Kümeleme

Veri madenciliği

Birliktelik kuralları

Sinir ağları

Diskriminant analizi

Açıklama:

Kümeleme, veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemidir.

Doğru Cevap: A

Soru 22

Aşağıda verilenlerden hangisi verilerin standardize edilmesi ve belirli aralıklardaki değerlere dönüştürülmesi için kullanılan yöntemler arasında yer almaz?

z skorlarına dönüştürme

-1≤x≤1 aralığına dönüştürme

Ortalama değer -1 olacak şekilde dönüştürme

0≤x≤1 aralığına dönüştürme

Serideki maksimum değer 1 olacak şekilde dönüştürme

Açıklama:

Verilerin standardize edilmesi ve belirli aralıklardaki değerlere dönüştürülmesi için en çok kullanılan yöntemler; z skorlarına dönüştürme, -1≤x≤1 aralığına dönüştürme, 0≤x≤1 aralığına dönüştürme, serideki maksimum değer 1 olacak şekilde dönüştürme, ortalama değer 1 olacak şekilde dönüştürme, standart sapma 1 olacak şekilde dönüştürme yöntemleridir.

Doğru Cevap: C

Uzaklık matrisini kullanarak birbirine en yakın (uzaklık değerleri en küçük) birim ya da değişkenleri birleştirerek kümelerin oluşmasını sağlayan kümeleme yöntemi hangisidir?

Tek Bağlantı Kümeleme Yöntemi

Ortalama Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

McQuitty Bağlantı Kümeleme Yöntemi

Açıklama:

Doğru Cevap: A

Soru 29

İki obje arasındaki benzerliği ölçmede en yaygın kullanılan uzaklık ölçüsü olup iki obje arasına çizilecek bir doğrunun uzunluğunu temel alan ölçüye ne ad verilir?

Karesel Pearson uzaklığı

Manhattan (City-Blok) Uzaklığı

Korelasyon uzaklığı

Açısal uzaklık

Öklid uzaklığı

Açıklama:

Öklid uzaklığı iki obje arasındaki benzerliği ölçmede en yaygın kullanılan uzaklık ölçüsü olup iki obje arasına çizilecek bir doğrunun uzunluğunu temel alır.

Doğru Cevap: E

Soru 30

Küresel ortalama ve medyan bağlantı kümeleme yöntemlerinin karma şekli hangi kümeleme yöntemidir?

Tek Bağlantı Kümeleme Yöntemi

McQuitty Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

k-ortalamalar Yöntemi

Açıklama:

Bu yöntem, küresel ortalama ve medyan bağlantı kümeleme yöntemlerinin karma şeklidir. Küme içi varyansın minimum olduğu kümeler belirlenir ve bu doğrultuda kümeler oluşturulur. Minimum varyans yöntemi olarak da bilinen bu yaklaşım, bir kümede yer alan bir birimin, aynı kümenin içinde bulunan birimlerden ortalama uzaklığını dikkate almaktadır. Küme bağlantılarından ziyade küme içi kareler toplamı dikkate alınmaktadır. Bu yöntem, az birimli kümeleri birleştirme eğilimindedir. Ayrıca bu yöntemin birbirine eşit sayıda birim içeren kümeler oluşturma gibi bir eğilimi de vardır. Bundan dolayı, araştırmacının kümelerdeki birim sayılarının benzer (yakın) olduğu beklentisi durumunda bu yönteme başvurması önerilmektedir. Aşırı değerlerden etkilenmektedir.

Doğru Cevap: C

Soru 31

I. Hangi kümeye ait olduğu bilinmeyen bir grup verinin, sınıflandırılarak anlamlandırılması,
II. Benzer olanları farklı olandan ayırmak,
III. Doğal grup yapılarını belirlemek, homojen alt gruplara ayırabilmek,
Yukarıdakilerden hangisi ya da hangileri kümeleme analizinin temel amaçları şeklinde ifade edilebilir?

Yalnız II

I-III

I-II-III

Yalnız III

II-III

Açıklama:

Verilen ifadelerin tamamı kümeleme analizi amaçları arasındadır.

Doğru Cevap: C

Soru 32

Aşağıdakilerden hangisi kümeleme analizinin özellikleri arasında sayılamaz?

Tahmin amaçlı kullanılmaz

Varsayımlarda bulunmaz

Genellikle dört aşamada gerçekleşir.

Uygulama aşamasında çok fazla varsayıma ihtiyaç duyar

Çoklu bağıntıya dikkat ister

Açıklama:

Uygulamada aşamasındaki temel varsayımların karşılanmasına gerek yoktur.

Doğru Cevap: D

Soru 33

Küme elemanları arasındaki en küçük uzaklık değeri temel alınarak kümelerin
oluşturulması esasına dayanan aşamalı birleştirici kümeleme yöntemi hangisidir?

Tam Bağlantı Kümeleme Yöntemi

Tek Bağlantı Kümeleme Yöntemi

Medyan Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

Ortalama Bağlantı Kümeleme Yöntemi

Açıklama:

Doğru Cevap: B

Soru 34

Aşağıdaki eşlemelerden hangisi yanlıştır?

Tam bağlantı kümeleme-en uzak komşuluk

Ortalama bağlantı kümeleme-ortalama uzaklıklar

McQuitty bağlantı kümeleme-uzaklıkları toplamının yarısı

Medyan bağlantı kümeleme- en yakın uzaklık

Ward bağlantı kümeleme- küme içi varyans

Açıklama:

Medyan bağlantı kümeleme için yapılan eşleşme yanlıştır. Medyan bağlantı kümeleme yöntemi, McQuitty bağlantı kümeleme yönteminin farklı bir biçimidir. Bu yöntemde m. ve j. kümeler arasındaki uzaklık; dmj= (dkj + dlj)/2 - dkl/4 formülü yardımıyla hesaplanır. Doğru cevap D.

Doğru Cevap: D

Beş değişken ile gerçekleştirilen kümeleme analizi R programının verdiği sonuçlar aşağıdaki gibidir. Verilen bilgilere göre birinci kümede kaç ülke yer almaktadır?

Açıklama:

1 kümedeki 1 ifadeleri toplandığında 5 ülke ortaya çıkmaktadır.

Doğru Cevap: E

Soru 40

Yukarıda verilen bilgilere göre hangisi doğrudur?

1. Kümede toplam 6 ülke yer almaktadır.

2 .Kümede toplam 5 ülke yer almaktadır.

3 Kümede yer alan ülkeler Bosna Hersek, Nijerya, Slovenya, Brezilya ve Türkiye'dir.

4.kümede toplam 4 ülke yer almaktadır.

Bir kümede en fazla bulunan ülke sayısı 4. kümedir.

Açıklama:

Yanıt C' devierlen küme ve ülke doğru verilmiştir.

Doğru Cevap: C

Soru 41

Veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemine ne ad verilir?

Yapay Sinir Ağları

Kümeleme

Sınıflama

Tahmin

Regresyon

Açıklama:

Kümeleme, veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemidir

Uzaklıkları ve birimlerin bağlanma düzeylerini bir ağaç biçiminde ele alınarak şekillendiren kümeleme yöntemi aşağıdakilerden hangisidir?

Dendrogramlar

Ayırıcı Aşamalı Kümeleme Yöntemleri

Birleştirici Aşamalı Kümeleme Yöntemleri

Medyan Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

Açıklama:

Doğru Cevap: A

Soru 63

Aşağıdakilerden hangisi birleştirici kümeleme yöntemlerinden biri olarak sayılamaz?

Tek Bağlantı Kümeleme Yöntemi

Küresel Ortalama Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

Kısmi Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

Açıklama:

Birleştirici aşamalı kümeleme yöntemlerinde, birimlerin birbirleri ile birleştirilmesinde farklı yöntemler kullanılmaktadır. Bunlardan sıklıkla kullanılan ve genel kabul görmüş olanları aşağıdaki gibi sayılabilir.
• Tek Bağlantı Kümeleme Yöntemi (TekBKY, SINGLE Linkage [SLINK], En Yakın Komşuluk, Nearest Neighbour Method)
• Tam Bağlantı Kümeleme Yöntemi (TamBKY, COMPLETE linkage Method [CLINK], Furthest Neighbor Method)
• Ortalama Bağlantı Kümeleme Yöntemi (OrtBKY, AVERAGE Linkage Method, [ALINK])
• McQuitty Bağlantı Kümeleme Yöntemi (McQuitty linkage Method)
• Küresel Ortalama Bağlantı Kümeleme Yöntemi (KOBKY, CENTROID linkage Method)
• Medyan Bağlantı Kümeleme Yöntemi (MBKY, MEDIAN linkage Method)
• Ward Bağlantı Kümeleme Yöntemi (WBKY, WARD linkage Method, En Küçük Varyans Kümeleme Yöntemi)

Doğru Cevap: D

Soru 64

Küme elemanları arasındaki en küçük uzaklık değeri temel alınarak kümelerin oluşturulması esasına dayanan yöntem aşağıdakilerden hangisidir?

McQuitty Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

Tek Bağlantı Kümeleme Yöntemi

Ortalama Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

Açıklama:

TekBKY en basit aşamalı kümeleme yöntemidir. Bu yöntem, farklı veri yapılarındaki kümelenmeleri tanımlayabilmesi açısından uygulayıcılar tarafından sıklıkla tercih edilmektedir. Küme elemanları arasındaki en küçük uzaklık değeri temel alınarak kümelerin oluşturulması esasına dayanır.

Doğru Cevap: C

Soru 65

Bir küme içindeki birim ile diğer küme içindeki birimler arasındaki ortalama uzaklıklar dikkate alan yöntem aşağıdakilerden hangisidir?

Ortalama Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

Küresel Ortalama Bağlantı Kümeleme Yöntemi

Medyan Bağlantı Kümeleme Yöntemi

Açıklama:

Ortalama Bağlantı Kümeleme Yöntemi: Bu yöntemde, tek bağlantı ve tam bağlantı yöntemlerinde olduğu gibi işleme başlanır. Fakat kümeleme kriteri olarak, bir küme içindeki birim ile diğer küme içindeki birimler arasındaki ortalama uzaklıklar dikkate alınır. Ortalama bağlantı kümeleme yöntemindeki kümeleme kriteri, bir kümedeki tüm birimlerden elde edilen ortalama uzaklığın diğer kümedeki tüm birimlere olan ortalama uzaklığı olarak ele alınır.

Doğru Cevap: A

Soru 66

Araştırmacının kümelerdeki birim sayılarının benzer (yakın) olduğu beklentisi durumunda başvuracağı kümeleme yöntemi aşağıdakilerden hangisidir?

Ortalama Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

McQuitty Bağlantı Kümeleme Yöntemi

Tek Bağlantı Kümeleme Yöntemi

Açıklama:

Ward Bağlantı Kümeleme Yöntemi: Bu yöntem, küresel ortalama ve medyan bağlantı kümeleme yöntemlerinin karma şeklidir. Küme içi varyansın minimum olduğu kümeler belirlenir ve bu doğrultuda kümeler oluşturulur. Minimum varyans yöntemi olarak da bilinen bu yaklaşım, bir kümede yer alan bir birimin, aynı kümenin içinde bulunan birimlerden ortalama uzaklığını dikkate almaktadır. Küme bağlantılarından ziyade küme içi kareler toplamı dikkate alınmaktadır. Bu yöntem, az birimli kümeleri birleştirme eğilimindedir. Ayrıca bu yöntemin birbirine eşit sayıda birim içeren kümeler oluşturma gibi bir eğilimi de vardır. Bundan dolayı, araştırmacının kümelerdeki birim sayılarının benzer (yakın) olduğu beklentisi durumunda bu yönteme başvurması önerilmektedir.

Doğru Cevap: C

Soru 67

h=hclust(dist.x,method=”single”) komutu hangi kümeleme yöntemini uygulamak için kullanılmaktadır?

Ortalama Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

McQuitty Bağlantı Kümeleme Yöntemi

Tek Bağlantı Kümeleme Yöntemi

Açıklama:

Elde edilen Öklid uzaklık matrisi yardımıyla, verilere Hiyerarşik kümeleme yöntemlerinden Tek bağlantı kümeleme yöntemi uygulamak için ise h=hclust(dist.x,method=”single”) komutu kullanılır.

Doğru Cevap: E

Soru 68

Değişkenlerin ortalama vektörlerini küme merkezi olarak ele alan ve kümeleme süreci bunun etrafında şekillendiren yöntem aşağıdakilerden hangisidir?

Ortalama Bağlantı Kümeleme Yöntemi

k-ortalamalar Yöntemi

k-medyanlar Yöntemi

k-medoidler Yöntemi

Tek Bağlantı Kümeleme Yöntemi

Açıklama:

Mac Queen’in k-ortalamalar adını verdiği yöntem gözlemleri kümelerin önceden belirlenmiş sayısına gruplandırmakla işleme başlamaktadır. Bu yöntem, değişkenlerin ortalama vektörlerini küme merkezi olarak ele alır ve kümeleme süreci bunun etrafında şekillenir. Bu kümeleme yöntemi, veri setinde bulunan birimleri küme içi kareler toplamlarını minimize (en küçük) edecek biçimde k sayıda kümeye ayırmayı amaçlar.

Doğru Cevap: B

Soru 69

Asimetrik veri setlerinde değişkenlerin birbirinden bağımsız olmadığı ve değişkenler arasında korelasyon olduğu durumlarda tercih edilen kümeleme yöntemi aşağıdakilerden hangisidir?

Ortalama Bağlantı Kümeleme Yöntemi

k-ortalamalar Yöntemi

k-medyanlar Yöntemi

k-medoidler Yöntemi

Tek Bağlantı Kümeleme Yöntemi

Açıklama:

k-Medoidler Yöntemi: Veri setinin asimetrik olduğu durumlarda k-medyanlar yöntemi, k-ortalamalar yöntemine göre daha çok tercih edilmektedir. Fakat k-medyanlar yönteminde de yakınsama gözlenmediği durumlar olabilmektedir. Özellikle değişkenlerin birbirinden bağımsız olmadığı ve değişkenler arasında korelasyon olduğu durumlarda k-medyanlar yöntemi veri setini gruplamada (kümelemede) başarılı olmamaktadır. Bu durumda kümeleme için k-medoidler yöntemi önerilmektedir. Medoid, diğer küme elemanları ile aralarında en az fark görülen seçilmiş küme elemanları olarak tanımlanabilmektedir. Bu algoritma k-ortalamalar ve k-medyanlar yöntemlerine göre daha çok işlem gerektirmektedir. Çünkü, medoidler belirlenirken tüm ikili uzaklık ölçüleri hesaplanmaktadır.

Doğru Cevap: D

Soru 70

Aşağıdakilerden hangisi aşamalı olmayan kümeleme yöntemlerinden biridir?

Ortalama Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

k-Ortalamalar Yöntemi

Ward Bağlantı Kümeleme Yöntemi

McQuitty Bağlantı Kümeleme Yöntemi

Açıklama:

Birimlerin kendi içinde homojen ve kendi aralarında heterojen olan kümelere ayrılmasını hedefleyen ve elde edilen kümeler aracılığı ile alt toplum yapılarına ilişkin tahmin yapmayı amaçlayan yöntemlerdir. Aşamalı olmayan Kümeleme Yöntemleri arasında en yaygın kullanılan yöntem K-ortalamalar kümeleme (k-means clustering, MacQueens’ Method) yöntemidir. Bu yöntem birçok istatistik hazır yazılımda bulunmaktadır. Bunun dışında Medoid kümeleme ve Fuzzy kümeleme gibi aşamalı olmayan kümeleme yöntemleri de bulunmaktadır.

Doğru Cevap: C

Soru 71

....................., veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemidir.
Yukarıdaki boşluğa aşağıdaki ifadelerden hangisi gelmelidir?

Sınıflandırma

Kümeleme

Birliktelik

Veri madenciliği

Benzerlik

Açıklama:

Kümeleme, veri setinde bulunan gözlemlerin ya da değişkenlerin kendi aralarındaki benzerlikleri göz önünde bulundurularak gruplandırılması işlemidir.

Doğru Cevap: B

Soru 72

Kümeleme analizi ile ilgili aşağıdakilerden hangisi yanlıştır?

Veri madenciliğinin bir alt türüdür.

Genel amacı benzer olanları farklı olandan ayırmaktır.

Tahmin amaçlı kullanılmakta ve varsayımları bulunmaktadır.

Kümeleme analizi genellikle dört aşamada uygulanmaktadır.

Veri matrisinin oluşturulması, kümeleme analizinin ilk aşamasıdır.

Açıklama:

Kümeleme analizi, diğer çok değişkenli analiz yöntemi olan diskriminant analizinde olduğu gibi tahmin amaçlı kullanılmamakta ve faktör analizinde olduğu gibi de varsayımları bulunmamaktadır.

Doğru Cevap: C

Soru 73

I. Benzerlik veya uzaklık matrislerinin hesaplanması
II. Sonuçların yorumlanması
III. Veri matrisinin oluşturulması
IV. Hangi kümeleme yönteminin kullanılacağına karar verilmesi
Kümeleme analizinin aşamaları hangi seçenekte doğru sırada verilmiştir?

IV, III, I, II

III, IV, I, II

I, IV, III, II

III, I, IV, II

III, I, II, VI

Açıklama:

Doğru sıralama III, I, IV, II şeklindedir.

Doğru Cevap: D

Soru 74

Aşağıdaki uzak düzeyi değerlerinden hangisinde kümenin en fazla elemanı içermesi olasıdır?

5.00

11.82

20.00

26.00

36.0

Açıklama:

En büyük değer daha kapsayıcı olacağından doğru cevap 36.0 'dır.

Doğru Cevap: E

Soru 75

En Küçük Varyans Kümeleme Yöntemi aşağıdaki yöntemlerin hangisinin çeşididir?

Tek Bağlantı Kümeleme Yöntemi

Tam Bağlantı Kümeleme Yöntemi

Ortalama Bağlantı Kümeleme Yöntemi

Medyan Bağlantı Kümeleme Yöntemi

Ward Bağlantı Kümeleme Yöntemi

Açıklama:

En Küçük Varyans Kümeleme Yöntemi, Ward Bağlantı Kümeleme Yöntemi çeşitlerindendir.

Doğru Cevap: E

Soru 76

d_mj=(N_kd_kj+ N_ld_lj)/N_m
Yukarıdaki formül hangi kümeleme yöntemine aittir?

Tek bağlantılı kümeleme yöntemi

Tam bağlantılı kümeleme yöntemi

Ortalama Bağlantı Kümeleme Yöntemi

McQuitty Bağlantı Kümeleme Yöntemi

Küresel Ortalama Bağlantı Kümeleme Yöntemi

Açıklama:

Söz konusu formül ortalama bağlantılı kümeleme yönteminde kullanılır.

Doğru Cevap: C

Soru 77

R programında veri setine ilişkin uzaklık matrisini bulmak için hangi komut girilmelidir?

dist.x

h=hclust

h$merge

clusters=cutree

rect.hclust

Açıklama:

R programında veri setine ilişkin uzaklık matrisini bulmak için "dist.x" komutu kullanılmalıdır.

Doğru Cevap: A

Soru 78

k-Ortalamalar Yöntemi hakkında aşağıdaki ifadelerden hangisi yanlıştır?

Bu kümeleme yöntemi, veri setinde bulunan birimleri küme içi kareler toplamlarını minimize (en küçük) edecek biçimde k sayıda kümeye ayırmayı amaçlar.

Birimler her iterasyonda farklı kümelere atanır ve en uygun çözüm permütasyon yaklaşımına benzer bir şekilde belirlenir.

K-ortalamalar yönteminde kümelerin belirlenmesinde kullanılan çekirdek noktaların veri setinde bulunan gözlenen değerlerden seçilmesi zorunludur.

Farklı aşamalardaki atamalarda, kümeler arası heterojeniteye bağlı olarak birimlerin atandıkları kümelerden çıkarılarak başka bir kümeye atanması mümkün olabilmektedir.

Karışık yapıda ya da kesikli değişken içeren veri setleri için uygun bir seçim değildir.

Açıklama:

K-ortalamalar yönteminde kümelerin belirlenmesinde kullanılan çekirdek noktaların veri setinde bulunan gözlenen değerlerden seçilmesi zorunlu değildir.

Doğru Cevap: C

Soru 79

k-Medyanlar Yöntemi hakkında aşağıdakilerden hangisi yanlıştır?

Veri setindeki değişkenlerin asimetrik olduğu durumlarda kullanılmaktadır.

Bu yöntemde de uzaklık ölçüsü seçimi keyfi olarak gerçekleştirilemez.

Medyan değerlerine ait vektörleri küme merkezi olarak kullanan k merkezli algoritmadır.

Uzaklık ölçüsü seçilirken yakınsamanın sağlanıp sağlanmadığı mutlaka göz önünde bulundurulmalıdır.

Bu algoritmada, Manhattan uzaklık ölçüsü en sık tercih edilen kümelenme ölçütüdür.

Açıklama:

Bu yöntem- de de uzaklık ölçüsü seçimi keyfi olarak gerçekleştirilebilir, ancak yakınsamanın sağlanıp sağlanmadığı mutlaka göz önünde bulundurulmalıdır.

Doğru Cevap: B

Soru 80

Aşağıdakilerden hangisi aşamalı olmayan kümeleme yöntemlerindendir?

Küresel Ortalama Bağlantı Kümeleme Yöntemi

McQuitty Bağlantı Kümeleme Yöntemi

k-Medoidler Yöntemi

Ortalama Bağlantı Kümeleme Yöntemi

Tek Bağlantı Kümeleme Yöntemi

Açıklama:

k-Medoidler Yöntemi aşamalı olan kümeleme yöntemlerindendir.

Doğru Cevap: C

Soru 81

Hem veri madenciliğinin temeli olarak hem de veri hazırlama aracı olarak kullanılan veri madenciliği yöntemi aşağıdakilerden hangisidir?

Kümeleme

Sınıflandırma

Birliktelik kuralları

Karşılaştırma

Çaprazlama

Açıklama:

İnsanlar yüzyıllardır verileri sınıflandırdıkları, kategorize ettikleri ve derecelendirdikleri için sınıflandırma, işlemi hem veri madenciliğinin temeli olarak hem de veri hazırlama aracı olarak kullanılmaktadır.

Doğru Cevap: B

Soru 82

Kümeleme analizinin temel amacı aşağıdakilerden hangisidir?

Hangi olayların eş zamanlı olarak birlikte gerçekleşebileceklerinin ortaya koyulmasıdır.

Veri seti içerisinde yer alan kayıtların birbiriyle olan ilişkilerinin incelenmesidir.

Kümeler hakkında varsayımlarda bulunulmasıdır.

Hangi kümeye ait olduğu bilinmeyen bir grup verinin, sınıflandırılarak anlamlandırılmasıdır.

Kümelerin tahmin amaçlı kullanılmasıdır.

Açıklama:

Kümeleme analizinin temel amacı, hangi kümeye ait olduğu bilinmeyen bir grup verinin, sınıflandırılarak anlamlandırılmasıdır.

Doğru Cevap: D

Soru 83

Kümeleme analizinin ilk aşaması aşağıdakilerden hangisidir?

Veri matrisinin oluşturulması

Kümelemede esas alınacak yöntemlerin belirlenmesi

Benzerlik veya uzaklık matrislerinin hesaplanması

Bir ya da iki gözlemden oluşan kümelere şüphe ile bakılması

Elde edilen sonuçların yorumlanması

Açıklama:

Doğru Cevap: A

Soru 84

Kümeleme analizinde gruplandırma neye göre yapılmaktadır?

Eş zamanlı gerçekleşmesine göre

Literatürle benzerlik göstermesine göre

Kümeleme yöntemine göre

Örnekleme göre

Benzerlik ya da farklılık ölçülerine göre

Açıklama:

Kümeleme analizinde gruplandırma, benzerlik ya da farklılık ölçülerine göre yapılır.

Doğru Cevap: E

R'de verilen
plot(x[c(“D1”,”D4”)], col=results$cluster)
komut dizilimi ile ne hedeflenmektedir?

Kümelere ait grafikler çizilir

Korelasyon değerleri eklenir

Elips çizimler yapılır

Model sonuçları grafiğe eklenir

Varyans analizi yapılır

Açıklama:

R’da Eğer D1 ve D4 değişkenlerine göre, kümelere ait grafik çizdirilmek istenirse plot(x[c(“D1”,”D4”)], col=results$cluster) komutu kullanılır. Grafik Şekil 7.19’da verilmiştir. Burada kümelerdeki birimler sırasıyla “o”, “*” ve “+” işaretleri ile gösterilmiş ve kolay anlaşılması için ise kutucuklar içerisine alınmıştır.

Doğru Cevap: A

Soru 93

Verilen R çıktısına göre son gözlem değeri hangi kümede yer almaktadır?

Açıklama:

Clustering vector: birimlerin ait oldukları kümeleri göstermektedir. BU vektör incelendiğinde son gözlem biriminin 1 numaralı kümede yer aldığı görülür.

Doğru Cevap: E

Soru 94

Verilen R çıktısına göre Brezilya hangi kümede yer almaktadır?

Açıklama:

Çıktıda brezilya bulunduğunda ait olunan küme 3 olmaktadır.

Doğru Cevap: B

Soru 95

Verilen R çıktısına göre 2 numaralı kümede kaç ülke yer almaktadır?

Açıklama:

2 numaralı kümede yer alan birimler sayıldığında (1 değerleri) 7 ülke olduğu görülebilir.

Doğru Cevap: B

Soru 96

Kümeleme analizinin ilk aşaması aşağıdakilerden hangisidir?

Veri matrisinin oluşturulması

Algoritmanın yazılması

Benzerliklerin hesaplanması

Uzaklıkların hesaplanması

Kümeleme işleminde kullanılacak yöntemin belirlenmesi

Açıklama:

İlk aşamada gözlem değerleri analize hazır hale getirilir; yani veri matrisi oluşturulur.

Doğru Cevap: A

Soru 97

Birbirine en yakın olan birimlerden yola çıkarak verilerin kümelenmesini sağlayan aşamalı yöntem aşağıdakilerden hangisidir?

Tam bağlantı kümeleme

Tek bağlantı kümeleme

Ortalama bağlantı kümeleme

Medyan bağlantı kümeleme

Küresel ortalama bağlantı kümeleme

Açıklama:

En yakın komşular olarak da bilinen yöntem, tek bağlantı kümeleme yöntemidir.

Doğru Cevap: B

Soru 98

Bir kümeleme işleminde kullanılacak değişkenlerden biri 1-280 arasında değerler alabilirken diğerleri ise 1-10 arasında değer almaktadır. Yapılan kümeleme işlemi sonrasında ranjı büyük olan değişkenin, kümelerin belirlenmesinde baskın bir rol aldığı görülmüştür. Bu duruma çözüm bulmak amacıyla aşağıdakilerden hangisi yapılabilir?

Eğitim verisini büyütme

Test verisini büyütme

Verileri standardize etme

Benzerlik ölçüsünü değiştirme

Uzaklık ölçüsünü değiştirme

Açıklama:

Farklı ölçek düzeylerinde yer alan değişkenlerden ranjı ve dolayısıyla varyansı büyük olanlar, kümeleme işlemi sırasında diğerlerini baskılayarak elde edilen sonuçlarda yanlılığa neden olabilir. Bu durumu engellemek amacıyla verilerde standardizasyon ya da dönüştürme işleminin yapılması gerekir.

Doğru Cevap: C

Soru 99

Ozan, bir web sitesi üzerinden kitap siparişi yaparken sistemin "bu kitabı alanlar şu kitapları da aldılar" mesajıyla bir kaç kitap önerisinde bulunduğunu görmüştür?
Bu algoritmanın oluşturulmasında kullanılan istatistiksel yöntem aşağıdakilerden hangisi olabilir?

Lojistik regresyon

Diskriminant analizi

Karar ağaçları

k-en yakın komşular

Regresyon

Açıklama:

Kümeleme analizine dayalı yöntemlerde bir tahmin yerine değişkenlerin benzer özelliklerine göre homojen, farklı özellikleri baz alınarak ise heterojen gruplar oluşturması beklenir. Sorudaki örnek durumda, benzer özelliklerine göre (satın alınma durumları) kitapların benzer gruplarda yer almaları nedeniyle birini alana,m diğerlerinin önerildiği söylenebilir. Doğru yanıt, en yakın komşulardır.

Doğru Cevap: D

Soru 100

Birimlerin, küme içi kareler toplamını mümkün olan en küçük değere göre belirlenmesine dayanan, aşamalı olmayan kümeleme yöntemi aşağıdakilerden hangisidir?

aşağıdakilerden hangisi veri toplama döneminde (1960) kullanılan teknolojilerden biridir?

İnternet

Devasa ölçekli veritabanı

Çok büyük veritabanları

Gelişmiş algoritmalar

Bilgisayar

Açıklama:

bu döneme ilişkin teknikler aşağıda sıralanmıştır:

Bilgisayar
• Manyetik bantlar
• Diskler.

Doğru Cevap: E

Soru 22

aşağıdakilerden hangisi veri erişimi dönemine(1980) ilişkin kullanılan teknolojilerden biridir?

Veri ambarları

Çok büyük veritabanları

Gelişmiş algoritmalar

Veri ambarları

Yapı sorgu dili (SQL)

Açıklama:

bu teknikler şu şekilde sıralanabilir:

İlişkisel veritabanı (RDBMS)
• Yapı sorgu dili (SQL)
• Açık veritabanı bağlantısı
(ODBC).

Doğru Cevap: E

Soru 23

aşağıdakilerden hangisi veri madenciliği döneminde (2000) kullanılan tekniklerden biridir?

Manyetik bantlar

Diskler

Çok boyutlu veritabanları

Devasa ölçekli veritabanı

Gelişmiş algoritmalar

Açıklama:

bu döneme ilişkin teknikler şu şekilde sıralanabilir:

Gelişmiş algoritmalar
• Çok işlemcili bilgisayarlar
• Çok büyük veritabanları.

Doğru Cevap: E

Soru 24

aşağıdakilerden hangisi veri madenciliği sürecine ilişkin adımlardan biri değildir?

Verinin elde edilmesi

Verinin saklanması ve yönetim

Veri erişiminin sağlanması

Verinin analiz edilmesi

verilerin sosyal ağlarda tartışılması

Açıklama:

Veri madenciliği,
i. Verinin elde edilmesi
ii. Verinin saklanması ve yönetimi
iii. Veri erişiminin sağlanması
iv. Verinin analiz edilmesi
v. Analiz sonuçlarının anlaşılır bir biçimde sunulması
temel adımlarından oluşan bir süreçtir.
verilerin sosyal ağlarda tartışılması

Doğru Cevap: E

Soru 25

aşağıda veri madenciliğine ilişkin verilen bilgilerden hangisi doğrudur?

amacı web belgelerinden bilgi çıkarsamaktır

Çevrimiçi veriler kullanılır

Web içerik madenciliği tekniğini kullanır

Web yapı madenciliği tekniğini kullanır

Yapay sinir ağlarını kullanır

Açıklama:

veri madenciliği şu teknikleri kullanır:

Yapay sinir ağları
• Karar ağaçları
• İlişki kuralları
• En yakın komşu yöntemi

Yapay sinir ağlarını kullanır

Doğru Cevap: E

Soru 26

aşağıdakilerden hangisi web madenciliği uygulama alanlarından biridir?

Bankacılık

Pazarlama

İmalat

Sağlık

E-öğrenme

Açıklama:

web madenciliğinin uygulama alanları şu şekildedir:

E-öğrenme
• Dijital Kütüphaneler
• E-Devlet
• Elektronik Ticaret
• E-Siyaset
• E-Demokrasi
• Güvenlik ve Suç Soruşturması vb.

Doğru Cevap: E

Soru 27

aşağıdakilerden hangisi web madenciliğinin sürecinin temel adımlarından biri değildir?

Kaynakların Tespiti

Bilgi Seçimi ve Ön İşleme

Genelleştirme

Analiz

Uzmanların Tespiti

Açıklama:

İnternet ortamından yararlı bilginin keşfi için, web madenciliği sürecini dört temel
adımda ele alabiliriz:
1. Kaynakların Tespiti: İlgilenilen konuda bilgi içeren web dokümanlarının belirlenmesi ve elde edilmesi.
2. Bilgi Seçimi ve Ön İşleme: Elde edilen kaynaklardan ihtiyaç duyulan bilginin otomatik olarak seçilmesi ve kullanılabilir hâle getirilmesi.
3. Genelleştirme: Bireysel web sitelerindeki örüntü (pattern) veya kuralların otomatik
olarak çıkarılması ve diğer web siteleri ile karşılaştırarak genellenmesi.
4. Analiz: Elde edilen genel örüntü veya kuralların doğruluklarının onaylanması ve / veya yorumlanması.
Uzmanların Tespiti

Doğru Cevap: E

Soru 28

aşağıdakilerden hangisinde web madenciliğinde veri kaynaklarından biri değildir?

İçerik verisi

Yapı verisi

Kullanım verisi

Kullanıcı profil verisi

kullanıcı erişim izni

Açıklama:

Web madenciliğinde kullanılan
verileri dört başlıkta inceleyebiliriz.
1. İçerik verisi: Web sayfalarında kullanıcının erişimine sunulan verilerdir. Bunlar
şekil, resim, grafik, görüntü ve ses dosyaları gibi gerçek verilerin yanısıra, tanımlayıcı kelimeler, etiketler ve doküman özellikleri gibi verilerden oluşmaktadır. İçerik
verisi düz metin gibi yapılandırılmamış, HTML dokümanları gibi yarı yapılandırılmış veya veritabanlarından elde edilen veriler şeklindeki yapılandırılmış verileri
içerir.
2. Yapı verisi: Bir web sitesinin içeriğinde yer alan sayfaların birbirleri ile veya diğer
web siteleri ile olan bağlantılarının, tasarımını yapan kişi tarafından nasıl düzenlendiğine dair bilgilerdir. Yapı verisi, bir web sayfasının oluşturulmasında kullanılan HTML veya XML etiketleri gibi veri yapıları olabileceği gibi, sayfalar hatta
siteler arası bağlantıları sağlayan linkler şeklindeki veri yapıları da olabilir. Daha
kısa bir ifadeyle yapı
kullanıcı erişim izni

Doğru Cevap: E

Soru 29

aşağıdakilerden hangisi web kullanım madenciliğinin temel uygulama alanlarından biri değildir?

Kişiselleştirme

Sistem Geliştirme

Web Sitesi Güncelleme

İş Zekası

veri tabanı güncelleme

Açıklama:

Web Kullanım Madenciliği Temel Uygulama Alanları şu şekilde sıralanabilir:

Kişiselleştirme (Personalization)

Sistem Geliştirme (System Improvement)

Web Sitesi Güncelleme (Site Modification)

İş Zekası (Business Intelligence)

Kullanım Karakteristiği (Usage Characterization).

veri tabanı güncelleme

Doğru Cevap: E

Soru 30

aşağıdakilerden hangisi web içerik madenciliğinin uygulama alanlarından biri değildir?

Kümeleme

Sınıflandırma

Örüntü ve kural çıkarımı

Kullanıcı modellemesi

Pazarlama

Açıklama:

bu uygulama alanları şu şekilde sıralanabilir:

Kümeleme
• Sınıflandırma
• Örüntü ve kural çıkarımı
• Kullanıcı modellemesi
• Web şeması modelleme

Pazarlama

Doğru Cevap: E

Soru 31

“Web bağlantı yapılarının modellenmesi” hangi web madenciliği
sınıfının temel amacıdır?

Sosyal medya madenciliği

Web yapı madenciliği

Web profil madenciliği

Web içerik madenciliği

Web kullanım madenciliği

Açıklama:

Web yapı madenciliği, web sitesinin yapısal özetini yani kendi içerisindeki sayfalarla ve diğer
sitelerle olan bağlantı yapılarını elde ederek, bu yapılardan yararlı bilginin ortaya çıkarılması
olarak tanımlanabilir. Bu sayede web sayfaları sınıflandırılabilir ve farklı web siteleri
arasındaki benzerlik ve ilişkiler ortaya çıkarılabilir. Böylece web sitelerinin verimlilik
ve kullanışlılık değerlendirmeleri yapılabilir. Web yapı madenciliği ile internet ortamında
birçok insan tarafından başvurulan ve alanında otorite olarak nitelendirilen önemli web
sayfaları da belirlenebilmektedir.

Doğru Cevap: B

Soru 32

Veri ön işleme
Örüntü keşfi
Örüntü analizi

İşlenmiş veriden önemli ve anlamlı bilgiyi ortaya çıkarabilmek adına istatistiksel analiz, ilişki kuralları, sınıflandırma analizi, kümeleme analizi. gibi veri madenciliği teknikleri kullanılması yukarıda verilen veri kullanım aşamalarının hangisi/hangileridir

III

II VE III

I ve II

Açıklama:

Örüntü keşfi
Bu aşama, veri ön işleme aşamasından geçirilmiş analize hazır olan verilere veri madenciliği tekniklerinin uygulanarak yararlı bilginin ortaya çıkarılması aşamasıdır. Bu aşamada işlenmiş veriden önemli ve anlamlı bilgiyi ortaya çıkarabilmek adına istatistiksel analiz, ilişki kuralları, sınıflandırma analizi, kümeleme analizi ve sıralı örüntüler vb. gibi veri madenciliği teknikleri kullanılır.

Doğru Cevap: B

Soru 33

aşağıdakilerden hangisi web madenciliği döneminde kullanılan teknolojilerden biridir?

Bilgisayar

Diskler

ODBC

Gelişmiş algoritmalar

www

Açıklama:

bu dönemin teknolojileri şu şekilde sıralanmaktadır:

WWW
• İnternet
• Devasa ölçekli veritabanı.

Doğru Cevap: E

Soru 34

aşağıdakilerden hangisi veri madenciliği adımlarından biri değildir?

Verinin saklanması ve yönetimi

Verinin analiz edilmesi

Verinin elde edilmesi

Veri erişiminin sağlanması

literatür taraması

Açıklama:

Doğru Cevap: E

Soru 35

aşağıdakilerden hangisi web madenciliği uygulama alanlarından biridir?

Bankacılık

Pazarlama

İmalat

Sağlık

E-Siyaset

Açıklama:

E-öğrenme
• Dijital Kütüphaneler
• E-Devlet
• Elektronik Ticaret
• E-Siyaset
• E-Demokrasi
• Güvenlik ve Suç Soruşturması vb.

Doğru Cevap: E

Soru 36

Aşağıdakilerden hangisi veri madenciliğinin zorluklarından biridir?

Web sayfalarının karmaşıklığı

Webin büyüklüğü

Bilginin bağlantısı

Bilginin dinamikliği

Ağ ayarları

Açıklama:

veri madenciliğinin zorlukları şu şekilde özetlenebilir:

Ağ ayarları
• Veri kalitesi
• Gizliliğin korunması
• Ölçeklenebilirlik
• Karmaşık ve heterojen veri

Web sayfalarının karmaşıklığı, webin büyüklüğü, bilginin bağlantısı ve bilginin dinamikliği web madenciliğinin zorluklarındandır. Doğru cevap E.

Doğru Cevap: E

Soru 37

aşağıdakilerden hangisi web madenciliği sürecinin adımlarından biri değildir?

Kaynakların Tespiti:

Bilgi Seçimi ve Ön İşleme

Genelleştirme

Analiz

yayınlama

Açıklama:

İnternet ortamından yararlı bilginin keşfi için, web madenciliği sürecini dört temel
adımda ele alabiliriz.
1. Kaynakların Tespiti: İlgilenilen konuda bilgi içeren web dokümanlarının belirlenmesi ve elde edilmesi.
2. Bilgi Seçimi ve Ön İşleme: Elde edilen kaynaklardan ihtiyaç duyulan bilginin otomatik olarak seçilmesi ve kullanılabilir hâle getirilmesi.
3. Genelleştirme: Bireysel web sitelerindeki örüntü (pattern) veya kuralların otomatik
olarak çıkarılması ve diğer web siteleri ile karşılaştırarak genellenmesi.
4. Analiz: Elde edilen genel örüntü veya kuralların doğruluklarının onaylanması ve /
veya yorumlanması.
yayınlama

Doğru Cevap: E

Soru 38

aşağıdakilerden hangisi webten bilgi çıkarma uygulamalarında karşılaşılan sorunlardan biri değildir?

Araştırılan konuyu bulma

Yararlı bilgi keşfi

İstenilen bilgiyi bulma

Bilgiyi kişiselleştirme

uygun araştırmacıyı bulma

Açıklama:

Webden bilgi çıkarım uygulamalarında genel olarak
karşılaşılan sorunlar izleyen biçimde açıklanabilir.
1. Araştırılan konuyu bulma: Webde belirli bir bilgiyi bulmak için, genellikle ya
doğrudan web belgeleri taranır ya da bir arama motoru kullanılır. Bilgiye erişim
amacıyla arama motoru kullanıldığında, araştırılan konuya ilişkin bir ya da birkaç anahtar kelime girilir ve girilen kelime(ler)le ilişkili sayfalar sıralanır. Sorgu
tabanlı internet taramalarının iki ana sorunu vardır. Birincisi konuyla alakasız
birçok sayfanın sıralanmasına neden olan düşük hassasiyet, ikincisi ise web sayfalarının indekslenme kapasitesinin azlığından kaynaklanan düşük duyarlılıktır.
Sorgu ile daha çok ilişkili sayfaların nasıl bulunacağı son yılların popüler konuları arasındadır.
2. İstenilen bilgiyi bulma: Arama motorları çoğunlukla bir ya da birkaç kelime üzerinden aramayı gerçekleştirir. Bazen bu kelime(ler) içerisinde eş sesli (sesteş) kelimelerin olmasından dolayı araştırılan konun
uygun araştırmacıyı bulma

Doğru Cevap: E

Dijital Kütüphaneler
E-Devlet
Elektronik Ticaret
Bankacılık
Hukuk

Yukarıdaki maddelerden hangileri web madenciliği uygulama alanları arasındadır?

Yalnız V

IV - V

I - II - III

II - IV - V

I - II - III - IV

Açıklama:

Uygulama alanlarına göre web ve veri madenciliği arasındaki bazı farklar bulunmaktadır.
Web Madenciliği
• E-öğrenme
• Dijital Kütüphaneler
• E-Devlet
• Elektronik Ticaret
• E-Siyaset
• E-Demokrasi
• Güvenlik ve Suç Soruşturması vb.
Veri Madenciliği
• Bankacılık
• Pazarlama
• İmalat
• Sağlık
• Sigorta
• Hukuk
• Hava yolları
• Bilgisayar donanımı ve yazılımı
• Hükümet ve savunma vb.

Doğru Cevap: C

"................................, akademik olarak yazarlar ile yayınları arasındaki ilişkiyi kurmak için yapılan alıntıları inceleyen bir araştırma alanıdır. Bir yayın başka bir yayından alıntı yaptığında bu iki yayın arasında bir ilişki veya bağlantı kurulmuş olur. Dolayısıyla bu bağlantılar incelenerek yayınların önem düzeyleri ortaya konulmaya çalışılır."
Metinde verilen boşluğa aşağıdakilerden hangisi getirilmelidir?

Örüntü analizi

Bilgi keşfi

Örüntü keşfi

Atıf analizi

Bağlantı köprüleri

Açıklama:

Doğru Cevap: D

Veri madenciliğinde gelişmiş algoritmalarla ileriye dönük çıkarmalarda bulunmaya hangi senelerde başlanılmıştır?

1960' lar

1980' lar

1990' lar

2000' ler

Günümüz

Açıklama:

Tablo 8.1' de görülebileceği gibi veri madenciliğinde gelişmiş algoritmalarla ileriye dönük çıkarmalarda bulunmaya 2000' li yıllarda başlanılmıştır.

Doğru Cevap: D

Soru 64

Web Madenciliği hakkında aşağıdakilerden hangisi yanlıştır?

Geniş bir veritabanından bilgi sağlanır.

Sunucu veritabanı 10 milyon iş içerirmesine rağmen işleme süreci kısadır.

Çevrimiçi veriler kullanılır.

Veri kişisel ve gizlidir. Ancak yetkili kullanıcı tarafından erişilebilir.

Veriler, sunucu günlükleri ve web sunucusu veritabanında saklanır.

Açıklama:

Web Madenciliğinde veri gizli değildir. Sadece kayıt dosyalarına erişebilmek için izin gerekir.

Doğru Cevap: D

Soru 65

İnternet ortamından yararlı bilginin keşfi için, web madenciliği sürecini dört temel adımda ele alabiliriz. Bu adımlar hangi şıkta doğru sırasıyla verilmiştir?

Bilgi Seçimi ve Ön İşleme - Kaynakların Tespiti - Analiz - Genelleştirme

Kaynakların Tespiti - Bilgi Seçimi ve Ön İşleme - Genelleştirme - Analiz

Bilgi Seçimi ve Ön İşleme - Kaynakların Tespiti - Genelleştirme - Analiz

Kaynakların Tespiti - Bilgi Seçimi ve Ön İşleme - Analiz - Genelleştirme

Bilgi Seçimi ve Ön İşleme - Analiz - Kaynakların Tespiti - Genelleştirme

Açıklama:

Doğru sıralama; Kaynakların Tespiti - Bilgi Seçimi ve Ön İşleme - Genelleştirme - Analiz, şeklindedir.

Doğru Cevap: B

Soru 66

Bir ağ üzerinde sunucu bilgisayarlardan hizmet alan, bilgiye erişim yetkileri sunucu tarafından belirlenen kullanıcı bilgisayarlara ............. denir.
Yukarıdaki boşluğa aşağıdaki ifadelerden hangisi gelmelidir?

Server

Vekil

İstemci

Veri tabanı

Veri ambarı

Açıklama:

Bir ağ üzerinde sunucu bilgisayarlardan hizmet alan, bilgiye erişim yetkileri sunucu tarafından belirlenen kullanıcı bilgisayarlara istemci denir.

Doğru Cevap: C

Soru 67

...........................kullanıcıların web kaynaklarına erişimleri sırasında sunucu ya da tarayıcılar tarafından kayıt altına alınan verilerdir.
Yukarı boş bırakılan yere aşağıdaki ifadelerden hangisi gelmelidir?

İçerik verisi

Yapı verisi

Kullanım verisi

Kullanıcı profili verisi

Web verisi

Açıklama:

Kullanım verisi: Kullanıcıların web kaynaklarına erişimleri sırasında sunucu ya da tarayıcılar tarafından kayıt altına alınan verilerdir.

Doğru Cevap: C

Soru 68

Web verisinin özellikleri hakkında aşağıdakilerden hangisi yanlıştır?

Web ortamındaki veri miktarı aşırı büyüklüktedir.

Web ortamındaki veri dağınık ve heterojen bir yapıdadır.

Web ortamındaki veri yapılandırılmamıştır.

Web ortamındaki veri dinamiktir.

Web ortamındaki verinin işleme süreci veri madenciliğine göre daha uzundur.

Açıklama:

Web madenciliğinde sunucu veritabanı 10 milyon iş içermesine rağmen işleme süreci kısadır. Veri madenciliğine göre daha uzun değildir.

Doğru Cevap: E

Soru 69

Web madenciliği, veri madenciliği sürecinde kullanılan web verilerinin türüne göre Web İçerik Madenciliği, Web Yapı Madenciliği ve Web Kullanım Madenciliği şeklinde sınıflandırılır. Aşağıdakilerden hangisi Web Yapı Madenciliğine bir örnektir?

Bilgi Keşfi

Kısa Metin İşleme

Atıf Analizi

Örüntü Analizi

Kişiselleştirme

Açıklama:

Atıf analizi, akademik olarak yazarlar ile yayınları arasındaki ilişkiyi kurmak için yapılan alıntıları inceleyen bir araştırma alanıdır. Web yapı madenciliğine örnek olarak verilebilir.

Doğru Cevap: C

Soru 70

Aşağıdakilerden hangisi bir örüntü keşfi değildir?

İstatiksel Analiz

İlişki Kuralları

Sınıflandırma Analizi

Kümeleme Analizi

Veri Ön İşleme

Açıklama:

Veri Ön İşleme web kullanım madenciliğinin farklı bir aşamasıdır. Örüntü keşfinin bir türü değildir.

Doğru Cevap: E

Soru 71

Web İçerik Madenciliği hakkında aşağıdakilerden hangisi doğrudur?

Kullanılan veri tipi ikincildir.

Grafiksel gösterime sahiptir.

Veri görünümü etkileşimli veri yapısı şeklindedir.

İçerik verilerinden yararlı bilginin ortaya çıkarılması, keşfedilmesi amaçlanır.

Tarayıcı kayıtları ana verilerdendir.

Açıklama:

Web İçerik Madenciliğinde içerik verilerinden yararlı bilginin ortaya çıkarılması, keşfedilmesi amaçlanır.

Doğru Cevap: D

Soru 72

Web Kullanım Madenciliği hakkında aşağıdaki ifadelerden hangisi doğrudur?

Kullanılan veri tipi birincildir.

Ana veri kaynağı metin ve hiper metinlerdir.

Kullanıcı profilinin ve davranışlarının analizi hedeflenir.

Kümeleme, Sınıflandırma Örüntü ve Kural Çıkarımı uygulama alanlarındandır.

Bölgesel kapsamlıdır.

Açıklama:

Kullanıcı profilinin ve davranışlarının analizi hedeflenir.

Doğru Cevap: C

Soru 73

Elektronik ticaret
Dijital kütüphaneler
Hükümet ve savunma
Bilgisayar donanımı ve yazılımı

Yukarıdakilerden hangileri web madenciliğinin uygulama alanları arasında yer alır?

I ve II

II ve IV

I, II ve III

II, III ve IV

I, II, III ve IV

Açıklama:

Web Madenciliği Uygulama Alanları:

E-Öğrenme
Dijital Kütüphaneler
E-Devlet
Elektronik Ticaret
E-Siyaset
E-Demokrasi
Güvenlik ve Suç Soruşturması vb.

Doğru cevap A’dır.

Doğru Cevap: A

Soru 74

Ölçeklenebilirlik
Gizliliğin korunması
Karmaşık ve heterojen veri
Kullanıcı iletişiminin çeşitliliği

Yukarıdakilerden hangileri veri madenciliğinin zorlukları arasında yer alır?

I ve II

II ve IV

I, II ve III

II, III ve IV

I, II, III ve IV

Açıklama:

Veri Madenciliği Zorluklar:

Ağ ayarları
Veri kalitesi
Gizliliğin korunması
Ölçeklenebilirlik
Karmaşık ve heterojen veri

Doğru cevap C’dir.

Doğru Cevap: C

Soru 75

Aşağıdakilerden hangisi Web sayfalarında kullanıcının erişimine sunulan verilerdir?

Yapı verisi

İçerik verisi

Sunucu verisi

Kullanım verisi

Kullanıcı profil verisi

Açıklama:

İçerik verisi: Web sayfalarında kullanıcının erişimine sunulan verilerdir. Bunlar şekil, resim, grafik, görüntü ve ses dosyaları gibi gerçek verilerin yanı sıra, tanımlayıcı kelimeler, etiketler ve doküman özellikleri gibi verilerden oluşmaktadır. İçerik verisi düz metin gibi yapılandırılmamış, HTML dokümanları gibi yarı yapılandırılmış veya veritabanlarından elde edilen veriler şeklindeki yapılandırılmış verileri içerir. Doğru cevap B’dir.

Doğru Cevap: B

Soru 76

Yukarıdaki şekilde “?” ile gösterilen yere aşağıdakilerden hangisi gelmelidir?

Veri madenciliği

Web madenciliği

Metin madenciliği

Multimedya madenciliği

Sosyal medya madenciliği

Açıklama:

Doğru cevap B’dir.

Doğru Cevap: B

Soru 77

Aşağıdakilerden hangisi web sitesinin yapısal özetini yani kendi içerisindeki sayfalarla ve diğer sitelerle olan bağlantı yapılarını elde ederek, bu yapılardan yararlı bilginin ortaya çıkarılması olarak tanımlanabilir?

Veri madenciliği

Metin madenciliği

Web yapı madenciliği

Web görüş madenciliği

Multimedya madenciliği

Açıklama:

Doğru Cevap: C

Soru 78

Aşağıdakilerden hangisi veri ön işleme aşamasının alt adımları arasında yer almaz?

Verinin Belirlenmesi

İz (Yol) Tamamlama

Verinin Temizlenmesi

Oturum Bilgisinin Belirlenmesi

Kullanıcı Bilgisinin Belirlenmesi

Açıklama:

Veri ön işleme aşaması sunucularda depolanan kullanıcı erişim dosyalarının düzensiz ve karmaşık bir yapıda olmalarından ve çok büyük boyutlarda olabilmelerinden dolayı uzun bir uğraş gerektiren ve en zor aşamasıdır. Bu aşama, genel hatlarıyla ifade etmek gerekirse,

Verinin Temizlenmesi: Kullanıcı erişim dosyaları içerisinde yer alan geçerliliği olmayan veri ve gereksiz bilgilerin ayıklanması işlemidir.
Kullanıcı Bilgisinin Belirlenmesi: Web kayıt dosyalarında yer alan erişim bilgilerinin, kullanıcıların kimlik bilgilerinden ziyade, aynı kullanıcıya ait olup olmadığının tespit edilmesi işlemidir.
Oturum Bilgisinin Belirlenmesi: Kullanıcının bir web sitesine giriş-çıkışı arasında geçen süre yani bir oturumda gerçekleştirdiği davranış ve aktivitelerin kümelenmesi işlemidir.
İz (Yol) Tamamlama: Kullanıcı erişim kayıtları içerisinde çeşitli sebeplerden dolayı yer almayan eksik referansların veya kayıt dışı bağlantıların tamamlanması işlemidir.

Şeklinde dört alt adımdan oluşur. Doğru cevap A’dır.

Doğru Cevap: A

Soru 79

Aşağıdakilerden hangisi Web Kullanım Madenciliğinin uygulama alanları arasında yer alır?

Web şeması modelleme

Örüntü ve kural çıkarımı

Sınıflandırma

Kümeleme

Pazarlama

Açıklama:

Web Kullanım Madenciliği uygulama alanları:

Kullanıcı modellemesi
Web sitesi tasarımı, uyarlaması ve yönetimi
Pazarlama

Doğru cevap E’dir.

Doğru Cevap: E

Soru 80

Aşağıdakilerden hangisi R’de ilgilenilen Facebook profil verilerine erişim sağlayabilmek için kullanılan fonksiyondur?

str(veri)

fbOAuth()

c(“fb”, “veri”)

sapply(Facebook, function(x) x$getText())

search Facebook (‘veri’,resultType=”recent”)

Açıklama:

R’de ilgilenilen Facebook profil verilerine erişim sağlayabilmek için fbOAuth() fonksiyonundan yararlanılır. Doğru cevap B’dir.

Doğru Cevap: B

Soru 81

Aşağıdakilerden hangisi günümüzde kullanılmakta olan sosyal medya hizmetlerinin temel sınıfları arasında yer almaz?

Bilgilendirici

Haberler

Mesleki

Resmi

Eğitim

Açıklama:

Günümüzde kullanılmakta olan sosyal medya hizmetlerini temel olarak izleyen biçimde sınıflandırmak mümkündür.

Genel amaçlı veya arkadaş tabanlı: Bu hizmetler belirli bir konu üzerine odaklanmayan arkadaşlık temeline dayanan paylaşım hizmetleridir.
Bilgilendirici: Bu hizmetlerin amacı günlük sorunlara yanıtlar sunmaktır.
Mesleki: Bu hizmetler kariyer veya meslek planlamasında yeni fırsatlar edinmek için kullanılır.
Eğitim: Bu hizmetler öğrencinin deneyimini geliştirmek için kullanılır.
Hobiler: Bu hizmetler aynı şeylere ilgi duyan insanlar için bir buluşma noktasıdır.
Akademik: Bu hizmetler akademik ve bilimsel çalışmalar için güncel bilgi kaynağına erişim sunan hizmetlerdir.
Haberler: Bu hizmetler tüm toplumu ilgilendiren haber yayıncılığına ilişkin hizmetlerdir.

Doğru cevap D’dir.

Doğru Cevap: D

Soru 82

Aşağıdakilerden hangisi 2016 yılı başında yapılan araştırmalara göre Türkiye’de internet kullanıcılarının sosyal medya sitelerine erişim oranıdır?

%15

%35

%53

%93

Açıklama:

2016 yılı başında yapılan araştırmalara göre Türkiye’de internet kullanıcılarının %53’ü sosyal medya sitelerine erişim sağlamaktadır. Doğru cevap D’dir.

Doğru Cevap: D

Veri Madenciliği - Tüm Sorular

Ünite 1

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler

Seçenekler