“Kümeleme,bir araya getirme” seklinde Türkçe söyleyebilecegimiz Clustering kavrami veritabani açisindan “verileri bir arada tutma, kümeleme” anlaminda kullanilabilir.
Oracle bu islemi 2 yolla yapar :
i) Index Cluster
ii) Hash Cluster
Her ikisinide olusturmak için öncelikle elimize bir ”cluster” olmalidir.Varsayilan olarak olusan cluster bir “index cluster”’dir.
i) Index Cluster : Bir ya da daha fazla tabloda bulunan birbiri ile dogrudan iliskili satirlari ayni segmentte tutan yapidir.Önceden “join” yapilmis veriler olarak da düsünülebilir.Bu durumda ilgili kolonlar ile yapilacak bir sorgu daha performansli olacaktir.
CREATE CLUSTER sc_person (person_id NUMBER(10)) SIZE 512;
“sc_person” isminde bir cluster olusturduk.Sonra CREATE INDEX idx_personnel ON CLUSTER sc_person; ile “sc_person” cluster’’i üzerinde bir index cluster olusturmus olduk.
Peki bunu nasil kullanacagiz.Örnegimize bakalim :
CREATE TABLE person (
person_id NUMBER(10),
first_name VARCHAR2(25),
last_name VARCHAR2(25) NOT NULL,
active_flag VARCHAR2(1) NOT NULL)
CLUSTER sc_person (person_id);CREATE TABLE invoice (
person_id NUMBER(10),
inv_id NUMBER(10),
inv_item VARCHAR2(25) NOT NULL,
inv_date DATE NOT NULL)
CLUSTER sc_person (person_id);Bu tablolar olustugunda elimizde “person_id” alanina göre olusturulmus ve sanki her 2 tablo bu alan gore onceden join edilmis ve cikan sonuç kümesi bir arada fiziksel olarak tutuluyor seklinde bir yapi elde edilmis olur.
Anlasilacagi üzere index cluster olusturulan alan tablo ya da tablolar arasinda sık kullanilan ortak bir alan ise bu kullanim uygun olmaktadir.Ama bu avantajinin yaninda bir takim dezavantajlari da belirtmekte fayda var.Örnegin FTS(FullTableScan) olacak olursa daha cok zaman alacaktir.Insert islemi normalden daha fazla is yükü getireceginden yavas olacaktir.ii) Hash Clusters : Hash bilindigi üzere verilen bir parametreye karsilik anahtar(key) üretir.Hash Clusterda da bu sekilde.Verilen bir “cluster key” degerine karsilik olusan anahtar degeri verinin tutuldugu adresi vermektedir. (Ayni “hash key” degerine sahip satirlar birarada tutulur.)Baska bir degisle elinizde anahtar deger var ise dogrudan ilgili veriye tek I/O ile ulasmak mümkün.Normal bir indekste ise “leaf block” seviyesine inebilmek için birkaç I/O yapmak gerekiyor.
Her ne kadar kullanisli bir yapi olsa da özellikle SIZE ve HASHKEYS parametreleri düzgün set edilmedigi zaman performans olarak basinizi agritabilir.SIZE “hash key” degerine karsilik gelebilecek satirlarin tutacagi toplam alan miktarini, HASHKEYS ise tabloda tutulacak toplam kayit adedini ifade eder ve kendisinden sonra gelen en küçük asal sayi olarak Oracle tarafindan yeniden belirlenir.
CREATE CLUSTER trial_cluster (trialno NUMBER(5,0))
HASH IS trialno HASHKEYS 150;CREATE TABLE trial (trialno NUMBER(5,0) PRIMARY KEY, …)
CLUSTER trial_cluster (trialno);
Yukarida once “trial_cluster” adinda bir hash cluster olusturduk.Daha sonra “trial” tablosunda “cluster key” alani olarak “trialno” alanini gösterdik.Oracle HASHKEY olarak 157 degerini kullacaktir.”trialno” alani bir “cluster key”’dir ve Hash fonksiyonuna gönderilerek bir “hash key” üretilir.
HASHKEY degeri çok fazla verilirse hash cluster seyrek olarak dolacaktir ve FTS performansi düsecektir.Eger az verilirse de ayni degeri alan pek çok “cluster key” degeri olacaktir.Bu da yeni bloklarin kullanilmasi ve bu bloklarin birbirine baglanmasi gerekliligine yol açacaktir.Bu da daha fazla I/O ya neden olacaktir.“Cluster Key” olarak PrimaryKey alani kullanilmasi uygundur.Çünkü “Hash Key” üreten fonksiyona her seferinde farkli bir deger gönderileceginden “hash key” in tekil olma olasiligi artacaktir.Oracle ‘in “Hash Key” üreten fonksiyonu çogu kosulda güzel çalismaktadir.
Ancak PL/SQL ile kullanicida kendi Hash Key fonksiyonunu yazabilir.Her bir “Hash Key” degeri için ayni miktarda alan tutulmaktadir.örnegin hash key “101” için 4 adet satir alani ayrilmis ise “109” hash key degeri için yine 4 adet satir alani ayrilmistir.
SIZE ve HASHKEY parametrelerinin hesaplanmasi ile ilgili açiklama ve örnekleri asagidaki linkten bulabilirsiniz :
http://download-east.oracle.com/docs/cd/B19306_01/server.102/b14231/hash.htm
Hash Cluster özellikle eşitlik koşuluna uygun verileri almak için kullanılmalıdır. Bunun dısındaki koşullarda tercih edilmemelidir.Boyut olarak sürekli değişen değilde değişmeyecek olan tablolar için uygundur.Aksi halde zaman zaman cluster tekrar oluşturulmalıdır(rebuild).Ayrıca Hash Clusters,FTS yapmak için uygun değildir.