Mengenal Knowledge Discovery in Databases (KDD)

Knowledge Discovery in Databases (KDD)

Terminologi KDD adalah singkatan dari Knowledge Discovery in Databases. Istilah ini mengacu pada prosedur umum untuk menemukan pengetahuan dalam data dan menekankan aplikasi tingkat tinggi dari teknik-teknik Data Mining tertentu. Ini adalah bidang minat bagi peneliti di berbagai bidang, termasuk kecerdasan buatan, pembelajaran mesin, pengenalan pola, basis data, statistik, akuisisi pengetahuan untuk sistem ahli, dan visualisasi data.

Tujuan utama dari proses KDD adalah untuk mengekstrak informasi dari data dalam konteks basis data yang besar. Hal ini dilakukan dengan menggunakan algoritma Data Mining untuk mengidentifikasi apa yang dianggap sebagai pengetahuan.

Knowledge Discovery in Databases dianggap sebagai analisis dan pemodelan eksploratif yang diprogramkan dari repositori data yang sangat besar. KDD adalah prosedur terorganisir untuk mengenali pola-pola yang valid, berguna, dan mudah dipahami dari kumpulan data yang besar dan kompleks. Data Mining adalah akar dari prosedur KDD, termasuk penyimpulan algoritma yang menganalisis data, mengembangkan model, dan menemukan pola-pola yang sebelumnya tidak diketahui. Model tersebut digunakan untuk mengekstrak pengetahuan dari data, menganalisis data, dan memprediksi data.

Ketersediaan dan kelimpahan data saat ini membuat penemuan pengetahuan dan Data Mining menjadi masalah yang sangat penting dan dibutuhkan. Dalam perkembangan terbaru di bidang ini, tidak mengherankan bahwa berbagai teknik kini tersedia bagi para ahli dan pakar.

Proses KDD

Proses penemuan pengetahuan (digambarkan dalam gambar yang diberikan) bersifat iteratif dan interaktif, terdiri dari sembilan langkah. Proses ini iteratif pada setiap tahapannya, yang berarti bahwa kembali ke tindakan sebelumnya mungkin diperlukan. Proses ini memiliki banyak aspek yang kreatif dalam arti bahwa seseorang tidak dapat menyajikan satu formula atau membuat klasifikasi ilmiah lengkap untuk keputusan yang tepat untuk setiap langkah dan jenis aplikasi. Oleh karena itu, penting untuk memahami proses dan persyaratan serta kemungkinan yang berbeda di setiap tahap.

Proses dimulai dengan menentukan tujuan KDD dan berakhir dengan implementasi pengetahuan yang ditemukan. Pada saat itu, lingkaran ditutup, dan Data Mining Aktif dimulai. Selanjutnya, perubahan perlu dilakukan dalam domain aplikasi. Misalnya, menawarkan fitur-fitur yang berbeda kepada pengguna ponsel untuk mengurangi tingkat keluar. Ini menutup lingkaran, dan dampaknya kemudian diukur pada repositori data baru, dan proses KDD dimulai lagi. Berikut adalah deskripsi singkat dari sembilan langkah proses KDD, dimulai dengan langkah manajerial:

Mengenal Knowledge Discovery in Databases (KDD)

1. Membangun pemahaman domain aplikasi

Ini adalah langkah awal yang penting. Ini membangun situasi untuk memahami apa yang harus dilakukan dengan berbagai keputusan seperti transformasi, algoritma, representasi, dll. Mereka yang bertanggung jawab atas proyek KDD harus memahami dan menentukan tujuan pengguna akhir dan lingkungan di mana proses penemuan pengetahuan akan terjadi (termasuk pengetahuan sebelumnya yang relevan).

2. Memilih dan membuat data set di mana penemuan akan dilakukan

Setelah ditentukan tujuan, data yang akan digunakan untuk proses penemuan pengetahuan harus ditentukan. Ini meliputi menemukan data yang tersedia, memperoleh data yang relevan, dan kemudian mengintegrasikan semua data untuk penemuan pengetahuan menjadi satu set yang melibatkan kualitas yang akan dipertimbangkan untuk proses tersebut. Proses ini penting karena Data Mining belajar dan menemukan dari data yang tersedia. Ini merupakan dasar bukti untuk membangun model. Jika beberapa atribut penting hilang, maka seluruh studi dapat tidak berhasil dari segi ini. Mengenai hal ini, semakin banyak atribut yang dipertimbangkan maka semakin baik pemahaman tentang fenomena tersebut. Di sisi lain, untuk mengorganisir, mengumpulkan, dan mengoperasikan repositori data yang canggih, memerlukan biaya yang mahal, dan ada kesepakatan untuk memahami fenomena secara terbaik. Kesepakatan ini merujuk pada aspek di mana aspek interaktif dan iteratif dari KDD terjadi. Ini dimulai dengan set data terbaik yang tersedia dan kemudian diperluas dan diamati dampaknya dalam hal penemuan pengetahuan dan pemodelan.

3. Pra-pemrosesan dan pembersihan data

Pada langkah ini, keandalan data ditingkatkan. Ini mencakup pembersihan data, seperti penanganan kuantitas yang hilang dan penghapusan noise atau outlier. Hal ini mungkin melibatkan teknik statistik yang kompleks atau menggunakan algoritma Data Mining dalam konteks ini. Misalnya, ketika seseorang curiga bahwa atribut tertentu kurang andal atau memiliki banyak data yang hilang, maka atribut ini dapat menjadi objek algoritma yang diawasi Data Mining. Model prediksi untuk atribut tersebut akan dibuat, dan kemudian data yang hilang dapat diprediksi. Sejauh mana seseorang memperhatikan level ini tergantung pada banyak faktor. Namun, mempelajari aspek ini penting dan seringkali mengungkapkan sendiri bagi sistem data perusahaan.

4. Transformasi Data

Pada tahap ini, data yang sesuai untuk Data Mining disiapkan dan dikembangkan. Teknik yang digunakan di sini meliputi pengurangan dimensi (misalnya, pemilihan fitur dan ekstraksi, dan pengambilan sampel catatan), juga transformasi atribut (misalnya, diskritisasi atribut numerik dan transformasi fungsional). Tahap ini dapat sangat penting untuk keberhasilan seluruh proyek KDD dan biasanya sangat spesifik untuk proyek tersebut. Misalnya, dalam penilaian medis, rasio atribut mungkin sering menjadi faktor yang paling signifikan dan bukan setiap atribut secara individual. Dalam bisnis, kita mungkin perlu mempertimbangkan dampak di luar kendali kita serta upaya dan masalah sementara. Misalnya, mempelajari dampak akumulasi iklan. Namun, jika kita tidak menggunakan transformasi yang tepat pada awalnya, maka kita mungkin memperoleh hasil yang mengejutkan yang mengarahkan kita tentang transformasi yang diperlukan pada iterasi berikutnya. Oleh karena itu, proses KDD berlanjut dan memunculkan pemahaman tentang transformasi yang dibutuhkan.

5. Prediksi dan deskripsi

Sekarang kita siap untuk memutuskan jenis Data Mining yang akan digunakan, misalnya klasifikasi, regresi, clustering, dll. Ini tergantung pada tujuan KDD dan langkah-langkah sebelumnya. Ada dua tujuan utama dalam Data Mining, yaitu prediksi dan deskripsi. Prediksi biasanya disebut sebagai Data Mining yang terawasi, sementara Data Mining deskriptif mencakup aspek Data Mining yang tidak terawasi dan visualisasi. Kebanyakan teknik Data Mining bergantung pada pembelajaran induktif, di mana model dibangun secara eksplisit atau implisit dengan menggeneralisasi dari jumlah model pelatihan yang memadai. Asumsi dasar pendekatan induktif adalah bahwa model pelatihan berlaku untuk kasus di masa depan. Teknik ini juga mempertimbangkan tingkat meta-learning untuk set data yang tersedia.

6. Memilih algoritma Data Mining

Setelah memiliki teknik, kami sekarang memilih strategi. Tahap ini meliputi memilih teknik tertentu yang akan digunakan untuk mencari pola yang melibatkan banyak inducer. Misalnya, mempertimbangkan presisi versus kejelasan, yang pertama lebih baik dengan jaringan saraf, sementara yang terakhir lebih baik dengan pohon keputusan. Untuk setiap sistem meta-learning, ada beberapa kemungkinan cara untuk berhasil. Meta-learning fokus pada menjelaskan apa yang membuat algoritma Data Mining berhasil atau tidak dalam masalah tertentu. Oleh karena itu, pendekatan ini mencoba memahami situasi di mana algoritma Data Mining paling cocok. Setiap algoritma memiliki parameter dan strategi pembelajaran, seperti validasi silang sepuluh lipat atau pembagian lain untuk pelatihan dan pengujian.

7. Pemanfaatan algoritma Data Mining

Pada akhirnya, tahap implementasi algoritma Data Mining tercapai. Pada tahap ini, kita mungkin perlu menggunakan algoritma tersebut beberapa kali hingga mendapatkan hasil yang memuaskan. Sebagai contoh, dengan mengubah parameter kontrol algoritma, seperti jumlah minimum instance dalam satu leaf dari decision tree.

8. Evaluasi

Pada tahap ini, kita mengevaluasi dan menafsirkan pola, aturan, dan keandalan yang ditemukan sesuai dengan tujuan yang telah ditentukan pada langkah pertama. Di sini, kita mempertimbangkan langkah preprocessing dan pengaruhnya terhadap hasil algoritma Data Mining. Sebagai contoh, memasukkan suatu fitur pada langkah 4, dan mengulang dari sana. Tahap ini berfokus pada kejelasan dan kegunaan model yang dihasilkan. Pada tahap ini, pengetahuan yang diidentifikasi juga dicatat untuk digunakan di kemudian hari. Tahap terakhir adalah penggunaan, umpan balik secara keseluruhan, dan hasil penemuan yang diperoleh dari Data Mining.

9. Penggunaan pengetahuan yang ditemukan

Sekarang, kita sudah siap untuk memasukkan pengetahuan yang ditemukan ke dalam sistem lain untuk tindakan lebih lanjut. Pengetahuan tersebut menjadi efektif dalam artian bahwa kita dapat membuat perubahan pada sistem dan mengukur dampaknya. Keberhasilan tahap ini menentukan efektivitas dari keseluruhan proses KDD. Ada banyak tantangan pada tahap ini, seperti kehilangan "kondisi laboratorium" di mana kita bekerja. Sebagai contoh, pengetahuan ditemukan dari representasi statis tertentu, biasanya dalam bentuk kumpulan data, tetapi sekarang data menjadi dinamis. Struktur data dapat berubah, sejumlah data menjadi tidak tersedia, dan domain data mungkin berubah, seperti atribut yang mungkin memiliki nilai yang sebelumnya tidak diharapkan.

Seputar Dunia Informatika