Pengertian Dataset
Dataset sendiri terdiri dari 5 kategori yang terbagi menjadi 2 bagian data, 2 jenis dari dataset dan 1 tujuan dataset.
Tujuan dari
dataset adalah untuk menguji suatu metode penelitian yang dikembangkan oleh
para pakar peneliti dengan public dataset maupun private
dataset. Untuk lebih jelasnya kamu bisa membaca artikel tentang jenis dataset dan bagian dari dataset.
Dataset adalah
sebuah kumpulan data yang bersifat sebagai himpunan data yang berasal dari
informasi-informasi pada masa sebelumnya dan siap untuk dikelola menjadi sebuah
informasi baru dengan menggunakan teknik pembelajaran superised learning.
Dimana digunakan untuk sistem prediksi sebagai acuan pendukung keputusan.
Dataset sendiri tidak serta merta didapatkan dengan mudah,
karena harus mempunyai tujuan yang bersifat Comparable, repetable dan veriviable.
Jenis dataset sendiri harus bisa pilah agar bisa memilih sebuah metode apa yang
nantinya akan digunakan untuk penelitian dengan menggunakan pembelajaran supervised
learning. Namun, pada artikel ini juga akan tertuliskan contoh-contoh dari
dataset.
Contoh Dataset Sederhana
1. Data Golf
Yang
pertama adalah data golf. Data ini mungkin sudah familiar dengan
data yang sering dipakai sebagai contoh dalam buku-buku yang membahas tentang
mengolah data menjadi sebuah informasi dengan ilmu data mining.
Pada
data golf ini akan mempresentasikan layak bermain golf ya atau tidak dengan
mengambil 4 jenis atribut dari dua atribut
kategorikal atau diskrit dan dua atribut beripe numerik. Pada
dataset ini dengan melihat jenis datanya dan seperti yang juga tertulis pada
buku karya Eko Prasetyo mampu digunakan dengan menggunakan
Algoritma klasifikasi seperti Naive Bayes dan C4.5 dari
keluarga Decision Tree.
2. Data Customer
Yang
kedua adalah data customer. Data ini spesifiknya digunakan untuk
memprediksi setiap pelanggan apakah masih setia ya tetap
bertahan atau tidak. Dataset ini terdiri dari 3 atribut dari
2 atribut kategorikal dan 1 atribut numerik. Pada dataset ini akan sangat cocok
bagi kamu yang masih pemula untuk belajara ilmu data mining. Dengan melihat jenis datanya. Maka algoritma yang
mampu untuk mengklasifikasikan dataset ini adalah Naive Bayes, dan Decision
Tree, Namun jika menurut saya adalah yang akuasinya akurat adalah dengan
metode Naive Bayes dengan menggunakan fungsi gaussian.
3. Data Iris
Yang
ketiga adalah data iris, Data ini merupakan data yang digunakan
untuk mempridiksi spesies bunga yang terdiri dari iris-setosa,
iris-versicolour dan iris verginica. Dengan mengukur empat elemen
yaitu Petal Lenght, Petal Width, Sepal Lenght dan Sepat Widht. Data
ini hanya terdiri dari atribut data yang bertipe numerik.
Nah,
dengan melihat jenis datanya, ada beberapa algoritma atau metode yang bisa
gunakan, yaitu Decision Tree, k-NN (Nearest Neighbor) dan Neural
Network.
Data
Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan
Pengertian data preparation
Data Preparation atau bisa disebut juga
dengan data preprocessing adalah suatu proses/langkah yang dilakukan untuk
membuat data mentah menjadi data yang berkualitas(input yang baik untuk data
mining tools).
Mengapa
data perlu di-preprocessing?
Karena dalam data mentah masih terdapat
data yang :
incomplete, yaitu data yang kekurangan
nilai atribut atau hanya mengandung agregat data (contoh : address = "
").
noisy, yaitu data yang masih mengandung
error dan outliers (contoh : salary = -10).
inconsistent, yaitu data yang mengandung
discrepansi dalam code dan nama atau singkatnya datanya tidak konsisten (contoh
: dulu rating = 1,2,3 sekarang a,b,c).
Langkah-Langkah dalam data preparation :
1. Data Cleaning
Dalam data cleaning yang akan kita lakukan
antara lain mengisi missing value, mengidentifikasi outlier, menangani data
noise, mengoreksi data yang tidak konsisten, dan menyelesaikan masalah
redudansi data akibat integrasi data.
2. Data Integration
Data integration adalah suatu langkah
untuk menggabungkan data dari beberapa sumber. Data integration hanya dilakukan
jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari 1
tempat). Langkah yang dilakukan antara lain mengintegrasikan skema,
mengidentifikasi masalah entitas, dan mendeteksi sekaligus menyelesaikan
konflik pada nilai data.
3. Data Transformation
Data transformation yaitu mengubah suatu
data supaya diperoleh data yang lebih berkualitas. Yang akan dilakukan antara
lain menghilangkan noise dari data (smoothing), meng-agregasi data,
generalisasi data, normalisasi data, dan pembentukan atribut/fitur.
4. Data Reduction
Data Reduction yaitu langkah untuk
mereduksi dimensi, atribut ataupun jumlah data. Yang akan dilakukan antara lain
agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi data.
Gambar di atas menggambarkan proses dalam metodologi CRISP-DM. Ada enam tahap berurutan yang dimulai dengan Business Understanding (Pemahaman Terhadap Bisnis), Data Understanding (Pemahaman Terhadap Data), Data Preparation (Persiapan Data), Modeling (Pemodelan), Evaluation (Evaluasi) dan Deployment (Penyebaran).
1. Business
Understanding (Pemahaman Terhadap Bisnis)
Tahap pertama ini dimulai dengan memahami tujuan dan kebutuhan proyek
dengan jelas dalam sudut pandang bisnis atau penelitian secara keseluruhan.
Terjemahkan sasaran dan pembatasan ini ke dalam rumusan definisi masalah Data
Mining. Mempersiapkan strategi awal untuk mencapai tujuan-tujuan ini. Dan
terakhir, merancang apa yang akan dibangun.
2. Data Understanding
(Pemahaman Terhadap Data)
Tahap kedua yakni mengumpulkan data yang diperlukan. Gunakan analisis
data eksplorasi untuk memahami data secara mendalam dan menemukan wawasan awal.
Mengevaluasi kualitas data. Jika perlu, pilih himpunan bagian yang menarik yang
mungkin berisi pola yang dapat ditindaklanjuti.
3. Data Preparation
(Persiapan Data)
Pada tahap ketiga persiapkan dari data mentah sebagai set data akhir
yang akan digunakan untuk semua fase berikutnya. Pilih kasus dan variabel yang
ingin dianalisis dan yang sesuai untuk analisis Anda. Melakukan pembersihan,
integrasi, reduksi, dan transformasi data, sehingga siap untuk tahap pemodelan.
4. Modeling
(Pemodelan)
Pada tahap modeling ini, pilih dan terapkan teknik pemodelan yang
sesuai. Sesuaikan pengaturan model untuk mengoptimalkan hasil. Ingatlah bahwa
seringkali, beberapa teknik berbeda dapat digunakan untuk masalah Data Mining
yang sama. Jika perlu, putar kembali ke fase persiapan data untuk membawa
bentuk data sesuai dengan persyaratan spesifik dari teknik Data Mining
tertentu.
5. Evaluation
(Evaluasi)
Pada tahap ini, akan dilakukan evaluasi terhadap kualitas dan
efektivitas satu atau lebih model yang dikirim dalam fase pemodelan sebelum
menempatkannya untuk digunakan di lapangan. Tentukan apakah model tersebut
benar-benar mencapai tujuan yang ditetapkan pada fase pertama, yakni tahap
Business Understanding. Menetapkan apakah beberapa aspek penting dari masalah
bisnis atau penelitian belum diperhitungkan secara memadai. dan terakhir, mengambil
keputusan berdasarkan penggunaan hasil Data Mining.
6. Deployment
(Penyebaran)
Pada tahap keenam ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Memanfaatkan model yang telah dibuat tidak menandakan penyelesaian dari suati proyek. Tahap deployment bisa berbentuk pembuatan laporan yang sederhana atau menerapkan proses data mining yang berulang ke dalam perusahaan. Untuk penyebaran yang lebih kompleks, dapat menerapkan proses tersebut secara paralel di departemen lain. Pada banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.
Contoh Kasus :
Kelulusan Mahasiswa di Universitas Suka Belajar
1. Business
Understanding (Pemahaman Terhadap Bisnis)
Permasalahan:
• Budi adalah Rektor di Universitas Suka Belajar
• Universitas Suka Belajar memiliki masalah besar karena rasio kelulusan
mahasiswa tiap angkatan sangat rendah
• Budi ingin memahami dan membuat pola dari profile mahasiswa yang bisa lulus
tepat waktu dan yang tidak lulus tepat waktu
• Dengan pola tersebut, Budi bisa melakukan konseling, terapi, dan memberi
peringatan dini kepada mahasiswa kemungkinan tidak lulus tepat waktu untuk
memperbaiki diri, sehingga akhirnya bisa lulus tepat waktu
Tujuan:
• Menemukan pola dari mahasiswa yang lulus tepat waktu dan tidak
2. Data Understanding
(Pemahaman Terhadap Data)
• Untuk menyelesaikan masalah, Budi mengambil data dari sistem informasi
akademik di universitasnya
• Data-data dikumpulkan dari data profil mahasiswa dan indeks prestasi
semester mahasiswa, dengan atribut seperti di bawah
1. NAMA
2. JENIS KELAMIN: Laki-Laki atau Perempuan
3. STATUS MAHASISWA: Mahasiswa atau Bekerja
4. UMUR:
5. STATUS NIKAH: Menikah atau Belum Menikah
6. IPS 1: Indeks Prestasi Semester 1
7. IPS 2: Indeks Prestasi Semester 1
8. IPS 3: Indeks Prestasi Semester 1
9. IPS 4: Indeks Prestasi Semester 1
10. IPS 5: Indeks Prestasi Semester 1
11. IPS 6: Indeks Prestasi Semester 1
12. IPS 7: Indeks Prestasi Semester 1
13. IPS 8: Indeks Prestasi Semester 1
14. IPK: Indeks Prestasi Kumulatif
15. STATUS KELULUSAN: Terlambat atau Tepat
3. Data Preparation
(Persiapan Data)
• Terdapat 379 data mahasiswa dengan 15 atribut
• Missing Value sebayak 10 data, dan tidak terdapat data noise
• Missing Value dipecahkan dengan menambahkan data dengan nilai
rata-rata
• Hasilnya adalah data bersih tanpa missing value
4. Modeling
(Pemodelan)
• Modelkan dataset dengan Decision Tree
• Pola yang dihasilkan bisa berbentuk tree atau if-then
Hasil pola dari data berupa berupa decision tree (pohon keputusan)
5. Evaluation
(Evaluasi)
Hasil pola dari data berupa berupa peraturan if-then
• Atribut atau faktor yang paling berpengaruh adalah Status Mahasiswa,
IPS2, IPS5, IPS1
• Atribut atau faktor yang tidak berpengaruh adalah Nama, Jenis Kelamin, Umur,
IPS6. IPS7, IPS8
6. Deployment
(Penyebaran)
• Budi membuat program peningkatan disiplin dan pendampingan ke
mahasiswa di semester awal (1-2) dan semester 5, karena faktor yang paling
menentukan kelulusan mahasiswa ada di dua semester itu
• Budi membuat peraturan melarang mahasiswabekerja paruh waktu di semester awal
perkuliahan, karena beresiko tinggi di kelulusan tepat waktu
• Budi membuat program kerja paruh waktu di dalam kampus, sehingga banyak
pekerjaan kampus yang bisa intens ditangani, sambil mendidik mahasiswasupaya
memilikipengalaman kerja. Dan yang paling penting mahasiswa tidak meninggalkan
kuliah karena pekerjaan
• Budi memasukkanpola dan model yang terbentuk ke dalam sistem informasi
akademik, dimana sistem dibuat cerdas, sehingga bisa mengirimkan email analisis
pola secara otomatis ke mahasiswasesuai profilnya
Data preparation
Adalah proses mengambil data mentah dan menyiapkannya untuk
diserap dalam platform analitik. Untuk mencapai tahap akhir persiapan, data
harus dibersihkan, diformat, dan diubah menjadi sesuatu yang dapat dicerna oleh
alat analisis. Salah satu fungsi utama data
preparation adalah memastikan keakuratan dan
konsistensi data mentah yang disiapkan untuk pemrosesan dan analisis.
Tahapan melakukan data preparation :
1. Data collection
Data yang relevan dikumpulkan dari
sistem operasional, data warehouse, data lake, dan sumber data lainnya. Selama langkah
pengumpulan data, data scientist, anggota tim BI, professional
data lainnya, serta pengguna akhir yang mengumpulkan data harus
mengonfirmasi bahwa data tersebut sesuai dengan tujuan aplikasi analitik yang
direncanakan.
2. Data discovery and
profiling
Data discovery dan profiling yang
berguna untuk mengeksplorasi data yang dikumpulkan. Dari eksplorasi tersebut,
apa yang terkandung dalam data akan lebih mudah dipahami. Langkah-langkah yang
perlu dilakukan untuk mempersiapkan data sesuai tujuan penggunaannya juga bisa
ditentukan.
Langkah profiling atau
pembuatan profil data bisa membantu mengidentifikasi pola, hubungan, dan
atribut lain dalam data, serta mengatasi inkonsistensi, anomali, nilai yang
hilang, dan masalah lain yang terdapat pada data.
3. Data cleansing
Data cleansing adalah proses memperbaiki
kesalahan dan masalah data yang teridentifikasi guna membuat kumpulan data yang
lengkap dan akurat. Misalnya, sebagai bagian dari data cleansing,
data yang salah akan dihapus atau diperbaiki, nilai yang hilang akan diisi, dan
entri yang tidak konsisten akan diselaraskan.
4. Data formatting
Setelah kumpulan
data dibersihkan, data perlu diformat. Langkah ini mencakup penyelesaian
masalah seperti beberapa format tanggal dalam data atau singkatan yang tidak
konsisten. Ada juga kemungkinan bahwa beberapa variabel data tidak diperlukan
untuk analisis, sehingga harus dihapus dari kumpulan data analisis.
Langkah data
preparation ini akan mendapat manfaat dari automasi. Langkah cleansing dan formatting harus
disimpan ke dalam strategi berulang yang dapat diterapkan oleh para ilmuwan
atau insinyur data ke kumpulan data serupa di masa mendatang. Misalnya,
analisis bulanan data penjualan dan support kemungkinan akan
memiliki sumber yang sama, sehingga langkah pembersihan dan pemformatan yang
diperlukan juga akan sama setiap bulannya.
5. Data combining
and analyzing
Saat kumpulan data
telah dibersihkan dan diformat, data kemudian dapat diubah dengan digabungkan
bersama kumpulan input. Setelah langkah penggabungan selesai, data
siap untuk dipindahkan ke staging area data warehouse.
Begitu data dimuat ke dalam staging area, ada kesempatan kedua
untuk validasi.
Setelah analisis
dimulai, perubahan pada kumpulan data hanya boleh dilakukan dengan sangat
hati-hati. Selama analisis, algoritma biasanya disesuaikan dan dibandingkan
dengan hasil lainnya. Perubahan pada data dapat mengubah hasil analisis
sehingga sulit untuk menentukan apakah perbedaan hasil tersebut disebabkan oleh
perubahan pada data atau algoritma.
6. Data validation
and publishing
Pada langkah
terakhir ini, rutinitas otomatis dijalankan terhadap data untuk memvalidasi
konsistensi, kelengkapan, dan akurasinya. Data yang disiapkan kemudian disimpan
pada data warehouse, data lake, atau repositori
lain dan digunakan secara langsung oleh siapa pun yang menyiapkannya. Bisa juga
tersedia untuk diakses pengguna lain.
Contoh CRISP-DM : Analisa biaya
perawatan pasien rawat inap
Business Understanding Phase : Tujuannya adalah menekan biaya
perawatan pasien tanpa mengurangi kualitas pelayanan
Data Understanding Phase : Data kunjungan pasien rawat
inap RSUP Cipto dengan jaminan Jamkesmas (01-01-2009 s/d 30-09-2010) -Jumlah
Data 8383 pasien
Data Preparation Phase : Peneliti melalukan data
cleaning hingga memilih 2022 data pasien.
Atribut : Age, Gender, Marital status,
Job Class, Organisasi Unit, Mortability, Primary Diagnosa, Procedure, LOS, Cost
Modeling Phase :
Peneliti menerapkan Analisa teknik
:
Attibute Importance (AI) untuk mengetahui peringkat
atribut terhadap pola biaya dan kunjungan pasien
Algoritma Naive bayes memprediksi pola biaya kunjungan
pasien yang akan datang
Evaluation Phase : Diterapkan model scoring untuk
data yang akan di test (sample 25 pasien)
Deployment Phase : Penerapan pola biaya baru
Komentar
Posting Komentar