Pengertian Dataset dan Contoh Dataset

Dataset sendiri terdiri dari 5 kategori yang terbagi menjadi 2 bagian data, 2 jenis dari dataset dan 1 tujuan dataset. 

Tujuan dari dataset adalah untuk menguji suatu metode penelitian yang dikembangkan oleh para pakar peneliti dengan public dataset maupun private dataset. Untuk lebih jelasnya kamu bisa membaca artikel tentang jenis dataset dan bagian dari dataset.

Dataset adalah sebuah kumpulan data yang bersifat sebagai himpunan data yang berasal dari informasi-informasi pada masa sebelumnya dan siap untuk dikelola menjadi sebuah informasi baru dengan menggunakan teknik pembelajaran superised learning. Dimana digunakan untuk sistem prediksi sebagai acuan pendukung keputusan.

Dataset sendiri tidak serta merta didapatkan dengan mudah, karena harus mempunyai tujuan yang bersifat Comparable, repetable dan veriviable. Jenis dataset sendiri harus bisa pilah agar bisa memilih sebuah metode apa yang nantinya akan digunakan untuk penelitian dengan menggunakan pembelajaran supervised learning. Namun, pada artikel ini juga akan tertuliskan contoh-contoh dari dataset.


Contoh Dataset Sederhana

1. Data Golf

Yang pertama adalah data golf. Data ini mungkin sudah familiar dengan data yang sering dipakai sebagai contoh dalam buku-buku yang membahas tentang mengolah data menjadi sebuah informasi dengan ilmu data mining.

Pada data golf ini akan mempresentasikan layak bermain golf ya atau tidak dengan mengambil 4 jenis atribut dari dua atribut kategorikal atau diskrit dan dua atribut beripe numerik. Pada dataset ini dengan melihat jenis datanya dan seperti yang juga tertulis pada buku karya Eko Prasetyo mampu digunakan dengan menggunakan Algoritma klasifikasi seperti Naive Bayes dan C4.5 dari keluarga Decision Tree.

2. Data Customer

Yang kedua adalah data customer. Data ini spesifiknya digunakan untuk memprediksi setiap pelanggan apakah masih setia ya tetap bertahan atau tidak. Dataset ini terdiri dari 3 atribut dari 2 atribut kategorikal dan 1 atribut numerik. Pada dataset ini akan sangat cocok bagi kamu yang masih pemula untuk belajara ilmu data mining. Dengan melihat jenis datanya. Maka algoritma yang mampu untuk mengklasifikasikan dataset ini adalah Naive Bayes, dan Decision Tree, Namun jika menurut saya adalah yang akuasinya akurat adalah dengan metode Naive Bayes dengan menggunakan fungsi gaussian.

3. Data Iris

Yang ketiga adalah data iris, Data ini merupakan data yang digunakan untuk mempridiksi spesies bunga yang terdiri dari iris-setosa, iris-versicolour dan iris verginica. Dengan mengukur empat elemen yaitu Petal Lenght, Petal Width, Sepal Lenght dan Sepat Widht. Data ini hanya terdiri dari atribut data yang bertipe numerik.

Nah, dengan melihat jenis datanya, ada beberapa algoritma atau metode yang bisa gunakan, yaitu Decision Tree, k-NN (Nearest Neighbor) dan Neural Network. 


 

Data Preparation - Pengertian, Alasan dan Langkah-Langkah yang Dilakukan

 

Pengertian data preparation

Data Preparation atau bisa disebut juga dengan data preprocessing adalah suatu proses/langkah yang dilakukan untuk membuat data mentah menjadi data yang berkualitas(input yang baik untuk data mining tools).

Mengapa data perlu di-preprocessing?

Karena dalam data mentah masih terdapat data yang :

incomplete, yaitu data yang kekurangan nilai atribut atau hanya mengandung agregat data (contoh : address = " ").

noisy, yaitu data yang masih mengandung error dan outliers (contoh : salary = -10).

inconsistent, yaitu data yang mengandung discrepansi dalam code dan nama atau singkatnya datanya tidak konsisten (contoh : dulu rating = 1,2,3 sekarang a,b,c).

 

Langkah-Langkah dalam data preparation :

1. Data Cleaning

Dalam data cleaning yang akan kita lakukan antara lain mengisi missing value, mengidentifikasi outlier, menangani data noise, mengoreksi data yang tidak konsisten, dan menyelesaikan masalah redudansi data akibat integrasi data.

 

2. Data Integration

Data integration adalah suatu langkah untuk menggabungkan data dari beberapa sumber. Data integration hanya dilakukan jika data berasal dari tempat yang berbeda-beda (sumber data tidak hanya dari 1 tempat). Langkah yang dilakukan antara lain mengintegrasikan skema, mengidentifikasi masalah entitas, dan mendeteksi sekaligus menyelesaikan konflik pada nilai data.

 

3. Data Transformation

Data transformation yaitu mengubah suatu data supaya diperoleh data yang lebih berkualitas. Yang akan dilakukan antara lain menghilangkan noise dari data (smoothing), meng-agregasi data, generalisasi data, normalisasi data, dan pembentukan atribut/fitur.

 

4. Data Reduction

Data Reduction yaitu langkah untuk mereduksi dimensi, atribut ataupun jumlah data. Yang akan dilakukan antara lain agregasi data cube, reduksi dimensi, diskretisasi, dan kompresi data.





Gambar di atas menggambarkan proses dalam metodologi CRISP-DM. Ada enam tahap berurutan yang dimulai dengan Business Understanding (Pemahaman Terhadap Bisnis), Data Understanding (Pemahaman Terhadap Data), Data Preparation (Persiapan Data), Modeling (Pemodelan), Evaluation (Evaluasi) dan Deployment (Penyebaran).

1. Business Understanding (Pemahaman Terhadap Bisnis)

Tahap pertama ini dimulai dengan memahami tujuan dan kebutuhan proyek dengan jelas dalam sudut pandang bisnis atau penelitian secara keseluruhan. Terjemahkan sasaran dan pembatasan ini ke dalam rumusan definisi masalah Data Mining. Mempersiapkan strategi awal untuk mencapai tujuan-tujuan ini. Dan terakhir, merancang apa yang akan dibangun.

2. Data Understanding (Pemahaman Terhadap Data)

Tahap kedua yakni mengumpulkan data yang diperlukan. Gunakan analisis data eksplorasi untuk memahami data secara mendalam dan menemukan wawasan awal. Mengevaluasi kualitas data. Jika perlu, pilih himpunan bagian yang menarik yang mungkin berisi pola yang dapat ditindaklanjuti.

3. Data Preparation (Persiapan Data)

Pada tahap ketiga persiapkan dari data mentah sebagai set data akhir yang akan digunakan untuk semua fase berikutnya. Pilih kasus dan variabel yang ingin dianalisis dan yang sesuai untuk analisis Anda. Melakukan pembersihan, integrasi, reduksi, dan transformasi data, sehingga siap untuk tahap pemodelan.

4. Modeling (Pemodelan)

Pada tahap modeling ini, pilih dan terapkan teknik pemodelan yang sesuai. Sesuaikan pengaturan model untuk mengoptimalkan hasil. Ingatlah bahwa seringkali, beberapa teknik berbeda dapat digunakan untuk masalah Data Mining yang sama. Jika perlu, putar kembali ke fase persiapan data untuk membawa bentuk data sesuai dengan persyaratan spesifik dari teknik Data Mining tertentu.

5. Evaluation (Evaluasi)

Pada tahap ini, akan dilakukan evaluasi terhadap kualitas dan efektivitas satu atau lebih model yang dikirim dalam fase pemodelan sebelum menempatkannya untuk digunakan di lapangan. Tentukan apakah model tersebut benar-benar mencapai tujuan yang ditetapkan pada fase pertama, yakni tahap Business Understanding. Menetapkan apakah beberapa aspek penting dari masalah bisnis atau penelitian belum diperhitungkan secara memadai. dan terakhir, mengambil keputusan berdasarkan penggunaan hasil Data Mining.

6. Deployment (Penyebaran)

Pada tahap keenam ini, pengetahuan atau informasi yang telah diperoleh akan diatur dan dipresentasikan dalam bentuk khusus sehingga dapat digunakan oleh pengguna. Memanfaatkan model yang telah dibuat tidak menandakan penyelesaian dari suati proyek. Tahap deployment bisa berbentuk pembuatan laporan yang sederhana atau menerapkan proses data mining yang berulang ke dalam perusahaan. Untuk penyebaran yang lebih kompleks, dapat menerapkan proses tersebut secara paralel di departemen lain. Pada banyak kasus, tahap deployment melibatkan konsumen, di samping analis data, karena sangat penting bagi konsumen untuk memahami tindakan apa yang harus dilakukan untuk menggunakan model yang telah dibuat.

Contoh Kasus : Kelulusan Mahasiswa di Universitas Suka Belajar

1. Business Understanding (Pemahaman Terhadap Bisnis)

Permasalahan:
• Budi adalah Rektor di Universitas Suka Belajar
• Universitas Suka Belajar memiliki masalah besar karena rasio kelulusan mahasiswa tiap angkatan sangat rendah
• Budi ingin memahami dan membuat pola dari profile mahasiswa yang bisa lulus tepat waktu dan yang tidak lulus tepat waktu
• Dengan pola tersebut, Budi bisa melakukan konseling, terapi, dan memberi peringatan dini kepada mahasiswa kemungkinan tidak lulus tepat waktu untuk memperbaiki diri, sehingga akhirnya bisa lulus tepat waktu

Tujuan:
• Menemukan pola dari mahasiswa yang lulus tepat waktu dan tidak

2. Data Understanding (Pemahaman Terhadap Data)

• Untuk menyelesaikan masalah, Budi mengambil data dari sistem informasi akademik di universitasnya

• Data-data dikumpulkan dari data profil mahasiswa dan indeks prestasi semester mahasiswa, dengan atribut seperti di bawah
1. NAMA
2. JENIS KELAMIN: Laki-Laki atau Perempuan
3. STATUS MAHASISWA: Mahasiswa atau Bekerja
4. UMUR:
5. STATUS NIKAH: Menikah atau Belum Menikah
6. IPS 1: Indeks Prestasi Semester 1
7. IPS 2: Indeks Prestasi Semester 1
8. IPS 3: Indeks Prestasi Semester 1
9. IPS 4: Indeks Prestasi Semester 1
10. IPS 5: Indeks Prestasi Semester 1
11. IPS 6: Indeks Prestasi Semester 1
12. IPS 7: Indeks Prestasi Semester 1
13. IPS 8: Indeks Prestasi Semester 1
14. IPK: Indeks Prestasi Kumulatif
15. STATUS KELULUSAN: Terlambat atau Tepat

3. Data Preparation (Persiapan Data)

 



• Terdapat 379 data mahasiswa dengan 15 atribut
• Missing Value sebayak 10 data, dan tidak terdapat data noise




• Missing Value dipecahkan dengan menambahkan data dengan nilai rata-rata
• Hasilnya adalah data bersih tanpa missing value



4. Modeling (Pemodelan)

• Modelkan dataset dengan Decision Tree
• Pola yang dihasilkan bisa berbentuk tree atau if-then


Hasil pola dari data berupa berupa decision tree (pohon keputusan)



5. Evaluation (Evaluasi)

Hasil pola dari data berupa berupa peraturan if-then



• Atribut atau faktor yang paling berpengaruh adalah Status Mahasiswa, IPS2, IPS5, IPS1
• Atribut atau faktor yang tidak berpengaruh adalah Nama, Jenis Kelamin, Umur, IPS6. IPS7, IPS8

6. Deployment (Penyebaran)

• Budi membuat program peningkatan disiplin dan pendampingan ke mahasiswa di semester awal (1-2) dan semester 5, karena faktor yang paling menentukan kelulusan mahasiswa ada di dua semester itu
• Budi membuat peraturan melarang mahasiswabekerja paruh waktu di semester awal perkuliahan, karena beresiko tinggi di kelulusan tepat waktu
• Budi membuat program kerja paruh waktu di dalam kampus, sehingga banyak pekerjaan kampus yang bisa intens ditangani, sambil mendidik mahasiswasupaya memilikipengalaman kerja. Dan yang paling penting mahasiswa tidak meninggalkan kuliah karena pekerjaan
• Budi memasukkanpola dan model yang terbentuk ke dalam sistem informasi akademik, dimana sistem dibuat cerdas, sehingga bisa mengirimkan email analisis pola secara otomatis ke mahasiswasesuai profilnya

 

 

 

 

Data preparation 

    Adalah proses mengambil data mentah dan menyiapkannya untuk diserap dalam platform analitik. Untuk mencapai tahap akhir persiapan, data harus dibersihkan, diformat, dan diubah menjadi sesuatu yang dapat dicerna oleh alat analisis. Salah satu fungsi utama data preparation adalah memastikan keakuratan dan konsistensi data mentah yang disiapkan untuk pemrosesan dan analisis. 

 Tahapan melakukan data preparation :

1. Data collection

Data yang relevan dikumpulkan dari sistem operasional, data warehousedata lake, dan sumber data lainnya. Selama langkah pengumpulan data, data scientist, anggota tim BI, professional data lainnya, serta pengguna akhir yang mengumpulkan data harus mengonfirmasi bahwa data tersebut sesuai dengan tujuan aplikasi analitik yang direncanakan.

 

2. Data discovery and profiling

Data discovery dan profiling yang berguna untuk mengeksplorasi data yang dikumpulkan. Dari eksplorasi tersebut, apa yang terkandung dalam data akan lebih mudah dipahami. Langkah-langkah yang perlu dilakukan untuk mempersiapkan data sesuai tujuan penggunaannya juga bisa ditentukan.

Langkah profiling atau pembuatan profil data bisa membantu mengidentifikasi pola, hubungan, dan atribut lain dalam data, serta mengatasi inkonsistensi, anomali, nilai yang hilang, dan masalah lain yang terdapat pada data.

 

3. Data cleansing

Data cleansing adalah proses memperbaiki kesalahan dan masalah data yang teridentifikasi guna membuat kumpulan data yang lengkap dan akurat. Misalnya, sebagai bagian dari data cleansing, data yang salah akan dihapus atau diperbaiki, nilai yang hilang akan diisi, dan entri yang tidak konsisten akan diselaraskan.

 

4. Data formatting

Setelah kumpulan data dibersihkan, data perlu diformat. Langkah ini mencakup penyelesaian masalah seperti beberapa format tanggal dalam data atau singkatan yang tidak konsisten. Ada juga kemungkinan bahwa beberapa variabel data tidak diperlukan untuk analisis, sehingga harus dihapus dari kumpulan data analisis. 

Langkah data preparation ini akan mendapat manfaat dari automasi. Langkah cleansing dan formatting harus disimpan ke dalam strategi berulang yang dapat diterapkan oleh para ilmuwan atau insinyur data ke kumpulan data serupa di masa mendatang. Misalnya, analisis bulanan data penjualan dan support kemungkinan akan memiliki sumber yang sama, sehingga langkah pembersihan dan pemformatan yang diperlukan juga akan sama setiap bulannya.

 

5. Data combining and analyzing

Saat kumpulan data telah dibersihkan dan diformat, data kemudian dapat diubah dengan digabungkan bersama kumpulan input. Setelah langkah penggabungan selesai, data siap untuk dipindahkan ke staging area data warehouse. Begitu data dimuat ke dalam staging area, ada kesempatan kedua untuk validasi.

Setelah analisis dimulai, perubahan pada kumpulan data hanya boleh dilakukan dengan sangat hati-hati. Selama analisis, algoritma biasanya disesuaikan dan dibandingkan dengan hasil lainnya. Perubahan pada data dapat mengubah hasil analisis sehingga sulit untuk menentukan apakah perbedaan hasil tersebut disebabkan oleh perubahan pada data atau algoritma.

 

6. Data validation and publishing

Pada langkah terakhir ini, rutinitas otomatis dijalankan terhadap data untuk memvalidasi konsistensi, kelengkapan, dan akurasinya. Data yang disiapkan kemudian disimpan pada data warehousedata lake, atau repositori lain dan digunakan secara langsung oleh siapa pun yang menyiapkannya. Bisa juga tersedia untuk diakses pengguna lain.

 

Contoh CRISP-DM : Analisa biaya perawatan pasien rawat inap

Business Understanding Phase : Tujuannya adalah menekan biaya perawatan pasien tanpa mengurangi kualitas pelayanan

Data Understanding Phase : Data kunjungan pasien rawat inap RSUP Cipto dengan jaminan Jamkesmas (01-01-2009 s/d 30-09-2010) -Jumlah Data 8383 pasien

Data Preparation Phase : Peneliti melalukan data cleaning hingga memilih 2022 data pasien.

Atribut : Age, Gender, Marital status, Job Class, Organisasi Unit, Mortability, Primary Diagnosa, Procedure, LOS, Cost

Modeling Phase :

Peneliti menerapkan Analisa teknik :

Attibute Importance (AI) untuk mengetahui peringkat atribut terhadap pola biaya dan kunjungan pasien

Algoritma Naive bayes memprediksi pola biaya kunjungan pasien yang akan datang

Evaluation Phase : Diterapkan model scoring untuk data yang akan di test (sample 25 pasien)

Deployment Phase : Penerapan pola biaya baru

 

 

 


Komentar