QUIZ PERTEMUAN 5 DATA MINING

Bagian 1. Pendahuluan

Di era modern ini, tantangan dalam meningkatkan kualitas pendidikan menjadi semakin kompleks. Salah satu indikator keberhasilan pendidikan adalah tingkat kelulusan tepat waktu dan lama masa studi mahasiswa di perguruan tinggi. Oleh karena itu, pemahaman mendalam terhadap faktor-faktor yang memengaruhi lulusan tepat waktu sangat penting. Laporan ini bertujuan untuk melakukan analisis yang mendalam terhadap faktor-faktor yang mempengaruhi lulusan tepat waktu dan lama masa studi di lingkungan akademik. Analisis dilakukan meliputi integrasi dan pembersihan data, serta mengidentifikasi tren atau pola yang mempengaruhi lulusan tepat waktu. Berikut permasalahan-permasalahan yang akan dibahas pada analisis lulusan tepat waktu.

1.     Langkah-langkah apa saja dalam integrasi dan pembersihan data serta analisis pola lulusan tepat waktu?

2.     Bagaimana hasil  analisis statistik tersebut?

Data yang digunakan yaitu data transkip_nilai dan data lulusan dari universitas. Data transkrip nilai sebanyak 256299 mencakup detail nilai yang diperoleh mahamahasiswa untuk mata kuliah yang diambil. Data transkip memiliki tipe data berikut.

Tabel 1. 1 Tipe data transkip

Variabel

Tipe Data

id

int64

nim

object

kode_mk

object

nama_mk

object

nama_mk_indo

object

nama_mk_ing

object

nilai_grade

float64

nilai_total

float64

semester

int64

sks_mk

int64

grade

object

Sedangkan data lulusan sebanyak 4542 data memberikan informasi demografis dan akademik mahamahasiswa, termasuk tanggal masuk dan lulus, serta predikat kelulusan. Data lulusan memiliki tipe data sebagai berikut.

Tabel 1. 2 Tipe data  lulusan

Variabel

Tipe Data

nim

object

prodi

object

predikat

object

tanggal_lulus

object

tgl_masuk

object

status_masuk

int64

jenis_kelamin

int64

tahun_lahir

int64

status_pegawai

int64

 

Bagian 2. Pembahasan

2.1    Integrasi dan Pembersihan data

Hal pertama yang dilakukan yaitu mengambil dataset yang akan digunakan yaitu data transkip nilai dan lulusan. Pada data transkip nilai ditandai dengan parameter df_transkip sedangkan data lulusan ditandai dengan parameter df_lulusan. Berikut tampilan lima data pertama pada masing-masing dataset.


Selanjutnya melakukan proses integrasi dan pembersihan data sebagai berikut.

2.1.1      Mencari Indeks Prestasi Semester (IPS) setiap semester permahamahasiswa

IPS merupakan hasil pencapaian di tiap semester dalam bentuk indeks prestasi. IPS dihitung dengan cara sebagai berikut.

1.     Mencari nilai kamulatif per mata kuliah pada satu semester.

2.     Setelah mendapatkan nilai kamulatif per mata kuliah, selanjutnya menjumlahkan semua nilai kamulatif selama satu semester.

3.     Selanjutnya hasil penjumlahan tersebut dibagi dengan total SKS yang diajukan selama satu semester.

Adapun pada tugas kali ini dalam menghitung IPS adalah sebagai berikut.


Pada ilustrasi kode di atas adalah membuat variabel ‘ips_df’. Kemudian pada variabel tersebut dilakukan penggabungan data transkip pada kolom ‘nim’ dan ‘semester’. Selanjutnya dilakukan perhitungan pada kolom ‘nilai_grade’ dikalikan dengan ‘sks_mk’ dan menjumlahkan hasilnya. Kemudian membagi hasil penjumlahan tersebut dengan total ‘sks_mk’  per semester. Selanjutnya hasil IPS tersebut dibulatkan menggunakan fungsi ‘round()’ menjadi dua angka di belakang koma, dan disimpan pada parameter ‘IPS’. Sehingga hasil yang didapatkan adalah sebagai berikut.


2.1.2      Menggabungkan IPS dengan data lulusan

Langkah selanjutnya adalah menggabungkan hasil perhitungan IPS pada ‘ips_df’ dengan data lulusan pada ‘df_lulusan’ dengan fungsi merge berdasarkan kolom ‘nim’. Penggabungan tersebut dilakukan di dalam variabel ‘merged_df’.

Dari penggabungan tersebut menghasilkan 36228 baris dan 11 kolom. Selanjutnya hasilnya dapat ditampilkan dengan fungsi head().

2.1.3      Mencari durasi studi mahamahasiswa

Untuk menghitung durasi studi mahamahasiswa dilakukan dengan mengurangkan ‘tanggal_lulus’ dan ‘tgl_masuk’. Namun sebelumnya telah dijelaskan bahwa ‘tanggal_lulus’ dan ‘tgl_masuk’ menggunakan tipe data object, sehingga perlu diubah menjadi datetime. Mengubah tipe data menggunakan fungsi datetime() yang ada pada pandas dengan format '%Y-%m-%d' atau tahun-bulan-lahir.

Untuk membuktikan telah terganti tipe datanya dapat dilakukan pengecekan menggunakan atribut ‘.dtypes’.

Selanjutnya menghitung durasi studi setiap mahamahasiswa dengan mengurangi ‘tanggal_masuk’ dari ‘tgl_lulus’, kemudian dibagi dengan 365 hari (satu tahun). Hasilnya dibulatkan ke satu desimal untuk mendapatkan durasi studi dalam tahun.

Selanjutnya agar lebih mudah dilakukan percabangan untuk menentukan tapat waktu atau tidak dari hasil durasi studi tersebut. Dengan Kriteria untuk lulus tepat waktu adalah jika durasi studi kurang dari atau sama dengan 4 tahun. Jika bernilai true akan menampilkan ‘tepat waktu’, sedangkan jika false menampilkan ‘tidak tepat waktu’. Kemudian akan digabungkan dengan data sebelumnya berdasarkan ‘nim’.

Hasilnya adalah sebagai berikut.

2.1.4      Pembersihan data dan hilangkan mahamahasiswa pindahan

Pembersihan data yang dilakukan meliputi pengecekan missing value dan duplikasi. Missing value menggunakan fungsi ‘isnull()’ dan ‘sum()’ untuk menjumlahkan nilai yang hilang atau kosong jika ada.

Kode tersebut menghasilkan nol (0) missing value pada setiap kolom sehingga tidak perlu penghapusan missing value. Hasilnya dapat dilihat pada gambar di bawah ini.


Berikutnya adalah pengecekan duplikasi dengan fungsi ‘duplicated()’ dan ‘sum()’ untuk menghitung jumlah data duplikat. Pada langkah ini menghasilkan nol (0) data duplikat.

Selanjutnya menghapus mahamahasiswa pindahan. Pada data ini mahamahasiswa pindahan atau tidak terdapat pada kolom ‘status_masuk’ yang terdiri dari nilai ‘0’ dan ‘1’. Pada mahamahasiswa pindahan ditandai dengan nilai ‘1’. Sehingga pada langkah kali ini, akan menghapus kolom ‘status_masuk’ yang bernilai ‘1’ dengan menggunkan fungsi drop().

Untuk mengecek apakah proses penghapusan tersebut berhasil atau tidak bisa dilakukan filtering data. Kemudian menggunakan atribut ‘.shape[0]’ untuk menghitung jumlah baris. Jika berhasil akan menampilkan jumlah nol (0).

2.1.5   Standardisasi format tanggal dan jenis kelamin

Karena format tanggal sudah diganti menjadi tipe data datetime sehingga tidak perlu dilakukan standarisasi. Selanjutnya adalah standarisasi jenis kelamin. Pada data saat ini jenis kelamin terdiri dari nilai ‘0’ dan ‘1’. Standarisasi yang akan dilakukan yaitu mengganti nilai ‘0’ menjadi ‘laki-laki’ dan ‘1’ menjadi ‘perempuan’.


Sehingga data terbarunya menjadi sebagai berikut.

2.2    Mencari tren atau pola yang mempengaruhi lulusan tepat waktu

2.2.1   Mengidentifikasi hubungan antara IPS dengan lulusan tepat waktu.

Pada langkah ini dilakukan untuk memahami apakah terdapat perbedaan signifikan dalam rata-rata nilai IPS antara mahamahasiswa yang lulus tepat waktu dan yang tidak tepat waktu. Selain itu untuk menguji keberartian statistik dari perbedaan tersebut. Pada kasus ini pengujian statistik menggunakan ‘ttest_ind’ dari pustaka ‘scipy.stats’ yang dapat dilihat pada gambar berikut.

Berdasarkan gambar kode di atas, langkah pertama memilih kolom yang diperlukan yaitu ‘IPS’ dan ‘lulus_tepat_waktu’. Selanjutnya menghitung rata-rata nilai ‘IPS’ untuk kelompok lulus tepat waktu dan tidak tepat waktu pada kolom ‘lulus_tepat_waktu’ menggunakan metode groupby. Berikutnya dilakuakn uji statistik untuk menentukan apakah terdapat perbedaan yang signifikan antara rata-rata IPS antara kedua kelompok.

Dari hasil di atas menunjukkan rata-rata IPS untuk mahamahasiswa yang lulus tepat waktu adalah 3,59 dan yang tidak lulus tepat waktu adalah 3,52. Dengan Nilai p-value dari uji t adalah 7.74 x 10(-93) atau dalam notasi ilmiah 7.74e-93. Sehingga dapat disimpulkan bahwa terdapat perbedaan yang signifikan dalam rata-rata nilai IPS antara mahamahasiswa yang lulus tepat waktu dan tidak tepat waktu. Berikut visualisasi berupa bloxplot hubungan antara IPS dan lulusan tepat waktu.

2.2.2   Analisis korelasi positif antara predikat kelulusan 'Pujian' dengan lulusan tepat waktu

Pada gambar di atas, pertama-tama dilakukan analisis frekuensi predikat berdasarkan lulus tepat waktu menggunakan crosstabulation, yang merupakan tabel kontingensi antara dua variabel kategori. Data frekuensi tersebut disimpan dalam variabel ‘predikat_time_cross’. Kemudian dilakukan uji chi-square untuk menguji independensi antara variabel-variabel tersebut dengan menggunakan fungsi stats.chi2_contingency(). Berikut hasil dari kode di atas.

Tabel 2. 1 Hasil analisis frekuensi predikat berdasarkan lulus tepat waktu

Predikat

Keterangan

Tepat Waktu

Tidak Tepat Waktu

All

-

8

32

40

Memuaskan

161

473

634

Pujian

17210

6431

23641

Sangat Memuaskan

4634

7219

11853

All

22013

14155

36168

Dengan hasil pengujian chi-square sebagai berikut.

Selanjutnya, dilakukan perhitungan proporsi lulus tepat waktu di antara yang mendapat predikat lainnya dan membandingkannya dengan proporsi lulus tepat waktu di antara siswa yang mendapat predikat 'Pujian'.

Proporsi lulus tepat waktu untuk predikat 'Pujian' dihitung sebagai jumlah mahasiswa yang lulus tepat waktu dengan predikat 'Pujian', dibagi dengan total jumlah mahasiswa yang mendapat predikat 'Pujian'. Sementara proporsi lulus tepat waktu untuk predikat lainnya dihitung sebagai jumlah mahasiswa yang lulus tepat waktu dengan predikat lainnya, dibagi dengan total jumlah mahasiswa yang mendapat predikat lainnya. Dari perhitungan di atas menghasilkan:

Dapat disimpulkan bahwa dari total 23641 mahasiswa yang mendapat predikat 'Pujian', sekitar 72.80% di antaranya lulus tepat waktu. Sementara itu, proporsi lulus tepat waktu untuk predikat lainnya adalah sekitar 38.34%. Perbandingan ini menunjukkan bahwa proporsi lulus tepat waktu yang mendapat predikat 'Pujian' jauh lebih tinggi daripada proporsi yang mendapat predikat lainnya. Dengan demikian, dapat disimpulkan bahwa terdapat korelasi positif antara predikat 'Pujian' dengan lulus tepat waktu.

 

2.2.3   Analisis durasi studi lebih pendek berkorelasi dengan predikat kelulusan yang lebih baik

Pertama data difilter terlebih dahulu untuk menghilangkan predikat '-', sehingga hanya predikat kelulusan yang valid yang dipertimbangkan. Selanjutnya, hitung rata-rata durasi studi untuk setiap predikat kelulusan menggunakan metode groupby. Setelah perhitungan akan menghasilkan berikut.

Tabel 2. 2 Hasil durasi studi dengan predikat

Predikat

Rata-rata durasi studi

Memuaskan

5.311514

Pujian

4.064828

Sangat memuaskan

4.674648

Hasilnya menunjukkan bahwa rata-rata durasi studi lebih rendah yang mendapat predikat kelulusan yang lebih tinggi, yaitu 'Pujian' dan 'Sangat Memuaskan', dibandingkan dengan siswa yang mendapat predikat 'Memuaskan'. Visualisasi durasi studi berdasarkan predikat dapat dilihat pada gambar berikut.

2.2.4   Analisis rata-rata nilai total apakah ada perbedaan signifikan dalam prestasi akademik berdasarkan jenis kelamin

Karena variabel ‘nilai_total’ masih berdasarkan matakuliah pada data transkip. Sehingga perlu dihitung berdasarkan semester agar dapat digabungkan dengan data lulusan telah diolah sebelumnya.

Sehingga hasilnya adalah sebagai berikut.

Selanjutnya adalah menghitung rata-rata nilai_total berdasarkan jenis kelamin

Hasilnya:

Dari hasil di atas dapat disimpulkan bahwa rata-rata nilai total pada laki-laki lebih tinggi yaitu sebesar 82.265 dibandingkan dengan perempuan yaitu 80.821.

Komentar

Postingan populer dari blog ini

DATA PREPARATION

SUPERVISE LEARNING (PREDIKSI) DAN ALGORITMA YANG ADA DI DALAMNYA MINIMAL 30 ALGORITMA PREDIKSI