news

Senin, 15 Juni 2020

Teori Dasar Adding/reducing features dalam Machine Learning


Nah pada submodul ini kita akan membahas lebih lanjut mengenai feature engineering.

Andrew Ng, seorang profesor kecerdasan buatan dari Stanford dan pencetus Google Brain mengatakan bahwa “Menciptakan fitur-fitur yang baik adalah pekerjaan yang sulit, memakan waktu, dan membutuhkan pengetahuan seorang pakar di bidang terkait. Machine learning terapan pada dasarnya adalah rekayasa fitur.”

Berdasarkan pernyataan dari Andrew maka dapat disimpulkan, bahwa tahap rekayasa fitur merupakan salah satu tahapan yang memakan banyak waktu. Jadi, rekayasa fitur itu pastinya penting ya.
Nah, di submodul ini Anda akan dikenalkan dengan beberapa teknik lain dalam rekayasa fitur yang sudah dibahas pada modul 1.

Binning

Binning adalah pengelompokan nilai sesuai dengan batas besaran yang ditentukan. Pada binning, data dikelompokkan dalam tiap ‘bin’ sesuai dengan nilai yang cocok dengan bin tersebut. Bin sederhananya adalah sebuah kategori yang menampung nilai-nilai tertentu.
Ada beberapa jenis binning di mana salah satu contohnya adalah binning jarak. Pada binning jarak, nilai-nilai dari sebuah atribut akan dikategorikan ke dalam jumlah bin tertentu yang memiliki interval sama besar. Pada gambar dibawah dapat dilihat contoh kumpulan nilai yang dibagi menjadi 4 bin8 bin, dan 16 bin.
20200430175945f4cc1fc6bf54a840308a61a945d1ffd6.png
Binning bisa membantu untuk menghindari overfitting.

Namun binning juga mengorbankan informasi yang terkandung dari sebuah atribut sehingga, penggunaanya perlu dilakukan dengan teliti. Di bawah adalah contoh untuk melakukan binning pada dataframe Pandas.
20200430180039851092ea094e1a8c9ad20fa63fe1cbe7.png
Kunjungi tautan berikut untuk membaca binning dan jenis-jenisnya lebih lanjut ya.

Splitting

Memisahkan sebuah atribut menjadi atribut-atribut baru juga merupakan salah satu cara yang berguna. Dengan splitting, kita membuat atribut lebih dipahami sebuah model machine learning.

Contoh kasusnya adalah sebuah atribut dengan judul “ram_hardisk” yang berisi informasi mengenai besar ram dan penyimpanan dari harddisk. Kita dapat memisahkan atribut tersebut menjadi “ram” dan “storage” untuk memudahkan model mendapatkan informasi lebih banyak dari atribut baru.

Interaction feature

Kita juga bisa menciptakan atribut baru dari atribut-atribut yang ada. Contohnya kita memiliki 2 atribut yaitu “penjualan_pena_biru” dan “penjualan_pena_hitam”. Kita bisa membuat atribut baru dari dua atribut sebelumnya yaitu “penjualan_pena” ketika kita hanya membutuhkan informasi tentang penjualan pena semua warna