Apa itu Data Science? Contoh dan 5 Langkah Pengolahan Data
Data science adalah ilmu yang berhubungan dengan pengelolaan data dalam jumlah besar menggunakan tools dan teknik modern. Simak ulasan lengkapnya di sini!
data-scientist
Hasna Latifatunnisa
Untuk kamu yang masih bingung apa itu data science, tenang! Karena sebetulnya, penerapan data science sudah sering kamu temui dalam keseharian.
Apa contohnya?
Mari kita awali dengan Google reCAPTCHA.
Apakah ketika login ke G-mail atau ke website toko online kamu menemukan tombol “I’m not robot”? Setelah diklik lalu kamu diminta untuk memilih gambar mulai dari gunung, bukit, sepeda, atau lampu lalu lintas.
Itulah yang dinamakan reCAPTCHA.
reCAPTCHA adalah fitur bot detector miliki Google yang bertujuan mengidentifikasi apakah user benar manusia atau bot.
Hal ini untuk mencegah bot melakukan segala aktivitas spam di dalam website juga untuk keamanan akun user.
Uniknya, reCAPTCHA dan bot program sama-sama berasal dari penerapan algoritma machine learning. reCAPTCHA berusaha mencegah bot masuk ke dalam website dengan mengenali gelagat manusia sungguhan. Sementara bot akan mengakalinya dengan mimicking atau meniru gelagat manusia.
Penerapan machine learning di atas adalah salah satu basic yang harus dikuasai dalam pengolahan data. Maka dari itu, machine learning menjadi bagian penting dari data science.
Lalu, apa sebenarnya data science? Bagaimana metodologi yang digunakan? Apa tujuan utama dari data science?
Mari kita simak ulasan berikut ini.
Apa itu Data Science?
Data science adalah ilmu yang berhubungan dengan pengelolaan volume data besar menggunakan tools dan teknik modern guna menemukan pola-pola yang sebelumnya tidak terlihat.
Dengan data science, perusahaan/organisasi dapat memperoleh informasi penting sekaligus membuat keputusan bisnis.
Data science menggunakan algoritma machine learning, yaitu sebuah model yang berhubungan dengan pekerjaan pengolahan data, termasuk yang dilakukan seorang data scientist. Fokus dari machine learning adalah mengotomatisasi proses pengolahan data.
Mengingat data yang diolah jumlahnya sangat masif dan sulit jika diolah secara manual, maka data scientist harus mengembangkan algoritma machine learning yang bisa mengolah data secara mandiri.
Data yang digunakan untuk analisis biasanya berasal dari berbagai sumber dan disajikan menggunakan berbagai format sesuai kebutuhan.
Agar kamu memahami machine learning dengan lebih baik, mari kita lanjutkan pembahasan tentang reCAPTCHA.
Sederhananya, CAPTCHA dibuat untuk membedakan komputer dengan manusia asli.
Pada awal kemunculan, komputer belum bisa membaca CAPTCHA, maka dari itu, bentuk awal CAPTCHA hanya berupa teks keriting yang masih bisa dengan mudah dibaca dan ditebak manusia.
Seiring berjalannya waktu, bot program semakin canggih dalam mengenali CAPTCHA. Seiring
Seiring berjalannya waktu dan bot semakin pintar, dibuatlah reCAPTCHA v3 (versi terbaru). Di versi terbaru ini, user tidak akan menerima request mengisi checkbox “I’m not a robot” pada awal masuk website. User bahkan tidak akan menerima notif apa-apa karena reCAPTCHA v3 bekerja secara tak kasat mata.
Algoritma reCAPTCHA v3 mengenali user dari gerak-geriknya saat masuk ke dalam website. Misal, jika kamu masuk ke suatu website berbelanja pakaian tanpa login ke akun Gmail-mu, checkbox “I’m not a robot” baru akan muncul.
Setelah kamu membuat akun via Gmail, kemungkinan kamu akan diminta melakukan 2-Step Verification sebelum akhirnya berhasil login ke website toko pakaian tersebut.
Nah, kenapa prosesnya jadi semakin panjang dan rumit? Hal ini karena reCAPTCHA v3 mencurigai user yang berusaha masuk website tanpa login Gmail sebagai bot. Maka proses yang kamu lalui tadi akan berulang di user lain yang juga tidak login akun Gmail.
Kasus reCAPTCHA ini adalah salah satu penerapan dari data science dalam mengolah data dari aktivitas user di website dan mengotomatisasi prosesnya dengan algoritma machine learning.
{{COMPONENT_IDENTIFIER}}
Metodologi Data Science: 5 Langkah Pengolahan Data
Dirangkum dari International Business Machine (IBM), berikut alur yang tepat dalam data science methodology adalah:
#1 Mengidentifikasi dan Melakukan Pendekatan untuk Mengatasi Masalah Bisnis
Sebagai langkah awal, kamu perlu terlebih dahulu melihat masalah apa yang sebenarnya perlu diselesaikan dalam bisnis.
Dalam hal ini, diperlukan banyak pemahaman tentang bisnis, mulai dari apa yang sedang dihadapi, apa output akhir yang diberikan bisnis, hingga faktor lain apa yang bisa mengarah ke output akhir.
Dengan mempelajarinya, kamu bisa mendapatkan pemahaman yang jelas tentang bisnis.
Jika sudah selesai melakukan audit bisnis, kamu bisa mulai memilih pendekatan analitis menyesuaikan dengan masalah bisnis yang sedang dihadapi perusahaan. Analisis biasanya dimulai dengan analisis descriptive, diagnostic, predictive, dan berakhir dengan analisis perspective.
Untuk memahami lebih jauh tentang analisis tersebut, kunjungi artikel yang membahas tentang Jenis-Jenis Data Analytics.
#2 Mengumpulkan Persyaratan Data dan Menetapkan Metode Pengumpulan
Langkah kedua dalam data science methodology yaitu mengumpulkan persyaratan dan menetapkan metode pengumpulan data. Pada langkah ini, kamu harus memperhatikan format data yang harus dikumpulkan sekaligus data khusus apa yang diperlukan.
Misalnya, kamu bekerja di sektor perbankan dan perlu memperkirakan syarat seseorang untuk bisa mendapatkan pinjaman, mulai dari pendapatan bulanan, profesi, hingga usia.
Apabila kamu sudah menetapkan apa saja persyaratan yang diperlukan, kamu bisa beralih untuk mencari cara bagaimana data tersebut dikumpulkan. Sebagai contoh, kamu mengumpulkan data mentah melalui platform media sosial.
#3 Memahami dan Mempersiapkan Data
Setelah data dikumpulkan, langkah selanjutnya yang perlu dilakukan adalah memahami dan menyiapkan data.
Saat memasuki tahap pemahaman data, hal pertama yang harus kamu tanyakan adalah, “Apakah data ini mampu menjawab permasalahan yang dialami?”
Setelahnya, lakukan Exploratory Data Analytics (EDA). Dengan EDA, kamu dapat membuat visualisasi dan grafik guna menemukan hubungan antara data yang dikumpulkan.
Jika sudah memahami dengan tepat data tersebut, lanjutkanlah dengan menyiapkan data. Banyak hal yang akan dilakukan di langkah ini, seperti mengurangi data yang tidak penting, membuat data lebih mudah dibaca, mengganti data menjadi anonim, dan banyak lainnya.
Apabila manipulasi data telah dilakukan, kamu juga akan melakukan rekayasa fitur, yaitu menghubungkan data antar kolom untuk menghasilkan data baru yang bermakna dan menciptakan wawasan baru bagi perusahaan.
#4 Menghasilkan Model dan Melakukan Evaluasi
Setelah data siap digunakan, kamu dapat melanjutkan dengan pemodelan dan melakukan evaluasi. Umunya, ada dua jenis pemodelan, yakni deskriptif dan prediktif.
Pemodelan deskriptif akan menyajikan layanan apa yang mungkin diminati oleh individu/kelompok tertentu berdasarkan algoritma pengelompokan. Sementara pemodelan prediktif digunakan untuk memprediksi apa yang terjadi di masa depan berdasarkan regresi atau logistik linier dan klasifikasi algoritma.
Dengan ditetapkannya sebuah model tertentu, kamu bisa mengevaluasi apakah model tersebut sesuai dengan strategi yang ingin dijalankan.
#5 Menerapkan Model dan Mengumpulkan Feedback
Jika sudah ada model yang ditetapkan, kamu bisa mulai berangkat ke fase penerapan model, di mana model tersebut akan mulai diuji coba ke sejumlah orang untuk mendapatkan feedback dan melihat apakah model itu sesuai digunakan untuk penggunaan umum.
Dengan feedback yang didapatkan, kamu dapat menyempurnakan model lebih lanjut, mengevaluasi ulang, dan menerapkannya lagi. Artinya, fase ini akan kembali ke fase feedback hingga kamu benar-benar mendapatkan model final.
Tujuan Utama dari Data Science
Dalam dunia profesional, tujuan utama dari data science adalah sebagai berikut:
- Mendeteksi pola dalam data yang tidak terstruktur atau tidak terhubung, sehingga memungkinkan untuk membuat hipotesis dan prediksi.
- Bisnis bidang teknologi yang mendapatkan data pengguna bisa digunakan sebagai strategi untuk mengubah data tersebut menjadi informasi berharga yang menguntungkan bisnis perusahaan.
- Digunakan untuk penerapan terobosan di berbagai bidang lain, seperti transportasi. Sebagai contoh, membuat ide mobil tanpa pengemudi yang digunakan untuk mengurangi angka kecelakaan lalu lintas.
Penutup
Data science adalah ilmu yang menggabungkan keterampilan pemrograman, matematika, dan statistika untuk menghasilkan wawasan baru yang bermakna dari data. Adanya data science membuat perusahaan/organisasi dapat memperoleh informasi penting sekaligus membuat keputusan bisnis.
Para praktisi data science menerapkan algoritma machine learning ke gambar, video, audio, angka, teks, dan lainnya untuk menghasilkan suatu sistem artificial intelligence (AI). Sistem ini nantinya digunakan untuk melakukan tugas yang biasanya membutuhkan kecerdasan manusia.
Tak hanya itu, sistem ini juga bisa menghasilkan wawasan/pengetahuan yang digunakan untuk menerapkan strategi dan membuat keputusan bisnis.