top of page
bg-grid 1.png

Cara Praktis Menggunakan Values Count di Pandas

Yuk, cari tahu cara praktis menggunakan values count di Pandas!

Data Analytics

RevoU Staff

Mau Belajar

Data Analytics

Belajar di RevoU! Dapatkan skill digital paling in-demand langsung dari praktisi terbaik di bidangnya. Kelas online 100% LIVE, 1:1 career coaching, dan akses ke Community Hub dengan 12500+ member selamanya untuk support perkembangan karir kamu!

Dalam analisis data di Python, values count merupakan fungsi yang sering digunakan untuk menghitung frekuensi atau jumlah kemunculan setiap nilai unik dalam sebuah kolom DataFrame.

Fungsi ini sangat berguna saat kamu ingin mengidentifikasi tren, ketidakseimbangan, dan kejanggalan dalam data hanya dengan beberapa baris kode.

Apa yang membuat value_counts() begitu unik?

Ini bukan sembarang fungsi penghitungan—ia diintegrasikan dalam Pandas untuk mengoptimalkan dan mempercepat analisis data. Dengan value_counts(), kamu bisa melihat secara jelas berapa kali setiap nilai muncul dalam kolom dataset.

Mari kita telusuri lebih dalam bagaimana value_counts() bekerja, mengapa kamu perlu menggunakannya, dan beberapa tips praktis untuk mendapatkan hasil maksimal dari fungsi ini. Siap untuk menyelami lebih detail? Ikuti artikel berikut!

Mengapa Menggunakan Values Count?

Menggunakan values_count dalam analisis data menawarkan berbagai manfaat yang bisa meningkatkan efektivitas dan efisiensi dalam mengolah data, termasuk:

  • Memahami distribusi data: values_count membantu memahami seberapa sering setiap nilai muncul dalam dataset. Ini berguna untuk menganalisis sebaran atau distribusi data, yang bisa memberi informasi tentang tren, kecenderungan, atau anomali dalam data.

  • Analisis eksploratif secara cepat: untuk analis yang membutuhkan pemahaman cepat tentang data baru, values_count berguna dalam mendapatkan gambaran tentang fitur-fitur penting dalam dataset, tanpa memerlukan visualisasi atau operasi yang lebih kompleks.

  • Mendukung pengambilan keputusan: dengan mengetahui frekuensi kemunculan data, pengambilan keputusan berbasis data akan mendapatkan lebih banyak informasi. Analisis ini menunjukkan apa yang paling umum atau populer, membantu perusahaan merencanakan sumber daya atau strategi marketing.

  • Menghitung total data yang berbeda: values_count juga membantu menyiapkan data untuk analisis lebih lanjut, seperti melakukan agregasi atau pengelompokan data berdasarkan frekuensi tertinggi, yang sering dipakai dalam pembuatan laporan atau analisis lanjutan.

Mengapa Menggunakan Pandas?

Menggunakan Pandas sebagai tool dalam analisis data, terutama dengan menggunakan metode values_count, memberikan beberapa keunggulan signifikan:

  • Kemudahan penggunaan: Pandas menyediakan cara yang intuitif untuk bekerja dengan data dalam format tabel. Fungsi values_count mudah diaplikasikan pada DataFrame atau Series, memungkinkan kamu cepat mendapatkan hasil tanpa perlu menulis banyak kode.

  • Integrasi dengan Python: sebagai bagian dari ekosistem Python, Pandas terintegrasi dengan baik dengan berbagai library lain seperti NumPy dan Matplotlib. Ini memudahkan untuk melakukan analisis data komprehensif, mulai dari manipulasi data sampai visualisasi.

  • Pengolahan data secara efisien: Pandas dirancang untuk bekerja dengan efisien pada dataset besar, menggunakan struktur data internal yang dioptimalkan seperti DataFrame dan Series. Ini memudahkan values_count dan operasi lainnya berjalan dengan cepat, bahkan pada data besar.

  • Fleksibilitas: Pandas menyediakan berbagai parameter dalam fungsi values_count yang memungkinkan penyesuaian perilaku penghitungan. Misalnya, kamu dapat memilih untuk mengabaikan nilai NaN atau menghitung proporsi relatif dari setiap kategori.

  • Pengolahan data missing: Pandas memiliki kemampuan yang kuat dalam menangani nilai yang hilang (missing values). Dalam values_count, kamu bisa dengan mudah mengatur untuk mengabaikan atau memasukkan nilai NaN dalam perhitungan.

  • Kemampuan agregasi dan grup data: selain menghitung frekuensi, Pandas memudahkan penggunaan data hasil values_count untuk agregasi lebih lanjut atau digabungkan dengan data lain. Hal ini bermanfaat untuk analisis lanjutan maupun persiapan data sebelum melakukan visualisasi atau model statistik.

Cara Menggunakan Values Count di Pandas

Untuk menggunakan fungsi values_count di Pandas, ikuti langkah-langkah berikut ini:

Langkah 1: import Pandas

Pertama, kamu perlu mengimpor library Pandas. Jika belum terinstal, kamu bisa menginstalnya menggunakan pip install pandas.

Setelah terinstal, import Pandas ke dalam skrip atau notebook Python kamu:

import pandas as pd

Copy

Langkah 2: buat DataFrame

Buat sebuah DataFrame yang akan kamu analisis. Kamu bisa membuatnya dari berbagai sumber data seperti file CSV, Excel, atau langsung mendefinisikannya dalam kode.

Misalnya, ada tabel data sebagai berikut:

data = {'Produk': ['Apel', 'Jeruk', 'Apel', 'Mangga', 
'Jeruk', 'Apel']} df = pd.DataFrame(data)

Copy

Langkah 3: gunakan value_counts

Gunakan fungsi value_counts() untuk menghitung jumlah kemunculan setiap nilai unik dalam kolom tertentu. Misalnya, untuk menghitung frekuensi produk dalam contoh di atas:

hasil_count = df['Produk'].value_counts() print(hasil_count)

Copy

Output:

Dalam output tersebut, kita bisa melihat bahwa 'Apel' muncul 3 kali, 'Jeruk' muncul 2 kali, dan 'Mangga' muncul 1 kali.

Langkah 4: sesuaikan parameter (opsional)

Kamu juga bisa menyesuaikan behaviour dari value_counts dengan parameter seperti dropna untuk mengabaikan atau memasukkan nilai NaN dan normalize untuk mendapatkan proporsi relatif daripada jumlah absolut.

Contoh:

# Menghitung proporsi proporsi = df['Produk'].value_counts(normalize=True)
print(proporsi)

Copy

Output:

FAQs (Frequently Asked Questions)

Bagaimana cara menggunakan value_counts() untuk kolom yang memiliki nilai NaN?

Untuk menggunakan fungsi value_counts() pada kolom yang mengandung nilai NaN di Pandas, kamu perlu memperhatikan parameter dropna.

Berikut contoh penulisannya:

df.dropna().value_counts()

Secara default, parameter dropna dalam value_counts() diatur sebagai True, yang berarti nilai NaN tidak akan dihitung sebagai kategori. Jika kamu ingin menghitung juga nilai NaN sebagai kategori tersendiri dalam hasil perhitungan, kamu harus mengatur dropna menjadi False.

Apakah value_counts() bisa digunakan pada multiple columns sekaligus?

Secara default, fungsi value_counts() di Pandas dirancang untuk bekerja pada satu Series atau satu kolom pada satu waktu. Artinya, kamu tidak dapat langsung menerapkan value_counts() pada beberapa kolom sekaligus untuk menghasilkan frekuensi gabungan dari nilai-nilai tersebut.

Namun, jika kamu ingin menganalisis frekuensi nilai dari beberapa kolom dalam satu DataFrame, kamu memiliki beberapa opsi:

  • Menerapkan value_counts() secara terpisah: kamu bisa menerapkan value_counts() secara terpisah untuk tiap kolom, kemudian menggabungkan atau membandingkan hasilnya sesuai kebutuhan.

  • Menggabungkan kolom: jika tujuanmu adalah untuk mendapatkan frekuensi nilai yang gabungan dari beberapa kolom, kamu bisa menggabungkan kolom-kolom tersebut menjadi satu Series terlebih dahulu, lalu menerapkan value_counts().

  • Menggunakan apply dan value_counts: apabila kamu ingin mendapatkan output value_counts() untuk setiap kolom dalam satu langkah, kamu bisa menggunakan metode apply() pada DataFrame.

    value_counts() secara terpisah untuk tiap kolom, kemudian menggabungkan atau membandingkan hasilnya sesuai kebutuhan.
  • Menggabungkan kolom: jika tujuanmu adalah untuk mendapatkan frekuensi nilai yang gabungan dari beberapa kolom, kamu bisa menggabungkan kolom-kolom tersebut menjadi satu Series terlebih dahulu, lalu menerapkan output apply() pada DataFrame.
bottom of page