Tutorial Python Fillna untuk Mengganti NaN (Missing Values)
Cari tahu tutorial Python fillna untuk mengganti missing values di sini!
Data Analytics
RevoU Staff
Memulai perjalanan dalam analisis data dengan Python sering kali dihadapkan pada tantangan umum: bagaimana menangani data yang tidak lengkap atau missing values.
Fungsi dropna() dari library Pandas menjadi salah satu toolkit paling efektif dan mudah digunakan untuk mengatasi masalah ini. Secara sederhana, dropna() membantu menghapus baris atau kolom dari DataFrame yang mengandung nilai kosong atau NaN (Not a Number).
Mengapa ini penting? Dalam analisis data, kebersihan dan keakuratan data sangat memengaruhi hasil analisis. Dengan menghilangkan nilai yang tidak ada, kamu dapat membuat keputusan lebih tepat berdasarkan data yang tersedia. Misalnya, saat menganalisis data survei konsumen, menghapus respons yang tidak lengkap dapat membantu memfokuskan analisis pada data yang lebih relevan dan terpercaya.
Di artikel berikut, kita akan menggali lebih dalam tentang bagaimana dropna() dapat membersihkan dataset kamu, memastikan analisis yang dilakukan tidak hanya lebih cepat tetapi juga lebih akurat.
Kita juga akan mengeksplorasi berbagai parameter dan teknik yang dapat digunakan dengan dropna(). Selamat membaca!
Cara Mencari Missing Values
Menemukan missing values dalam dataset merupakan langkah penting sebelum memutuskan bagaimana menanganinya.
Dalam Python, menggunakan library Pandas, kita dapat dengan mudah mengidentifikasi baris atau kolom yang memiliki nilai yang hilang. Berikut beberapa cara untuk mencari missing values di sebuah DataFrame:
Langkah 1: menggunakan isna() untuk mendeteksi missing values
Kita akan menggunakan fungsi isna() untuk mengecek di mana missing values berada dalam DataFrame.
import pandas as pd
# Membuat DataFrame
data = {
'ID Pelanggan': [1, 2, 3, 4, 5],
'Nama': ['Budi', 'Dian', 'Fajar', 'Eka', 'Citra'],
'Umur': [29, None, 35, 42, None],
'Rating': [4.5, 4.0, None, 5.0, 3.5]
}
df = pd.DataFrame(data)
# Mendeteksi missing values
missing_values = df.isna()
print(missing_values)
Output:
Langkah 2: menghitung jumlah missing values di setiap kolom
Selanjutnya, kita akan menghitung jumlah missing values untuk setiap kolom.
# Menghitung jumlah missing values di setiap kolom
missing_count = df.isna().sum()
print(missing_count)
Output:
Nama 0
Umur 2
Rating 1
Langkah 3: menampilkan baris dengan missing values
Kita juga bisa menampilkan baris-baris yang memiliki missing values untuk analisis lebih lanjut.
# Menampilkan baris dengan missing values
rows_with_missing = df[df.isna().any(axis=1)]
print(rows_with_missing)
Output:
Cara Menangani Missing Values
Dalam menangani missing values, ada beberapa metode yang dapat kamu gunakan, tergantung pada situasi dan kebutuhan analisis data.
Dengan contoh tabel data yang sama, berikut cara umum untuk mengatasi masalah ini:
#1 Menggunakan dropna
Berikut beberapa cara dasar penggunaan dropna() untuk menghapus missing values:
Menghapus baris yang mengandung missing values
Ini adalah penggunaan yang paling umum dari dropna(), menghapus setiap baris di DataFrame yang mengandung setidaknya satu nilai NaN.
import pandas as pd
data = {
'ID Pelanggan': [1, 2, 3, 4, 5],
'Nama': ['Budi', 'Dian', 'Fajar', 'Eka', 'Citra'],
'Umur': [29, None, 35, 42, None],
'Rating': [4.5, 4.0, None, 5.0, 3.5]
}
df = pd.DataFrame(data)
# Menghapus baris yang mengandung nilai NaN
df_cleaned = df.dropna()
print(df_cleaned)
Output:
Menghapus kolom yang mengandung missing values
Kamu juga bisa memilih untuk menghapus kolom yang mengandung missing values dengan menentukan axis=1.
# Menghapus kolom yang mengandung nilai NaN
df_cleaned_columns = df.dropna(axis=1)
print(df_cleaned_columns)
Output: