Pernahkah sahabat mendengar tentang data?
Tentu pernah ya, seperti data diri, data kesehatan, data sekolah dan lain-lain.
Apa itu data?
Data adalah kumpulan fakta dan statistik mentah yang belum diolah dan memiliki makna.
Data dapat dijumpai dalam hidup sehari-hari baik di lingkungan keluarga, sekolah, tempat kerja, dll. Sebagai contoh adalah data seorang Ketua RT, himpunan data alamat warga satu RT, data seorang peserta didik, himpunan data peserta didik penerima beasiswa peserta didik, himpunan data pengeluaran harian keluarga dalam satu bulan, dan sebagainya. Dalam dunia digital saat ini, format data kian beragam, mulai dari data numerik, teks, suara, citra, video, dsb. Sumber data yang tersedia juga beragam. Sebagai contoh, dalam kehidupan sosial masyarakat data banyak tersedia di media sosial, berita media massa, kamera digital yang terpasang di berbagai lokasi untuk memantau lalu lintas, dsb.
Kata “data” sering dibedakan dengan “informasi”. Informasi adalah data yang telah diolah menjadi bentuk yang bermanfaat bagi manusia. Salah satu manfaat data adalah dalam pengambilan keputusan. Hal inilah yang dikenal sebagai pengambilan keputusan berbasis data (data driven decision making), yaitu proses menggunakan data untuk memberikan informasi dalam proses pengambilan keputusan dan memeriksa tindakan sebelum melakukannya. Sebagai contoh, persoalan sederhana seperti menentukan tempat wisata bersama teman sekelas, membutuhkan dukungan data berupa jumlah uang kas kelas, tarif sewa bus, waktu tempuh ke tempat wisata, harga tiket masuk, dan sebagainya. Persoalan-persoalan yang lebih kompleks di dunia ini pun tentu membutuhkan data yang lebih banyak lagi.
Jenis-jenis data
Data dapat dikelompokkan menjadi beberapa jenis berdasarkan cara mendapatkannya, sumber, sifat, dan waktu pengumpulan, berikut contohnya :
1. Berdasarkan sifat
- Data Kuantitatif
Data kuantitatif adalah Data yang berbentuk angka dan bisa diukur. Contoh: tinggi badan, jumlah siswa, hasil ujian. - Data Kualitatif
Data kualitatif Data yang berbentuk kategori atau deskripsi. Contoh: warna mata, jenis kelamin, status pekerjaan.
Data kualitatif tidak bisa diukur atau dihitung sebab data ini mengacu pada kata-kata atau label yang digunakan untuk menggambarkan karakteristik tertentu.
2. Berdasarkan sumber
- Data Primer: Data yang dikumpulkan langsung oleh peneliti melalui survei, wawancara, atau eksperimen.
- Data Sekunder: Data yang dikumpulkan dari sumber yang sudah ada, seperti buku, laporan, atau database publik.
Pengumpulan Data
Pengumpulan data adalah proses mendapatkan data dari berbagai sumber. Metode pengumpulan data meliputi:
- Observasi: Mengamati dan mencatat data secara langsung dari lingkungan.
- Survei: Mengumpulkan data melalui kuesioner yang diberikan kepada responden.
- Wawancara: Mengumpulkan data melalui percakapan langsung dengan responden.
- Eksperimen: Mengumpulkan data melalui pengujian atau eksperimen yang dikendalikan.
- Dokumentasi: Mengumpulkan data dari dokumen, laporan, atau arsip yang sudah ada.
Pengolahan Data
Pengolahan data adalah proses mengubah data mentah menjadi informasi yang berguna. Langkah-langkah dalam pengolahan data meliputi:
- Pembersihan Data (Data Cleaning): Menghapus atau memperbaiki data yang salah, duplikat, atau hilang.
- Pengorganisasian Data: Mengatur data ke dalam format yang mudah dianalisis, seperti tabel atau database.
- Analisis Data: Menggunakan metode statistik atau algoritma untuk menemukan pola, hubungan, atau tren dalam data.
- Interpretasi Data: Menafsirkan hasil analisis untuk mengambil kesimpulan atau membuat keputusan.
Penyajian Data
Penyajian data adalah proses menampilkan data yang sudah diolah dalam bentuk yang mudah dipahami. Bentuk penyajian data meliputi:
- Tabel: Menyajikan data dalam baris dan kolom untuk memudahkan perbandingan.
- Grafik: Visualisasi data dalam bentuk diagram batang, garis, atau lingkaran untuk menunjukkan tren atau distribusi.
- Diagram: Visualisasi yang menunjukkan hubungan antar data, seperti diagram alir atau peta pikiran (mind map).
- Infografis: Kombinasi gambar, grafik, dan teks untuk menyampaikan informasi dengan cara yang menarik dan mudah dipahami.
Privasi dan Keamanan Data
Menurut Undang-Undang Nomor 27 Tahun 2022 tentang Perlindungan Data Pribadi (UU PDP), yang dimaksud dengan data pribadi adalah data tentang orang perseorangan yang teridentifikasi atau dapat diidentifikasi secara tersendiri atau dikombinasi dengan informasi lainnya baik secara langsung maupun tidak langsung melalui sistem elektronik atau nonelektronik.
Data pribadi bisa dikategorikan menjadi 2 yaitu:
- Data pribadi yang bersifat spesifik, meliputi data dan informasi kesehatan, data biometrik, data genetika, catatan kejahatan, data anak, data keuangan pribadi; dan/atau data lainnya sesuai dengan ketentuan peraturan perundang-undangan.
- Data pribadi yang bersifat umum, meliputi nama lengkap, jenis kelamin, kewarganegaraan, agama, status perkawinan, dan/atau data pribadi yang dikombinasikan untuk mengidentifikasi seseorang.
Kualitas Data
• Akurasi: Ketepatan data dengan kenyataan.
• Relevansi: Keterkaitan data dengan tujuan analisis.
• Kelengkapan: Tidak ada data yang hilang atau tidak terisi.
• Konsistensi: Data tidak mengandung kontradiksi.
• Ketersediaan: Data dapat diakses dengan mudah.
Validitas Data
Definisi validitas : Tingkat ketepatan suatu alat ukur dalam mengukur apa yang seharusnya diukur. Data valid berarti data tersebut akurat dan sesuai dengan tujuan pengukuran. Salah satu cara menjamin validitas data adalah melalui validasi sumber data.
Pentingnya validitas data:
– Dasar pengambilan keputusan yang tepat.
– Menghindari kesimpulan yang salah.
– Meningkatkan kepercayaan terhadap hasil analisis.
Cara memvalidasi data:
– Validasi isi: Membandingkan data dengan sumber lain yang relevan.
– Validasi wajah: Menilai apakah data terlihat masuk akal.
– Validasi konstruk: Membandingkan data dengan teori yang relevan.
– Validasi kriteria terkait: Membandingkan data dengan kriteria yang sudah ditetapkan.
Berikut ini beberapa kriteria yang dapat dipergunakan untuk melakukan validasi sumber data:
- Otoritas: siapa yang mengeluarkan data tersebut? Apakah lembaga atau orangnya layak dipercaya? Apakah lembaga/orang tersebut memiliki pengalaman dalam bidang terkait data yang dikeluarkan? Bagaimana reputasinya?
- Akurasi: bandingkan data yang diperoleh dengan data atau informasi lain yang telah Anda ketahui validitasnya sebelumnya. Apakah sesuai?
- Ruang lingkup: apakah data yang diperoleh sesuai dengan ruang lingkup yang diinginkan? Misalnya Anda membutuhkan data tentang pemakai internet, perlu dipastikan data yang diperoleh adalah data pemakai internet di area (kota/provinsi/negara/ dll) yang Anda kehendaki.
- Kebaruan: apakah data yang diperoleh sesuai dengan kondisi terkini?
Langkah-langkah untuk memverifikasi data:
1. Periksa Sumber Data
- Identifikasi Sumber: Pastikan data berasal dari sumber yang kredibel dan terpercaya, seperti institusi resmi, jurnal ilmiah, atau database yang diakui.
- Otoritas Sumber: Verifikasi apakah penulis atau institusi yang menyediakan data memiliki keahlian atau otoritas di bidang tersebut.
2. Evaluasi Metodologi Pengumpulan Data
- Metode Pengumpulan: Tinjau metode pengumpulan data untuk memastikan bahwa data dikumpulkan dengan cara yang tepat dan sesuai standar.
- Waktu Pengumpulan: Pastikan data yang dikumpulkan masih relevan dengan situasi atau topik yang dibahas.
3. Konsistensi Data
- Periksa Anomali: Cek apakah ada data yang terlihat tidak konsisten atau tidak logis. Misalnya, angka yang jauh di luar rentang normal atau tidak sesuai dengan tren umum.
- Bandingkan dengan Sumber Lain: Bandingkan data dengan sumber lain yang independen. Jika data serupa ditemukan di berbagai sumber yang kredibel, kemungkinan besar data tersebut valid.
4. Periksa Kesalahan dan Anomali
- Kesalahan Input: Tinjau data untuk mencari kesalahan input seperti kesalahan ketik, nilai duplikat, atau format yang tidak sesuai.
- Data Hilang: Periksa apakah ada data yang hilang atau tidak lengkap. Data yang hilang dapat menurunkan validitas keseluruhan dataset.
5. Validasi dengan Contoh Nyata
- Sampling: Lakukan validasi terhadap sampel kecil dari data untuk memastikan bahwa data tersebut benar-benar representatif dari populasi yang lebih besar.
- Uji Validitas: Gunakan uji statistik atau analisis data untuk mengkonfirmasi bahwa data tersebut benar-benar valid dan relevan.
6. Verifikasi dengan Pihak Ketiga
- Peer Review: Jika memungkinkan, mintalah data ditinjau oleh pihak ketiga yang tidak terlibat langsung dalam pengumpulan data untuk memberikan pandangan yang objektif.
- Konfirmasi dengan Sumber: Hubungi sumber asli atau pakar di bidang tersebut untuk memastikan keakuratan data.
7. Dokumentasi dan Referensi
- Simpan Catatan: Simpan catatan atau referensi yang jelas tentang bagaimana data tersebut diverifikasi, termasuk sumber yang digunakan dan metode yang diterapkan.
- Cek Referensi: Jika data menggunakan referensi atau citasi, pastikan referensi tersebut valid dan benar-benar mendukung data yang disajikan.
8. Gunakan Alat Verifikasi
- Tools Online: Gunakan alat verifikasi data online, seperti pengecek fakta (fact-checking tools) atau perangkat lunak analisis data, untuk memeriksa keakuratan informasi.
- Cross-Referencing: Lakukan cross-referencing menggunakan database yang diakui atau sumber daya digital untuk memverifikasi data.
Siklus hidup data
Terdapat 8 langkah dalam siklus hidup data seperti tercantum dalam gambar 2.11 berikut ini (Stobierski, 2019). Disebut siklus karena informasi yang dihasilkan dari suatu proses pengolahan data bisa menjadi input bagi proses berikutnya. Dengan demikian, langkah terakhir dari proses akan menjadi umpan balik bagi langkah pertama proses berikutnya.
Gambar Siklus Hidup Data (Stobierski, 2019)
Berikut ini penjelasan langkah-langkah siklus hidup data:
1. Pembuatan (menghasilkan) data: Sebelum data bisa diolah, data harus ada terlebih dahulu. Data bisa ada karena dihasilkan oleh suatu organisasi, oleh pelanggan, maupun oleh pihak lain. Berbagai aktivitas seperti penjualan, pembelian, pendaftaran, komunikasi, dan sebagainya akan menghasilkan data. Di dunia digital sekarang ini, semakin banyak data dihasilkan.
2. Pengumpulan data: Data yang menjadi pusat perhatian dan akan diolah terlebih dahulu harus dikumpulkan. Data seperti apa yang akan dikumpulkan tergantung pada pihak yang membutuhkan informasi. Maka pihak yang membutuhkan informasi harus menetapkan data mana yang relevan dan tidak relevan dengan kebutuhannya. Data dapat dikumpulkan melalui berbagai cara, misalnya: Formulir, Survei, Wawancara dan grup diskusi terfokus (focus group discussion), dan Observasi langsung.
3. Pemrosesan data: Setelah data terkumpul, langkah selanjutnya adalah melakukan pemrosesan data yang mencakup beberapa aktivitas berikut:
a. Transformasi data yang mencakup beberapa hal berikut:
● Mengubah data mentah menjadi bentuk yang lebih mudah diakses dan bermanfaat.
● Mendigitalisasi data yang sebelumnya dalam format cetak.
● Menggabungkan data dari berbagai sumber.
b. Pembersihan data (data cleaning) yang mencakup beberapa hal berikut:
● Mengidentifikasi data yang tidak lengkap dan menetapkan apakah akan dihapus atau diisi.
● Menghapus data yang tidak relevan atau tidak diperlukan.
● Mengidentifikasi data yang menyimpang (outlier) dan menetapkan apakah akan dihapus atau justru diberi perhatian khusus (misalnya dalam kasus temuan data aliran dana yang tidak biasa pada suatu transaksi perbankan).
4. Penyimpanan data: Setelah data dikumpulkan dan diproses, maka perlu disimpan untuk kepentingan selanjutnya. Penyimpanan umumnya dilakukan dengan membuat basisdata atau dataset yang dapat disimpan di server maupun di media simpanan seperti hard disk, flash disk, dsb.
5. Manajemen data: Manajemen data, atau yang sering disebut juga manajemen basis data, mencakup pengorganisasian, penyimpanan, dan pembacaan kembali data yang diperlukan.
6. Analisis data: Analisis adalah proses untuk mendapatkan wawasan (insight) yang bermakna dari data mentah. Analis data dan ilmuwan data (data scientist) dapat menggunakan berbagai perkakas dan strategi untuk melakukan analisis. Beberapa contoh metode yang sering dipergunakan adalah pemodelan statistik, algoritma, kecerdasan buatan (artificial intelligence), dsb.
7. Visualisasi data: Visualisasi adalah proses untuk membuat representasi grafis dari informasi yang diperoleh, misalnya dalam bentuk berbagai macam jenis grafik (pie chart, bar chart, dsb), peta, infografis, dsb. Umumnya visualisasi dibuat dengan menggunakan alat bantu untuk visualisasi seperti MS Excel, Google Chart, Tableau, Python, dsb.
Visualisasi dibuat untuk mempermudah mengkomunikasikan hasil analisis ke pihak-pihak yang membutuhkan. Bentuk visualisasi tergantung pada data yang diolah serta cerita atau substansi informasi yang akan disampaikan.
8. Interpretasi: Fase interpretasi dilakukan untuk memberikan penjelasan yang logis terhadap hasil analisis dan visualisasi. Dengan demikian, hasil analisis tidak asal dipresentasikan begitu saja, melainkan disertai penjelasan berdasar kepakaran dan pemahaman orang yang menginterpretasikan. Penjelasan bisa berisi deskripsi dan apa yang dapat ditunjukkan data tersebut, serta akibat yang dapat ditimbulkannya.