Published on
Selasa, 3 September 2024

Data Science #1: Introduction

avatar
Authors
Nafal Maulana
Instagram
@nafalml

What Is Data Science?

Sebelumnya mungkin PPers (sebutan untuk sobat Pejuang Pemrograman) pernah mendengar tentang Data Science, entah itu dari media sosial, berita, ataupun percakapan orang lain.

Bagi PPers yang suka mengikuti perkembangan teknologi terkini, pasti tidak asing lagi dengan Data Science.

Sebenarnya, apa itu Data Science? Jika diartikan secara bahasa, Data Science adalah ilmu data atau bisa dikatakan ilmu yang mempelajari suatu data.

Dari cara pendefinisian istilah tersebut, bisa dikatakan bahwa seseorang yang menekuni ilmu yang digunakan untuk mempelajari dan menganalisis data, atau bisa dikatakan sebagai ilmuwan data, adalah Data Scientist.

Data Science adalah ilmu yang mempelajari dan mengembangkan suatu kumpulan data dengan menggunakan beberapa ilmu gabungan, yaitu pemahaman tentang data, matematika dan statistika, pemrograman, dan domain knowledge ataupun business knowledge.

Jadi, seorang Data Scientist harus paham bagaimana cara membaca kumpulan data, memahami suatu data, dan mengolah suatu data, karena pada dasarnya seorang Data Scientist tidak bisa terlepas dari data.

Dalam kasus-kasus tertentu, seorang Data Scientist perlu memodelkan suatu data untuk menghasilkan data-data baru yang sebelumnya mungkin belum pernah ada. Di sinilah ilmu matematika berperan besar dalam memudahkan pemodelan tersebut.

Statistika juga sangat berguna untuk menginterpretasi suatu data. Misalnya, ingin melihat nilai tengah dari suatu data, mencari rata-rata kumpulan data, mencari nilai yang paling banyak muncul dalam kumpulan data, dan lain sebagainya.

Terus, apa fungsinya pemrograman? Mungkin jika data yang diolah hanya berjumlah 10 masih bisa diolah dengan mudah. Kalau jumlah datanya 100? Mungkin masih bisa diolah meskipun memakan waktu dan tenaga yang lebih ekstra.

Bagaimana jika jumlah datanya puluhan ribu, jutaan, atau bahkan miliaran data yang harus diolah? Nah, di sinilah pemrograman dibutuhkan dalam otomatisasi pengolahan data yang sangat besar.

Seorang Data Scientist juga memerlukan pemahaman tentang bisnis dan pemahaman tentang domain di mana mereka bekerja. Karena pada akhirnya, seorang Data Scientist perlu menyelesaikan permasalahan-permasalahan di tempat mereka bekerja.

Misalkan kita ingin menerapkan Data Science di industri perikanan, maka kita perlu memahami seputar perikanan dan permasalahan-permasalahan yang ada di industri tersebut.

Contoh lainnya, misal kita diterima bekerja sebagai seorang Data Scientist di SpaceX milik Elon Musk. Tentu yang kita selesaikan adalah permasalahan yang berkaitan dengan suatu hal di luar angkasa, menganalisis performa roketnya, membuat inovasi-inovasi gila seputar antariksa.

img2.webp

Seperti penambangan energi di bulan, mencari planet pengganti bumi, dan ide gila lainnya. Mungkin itu contoh yang agak berlebihan bagi kita saat ini, tapi pada kenyataannya seorang profesional Data Scientist melakukan itu setiap harinya.

Seorang profesional tentu memulai perjalanannya dari pemula. Jadi, jangan overthinking dulu, lakukan saja sesuai hati nurani, turunkan ego, dan terus beraksi. Kita sama-sama berawal dari seorang pemula untuk menjadi profesional di bidang Data Science.

Data Science Workflow

Data Science itu suatu ilmu yang digunakan untuk menganalisis suatu data, jadi sangat luas cakupannya. Dapat dikatakan bahwa keterampilan Data Science itu dimiliki oleh seorang Data Engineer, Data Analyst, Data Scientist, ML Engineer, dan pekerjaan di bidang data lainnya.

img1.png

Berbicara soal workflow Data Science itu sangat luas. Maka dari itu, di bawah ini akan dijelaskan workflow secara umum dalam ilmu data.

1. Problem Identification

Data Science Workflow yang pertama yaitu mengidentifikasi masalah bisnis ataupun mengidentifikasi permasalahan pada suatu domain dengan metode pendekatan QAH.

Questions, Assumption, and Hypothesis atau bisa disingkat dengan QAH adalah metode sistematis yang digunakan dalam proses identifikasi masalah untuk memahami lebih dalam lagi permasalahan yang akan dipecahkan sebelum dilakukannya proses analisis data.

Berikut ini merupakan cara bagaimana masing-masing langkah pada metode QAH diaplikasikan:

Questions

Tujuan:

Untuk mengidentifikasi pertanyaan-pertanyaan yang muncul dari suatu permasalahan yang akan dipecahkan, yang nantinya akan dijawab berdasarkan data.

Assumptions

Tujuan:

Untuk membuat suatu dugaan yang digunakan sebagai landasan berpikir dalam menyelesaikan suatu permasalahan.

Hypothesis

Tujuan:

Untuk merumuskan suatu hipotesis yang dapat diuji berdasarkan Questions dan Assumptions yang telah diidentifikasi sebelumnya.

Untuk memperjelas lagi proses dari QAH, berikut penjelasan dari proses tahapan identifikasi masalah di atas:

1. Question

  • Brainstorming

    Mulailah dengan berdiskusi bersama tim atau pemangku kepentingan (stakeholders) untuk mengidentifikasi apa saja pertanyaan penting terkait masalah bisnis yang sedang dihadapi.

  • Problem Decomposition

    Pecah masalah besar menjadi pertanyaan-pertanyaan spesifik. Misalnya, jika masalah bisnis adalah "meningkatkan penjualan", pertanyaan spesifik bisa berupa: "Produk apa yang paling diminati?", "Kapan waktu penjualan tertinggi terjadi?", "Apa yang menyebabkan pelanggan berhenti berlangganan?".

  • Prioritization

    Prioritaskan pertanyaan berdasarkan dampaknya terhadap bisnis dan kemudahan dalam menjawabnya dengan data yang tersedia. Karena biaya operasional dalam pengumpulan data juga dipertimbangkan.

2. Assumption

  • Assumption Identification

    Setelah menetapkan pertanyaan, buatlah daftar asumsi yang mendasari pertanyaan tersebut. Asumsi bisa berupa keyakinan tentang perilaku pelanggan, performa produk, atau faktor eksternal yang memengaruhi bisnis.

  • Assumptions Evaluation

    Tinjau dan evaluasi apakah asumsi tersebut valid. Misalnya, asumsi bahwa "diskon selalu meningkatkan penjualan" mungkin tidak selalu benar dan harus diuji lebih lanjut.

  • Challenge Assumptions

    Tantang asumsi tersebut dengan mempertimbangkan skenario alternatif. Apakah ada data yang dapat menyangkal asumsi ini? Apa yang terjadi jika asumsi ini tidak benar?

3. Hypothesis

  • Hypothesis Formulation

    Berdasarkan pertanyaan dan asumsi, rumuskan hipotesis yang spesifik dan dapat diuji. Misalnya, dari pertanyaan "Apa yang menyebabkan pelanggan berhenti berlangganan?" dan asumsi "Pelanggan berhenti berlangganan karena harga yang tinggi", hipotesis yang dapat dirumuskan adalah: "Pelanggan akan lebih cenderung berhenti berlangganan jika harga dinaikkan lebih dari 10%."

  • Uji Hipotesis

    Tentukan metode analisis data yang akan digunakan untuk menguji hipotesis tersebut, misalnya dengan analisis statistik, A/B testing, atau machine learning.

  • Validasi Hipotesis

    Setelah analisis dilakukan, validasi apakah data mendukung hipotesis atau tidak. Jika hipotesis terbukti benar, ini dapat memberikan wawasan penting untuk keputusan bisnis. Jika tidak, mungkin perlu merumuskan hipotesis baru atau merevisi asumsi awal.

Proses ini penting karena tanpa proses ini seorang Data Scientist tidak memiliki arah dan tujuan yang jelas ketika melakukan pekerjaannya.

2. Data Preparation

Setelah PPers melakukan identifikasi masalah sehingga sudah mengetahui apa permasalahannya dan bagaimana cara penyelesaian masalah sementara, maka PPers perlu menyiapkan data yang diperlukan untuk proses analisis tingkat lanjut.

Pada tahap ini, PPers akan melakukan beberapa tahap dalam penyiapan data.

Data Collection

PPers perlu mengumpulkan data yang relevan dengan permasalahan yang sudah diidentifikasi di awal.

Data Storage

Setelah data yang dibutuhkan sudah terkumpul, maka perlu dilakukan penyimpanan data. Data dapat disimpan di berbagai sistem penyimpanan data, tergantung fungsi, struktur, dan ukuran data.

Data Cleaning

Pada tahap ini, PPers perlu memperhatikan missing data, duplikasi data, dan outliers sehingga tahu bagaimana menangani permasalahan data tersebut agar data yang digunakan lebih relevan dan akurat.

Data Transformation

Setelah itu, data juga perlu dilihat apakah harus ditransformasikan atau tidak. Transformasi data dilakukan untuk menyesuaikan format atau struktur data agar sesuai dengan kebutuhan analisis.

Data Integration

Beberapa kasus perlu melakukan data integration karena memungkinkan data yang diambil itu dari berbagai sumber yang berbeda. Data integration menggabungkan data dari berbagai sumber menjadi satu dataset yang kohesif.

Data Reduction

Yang terakhir, PPers akan melakukan data reduction yaitu melakukan seleksi fitur (variabel) untuk memilih fitur yang lebih relevan. Hal ini membantu mengurangi kompleksitas data dan meningkatkan efisiensi analisis.

3. Exploratory Data Analysis (EDA)

Exploratory Data Analysis (EDA) bertujuan untuk memahami pola, struktur, dan karakteristik data sebelum membuat model atau analisis lebih lanjut.

Pada tahap ini, berbagai teknik analisis statistik dan visualisasi digunakan untuk mengeksplorasi distribusi data, mendeteksi anomali atau outliers, serta mengidentifikasi hubungan antar variabel.

Misalnya, melalui descriptive statistics dan grafik distribusi seperti histogram atau boxplot, kita bisa melihat pola dasar dalam data, contohnya seperti distribusi rating film di Netflix.

Selain itu, korelasi antar fitur dianalisis menggunakan heatmaps atau scatter plots untuk melihat keterkaitan antar variabel, yang kemudian digunakan untuk mendeteksi hubungan penting dalam data seperti hubungan antara genre film dan popularitasnya.

Analisis ini juga mencakup deteksi outliers, analisis missing data, serta rekayasa fitur (feature engineering) untuk menciptakan informasi baru dari data yang ada.

EDA juga melibatkan eksplorasi tren dan pola yang lebih dalam, termasuk analisis deret waktu dan clustering untuk menemukan segmen-segmen dalam data.

Visualisasi data lanjutan seperti scatterplot matrix dan time series analysis membantu menggali tren yang mungkin tidak terlihat dalam analisis sederhana.

Selain itu, pengujian hipotesis digunakan untuk memvalidasi temuan awal, seperti menguji apakah pengguna yang menonton lebih banyak film cenderung memberikan rating lebih tinggi.

EDA memastikan bahwa kita memahami data dengan baik, mendeteksi masalah yang mungkin timbul, dan menyiapkan landasan yang kuat untuk tahap modeling dan pengambilan keputusan berbasis data yang lebih akurat dan relevan dengan permasalahan bisnis yang dihadapi.

4. Data Preprocessing

Tahap Data Preprocessing memastikan data bersih, terstruktur, dan siap untuk analisis lebih lanjut, yaitu pada tahap Experimentation and Prediction.

Langkah-langkah utama dalam tahap ini mencakup pembersihan data, seperti menangani data yang hilang, duplikat, dan outliers, serta memastikan data valid dan konsisten.

Sebenarnya pada tahap ini secara umum hampir sama dengan tahap Data Preparation, hanya saja tahap persiapan data ini ditujukan untuk persiapan sebelum pemrosesan data pada tahap Experimentation and Prediction.

Proses ini juga mencakup normalisasi atau standardisasi data agar fitur berada dalam skala yang sama, serta encoding untuk mengubah data kategorikal menjadi format numerik yang dapat diproses oleh algoritma.

Selain itu, transformasi data dapat dilakukan untuk mengatasi masalah rentang nilai yang terlalu luas, membuat data lebih mudah dianalisis dan diprediksi.

Tahap Data Preprocessing sangat penting untuk memastikan kualitas data sebelum memasuki tahap modeling.

5. Experimentation and Prediction

Pada tahap ini, kita akan membuat suatu pemodelan Machine Learning yang nantinya akan melewati proses pengujian dan evaluasi untuk membuat prediksi berdasarkan data yang telah diproses.

Berbagai algoritma diterapkan, seperti regresi, decision trees, atau random forest, kemudian model-model tersebut akan dilatih menggunakan data latih.

Setelah itu, model diuji menggunakan data uji untuk mengukur performa prediksi, diikuti oleh hyperparameter tuning dan cross-validation untuk mengoptimalkan model serta mencegah overfitting.

Setelah model terbaik dipilih, prediksi dibuat berdasarkan data baru, dan performanya dievaluasi menggunakan metrik seperti akurasi atau mean squared error, tergantung pada jenis masalah (klasifikasi atau regresi).

Tujuan akhirnya adalah mendapatkan prediksi yang akurat dan valid untuk mendukung pengambilan keputusan.

6. Interpretation and Recommendation

Tahap Interpretation and Recommendation adalah tahap terakhir dalam workflow Data Science yang berfokus pada memahami hasil model dan mengkomunikasikan wawasan yang diperoleh kepada pemangku kepentingan atau stakeholders.

Pada tahap interpretasi, Data Scientist menganalisis bagaimana berbagai variabel mempengaruhi hasil akhir dan menggunakan visualisasi untuk menjelaskan temuan secara jelas kepada audiens non-teknis.

Berdasarkan analisis ini, rekomendasi tindakan dibuat dengan mempertimbangkan tujuan bisnis yang lebih luas.

Tujuan utama dari tahap ini adalah mengubah wawasan yang dihasilkan oleh model menjadi tindakan nyata yang berdampak positif pada kinerja bisnis.

Data Science Uses and Applications

Semua bidang ataupun sektor yang berkaitan dengan data pasti menerapkan disiplin ilmu data, contohnya dalam sektor industri, politik, hiburan, finansial, dan masih banyak lagi.

Berikut ini merupakan contoh penerapan Data Science dalam beberapa sektor utama:

1. Business and Marketing

Data Science di sektor bisnis dan pemasaran membantu perusahaan memahami perilaku pelanggan, tren pasar, dan mengoptimalkan strategi penjualan.

Dengan menggunakan analisis data, perusahaan dapat mempersonalisasi penawaran kepada pelanggan, meningkatkan pengalaman pelanggan, dan meramalkan penjualan berdasarkan pola sebelumnya.

Misalnya, perusahaan e-commerce menggunakan algoritma machine learning untuk merekomendasikan produk kepada pelanggan berdasarkan riwayat pembelian dan preferensi mereka.

2. Healthcare

Di sektor kesehatan, Data Science digunakan untuk diagnosis penyakit, prediksi kondisi medis, dan pengembangan pengobatan yang dipersonalisasi.

Rumah sakit menggunakan data pasien untuk mengidentifikasi risiko kesehatan dan merancang intervensi preventif.

Selain itu, Data Science membantu dalam manajemen rumah sakit dengan mengoptimalkan alokasi sumber daya dan meningkatkan efisiensi operasi rumah sakit.

Misalnya, teknologi AI dapat membantu dokter mendeteksi penyakit seperti kanker lebih awal dengan menganalisis data medis secara mendalam.

3. Finance

Sektor keuangan mengandalkan Data Science untuk deteksi penipuan, manajemen risiko, dan pengambilan keputusan investasi.

Algoritma machine learning mampu mendeteksi pola yang mencurigakan dalam transaksi keuangan, membantu perusahaan mencegah penipuan secara real-time.

Selain itu, analisis data keuangan digunakan oleh bank dan perusahaan asuransi untuk menilai risiko kredit dan merancang strategi investasi yang lebih akurat dan tepat sasaran.

4. Media and Entertainment

Perusahaan media dan hiburan menggunakan Data Science untuk menganalisis perilaku penonton dan memberikan rekomendasi konten yang disesuaikan dengan preferensi pengguna.

Algoritma AI digunakan untuk membuat rekomendasi film, acara TV, atau musik berdasarkan riwayat tontonan dan aktivitas pengguna.

Platform streaming seperti Netflix dan Spotify mengandalkan Data Science untuk meningkatkan pengalaman pengguna dan mempertahankan keterlibatan mereka.

5. Transportation and Logistics

Dalam sektor transportasi dan logistik, Data Science digunakan untuk mengoptimalkan rute pengiriman, mengelola inventaris, dan meningkatkan efisiensi operasional.

Data real-time dari kendaraan dan infrastruktur transportasi dianalisis untuk memprediksi kemacetan lalu lintas, mengurangi biaya operasional, dan meningkatkan kepuasan pelanggan.

Teknologi pemeliharaan prediktif juga digunakan untuk memprediksi kapan peralatan transportasi akan membutuhkan pemeliharaan, sehingga mengurangi downtime.

6. Agriculture

Data Science di sektor pertanian memungkinkan penggunaan teknologi pertanian presisi, di mana data digunakan untuk memaksimalkan hasil panen sambil mengurangi penggunaan air, pupuk, dan pestisida.

Data sensor tanah, cuaca, dan tanaman dianalisis untuk memberikan petunjuk kepada petani tentang kapan waktu terbaik untuk menanam, menyirami, atau memanen.

Selain itu, Data Science juga membantu dalam memantau kualitas lingkungan, seperti kualitas udara dan air, serta dalam mengatasi tantangan perubahan iklim dengan lebih baik.

Jobs Offered in Data Science

1. Data Engineer

Seorang Data Engineer bertanggung jawab atas pembangunan dan pemeliharaan infrastruktur data yang digunakan oleh organisasi.

Mereka merancang dan mengelola pipeline data yang bertugas mengumpulkan, membersihkan, dan memproses data agar dapat digunakan oleh tim lainnya.

Data Engineer bekerja dengan teknologi big data seperti Hadoop dan Spark, serta membangun arsitektur data yang efisien dan skalabel.

Mereka juga memastikan bahwa data yang diproses dapat diakses dengan cepat, konsisten, dan tetap aman.

2. Data Analyst

Seorang Data Analyst berfokus pada analisis data untuk mendukung keputusan bisnis sehari-hari.

Mereka mengelola dan menganalisis dataset, membuat laporan, dan visualisasi untuk menemukan pola dan tren yang relevan bagi perusahaan.

Dengan menggunakan alat visualisasi seperti Tableau atau Power BI, mereka menyampaikan wawasan data kepada para stakeholders.

Selain itu, Data Analyst bekerja dengan SQL dan pemrograman dasar seperti Python atau R untuk melakukan analisis yang lebih mendalam guna memberikan rekomendasi yang mendukung strategi bisnis.

3. Data Scientist

Seorang Data Scientist bertugas menganalisis data yang kompleks dan menemukan wawasan yang lebih mendalam melalui model prediktif dan algoritma machine learning.

Mereka bekerja dengan berbagai data untuk mengidentifikasi pola tersembunyi dan memecahkan masalah bisnis yang spesifik.

Selain menggunakan teknik statistik dan pemrograman seperti Python dan R, Data Scientist juga membuat model machine learning menggunakan pustaka seperti Scikit-learn atau TensorFlow.

Hasil analisis ini disampaikan melalui visualisasi data dan laporan untuk membantu para stakeholders membuat keputusan berbasis data.

4. Machine Learning Engineer

Seorang Machine Learning Engineer fokus pada pengembangan, penerapan, dan pemeliharaan model machine learning dalam skala produksi.

Mereka mengoptimalkan model machine learning untuk memastikan kinerjanya di lingkungan produksi, serta bekerja sama dengan tim Data Engineer untuk memastikan bahwa model dapat diintegrasikan dengan lancar ke dalam sistem operasional perusahaan.

Machine Learning Engineer menggunakan framework seperti TensorFlow dan PyTorch, serta terlibat dalam pengembangan pipeline machine learning yang memastikan aliran data yang efisien dan otomatis.

5. AI Engineer

Seorang AI Engineer mengembangkan solusi berbasis kecerdasan buatan (AI) dan deep learning untuk mengatasi masalah yang kompleks.

Mereka mengimplementasikan algoritma AI dalam berbagai aplikasi seperti pengenalan gambar (image recognition), pemrosesan bahasa alami (NLP), dan sistem rekomendasi.

AI Engineer menggunakan framework deep learning seperti TensorFlow, PyTorch, dan Keras untuk membangun model AI yang kuat dan akurat.

Mereka bekerja sama dengan tim produk dan pengembangan untuk mengintegrasikan solusi AI ke dalam produk atau sistem, serta mengoptimalkan kinerja model untuk berbagai kasus penggunaan di dunia nyata.

Why Become a Data Scientist?

Di era digital yang terus berkembang, data menjadi aset yang sangat berharga bagi organisasi di berbagai industri. Hal ini membuat profesi Data Scientist semakin diminati oleh banyak orang.

Salah satu alasan utamanya adalah passion terhadap data. Banyak individu yang merasa tertarik untuk menggali, menganalisis, dan menginterpretasikan data untuk mengungkap wawasan baru dan memecahkan masalah kompleks.

Bagi mereka, data bukan hanya sekumpulan angka, tetapi sebuah cerita yang menunggu untuk diceritakan. Mereka menikmati proses intelektual dalam menemukan pola dan tren yang tersembunyi dalam data, serta kegembiraan saat berhasil menemukan solusi yang dapat diimplementasikan secara praktis.

Selain itu, kesempatan karir yang baik menjadi faktor pendorong utama lainnya. Bidang Data Science merupakan salah satu yang paling cepat berkembang, dengan permintaan akan Data Scientist yang sangat tinggi.

Gaji yang kompetitif dan prospek karir yang cerah membuat banyak orang tertarik untuk menekuni profesi ini. Selain faktor finansial, Data Scientist juga memiliki peluang untuk membuat dampak signifikan pada organisasi.

Mereka sering kali berada di pusat pengambilan keputusan strategis, memberikan wawasan yang didasarkan pada data untuk membantu perusahaan membuat keputusan yang lebih baik dan tepat sasaran.

Keberagaman proyek dan tantangan yang ditawarkan dalam bidang ini juga menjadi daya tarik tersendiri. Data Scientist dapat bekerja di berbagai industri, mulai dari teknologi, kesehatan, hingga keuangan, yang memungkinkan mereka untuk terlibat dalam proyek-proyek yang sangat bervariasi.

Setiap proyek menawarkan tantangan unik, yang membuat pekerjaan mereka tidak pernah membosankan dan selalu menantang. Selain itu, bidang ini terus berkembang dengan adanya perkembangan teknologi dan inovasi baru, seperti Artificial Intelligence dan Machine Learning.

Bagi mereka yang menyukai tantangan dan pembelajaran berkelanjutan, Data Science menawarkan kesempatan untuk terus belajar dan berkembang dalam lingkungan yang dinamis.

Kemudian pada akhirnya, fleksibilitas dalam karir juga menjadi alasan mengapa banyak orang tertarik menjadi Data Scientist. Kemampuan untuk bekerja di berbagai sektor dan proyek memberikan kebebasan untuk mengeksplorasi berbagai aspek dari analisis data.

Di samping itu, banyak orang tertarik pada potensi pengaruh dan kekuatan data dalam era digital saat ini. Mereka menyadari bahwa data dapat mengubah dunia, dan profesi Data Scientist memberi mereka kesempatan untuk berkontribusi pada perubahan tersebut.

Semua faktor ini, baik secara individu maupun dalam kombinasi, menjelaskan mengapa banyak orang memilih jalur karir sebagai Data Scientist.

How To Become a Data Scientist?

Untuk menjadi seorang Data Scientist tidaklah mudah. PPers perlu mempersiapkan skill set yang diperlukan untuk melakukan pekerjaan seorang Data Scientist.

Berikut merupakan skill set yang perlu dipersiapkan PPers untuk menjadi seorang Data Scientist.

1. Technical Skills

  • Math and Statistics
  • Machine Learning
  • Programming
  • Database Engineering

2. Soft Skills

  • Critical Thinking
  • Problem Solving
  • Curiosity
  • Business Knowledge
  • Domain Knowledge
  • Team Work
  • Storytelling

Penutup

Bagaimana PPers, menarik untuk dipelajari lebih dalam lagi bukan? So, stay tuned for the next interesting discussion about Data Science and see you in the class.

Referensi