Apa yang dimaksud dengan data science

Penulis: Reza Liswara – Matematika 16A 

Mungkin sebagian dari kalian yang membaca ini pasti penasaran karena membaca judulnya. Memang ini merupakan sesuatu yang baru untuk kita dan bagi saya sendiri. Dan bahasan ini sedang ramai dibicarakan di Indonesia pada saat ini.

Data science adalah suatu bidang studi yang mengkombinasikan kemampuan programming, matematika, dan statistika, juga pengetahuan umum untuk mendapatkan suatu insight (wawasan) dari data struktur maupun tidak struktur (Wikipedia). Secara umum kita bisa menyimpulkan bahwa data science itu tidak hanya fokus pada satu disiplin ilmu saja, tapi lebih dari satu disiplin ilmu untuk mendapatkan hasil yang lebih akurat dan dapat dipertanggungjawabkan kebenarannya.

Konsep dari data science terdiri dari beberapa bidang disiplin ilmu yaitu matematika dan statistika, data mining, ilmu komputer, domain knowledge, dan artifical inteligence (meliputi deep learning, machine learning, dan natural language processing (NLP)). Dari penjelasan diatas kita bisa mengetahui bahwa matematika dan statistika ikut serta dalam konsep ini, hal ini terjadi karena pada dasarnya kita bermain dengan data. Dan untuk mengolah data kita membutuhkan yang namanya regresi, dimana regresi itu masuk kedalam ilmu matematika dan statistika. Juga kita membutuhkan analisis yang kuat, maka dari itu kita juga membutuhkan ilmu matematika.

Lalu, apa yang kita butuhkan untuk mempelajari data science? Setidaknya minimal ada tiga disiplin ilmu yang bisa kita pahami, yaitu matematika dan statistika, domain knowledge, dan ilmu komputer. Dari ketiga diatas kita bisa mengkombinasikannya menjadi beberapa disiplin ilmu baru, seperti machine learning, software development, dan traditional research.

1. Machine Learning
Merupakan irisan dari matematika dan statistik dengan ilmu komputer dan merupakan cabang dari disiplin ilmu kecerdasan buatan (Artificial Intelligence). Konsep dasar dari machine learning adalah memberikan kemampuan pada komputer untuk terus belajar sehingga komputer dapat menganalisa data dengan akurasi yang tinggi. Contoh penerapannya adalah Cortana atau asisten yang tersedia pada Windows 10, Alpha-Go, dan Voice Search pada Google.

2. Software Development
Traditional software merupakan irisan dari ilmu komputer dengan domain knowledge. Biasanya digunakan di beberapa perusahaan maupun instansi untuk mempermudah mereka untuk menjalankan pelayanan atau bisnis mereka dengan cara mereka membuat semacam aplikasi yang bisa digunakan oleh siapapun dimanapun dan kapanpun. Sehingga mempermudah orang untuk mengaksesnya tanpa harus repot-repot datang ke instansi. . Contohnya adalah e-banking, e-library, dan lain-lain.

3. Traditional Research
Traditional research merupakan irisan dari ilmu matematika dan statistika dengan domain knowledge. Traditional research hampir digunakan berbagai perusahaan, instansi serta universitas. Biasanya digunakan untuk mempelajari atau menganalisa data yang nantinya bisa mengambil insight yang diinginkan.

Dari ketiga penjelasan diatas kita bisa tahu bahwa kombinasi dari dua disiplin ilmu menghasilkan disiplin ilmu baru. Bagaimana ketika tiga disiplin ilmu diatas dikombinasikan? Maka akan menghasilkan ilmu disiplin baru yang kita ketahui yaitu data science.

Berdasarkan penjelasan di atas, kita dapat menyimpulkan bahwa orang yang menguasai ilmu-ilmu tersebut disebut sebagai data scientist. Namun, itu tidak sepenuhnya benar karena data scientist tidak sempurna di semua bidang data science. Menurut www.masterdatascience.org definisi dari data scientist adalah “A data scientist is someone who is better at statistics than any software engineer and better at software engineering than any statistician” atau dalam bahasa Indonesia dapat diartikan menjadi “Data scientist adalah seseorang yang mahir statistik dari software engineer dan mahir di bidang software engineer dari statistikawan.”

Nah, sekian penjelasan saya seputar data science. Semoga untuk para pembaca dapat tertarik di bidang ini, karena menurut saya disiplin ilmu ini dapat ditekuni oleh semua orang secara otodidak.

WE Online, Jakarta -

Data science merupakan gabungan dari berbagai bidang, seperti statistik, metode ilmiah, kecerdasan buatan (AI), dan analisis data, untuk mengekstrak nilai dari data. Mereka yang mempraktikkan ilmu data disebut sebagai data scientist atau ilmuwan data, dan mereka menggabungkan berbagai keterampilan untuk menganalisis data yang dikumpulkan dari web, smartphone, pelanggan, sensor, dan sumber lainnya untuk mendapatkan wawasan yang dapat ditindaklanjuti.

Data science mencakup penyiapan data untuk analisis, termasuk pembersihan, penggabungan, dan manipulasi data untuk melakukan analisis data tingkat lanjut. Dengan aplikasi analitik, seorang data scientist dapat meninjau hasilnya untuk mengungkap pola dan memungkinkan para pemimpin bisnis untuk menarik wawasan yang berisi informasi penting. Simak selengkapnya berikut ini untuk mengetahui manfaat serta proses dalam data science. Baca Juga: Apa Itu Data Cleansing?

Data Science Sebagai Sumber Daya Yang Bermanfaat

Data science adalah salah satu bidang yang paling menarik saat ini. Tetapi, mengapa data science itu sangat penting?

Banyak perusahaan memiliki segudang data yang sangat bernilai. Karena teknologi modern telah memungkinkan pembuatan dan penyimpanan informasi dalam jumlah yang semakin banyak, maka volume data telah meledak. Diperkirakan sebanyak 90 persen data di dunia dibuat dalam dua tahun terakhir. Misalnya, pengguna Facebook mengunggah 10 juta foto setiap jamnya.

Tetapi, data ini seringkali hanya tersimpan di database dan data lake, yang sebagian besar tidak tersentuh.

Kekayaan data yang dikumpulkan dan disimpan oleh teknologi ini dapat membawa manfaat transformatif bagi organisasi dan masyarakat di seluruh dunia, tetapi hanya jika kita dapat menafsirkannya. Di situlah pentingnya data science.

Data science mampu mengungkapkan tren dan menghasilkan wawasan yang dapat digunakan oleh bisnis untuk membuat keputusan yang lebih baik serta menciptakan produk atau layanan yang lebih inovatif. Mungkin yang paling penting, data science memungkinkan model machine learning (ML) untuk belajar dari sejumlah besar data yang diumpankan kepada mereka, daripada mengandalkan analis bisnis untuk melihat apa yang dapat mereka temukan dari data tersebut.

Data adalah landasan inovasi, tetapi nilainya berasal dari informasi yang dapat dikumpulkan oleh para ilmuwan data, dan kemudian ditindaklanjuti.

Bagaimana Cara Kerja Data Science?

Proses menganalisis dan bertindak berdasarkan data bersifat iteratif dan bukan linier, tetapi beginilah siklus hidup data science yang biasanya mengalir untuk proyek pemodelan data:

1. Perencanaan: Mendefinisikan sebuah proyek dan output potensialnya.

2. Membangun model data: Data scientist sering menggunakan berbagai open-source library atau alat dalam database untuk membangun model machine learning. Seringkali, pengguna menginginkan API untuk membantu penyerapan data, pembuatan profil dan visualisasi data, atau rekayasa fitur. Mereka perlu membutuhkan alat yang tepat serta akses ke data yang tepat dan sumber daya lainnya, seperti daya komputasi.

3. Mengevaluasi model: Data scientist harus bisa mencapai persentase akurasi yang tinggi pada model mereka sebelum mereka merasa percaya diri untuk menerapkannya. Evaluasi model biasanya akan menghasilkan rangkaian metrik evaluasi dan visualisasi yang komprehensif untuk mengukur kinerja model terhadap data terbaru, dan juga memberikan peringkatnya dari waktu ke waktu untuk memungkinkan perilaku optimal dalam produksi. Evaluasi model melampaui kinerja biasa untuk memperhitungkan perilaku dasar yang diharapkan.

4. Menjelaskan model: Data scientist harus mampu menjelaskan mekanika internal hasil model machine learning dalam istilah manusia yang tidak selalu mungkin terjadi, tetapi proses ini menjadi semakin penting di kemudian hari. Data scientist menginginkan penjelasan otomatis tentang bobot relatif dan pentingnya faktor-faktor yang digunakan untuk menghasilkan prediksi, dan detail penjelasan khusus model pada prediksi model.

5. Menerapkan model: Mengambil model machine learning yang terlatih dan memasukkannya ke dalam sistem yang tepat seringkali merupakan proses yang sulit dan melelahkan. Ini dapat dibuat lebih mudah dengan mengoperasionalkan model sebagai API yang skalabel dan aman, atau dengan menggunakan model machine learning dalam database.

6. Memantau model: Sayangnya, menerapkan model bukanlah akhir dari segalanya. Model harus selalu dipantau setelah fase penerapan untuk memastikan bahwa mereka dapat bekerja dengan benar. Data model yang dilatih mungkin tidak lagi relevan untuk prediksi masa depan setelah jangka waktu tertentu. Misalnya, dalam deteksi penipuan, penjahat selalu bisa menemukan cara baru untuk meretas akun.

Alat Bantu Data Science Terbaik 

Membangun, mengevaluasi, menerapkan, dan memantau model machine learning bisa menjadi proses yang sangat kompleks. Itulah mengapa ada peningkatan jumlah alat bantu data science. Seorang data scientist menggunakan banyak jenis alat, tetapi salah satu yang paling umum adalah open-source notebook, yang merupakan aplikasi web untuk menulis dan menjalankan kode, memvisualisasikan data, dan melihat hasilnya. Semua ini dalam lingkungan yang sama.

Beberapa notebook paling populer adalah Jupyter, RStudio, dan Zeppelin. Notebook sangat berguna untuk melakukan analisis, tetapi juga memiliki keterbatasan saat data scientist perlu bekerja sebagai tim. Platform data science dibangun untuk dapat memecahkan masalah ini.

Untuk menentukan alat data science mana yang tepat bagi Anda, penting untuk mengajukan pertanyaan berikut ini: Bahasa apa yang digunakan oleh data scientist Anda? Metode kerja seperti apa yang mereka sukai? Jenis sumber data apa yang mereka gunakan?

Misalnya, beberapa pengguna lebih suka memiliki layanan datasource-agnostic yang menggunakan open-source libraries. Yang lainnya mungkin lebih suka kecepatan dalam database, seperti algoritma machine learning.

Siapa Yang Mengawasi Proses Data Science?

Di sebagian besar organisasi, proyek data science biasanya diawasi oleh tiga jenis manajer:

1. Manajer bisnis: Manajer ini bekerja dengan tim data science untuk mendefinisikan masalah dan mengembangkan strategi untuk keperluan analisis. Mereka mungkin terdiri dari kepala lini bisnis, seperti divisi pemasaran, keuangan, atau penjualan, dan memiliki tim data science yang melapor kepada mereka. Mereka bekerja sama dengan ilmu data dan manajer TI untuk memastikan bahwa proyek tersebut telah disampaikan dengan benar.

2. Manajer TI: Manajer TI senior bertanggung jawab atas infrastruktur dan arsitektur yang akan mendukung operasi data science. Mereka terus memantau operasi dan penggunaan sumber daya untuk memastikan bahwa tim data science beroperasi secara efisien dan aman. Mereka mungkin juga bertanggung jawab untuk membangun dan memperbarui IT environment untuk tim data science.

3. Manajer data science: Manajer ini mengawasi tim data science dan pekerjaan sehari-hari mereka. Mereka adalah pembangun tim yang dapat menyeimbangkan pengembangan tim dengan perencanaan dan pemantauan proyek.

Tetapi, aktor utama dalam proses ini adalah data scientist.

Video yang berhubungan

Postingan terbaru

LIHAT SEMUA