বুধবার, ৩ মে, ২০২৩

ডাটা সায়েন্স আসলে কি ?

 কিভাবে ডাটা সায়েন্স শুরু করবেন???

ডাটা আসলে কি ?


আপনি যে ফেসবুক এ স্ট্যাটাস দিচ্ছেন, ইন্সটাগ্রাম এ ছবি পোস্ট করতেসেন, স্ন্যাপচ্যাট এ ভিডিও দিচ্ছেন, ইউটিউবে ভিডিও দেখতেসেন, লাইক, কমেন্ট করতেসেন এগুলোর সবই ডাটা । এটা গেলো অনলাইনের উদাহরণ । অফলাইন এর উদাহরণ দিতে বললে বলবো আপনি প্রতিদিন যা যা করেন , তার সবই কোন না কোন ডাটা বা তথ্যের জন্ম দিচ্ছে ।

এখন প্রশ্ন হচ্ছে ডাটা সায়েন্স কি তাহলে? ডেটা সায়েন্স হলো কয়েকটা বিষয় মিলে হাইব্রিড (Hybrid) একটা বিষয় এবং ডাটা সায়েন্স যেসব বিষয়কে ফোকাস করে গঠিত সেগুলা হলো — পরিসংখ্যান (Statistics), ফলিত গণিত (Applied Mathematics) এবং কম্পিউটার সায়েন্স (Computer Science), বায়োইনফরমেটিক্স(Bioinformatics), বিজেনেস এনালাইসেস(Business Analysis) ইত্যাদি। আর মেশিন লার্নিং হল কৃত্রিম বুদ্ধিমত্তার (AI) এবং ডাটা সায়েন্সের একটি উপ-ক্ষেত্র যা মেশিনগুলিকে কেবলমাত্র ডেটা থেকে শিখতে সক্ষম করার চেষ্টা করে যেমন পরিবেশের সাথে মিথস্ক্রিয়া করার সময় সংগৃহীত তথ্য থেকে শেখার মতো।

আপনার হয়তো মনে প্রশ্ন জাগতে পারে বিজনেস গ্রোথ রেট বৃদ্ধি করার সাথে ডাটা সায়েন্স এর সম্পর্ক কি? হ্যা অবশ্যই আছে। আপনাকে একটা ছোট্ট উদাহরণ এর মাধ্যমে বিষয়টি পরিস্কার করছি, ধরুন আপনি একটি বই বিষয়ক ই-কমার্স ওয়েবসাইট তৈরি করেছেন। এই ই-কমার্স ওবেবসাইটে আপনার সেল বৃদ্ধি করতে, আপনি চাইলেই ডেটা সায়েন্স এর ব্যাবহার করতে পারেন। যেমন ধরুন কোন কাস্টমার প্রোগ্রামিং এর ওপরে একটা বই সার্চ করলো। তার মানে ওই কাস্টমার প্রোগ্রামিং এ আগ্রহী। আপনি এমনভাবে সিস্টেমটি ডেভলপ করেছেন যেন কাস্টমারের সার্চের ওপরে ভিত্তি করে সেটি প্রোগ্রামিং রিলেটে নতুন আরও কিছু বই রিকমেন্ড করবে। আরও সহজ করে বলতে চাইলে ধরুন আপনি ইউটিউবে সার্চ করলেন ‘ Data Science Tutorial’ এটা সার্চ করার পরে হয়তো ইউটিউব আপনার হোমপেজে অনেকগুলো টিউটোরিয়াল সাজেশনে এনে দেবে এবং আপনি যখন একটা ভিডিও ক্লিক করার পরে কিছুক্ষণ দেখে হয়তো কেটে দেবেন। পরবর্তীতে যখনি আপনি ইউটিউবে যাবেন আশা করা যায় অন্য সব ভিডিওর পাশাপাশি কমপক্ষে ১-৩ টি পাইথন প্রোগ্রামিং এর ভিডিও হোমপেজে এনে দেবেই। তবে এর কারণ কি? আপনি যখন সার্চ করেছেন তখনি ইউটিউব বুঝতে পেরেছে আপনি Data Science এ আগ্রহী। তাই পরবর্তীতে আপনার সামনে এই ধরনের ভিডিও সাজেস্ট করেছে। শুধু এটাই নয় সামনে আপনি যত ভিডিও দেখবেন সেখানে ভিডিওর মাঝে পেইড এড হিসেবে ইউটিউব আপনাকে যা দেখাবে সেগুলোও হবে Data Science রিলেটেড। এখন মনে প্রশ্ন জাগা টা স্বাভাবিক যে এই কাজগুলো হয় কিভাবে? এটা নিয়ে বিস্তারিত আলোচনা করতে গেলে কথা বলতে হবে মেশিন লার্নিং, এনএলপি এবং ডেটা মাইনিং নিয়ে। ML, NLP, DM সবকিছুই ডেটা সায়েন্স এর সাবসেট বলতে পারেন।

আর ডাটা নিয়ে কাজ করে তাদের বলে ডাটা সায়েন্টিস্ট!

ডাটা সায়েন্টিস্টদের ডিমান্ড কেমন?

বর্তমান যুগে যেকোনো ক্ষেত্রেই ডাটা প্রয়োজন। একটি সঠিক ডাটার অভাবে যেমন কোনো ব্যবসা নিমিষেই ধ্বংস হয়ে যেতে পারে; তেমনি একটি সঠিক ডাটা ব্যবহার করে কোনো ব্যবসা শুন্য থেকে সফল ও হতে পারে। বড় বড় কোম্পানিগুলো তাদের ব্যবসা এগিয়ে নিতে সবার আগে চায় ডাটা।তাই তারা সবার আগে একজন ডাটা সায়েন্টিস্ট এর খোঁজ করে। সম্প্রতি লিংকডইনের এক তথ্য অনুসারে ডাটা সায়েন্টিস্ট দের চাহিদা চাকরির বাজার খুব বেশি এবং তা সবসময় বেড়েই চলছে। ২০১৯ সাল থেকে বর্তমানে চাকরির বাজারে ডাটা রিলেটেড জবের চাহিদা বেড়েছে ৪৬ শতাংশ।

বিশেষজ্ঞরা বলেন, “এখন যুগ ডাটা সায়েন্সের। গত কয়েক বছর ধরে চাকরির বাজারে সব চেয়ে বেশি আলোচিত শব্দ “ডাটা সায়েন্টিস্ট”।”

এক পরিসংখ্যান থেকে জানা যায়, ২০১২ সালে বিশ্বব্যাপী ডাটার পরিমাণ যা ছিলো, তা ২০২০ সালে এসে ৫০ গুণ বৃদ্ধি পেয়েছে।

একটা জরিপ মতে ২০৩০ সালের মধ্যে প্রায় ১৩টি জব সেক্টর পুরোপুরি স্বয়ংক্রিয় (Automated) হয়ে যাবে এবং World Economic Forum এর জরিপ থেকে ধারণা করা হয় অটোমেশন (Automation) এর কারণে প্রায় ৭৫ মিলিয়ন চাকরী ডিসপ্লেস হয়ে গেলেও মজার বিষয় হলো মোট প্রায় ১৩৩ মিলিয়ন নতুন চাকরী জেনারেট করবে। তবে অটোমেশন (Automation) এর কারণে কিছু নিম্ন এবং মধ্যম স্কিল এর জব অটোমেটেড(Automated) করা সম্ভব হলেও কখনোই ডাটা সায়েন্স (Data Science) এর চাকরী নস্ট করা সম্ভব নয়। অটোমেশন কেন ডেটা সায়েন্স এর জবগুলো নস্ট করতে পারবে না সেটা বুঝতে চাইলে ডেটা সায়েন্স কি এবং ডেটা সায়েন্স ইকোসিস্টেম কিভাবে কাজ করে এটা বুঝতে হবে। বর্তমানে ভারতে এক লাখের ও বেশি ডাটা সায়েন্টিস্টদের জন্য চাকরির সুযোগ রয়েছে। ডাটা খাতে পেশাদার কর্মীর চাহিদা বাড়ায় এখন অনেকেই ডাটা সায়েন্সের পথে যাচ্ছেন। Glassdoor এর তথ্য অনুযায়ী আমেরিকায় একজন ডাটা সায়েন্টিস্ট তার অভিজ্ঞতা অনুসারে বছরে প্রায় $95k — $200k বেতন নিয়ে থাকেন। ডাটা সায়েন্স এর ওপর ভিত্তি করে যেসব জব পজিশন তৈরি হয়েছে যথাক্রমে — Machine Learning Engineer, Database Administrator, Data Architect, Data Engineer, Business Analyst, Data Analyst, Data Scientist, etc.


ডাটা সায়েন্সের স্টেজগুলো কি কি?

ডাটা কালেকশন

ডাটা ক্লিনিং

এক্সপ্লোরেটরি্ ডাটা এনালাইসিস

মডেল বিল্ডিং

মডেল ডেপ্লয়মেন্ট


এবার আসি তাহলে বাংলাদেশে চাহিদা কেমন?

দেশে হাতে গোনা অল্প কয়েকটি কোম্পানি সত্যিকার অর্থে মেশিন লার্নিং নিয়ে কাজ করছে । বেশির ভাগ কোম্পানি ডাটা সায়েন্টিস্ট হায়ার করছে কিন্তু মেশিন লার্নিং নিয়ে তেমন কোন কাজ করাচ্ছে না এমপ্লয়ীদের দিয়ে। শুধু ডাটা ভিজুয়ালাইজেশন এবং হালকা ডাটা ইঞ্জিনিয়ারিং-ই হয়তো বেশিরভাগ কোম্পানির কাজের পরিধি। ডিপ লার্নিং বেসড প্রেডিক্টিভ মডেল ডিজাইন এবং ডেভেলপমেন্ট করে এমন কোম্পানি হয়তো একেবারেই কম। তবে বাংলাদের প্রযুক্তির উন্নয়নের সাথে সাথে এর চাহিদা বেড়েই চলছে এবং ভবিষ্যতে চাহিদা আরও বাড়বে। ডেটা সায়েন্স এর ব্যাবহার সব সেক্টরেরই রয়েছে যেমনঃ রিকমেন্ডেশন সিস্টেম, ওয়েদার প্রেডিকশন, ট্রেড মার্কেট এনালাইসিস, ডিজেস ডিটেকশন, স্পাম টেক্সট ক্লাসিফিকেশন, মার্কেট বাস্কেট এনালাইসিস ইত্যাদি গুরুত্বপূর্ণ কিছু উদাহরন।আস্তে আস্তে এর কাজের পরিধি বাড়বে এবং মেশিন লার্নিং ইঞ্জিনিয়ার / ডাটা সায়েন্টিস্ট দেড় ভাল একটা ডিমান্ড বাংলাদেশেও তৈরী হবে অদূর ভবিষ্যতে।

স্যালারি এর কথা বলতে গেলে , ৩৫ হাজার থেকে ৬০ হাজার পর্যন্ত আশা করতে পারেন ফ্রেশ গ্রাজুয়েট হিসাবে। এর থেকে কম টাকা যদি মেশিন লার্নিং অথবা ডাটা সায়েন্টিস্ট পজিশন এর জন্য দিতে চায়, তাহলে ওই কোম্পানিতে জয়েন না করাই ভাল। আশার কথা হল সম্প্রতি অনেক প্রাইভেট কোম্পানিই তাদের বিজনেস গ্রোথ রেট ধরে রাখার জন্য বা বৃদ্ধি করার জন্য নতুন নতুন ডাটা সায়েন্স রিলেভ্যান্ট জব যেমন ডেটা এনালিস্ট, বিজনেস এনালিস্ট, ডেটাবেইস এডমিনিস্ট্রেটর, ডেটা সায়েন্টিস্ট নিয়োগ দিচ্ছেন।


চলুন দেখে নেওয়া যাক ডাটা সায়েন্সে কী কী ক্যাটাগরির চাকুরি আছে এবং আপনার কী ধরনের দক্ষতা থাকা উচিত।

· Data Analysts — Easy to Medium

· ML Engineers — Medium

· Data Engineers — Medium to Hard

· Research/Applied Data Scientists — Hard

· AI Engineers/Deep Learning Practitioners — Very Hard

 

ডাটা সায়েন্সের সংক্ষিপ্ত সিলেবাস

Programming: Python, R, MATLAB, Scala, Julia, SQL, SAS ইত্যাদি

Tools: SPSS, WEKA, STATA, Tableau, PowerBI ইত্যাদি

Mathematics: Linear Algebra, Calculus, Statistics, Probability ইত্যাদি

এছাড়া ও Business Intelligence, Cloud Computing, Data Mining, Data Visualization, Exploratory Data Analysis ইত্যাদি বিষয়ে ভাল জ্ঞান থাকা আবশ্যক।

 

ডাটা সায়েন্স রোড ম্যাপ

ডাটা সায়েন্স শিখার জন্য আমাদের অনেক বেগ পেতে হই। কোথা থেকে শিখলে ভালো হবে? আর প্রোগ্রামিং নাকি পাইথন? আমিতো ম্যাথ পারি না কিন্তু ডাটা সায়েন্স মানে ই তো ম্যাথ আর স্টাটিসটিক্স তাহলে কি আমার জন্য সম্ভব নই? ওকে…..প্রথমত ডাটা সায়েন্স শিখার জন্য আপনারা ক্রিশ নাইকের ইউটিউব চ্যানেল, এডুরেখাে, সিম্পলি ল্যারেন, ডিপ ল্যানিং.এআই, মিডিয়ায়, টুয়াডস ডাটা সায়েন্স, কোর্সেরা তে আন্দ্রো এন জি কোর্স, বাংলা তে স্টাডি মার্ট (বাংলা তে এর থেকে ভাল চ্যানেল/কমিউনিটি আমার জানামতে আরে নেই) ইউটিউব চ্যানেল পাইথন এবং বাংলা মেশিন লানিং এর রিসোর্স ফ্রীতে পাবেন যেখান থেকে আপনি বাংলা ভাষায় খুব সুন্দরভাবে বেসিক পাইথন প্রোগ্রামিং এবং বাংলায় মেশিন লানিং শিখে নিতে পারেন। 


আর ও মজার কিছু ব্লগ;

১. R-bloggers

২. Data Science 101

৩. Machine Learning Mastery

৪. DataTau

৫. Data School ইত্যাদি

আবার ডেটা এনালিস্ট তবে ডেটা এনালাইসিস স্কিল অর্জনের জন্য MS Excel, Minitab, PAST, SQL Database, Stata, SPSS, Tableau অথবা Power Bi শিখে নিতে পারেন। ডাটা মাইনিং শিখার জন্য WEKA শিখে নিতে পারেন(Weka MOOC)।


ডেটা সায়েন্স কমিউনিটিঃ

বিশ্বের বৃহত্তম ডেটা সায়েন্স কমিউনিটি যেমন Kaggle, Analytics Vidhya, UCI হাজার হাজার ডেটাসেটের সাথে আপনাকে পরিচয় করিয়ে দিবে এবং এখান থেকে আপনি বিভিন্ন ডেটা বিশ্লেষণ কৌশল, মেশিন লার্নিং অ্যালগরিদম অনুশীলনের ধারনা দিবে। এই কমিউনিটি গুলোতে অনুষ্ঠিত প্রতিযোগিতাগুলি ডেটা সায়েন্সের দক্ষতাগুলিকে তীক্ষ্ণ করার জন্যও দরকারী, এইভাবে আমাদের ডেটা সায়েন্সে দ্রুত দক্ষ হওয়ার লক্ষ্য অর্জনে সহায়তা করে৷ Kaggle এ আর ও পাবেন বড় বড় প্রোগ্রাম রান করার জন্য Kaggle এর ক্লাউড ফ্লাটফরম আবার আপনি চাইলে কম্পিটিশনে অংশগ্রহন করে জিতে নিতে পারেন পুরস্কার হিসেবে হাজার হাজার ডলার।


Kaggle এর কিছু সুবিধাঃ

১. ইউজ করা ফ্রি এবং সহজ

২. ফ্রি GPU

৩. পেতে পারেন Awards, Money and Fame ইত্যাদি


আর ও কিছু কমিউনিটি

Driven Data

Codalab

IBM Data Science Community

Reddit

Open Data Science ইত্যাদি


আর ও কিছু ফ্রি ডাটাসেট সোর্সঃ

Google Dataset Search

World Bank Open Data

Data.world

DataHub

Academic Torrents Data ইত্যাদি


ডাটা সায়েন্সের জন্য সেরা ৫টি GitHub Repositories:

FREECODECAMP (337K ★)

TENSORFLOW (161K ★)

THE ALGORITHMS (126K ★)

AWESOME MACHINE LEARNING (52.2K ★)

DATA SCIENCE I-PYTHON NOTEBOOKS (22.1K ★)


পোস্ট টা অনেক বড় হয়ে গেসে। এত লেখা পড়ার জন্য ধন্যবাদ। এই ইনফরমেশন গুলো বিভিন্ন ব্লগ, পোস্ট, আর্টিকেল থেকে গুসিয়ে লিখিছি আপনারদের সুবিধার জন্য। কিছু মিসিং ইনফো থাকলে আমি দুঃখিত। 


Abu Tareq Rony



শেয়ার করুন

Author:

Etiam at libero iaculis, mollis justo non, blandit augue. Vestibulum sit amet sodales est, a lacinia ex. Suspendisse vel enim sagittis, volutpat sem eget, condimentum sem.

1 টি মন্তব্য: