Bạn nhận được gì từ Combo 10 khoá Data Science and Machine Learning Certificate
Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:
✅ Lập trình bằng các ngôn ngữ như Python và R
✅ Sử dụng thành thạo các tools, librarys, framework phục vụ cho Data Science/ Machine Learning
✅ Hiểu và vận dụng được các bước trong quy trình triển khai dự án Data Science/ Machine Learning
✅ Trích xuất thông tin, hiểu rõ hơn về dữ liệu, trình bày dữ liệu dưới dạng có ý nghĩa và đưa ra quyết định hiệu quả hơn.
✅ Thu thập dữ liệu, tiền xử lý dữ liệu, khám phá, phân tích, thống kê tạo ra các báo cáo
✅ Hiểu các kiến thức thức cần thiết về toán, xác suất thống kê dành cho Data Science/ Machine Learning
✅ Vận dụng các thư viện toán, xác suất thống kê của Python để giải quyết các vấn đề Data Science/ Machine Learning
✅ Nắm được các khái niệm CSDL quan hệ, hiểu và áp dụng kiến thức nền tảng của ngôn ngữ SQL, thực hiện truy cập SQL trong môi trường Data Science
✅ Sử dụng FugueSQL để truy vấn và trực quan dữ liệu, làm nền tảng cho việc thao tác với dữ liệu lớn (Big Data)
✅ Làm việc với CSDL trên Cloud, thu thập dữ liệu từ API
✅ Sử dụng các package như Selenium, Scrapy, BeautifulSoup… để thu thập dữ liệu trên Internet Khám phá nhiều loại dữ liệu khác nhau, tiền xử lý ngôn ngữ tự nhiên
✅ Linh hoạt áp dụng các kỹ thuật tiền xử lý dữ liệu cho từng bộ dữ liệu có đặc trưng khác nhau, yêu cầu khai thác khác nhau
✅ Biết cách phân tích dữ liệu trong Python, dự đoán xu hướng trong tương lai từ dữ liệu
✅ Hiểu và áp dụng các thuật toán Machine Learning cho các vấn đề, yêu cầu khác nhau
✅ Vận dụng và triển khai các thuật toán quan trọng thuộc nhóm Supervised Learning và Unsupervised Learning trong việc giải quyết các vấn đề thực tế như phân loại, dự đoán các xu thế, xu hướng, phân cụm dữ liệu, gợi ý đề xuất…
✅ Hiểu và áp dụng hiệu quả các thuật toán, framework và công nghệ Machine Learning khác nhau cho các vấn đề, yêu cầu khác nhau trong thực tế.
✅ Nắm được các kiến thức cần thiết về Deep Learning và biết cách vận dụng các thuật toán Deep Learning trong việc giải quyết các vấn đề thực tế, cụ thể (Computer Vision, Natural Language Processing, Time Series…) thông qua việc sử dụng các bộ thư viện, công cụ mạnh mẽ, mã nguồn mở như Python, Numpy, Pandas, Matplotlib, sklearn, TensorFlow, Keras…
✅ Hiểu và vận dụng các công nghệ trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp
✅ Làm việc với Spark, Big Data Technology mới nhất
✅ Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark DataFrame, PySpark SQL, PySpark Mllib, PySpark Streaming, PySpark GraphX…
✅ Làm việc trên Cloud, Github, HDFS files…
ĐỀ CƯƠNG CHI TIẾT CÁC MÔN HỌC
Course 1: Fundamentals of Python (Lập trình Python cơ bản)
– Kiến thức nền tảng về Python – một ngôn ngữ lập trình cấp cao, thông dịch, hướng đối tượng và đa mục đích
– Sử dụng các cấu trúc trong ngôn ngữ lập trình Python để xây dựng ứng dụng
– Nắm vững và sử dụng các kiểu dữ liệu, toán tử, cấu trúc điều khiển, cấu trúc lặp để giải quyết các bài toán
– Sử dụng các thư viện Number, String, Date & Time để xử lý số, chuỗi và thời gian
– Làm việc với List, Tuple và Dictionary để lưu trữ và xử lý danh sách các phần tử.
– Tạo và sử dụng các phương thức, module/package giúp tái sử dụng code
– Làm việc với tập tin và thư mục với File I/O
– Rèn luyện và phát triển kỹ năng lập trình, tư duy logic.
– Xây dựng nền tảng cơ bản vững chắc trong ngôn ngữ lập trình Python tạo tiền đề cho việc học các kiến thức
lập trình
Course 2: Data Manipulation and Visualization with Python
– Kiến thức tổng quát về Data Science
– Cách thu thập dữ liệu, khám phá, phân tích, thống kê tạo ra các báo cáo thông qua việc sử dụng các bộ thư
viện, công cụ mạnh mẽ, mã nguồn mở như Python, Jupyter Notebooks, Numpy, Pandas …
– Cách trích xuất và trình bày dữ liệu dưới dạng có ý nghĩa thông qua nhiều kỹ thuật trình bày dữ liệu một cách
trực quan trong Python như Matplotlib, Seaborn và Folium, Plotly…
– Làm quen với Google Chart
– Vận dụng cách tìm dữ liệu, xây dựng câu hỏi nghiên cứu, sử dụng các công cụ và kỹ thuật tìm ra câu trả lời và
đưa ra quyết định hiệu quả hơn
– Thực hiện phân tích thống kê cơ bản
– Thực hiện các project cụ thể trong bối cảnh giải quyết các vấn đề khoa học dữ liệu hấp dẫn
Course 3: Mathematics and Statistics for Data Science (Toán và Xác suất thống kê cho Khoa học dữ liệu)
– Các kiến thức cần thiết về toán dành cho Data Science như Đại số tuyến tính (Linear Algebra), Giải tính
(Calculus), Gradient Descent, Phương trình vector ma trận (Matrix-Vector Equations), Matrix Factorization,
Eigenvalues và Eigenvectors, Singular Value Decomposition (SVD), Phân tích thành phần chính (Principal
Component Analysis – PCA)
– Các kiến thức cần thiết xác suất thống kê dành cho Data Science như Thống kê mô tả (Descriptive Statistics),
Xác suất (Probability), Thống kê suy luận (Inferential Statistics), Ước lượng (Estimation), Tương quan
(Correlation)
– Vận dụng các thư viện toán, xác suất thống kê của Python để giải quyết các vấn đề về khoa học dữ liệu.
– Thực hiện phân tích thống kê, đưa ra nhận xét trên những bộ dữ liệu thực tế
Course 4: Database SQL and Data Collection for Data Science (Truy vấn và thu thập dữ liệu cho Khoa học
dữ liệu)
– Các kiến thức và kỹ năng cần thiết khi làm việc với cơ sở dữ liệu (database)
– Kiến thức nền tảng vững chắc về ngôn ngữ truy vấn (SQL): các loại truy vấn rút trích, thêm, xóa, cập nhật… dữ liệu trong môi trường Data Science
– Cách xây dựng và làm việc với CSDL trên Cloud (đám mây), truy cập CSDL với Python sử dụng DB-API
– Kiến thức và kỹ năng thao tác với các loại database thông dụng như MySQL, Sqlite, MariaDB, PostgreSQL,
SQL Server…
– Sử dụng FugueSQL để truy vấn và trực quan dữ liệu, làm nền tảng cho việc thao tác với dữ liệu lớn (Big Data)
– Kỹ năng thu thập dữ liệu từ Internet (Web Scraping/ Crawling/ Harvesting) sử dụng các package như
BeautifulSoup, Selenium, Scrapy
– Thu thập dữ liệu từ Facebook APIs sử dụng Facebook SDK Python Package
Làm việc với cơ sở dữ liệu thực, công cụ khoa học dữ liệu thực và bộ dữ liệu trong thế giới thực
Course 5: Data Pre-processing and Analysis (Tiền xử lý và phân tích dữ liệu)
– Các kiến thức và kỹ năng cần thiết khi thực hiện việc tiền xử lý và phân tích dữ liệu.
– Kỹ thuật khai thác dữ liệu, chuyển đổi dữ liệu thô thành dữ liệu có định dạng dễ hiểu
– Cách chuẩn bị dữ liệu để phân tích, thực hiện thống kê, tạo trực quan hóa dữ liệu có ý nghĩa
– Tiền xử lý dữ liệu text tiếng Anh, tiếng Việt
– Các thư viện tiền xử lý và phân tích dữ liệu mạnh mẽ và ưu việt của Python như Numpy, Scipy, Pandas,
Matplotlib, Seaborn…
– Quy trình quản lý phân tích dữ liệu hiệu quả
– Sử dụng thư viện mã nguồn mở sklearn để triển khai một số thuật toán Machine Learning giúp xây dựng các
mô hình thông minh và đưa ra các dự đoán tuyệt vời
– Kết hợp trực quan hóa dữ liệu, data storytelling, kết quả thống kê để tạo các báo cáo, thuyết trình phân tích dữ
liệu mạch lạc, thuyết phục
Course 6: Machine Learning with Python (Máy học với Python)
– Kiến thức nền tảng, cần thiết về Machine Learning, một nhánh rất “hot” của Trí tuệ nhân tạo (AI)
– Sử dụng các bộ thư viện, công cụ mạnh mẽ, mã nguồn mở như Python, Jupyter Notebooks, Numpy, Pandas,
Matplotlib, sklearn… dành cho Machine Learning
– Kiến thức và kỹ năng vận dụng và triển khai các thuật toán quan trọng thuộc nhóm Supervised Learning như
Logistic Regression, Linear Regression, Naïve Bayes, K-Nearest Neighbors (KNN), Decision Tree, Random
Forest, Support Vector Machine (SVM), Boosting và AdaBoost, XGBoost với Python
– Kiến thức và kỹ năng vận dụng và triển khai các thuật toán quan trọng thuộc nhóm Unsupervised Learning như K-Means clustering, Hierarchical Clustering, Apriori, Equivalence Class Clustering and bottom up Lattice
Traversal (ECLAT), Gaussian Mixture Models (GMM), Dimensionality Reduction với Principal Component
Analysis (PCA), Time Series với ARIMA
– Triển khai project theo Data Science process
– Vận dụng các thuật toán Machine Learning trong việc giải quyết các vấn đề thực tế, cụ thể
– Xây dựng nền tảng vững chắc về Machine Learning với Python, tạo tiền đề cho việc tìm hiểu kiến thức về Deep Learning.
Course 7: R programming language for Data Science (Lập trình R cho Khoa học dữ liệu)
– Các kiến thức nền tảng và những kỹ năng cần thiết để có thể thực hiện việc phân tích, thống kê, biểu diễn đồ
họa và báo cáo bằng R – một ngôn ngữ lập trình luôn đứng trong “TOP TEN” các ngôn ngữ lập trình được sử
dụng nhiều và phổ biến nhất .
– Sử dụng các cấu trúc trong ngôn ngữ lập trình R để giải quyết các bài toán
– Vận dụng các cấu trúc điều kiện, cấu trúc lặp, function
– Sử dụng các thư viện có sẵn của R để thực hiện các công việc tính toán, thống kê
– Nắm vững và vận dụng các kiểu dữ liệu String, Vector, List, Matric, Array, Data Frame, Object và Class
– Làm việc với các kiểu dữ liệu tập tin như txt file, CSV file, Excel file, XML file, JSON file
– Thiết lập các Chart và Graph, trực quan hóa dữ liệu
– Tiền xử lý dữ liệu (data preprocessing)
– Lập trình thống kê và báo cáo với các built-in function trong R
– Áp dụng một số thuật toán Machine Learning trong việc phân loại (classification), dự đoán (regression) và phân nhóm dữ liệu (clustering), dự đoán dữ liệu Time Series…
Course 8: Deep Learning with Python (Học sâu với Python)
– Các kiến thức cần thiết về Deep Learning, một nhánh của Machine Learning.
– Kiến thức và kỹ năng vận dụng các thuật toán quan trọng thuộc nhóm Supervised Learning (Artificial Neural
Network (ANN) – mạng neuron nhân tạo, Convolutional Neural Network (CNN) – mạng neuron tích chập,
Recurrent neural network (RNN) – mạng neuron hồi quy), AutoEncoder, Deep Learning và Computer Vision
(Face detection – nhận diện khuôn mặt, Object detection – nhận diện vật thể, Pre-trained CNN model,
Generative Adversarial Networks (GANs)) thông qua việc sử dụng các bộ thư viện, công cụ mạnh mẽ, mã
nguồn mở như Python, Numpy, Pandas, Matplotlib, sklearn, TensorFlow, Keras…
– Lựa chọn, áp dụng và triển khai các thuật toán trong nhóm Supervised Learning, Unsupervised Learning, Deep Learning và Computer Vision một cách thích hợp dựa trên các yêu cầu cụ thể.
– Hiểu và vận dụng các thuật toán Deep Learning trong việc giải quyết các vấn đề thực tế.
Course 9: Big Data in Machine Learning (Xử lý dữ liệu lớn trong Máy học)
– Các công nghệ trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp
– Làm việc với Spark, Big Data Technology mới nhất
– Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark DataFrame, PySpark SQL, PySpark Mllib, PySpark Streaming, PySpark GraphX
– Áp dụng Machine Learning với Big Data
– Triển khai dự án Machine Learning với Big Data trên hệ thống Master-Workers
Course 10: Capstone Project – Đồ án tốt nghiệp Data Science/ Machine Learning