KHAI PHÁ và MÔ HÌNH DỮ LIỆU VỚI R

Ý chính của một lớp học về khoa học dữ liệu -> thành chuyên gia được ư?

Giảng viên: TS. Nguyễn Quang và Ths Nguyễn Thế Anh

KẾT QUẢ NHẬN ĐƯỢC

  • Thành thạo lập trình ngôn ngữ R
  • Khai phá dữ liệu: tổng hợp, làm sạch, chuẩn hóa, biến đổi dữ liệu kinh doanh
  • Biểu diễn hình ảnh và tạo lập các báo cáo Business Intelligence hiệu quả
  • Sử dụng các phương pháp thống kê để phân tích dữ liệu kinh doanh
  • Xây dựng các mô hình dự báo xu hướng và rủi ro
  • Làm chủ quá trình triển khai dự án khoa học dữ liệu trong Doanh nghiệp

CÔNG VIỆC PHÙ HỢP

  • Data analyst
  • Business analyst
  • Business Intelligence
  • Machine Learning specialist
  • Data Manager

CHƯƠNG TRÌNH HỌC (10 buổi * 3h hoặc 4 ngày * 7.5h)

Phần 1:

  • Giá trị của Dữ liệu và vai trò của Khoa học dữ liệu
  • Quy trình một dự án Khoa học dữ liệu
  • Cách nhận diện bài toán Dữ liệu trong DN và giá trị mang lại
  • Giới thiệu công cụ: R, Rstudio, Markdown

Phần 2:

– Ngôn ngữ lập trình R: từ cơ bản đến nâng cao

– Thao tác với dữ liệu:

  • Tải dữ liệu, ghép nối, tổng hợp, làm sạch, xây dựng từ điển dữ liệu
  • Xây dựng báo cáo kinh doanh cơ bản

Phần 3:

– Khai phá dữ liệu kinh doanh (EDA):

  • Thống kê và Biểu diễn đồ thị đơn biến phân loại và liên tục
  • Thống kê và Biểu diễn đồ thị đa biến với ggplot2
  • Phân nhóm dữ liệu

Phần 4:

    – Giới thiệu về Business Intelligence

    – Thực hành xây dựng báo cáo Business Intelligence

Phần 5:

– Biến đổi dữ liệu:

o Tìm kiếm điểm bất thường

o Chuẩn hóa dữ liệu, xử lý phân bố

o Giảm chiều dữ liệu

o Tạo biến mới từ dữ liệu

– Các mô hình thống kê:

  • Khoảng tin cậy
  • Kiểm định giả thiết
  • Kiểm định Bootstrap
  • Phân tích phương sai (ANOVA)

Phần 6:

– Mô hình Hồi quy:

  • Hồi quy đơn biến
  • Phân tích sai số
  • Hồi quy đa biến

Phần 7:

    – Các mô hình phân loại

    o Giới thiệu Các mô hình phân loại

    o Mô hình Hồi quy Logistics

o Mô hình cây quyết định và Random Forest

Phần 8:

    – Đánh giá và hiệu chỉnh mô hình

    o Đánh giá mô hình liên tục

o Đánh giá mô hình phân loại

o Xây dựng biến mới

o Lựa chọn biến

Phần 9:

    – Các mô hình không giám sát

    o Mô hình phân cụm

o Mô hình Khuyến nghị

Phần 10:

    – Giới thiệu về mạng Neuron và Deep Learning

– Cách trình bày kết quả dự án ML

– Dự án cuối khóa học

Ứng dụng Machine Learning: phân loại khách hàng thân thiết

Từ dữ liệu về lịch sử sử dụng dịch vụ của khách hàng (giá trị gói dịch vụ, thời gian sử dụng, hình thức gia hạn, thời gian gia hạn dịch vụ(trước khi hết hạn hay sau khi hết hạn mấy ngày)…) ta có thể phân chia khách hàng thành từng nhóm khách hàng khác nhau để có thể chăm sóc khách hàng được tốt hơn.
Một số ví dụ để phân loại khách hàng:

  • Tổng thời gian sử dụng dịch vụ của khách hàng
  • Nhóm khách hàng sử dụng các phương pháp gia hạn
  • Khách hàng gia hạn dựa trên các nhóm truyền thông nào (qua tin nhắn, qua báo chí, qua mạng xã hội, qua ứng dụng…)
  • Nhóm khách hàng theo độ tuổi
  • Nhóm khách hàng theo chương trình hay muốn tham gia
  • Nhóm khách hàng lâu dài…

Ta có thể sử dụng một số phương pháp cơ bản để phân loại khách hàng như thuật toán phân cụm K-MEAN, sử dụng SVM để phân lớp… hoặc các thuật toán nâng cao.

Ứng dụng Machine Learning: phân loại tin nhắn spam (thư spam)

Hàng ngày mình nhận được rất nhiều tin nhắn spam thông qua tin nhắn SMS. Những tin nhắn này bao hàm cả của nhà mạng hoặc các đội spam khác như các cá nhân, công ty, lừa đảo…
Thử làm ứng dụng để phân loại tin nhắn spam để biết đâu là spam, đâu là tin nhắn thường hoặc tin nhắn báo khuyến mại để nhận.

Cách làm phân loại tin nhắn spam đã được nhiều người làm, để đơn giản chắc mình làm trước với nội dung tiếng anh:

  • Loại bỏ các ký tự đặc biệt và các ký tự hay được sử dụng (stop words)
  • Chuyển nội dung SMS dạng text về dạng vector (do các bộ máy đều làm việc dưới dạng số)
  • Tách 80% để train và 20% để test
  • Sử dụng một số thuật toán phổ biến để phân loại: SVM, Naive Bayes.

Trải nghiệm lần đầu đi máy bay

Máy bay tới bây giờ là chuyện quá bình thường với mọi người. Đi máy bay phục vụ đi chơi, đi du lịch, đi làm, đi công tác… Mình thì chưa được đi máy bay bao giờ, chỉ có trước đây đi đón hoặc đưa mẹ mình đi nước ngoài là được tới sân bay (nơi chờ, đưa đón người thân). Lúc đó còn bé và máy bay còn ít chủ yếu dành cho bay đi nước ngoài và người có nhiều tiền.


Dần dần nhắc đến đi máy bay cũng thấy bình thường vì bây giờ hội nhập, đời sống mọi người đã được nâng cao, có thêm các hãng máy bay giá rẻ. Mình cũng chưa có nhu cầu đi máy bay nhưng lần này thì công ty tổ chức đi du lịch kết hợp sinh nhật công ty 10 năm nên là được đi ké.

Yêu cầu phải ra trước khi bay tầm 1,5 đến 2 tiếng thấy cảm giác không tốt lắm, mà có ra đúng thì chuyến bay có thể bị delay bất cứ lúc nào. Mình đi máy bay giá rẻ nhưng nghe người ta nói là máy bay giá không rẻ thì việc delay cũng xảy ra nhưng ít hơn. Delay thì có thể do nhiều nguyên nhân: lý do kỹ thuật, lý do dồn chuyến, chở thêm hàng… Nghe nói là cũng không bao giờ delay tới 4 tiếng vì theo luật máy bay delay đến 4 tiếng trở ra thì phải đền bù đồ ăn hoặc vé… cho hành khách. Cho nên các hãng hàng không sẽ không để cho delay đến tiếng thứ 4.


Được cái chuyến đi không bị delay thì thấy có vẻ có thiện cảm nhưng chuyến về thì bị delay mất 1 tiếng. Delay thì chỉ có ngồi vạ ngồi vật để chờ, người ta nói delay thì bỏ sách ra đọc… thì chỉ có dạng thương gia thôi. Chứ chờ bình thường thì đố đọc được sách, quán xá, người đi lại ầm ầm, loa đọc réo rắt liên tục… Cái không gian dành cho người chờ thì càng ngày càng bị thu hẹp, các hàng quán, ăn uống thì đầy rẫy… nhưng nhìn giá niêm yết đồ ăn thì thấy cũng không quá đắt.
Ngồi trên máy bay giá rẻ thì số lượng ghế nhiều, bé, nói chung là chật chội hơn việc đi tàu và đi xe oto chất lượng cao (giường nằm, cao cấp…). Nói chung bên trong máy bay thì cảm thấy không được như suy nghĩ và quảng cáo, tiếp viên thì cũng không được đẹp lắm, bay hãng máy bay bikini nhưng tiếp viên nữ không mặc bikini nên cũng hơi buồn…
Lúc bay về có ca hành khách ngoài đoàn công ty có phản ánh vì việc chỗ chứa hành lý người đó ngồi bị đầy nên không để được đồ thấy cách xử lý của tiếp viên khá nhẹ nhàng và chuyên nghiệp.


Mình lúc đi khi máy bay lên xuống thì cảm thấy đau tai chút do chênh lệch áp suất, khi về thì nhớ vợ bảo nuốt nước bọt thì thấy không còn đâu nữa. Mọi người cảnh báo lúc lên xuống thì máy bay khá sóc nhưng lần này cả đi lẫn về thì thấy bay khá ổn, không cảm thấy sóc gì, chắc do tay phi công lái khá tốt.
Ngắm cảnh bên ngoài máy bay thì lúc đi là buổi sáng nên nhìn được khá nhiều (mặc dù không sát cửa sổ máy bay). Đúng là như mẹ mình nói là bên trên mây bay theo tầng, xếp từng đống từng đống như đống rơm đống rạ, thấy khá lạ vì mình chưa biết. Vì trời nắng và trong nên đôi lúc nhìn xuống được tới mặt đất như là người ta chụp khi đi máy bay đó. Lúc bay về thì bay đêm tầm hơn 10h thì nhìn xuống là bóng đèn dưới mặt đất, khá là đẹp và ấn tượng.


Nhìn chung lần đầu đi máy bay là một trải nghiệm khá tốt (vì chưa đi bao giờ) nhưng để nói thích thì mình cũng không cảm thấy thích lắm. Đi máy bay rất ít tai nạn nhưng đã tai nạn thì thường thảm khốc vì chết sạch. Đi tàu hay oto thì nhiều tai nạn hơn những vẫn còn phần trăm sống sót. Hơn nữa với việc đặc sản delay thì cảm thấy cũng chẳng hơn oto và tàu hỏa là bao.

Ứng dụng trí tuệ nhân tạo trong giao thông Việt Nam

Nói đến ứng dụng trí tuệ nhân tạo trong giao thông người ta thường nghĩ ngay đến các hệ thống xe tự lái. Các hệ thống này sử dụng việc xử lý hình ảnh của các camera trên xe để tính toán và chỉ thị điều khiển xe có thể tự động lái thay cho con người. Tuy nhiên đó chỉ là tương lai vì còn rất nhiều vấn đề thực tế chưa giải quyết được như chất lượng giao thông, luật pháp, yếu tố an toàn… Đó là trên thế giới, còn Việt Nam thì còn phải lâu lâu nữa bởi vì mọi thứ còn chưa được đồng bộ về giao thông, ý thức người dân, phương tiện oto chưa phổ biến.

Dù vậy trong thời đại Trí tuệ nhân tạo, Cách mạng công nghệ 4.0 thì việc ứng dụng Trí tuệ nhân tạo vẫn có nhiều đất để sử dụng mặc dù không được nổi hoặc hoành tráng nhưng ý nghĩa và tính thực tiễn lại vô cùng to lớn. Ta có thể ví dụ một số ứng dụng thực tiễn như sau:

  • Thông báo, phân làn, điều hướng giao thông: Tại các ngã tư, trên đường có thể sử dụng các thuật toán xử lý ảnh để có thể nhận diện mật độ giao thông để có thể phân làn, điều hướng giao thông được tốt hơn. Thay vì tổng đài hiện tại nhìn vào camera hoặc người dân gọi điện thông báo. Việc ứng dụng các thuật toán xử lý ảnh có thể tiến hành đếm từng cung đường, vị trí để có cảnh báo sớm cho người tham gia giao thông và tổng đài điều tiết giao thông. Nó sẽ góp phần lớn giúp nạn tắc đường và tiết kiệm nhân lực là công an giao thông, dân phòng, bảo vệ… tham gia điều tiết giao thông vào giờ cao điểm.
  • Lưu trữ, thông tin các bãi đỗ xe: Bãi đỗ xe đang dần là vấn đề lớn do việc phương tiện giao thông ngày càng tăng mà đường sá chưa kịp đáp ứng cho việc gia tăng này. Càng ngày việc tìm bãi đỗ xe cho oto càng khó khăn hơn. Thiết lập được các bãi đỗ xe thông minh cho phép tìm kiếm, đặt chỗ đỗ xe là việc cần thiết, tiết kiệm thời gian tìm chỗ đỗ xe. Từ đó cũng cho phép mọi người có nhà mặt đường tham gia hệ thống cho đỗ xe phù hợp gia tăng thu nhập.
  • Thu phí cho việc sử dụng phương tiện cá nhân: Hạn chế phương tiện cá nhân bằng phương pháp đánh thuế mua xe hoặc xăng dầu có vẻ chưa được ổn. Việc thu phí cho lượt sử dụng phương tiện cá nhân là yếu tố có thể tính đến. Tương tự như việc thu phí tại các trạm BOT, việc nhận diện biển số xe để có thể thu phí trong mạng lưới camera ngày càng phát triển. Thu thập và tính toán tần suất sử dụng phương tiện cần sử dụng các thuật toán thông minh…
  • Cảnh báo cho người sử dụng phương tiện giao thông: Kết hợp các dữ liệu thời gian thực thu được từ các phương tiện và các camera tĩnh có thể thông tin tới các tài xế để cho người lái xe tự quyết định hành vi của mình như cảnh báo tắc đường, cảnh báo đường cấm, cảnh báo lái xe có dấu hiệu buồn ngủ, cảnh báo lái xe có sử chất kích thích như rượu, bia…