Crawl dữ liệu với selenium

Mình vẫn hay phải crawl dữ liệu chơi chơi để làm một số công việc tự động. Ví dụ crawl vài trang blog hoặc web về IT để đưa lên máy đọc sách để đọc. Ngôn ngữ sử dụng thì trước là C#, sau là NodeJS và gần đây nhất là Python.

Mình gặp một vấn đề khi crawl là một số trường hợp không thể lấy được dữ liệu. Lần gần đây nhất mà mình tạm bỏ qua đó là trang Kipalog, mình không lấy được số lượt lưu trữ của mỗi bài viết. Khi load HTML thì các thuộc tính của nó không chứa dữ liệu. Hoặc 1 blog khác thì không lấy được các comment của bài viết…

Cũng nghe từ lâu rồi nhưng nay phải note lại để nghiên cứu làm thử. Đó là sử dụng selenium để crawl dữ liệu với những trang web sử dụng ajax để load dữ liệu, có capcha hoặc trang bắt phải login…

Selenium thường được biết đến là một môi trường test tự động cho trình duyệt web. Khi mình cần test website tự động thì cần dùng đến công cụ này… Mình sẽ tìm hiểu để triển khai thử việc test và crawl dữ liệu với Selenium.