Chỉnh sửa ảnh crawl thành của mình

Trong quá trình làm quen với việc crawl dữ liệu của người khác, từ thực tiễn liên quan mình có một bài toán cần đặt ra với dữ liệu về ảnh.

Có mối liên quan đến ảnh có thể xử lý khi crawl như sau:

  • Crawl đường dẫn ảnh mà thôi, nghĩa là lấy một website lưu về trang của mình nhưng không lấy ảnh đó về. Người dùng khi xem ảnh trên trang clone của mình nhưng bản chất ảnh vẫn ở trang kia. Chẳng may ảnh nó die thì mình không hiển thị được. Tất cả băng thông hoặc mấy thứ khác nó sẽ chịu hết.
  • Crawl cả ảnh về server của mình, coi như đứt đoạn luôn. Thành của mình hết, nó có die thì mình chẳng ảnh hưởng gì.

Khi lấy cả ảnh lưu về server của mình nhưng ảnh đó đã được công cụ tìm kiếm (GOOGLE) đánh index. Liên quan đến bản quyền, xếp rank, chính sách… ta cần phải chỉnh sửa đi. Ta cần làm các thao tác sau:

  • Đổi tên ảnh: Cái này là cái nên làm đầu tiên
  • Đánh dấu nó là của trang mình (ăn cắp còn đánh dấu là của mình) bằng cách hiển thị text lên ảnh. Có thể là nội dung mình thích hoặc viết tên miền của mình lên.
  • Làm một số việc khác như: Chèn logo, lồng khung, thêm icon…
  • Tất nhiên xóa đánh dấu của nó đi nếu được nữa
  • Điều chỉnh lại kích thước của ảnh

Crawl đã tự động thì việc này ta cũng cần làm tự động luôn. Ý tưởng ban đầu nghĩ đến đó là sử dụng thư viện về chỉnh sửa ảnh như Opencv nổi tiếng. Code thì có thể dùng tự do nhưng đầu tiên cứ thử thằng Python cho đơn giản (có thể không đơn giản).