Backup blog theo cách điên rồ

Hôm vừa mình bước đầu viết được tool có thể crawl dữ liệu của một trang web, blog bất kỳ. Nay chợt nghĩ ra mình có thể dùng nó để backup một blog hay trang web nào đó của mình hay của người khác không?

Có thể chứ, dựa vào tên miền, tiến hành lấy toàn bộ link của tên miền, sau đó bóc tách toàn bộ nội dung và lưu lại. Cái này gọi là điên rồ vì các điểm:

  • Mất thời gian. Phải viết tools, script… để thực hiện toàn bộ các thao tác. Trong khi chỉ việc backup database và code đơn giản từ server về(đó là của mình). Còn của người khác thì đúng là chỉ có cách này.
  • Tốn băng thông và gây lỗi cho blog. Với cách này thì truy vấn đến trang rất nhiều như kiểu tấn công từ chối dịch vụ vậy. Hiện blog mình dùng cloudflare free, truy vấn nhiều nó báo lỗi 502 luôn

Đó chỉ là ý tưởng thôi nhưng cần kỹ thuật vài thứ, phải làm job các kiểu… Nhưng cứ coi đó là 1 slide project (pet project) cũng hay đó.