Phân loại thống kê từ ngữ hay gặp

Phân loại thống kê từ ngữ hay gặp

Một số bài toán thực tế sau:

  • Thêm dấu cho đoạn văn người dùng viết
  • Xử lý ngôn ngữ tự nhiên
  • Thay đổi một đoạn văn bản cho trước sao cho nghĩa không thay đổi

Một trong những cách đầu tiên đó là thống kê danh sách cách các từ, cụm từ phổ biến dựa trên mức độ phổ biến của từ, cụm từ đó. Sau đó dựa vào mức độ phổ biến này để tiến hành thay thế cho phù hợp.

Ví dụ:

Cho câu khuyết từ:

Bạn đã ăn cơm chua?

Thì từ “chua” có thể chưa được bỏ dấu hoặc không. Từ này có thể có các từ có thể thay thế: chua, chưa, chửa, chừa… xem điền từ nào vào cho phù hợp.