Xây dựng ngân hàng từ khóa, các thẻ và phân loại giữa chúng

Xây dựng ngân hàng từ khóa, các thẻ và phân loại giữa chúng

Từ bài viết: Phương án thu thập các từ khóa  , nghĩ lại thì ta làm rõ mục đích nghiên cứu về từ khóa.

Trong biển vô tận các từ khóa, ta khó lòng xác định được hết các từ khóa liên quan hoặc đám mây các từ khóa về một lĩnh vực hoặc chủ đề nào đó.

Ta cần phân tích các từ khóa, để tìm ra mối tương quan, liên hệ giữa các từ khóa để tiến hành xác định danh sách các từ khóa vào một lĩnh vực.

Ý tưởng như sau:

Mỗi một từ khóa là một điểm, mỗi một từ khóa cùng xuất hiện ở 1 trang web hoặc 1 tên miền hoặc có sự liên quan thì ta đánh là 1 cung(có thể đánh thêm trọng số, cung là có hướng). Đồ thị hóa toàn bộ thông tin này cho ta một đồ thị có hướng, xác định  được đồ thị này ta có thể tiến hành phân tích tiếp theo

  • Dựa vào số bậc (số cạnh) để xác định được từ khóa cha con..
  • Xác định được miền từ khóa
  • Phân loại từ khóa thuộc các lĩnh vực nào
  • Phân cấp được từ khóa
  • Tìm các từ khóa tương đương
  • Nghiên cứu các vấn đề xung quanh 1 từ khóa

Cảnh báo khoảng cách an toàn giữa các xe

Cảnh báo khoảng cách an toàn giữa các xe
Đầu tháng 09/2017, thời sự VTV đã thông báo về nguyên nhân xảy ra việc tai nạn thảm khốc trên cao tốc Nội Bài – Lào Cai giữa xe khách Hà Nội – Lào Cai với xe tải là do khoảng cách an toàn giữa các xe bị vi phạm.
Không chỉ trên cao tốc mà trên đường quốc lộ thường, việc làm chủ tốc độ là 1 vấn đề nhưng việc giữ khoảng cách an toàn là 1 điều cần thiết. Việc sự cố bất ngờ xảy ra với xe đằng trước sẽ dẫn đến tai nạn liên hoàn nếu việc giữa khoảng cách an toàn không được tuân thủ. Không phải tự nhiên mới sinh ra luật, cảnh báo, yêu cầu về việc giữ khoảng cách an toàn khi lưu thông trên đường.
Để hỗ trợ lái xe và đưa ra các cảnh báo về khoảng cách giữa các xe khi lưu thông trên đường là điều cần thiết.
Ứng dụng Công nghệ thông tin có thể giúp các lái xe chú ý hơn về khoảng cách an toàn:
– Ứng dụng, chương trình được cài trên xe sẽ đo và cảnh báo trực tiếp tới tài xế đơn giản bằng cách thông báo tốc độ xe đang di chuyển, khoảng cách với xe đằng trước – xe đằng sau, tốc độ của xe đằng trước hoặc các thông tin khác một cách tức thì(real time).
– Tương tự ứng dụng ở trên nhưng kết nối internet để tiến hành thông tin về trung tâm giám sát hành trình của nhà xe hoặc công an giao thông để tiến hành xử phạt(khi ứng dụng hộp đen cho toàn bộ xe hơi)
– Việc giám sát tương tự được thực hiện bởi các camera trên các đường cao tốc hoặc đường thường nhằm xác định sự vi phạm hoặc cảnh báo, xử phạt đối với các xe vi phạm.
Các cách thức để xác định khoảng cách giữa các xe như sau:
+ Sử dụng các camera hành trình trên chính các chiếc xe, sử dụng các thuật toán xử lý ảnh để tính toán trên video thu được.
+ Sử dụng các camera giám sát giao thông, sử dụng các thuật toán xử lý ảnh để tính toán.
+ Khi đã số hóa, trang bị hộp đen cho các xe thì có thể sử dụng GPS để tiến hành định vị hoặc tính khoảng các giữa các xe…
Hi vọng các ứng dụng này góp phần làm giảm việc không giữ khoảng cách an toàn khi tham gia lưu thông trên đường, nhất là đường cao tốc.

Năm mức ngu dốt

Bài báo Five levels of ignorance ở Communications of the ACM (số 10, năm 2000) của Phillip G. Armour nhìn quá trình phát triển phần mềm như việc nắm bắt tri thức và giảm sự ngu dốt. Lý luận của ông rằng phần mềm là phương tiện thứ năm chứa tri thức rất hay (bốn phương tiện kia là DNA, não, phần cứng các loại, và sách).

Ông chia sự ngu dốt (về vấn đề X nào đó) nói chung, và dốt trong phát triển phần mềm nói riêng ra là năm mức:

  • 0OI – không dốt: để đạt mức này ta phải biết X và chứng minh được rằng ta biết X. Ví dụ: tôi biết viết blog!
  • 1OI – thiếu kiến thức: để … đạt được mức dốt này thì ta phải biết là ta thiếu kiến thức về X. Ví dụ: tôi biết là tôi không biết gì về cơ học lượng tử. Đạt được mức dốt này cũng đã tốt, vì nếu có nhu cầu tôi có thể đi tìm sách vở tài liệu về cơ học lượng tử để học thêm.
  • 2OI – thiếu nhận thức: ở mức dốt này thì ta không biết là ta không biết gì về X. Hiển nhiên là ta không thể cho ví dụ về 2OI nào! Tuy nhiên, thỉnh thoảng đọc sách đọc báo,đọc blog KHMT (!), tôi có thể tìm ra được nhiều thứ chưa bao giờ biết là mình không biết, và như thế tôi chuyển các thứ đó lên 1OI. Dù rằng với cơ học lượng tử nói chung thì tôi ở mức 1OI, chắc chắn là có các đối tượng cụ thể nào đó trong cơ học lượng tử mà tôi ở mức 2OI.
  • 3OI – thiếu quá trình: ở mức dốt này thì ta thiếu một quá trình cụ thể để khám phá ra rằng mình đang không biết rằng mình đang không biết về X. Nói cách khác, ở mức dốt này thì ta không biết cách nào để tìm ra các thứ mà ta không biết rằng ta không biết :-).
  • 4OI – siêu dốt: chữ này tôi dịch bừa từ chữ meta-ignorance, vì meta-physics người ta dịch là siêu hình (học). Ở mức dốt này thì ta không biết gì về năm mức ngu dốt.

Đến đây thì tôi không còn ở mức 4OI được nữa. (OI viết tắt của Order of Ignorance.)

Dân máy tính thường phải đọc/học rất nhiều để theo kịp sự phát triển với tốc độ ánh sáng của ngành mình. Trong quá trình này, với mỗi vấn đề X của ngành, ta sẽ chuyển dần dần từ 3OI xuống 1OI. Sau đó, nếu X là cái mà ta thật sự thích hoặc cần cho công việc thì sẽ chuyển nó lên 0OI.

Rất nhiều sinh viên và nghiên cứu sinh KHMT ở mức 3OI khi mới bắt đầu đi học. Sau đó họ tìm hiểu về quá trình nghiên cứu, quá trình tìm các vấn đề và hướng nghiên cứu mới, quá trính cập nhật kiến thức về ngành của mình, và chuyển dần các thứ lên 2OI. Để có một quá trình hiệu quả từ 3OI lên 2OI không dễ chút nào. Ví dụ đơn giản: các journals, conference nào trong ngành mình là có giá trị, làm thế nào để tìm đọc các bài trong chúng, phương pháp lọc bài đọc thế nào, vân vân.

Sau khi học được quá trình này rồi, ta có phương tiện để chuyển dần các khối kiến thức khác nhau lên 1OI. Đến khi sắp ra trường, chuẩn bị làm luận án Ph.D về cái gì đó thì (hy vọng rằng) ta đã có vài thứ ở 0OI.

Bookmark online

 

Hiện nay tất cả các trình duyệt đều hỗ trợ tính năng lưu bookmark cá nhân của mình. Nhưng đối với mình thì hiện tại bookmark có 1 số điểm yếu như sau:
– Do bookmark là đi theo từng trình duyệt cài từng máy nên việc lưu động chuyển qua các máy tính khác khó khăn. Ví dụ ở công ty dùng thì khó đồng bộ realtime với máy ở nhà, rồi đối với các thiết bị di động.
– Google Chrome đã tích hợp sẵn bookmark với tài khoản email. Nên mọi lúc mọi nơi đều có thể truy cập được, đây là 1 tính năng khá tiện ích.(Firefox cũng có nhưng khá khó hiểu và khó khăn khi dùng)
– Các bookmark của các trình duyệt khác nhau khá khó để tiến hành đồng bộ với nhau được.(Tất nhiên có thể import và export)
– Khi lưu bookmark, việc duyệt ngoại tuyến là không thể hoặc khi link chết thì không thể nào truy cập được, theo đó cũng mất luôn hoặc không còn tác dụng nữa. Firefox có extention là Pocket cũng khá hay nhưng có vẻ phức tạp.
– Đối với các trình duyệt thì đều có thể tạo phân cấp thư mục được nhưng việc quản lý nó khá là sơ khai. Khó có thể thống kê hoặc thao tác với nó.
– Việc trích xuất các thông tin ra để thống kê… thì cũng rất hạn chế.

Qua kiểm tra trên internet cũng có khá nhiều bọn nước ngoài làm cái bookmark online nhưng cảm giác không phù hợp với người Việt mình. Mình đề xuất ý tưởng thiết kế bookmark online với các tính năng sau:
– Là một trang web quản lý bookmark của mình
– Các tính năng tương đương với bookmark của trình duyệt. Làm được việc này thì cần thiết kế các extention cho các trình duyệt để người dùng thao tác dễ dàng hơn
– Cung cấp tài khoản cho người dùng để người dùng có thể dùng muôn nơi, không phụ thuộc loại trình duyệt, các máy tính khác nhau
– Khi lưu thông tin trang web phải đảm bảo lưu được các thông tin sau: url, title, description, keywork, lưu trang với dạng ngoại tuyến.
– Một url có thể lưu ở nhiều thư mục khác nhau.
– Có thể thống kê, đánh giá các lĩnh vực lưu nhiều, các trang phổ biến…

Mỗi ngày một kiến thức mới

Lấy tên theo ý tưởng từ chương trình Mỗi ngày một cuốn sách trên chương trình VTV1 mỗi buổi sáng, thì đây là mỗi ngày một kiến thức mới.

Mỗi ngày một kiến thức mới

Manh nha ra ý tưởng này xuất phát từ việc mình luôn muốn tìm hiểu về nhiều lĩnh vực, vấn đề này mình đã đề cập đến ở bài Muốn tìm hiểu những cái mà ta chưa biết. Một phương pháp mình định áp dụng đó là tận dụng thông tin từ trang https://vi.wikipedia.org.

Đây là từ điển bách khoa toàn thư mở, ai cũng có thể sửa chữa hoặc thêm bài (tất nhiên sẽ phải có đội ngũ quản trị – phi chính phủ) bởi vậy thông tin là đa chiều và có thể một số thông tin không được chính xác và chính thống. Chi tiết bạn có thể xem thêm thông tin.

Từ nguồn dữ liệu phong phú này, ta có thể tận dụng để làm bàn đạp lấy các thông tin ở đây để tiến hành mở mang trí thức cho bản thân. Bởi vì dù làm thợ hay làm thầy, mọi người đều cần phải biết rộng (sau đó sâu theo vấn đề nào thì tùy).

Trang này có mục: Bài viết ngẫu nhiên khá là hay và thú vị.

Theo ý tưởng trên, mình sẽ thiết kế 1 app hay trang web để lấy thông tin ngẫu nhiên này làm tính năng đề xuất hàng ngày để mình tìm hiểu. Hàng ngày ta chỉ cần vào 1 lần, lấy ý tưởng từ đó mà dành một thời gian ngắn 10-15 phút để có thêm những kiến thức bổ ích mới.

Mỗi ngày một kiến thức mới đem đến cho ta sự tò mò và có những hiểu biết mới về cuộc sống. Vì không cố định về chủ đề nào nên ta có thể vô tình biết được những kiến thức bổ ích mà trước đây có thể ta chưa bao giờ có thể tưởng tượng tới.

 

API kiểm tra tên miền

Trong nhiều trường hợp ta muốn kiểm tra một tên miền đã được đăng ký hay chưa, hoặc đăng ký từ bao giờ hoặc ai là người đăng ký, tình trạng hiện hành tên miền còn hạn không… Thường khi ta đi đăng ký tên miền thì các nhà cung cấp đều có tính năng kiểm tra tên miền xem đã được đăng ký hay chưa. Với chừng đó thông tin thì đối với ta là chưa đủ.

Trong quá trình phát triển trang http://khamphaweb.com, để thu thập tên miền chúng tôi có sử dụng 2 phương thức:

+ Dùng con bot để thu thập dữ liệu giữa các trang web khác nhau, việc này cũng cần kiểm tra các thông tin liên quan đến tên miền tìm được

+ Sinh tên miền và tiến hành kiểm tra xem nó đã được đăng ký hay tồn tại hay chưa.

Rất may tổ chức vnwho đã cung cấp API kiểm tra các thông tin của tên miền mà ta sử dụng:

https://vnwho.com/api?domain=tenmien.xxx

API này dựa trên phương thức GET, ta có thể dễ dàng sử dụng nó tùy theo nhu cầu.

Giữ gìn bản sắc dân tộc

Đã có nhiều nhà nghiên cứu đã công bố nhiều lý do tại sao giặc Phương Bắc đã đô hộ chúng ta cả ngàn năm mà sao vẫn không thể đồng hóa được người Việt Nam. Nổi bật nhất chính là vấn đề ngôn ngữ.
Để có thể cai trị cũng như xâm chiếm lâu dài, bọn giặc đã tiến hành các chính sách đồng hóa về ngôn ngữ, văn hóa. Nhưng dân tộc ta chỉ tiến hành tiếp thu hoặc có ảnh hưởng đến ngôn ngữ, văn hóa chứ không bị sao chép y nguyên. Chính vì việc này nên chúng ta luôn luôn dành được chiến thắng. Các cụ hay nói ngôn ngữ mẹ đẻ là như vậy.
Dân tộc Kinh là dân tộc phổ biến ở Việt Nam nhưng mỗi vùng miền, địa phương lại có những nét riêng về cách phát âm, dọng điệu… riêng. Chính điều này làm nên bản sắc văn hóa, nét đặc trưng của từng vùng miền. Người ta có thể dễ dàng biết được người này ở vùng nào khi nghe họ nói. Sự khác biệt này không nhất thiết phải ở khoảng cách xa nhau, ngay nội tại một khu vực ngăn cách nhau bởi con sông, dải núi thì cũng đã khác nhau rùi.
Ví dụ:
+ Giọng ở các khu vực Thanh Hóa, Nghệ An đặc trưng với nhiều từ riêng
+ Giọng nghe có vẻ nặng nặng ở Quảng Nam, Quảng Trị
+ Giọng ở Hà Tây (trước đây)
+ Giọng ngọng l với n ở Hải Dương
+ Giọng miền Tây đặc biệt nhẹ nhàng…
+ Giọng Huế
Có nhiều nguyên nhân dẫn đến sự phân hóa:
+ Do phong tục tập quán
+ Do điều kiện khí hậu
+ Do nước uống
Khi một người từ nơi khác đến, ở lâu dẫn đến dần dần giọng nói bị thay đổi theo ở khu vực đó, nhiều người nó đó là do nước uống. Đó cũng là một phần, nhưng nguyên nhân chính đó là ở đâu theo đó, khi nghe nhiều thì phản xạ con người sẽ nói theo như vậy.
Khi giao thông ngày càng thuận tiện cũng như sự tập trung dân cư ngày càng phát triển. Việc tiếp xúc ngôn ngữ, văn hóa vì vậy ngày càng phổ biến. Ví dụ Thủ Đô Hà Nội, TP Hồ Chí Minh là 2 địa điểm tập trung dân cư nhiều nhất Việt Nam. Các khu vực này dẫn đầu về đô thị hóa cũng như mật độ dân số tăng nhanh mà đa phần là do việc nhập cư.
Dân khác nhập cư đến một địa bàn nhất định sẽ dần dần được tiếp xúc với ngôn ngữ, nền văn hóa của địa bàn. Ví dụ người Nghệ An ra Hà Nội có thể nói được cả 2 giọng là giọng Nghệ An và giọng Hà Nội. Đơn cử khi mình trọ cùng với một người Nghệ An, khi họ nói chuyện với mình thì bình thường nhưng khi nọ nói chuyện giữa hai người Nghệ An với nhau thì mình nghe không kịp hiểu vì họ nói nhanh với âm tiết riêng cũng như những từ ngữ địa phương.
Việc đồng hóa giọng nói, ngôn ngữ sẽ có 2 hình thức: Chủ động và bị động.
+ Bị động đó là ở đâu theo đó, nói nhiều thì quen. Hình thức này thì đó tự nhiên.
+ Chủ động đó là do người muốn hòa nhập nhanh thì phải tập và học giọng nói, ngôn ngữ.
Vậy thì khi bị đồng hóa giọng nói, ngôn ngữ là tốt hay là xấu?
Theo tôi thì tùy theo góc độ nhưng cơ bản hãy giữ được bản sắc địa phương là tốt nhất.
Tốt là: Dễ hòa nhập, thuận lợi trong cuộc sống ở địa phương nơi cư trú.
Xấu là: Làm mất đi bản sắc văn hóa riêng.
Về vấn đề này có nhiều ý kiến cũng như cách nghĩ từng người:
+ Có người nói là muốn theo chuẩn chung, không phân biệt
+ Có người bảo thủ, muốn giữ bản sắc văn hóa, đó cũng là một điều tự hào và tạo nên sự khác biệt
+ Có người giữ cả hai, ở đâu thì sử dụng giọng, ngôn ngữ ở đó.
Đây là vấn đề gây tranh cãi nhiều và chưa bao giờ có dấu hiệu kết thúc.
Từ vấn đề này có nhiều vấn đề xoay quanh như: đồng nghĩa, đồng âm, ngữ nghĩa văn bản – câu nói, từ khóa tìm kiếm…

Phương án thu thập các từ khóa

Mục đích: Có nhiều mục đích khác nhau để thu thập từ khóa như:
+ Thống kê sự phổ cập của từ khóa, nhóm từ khóa
+ Danh sách các từ khóa để tiến hành chọn làm SEO
+ Xu hướng các bài viết
Phương án:
+ Thống kê thuần túy:
Để các bài viết được các công cụ tìm kiếm để ý và tăng lượng tìm kiếm, người viết bài thường sử dụng các từ khóa quan trọng liên quan đến bài viết để đặt vào thẻ keyword. Ý tưởng chính và việc thống kê các keyword này. Hiện nay, các ngôn ngữ như C#, PHP đã phát triển các thư viện như DOM… để dễ dàng có thể lấy được các thẻ như keyword, descriptions, title… Hoặc sử dụng chính các tag, categori để làm từ khóa.
+ Trích xuất từ khóa từ bài viết:
Đây cũng là một hướng mới trong việc nghiên cứu từ khóa. Để đánh chỉ mục và tìm kiếm hiệu quả hơn, các công cụ tìm kiếm hiện cũng đang phát triển việc tự trích xuất các từ khóa từ chính bài viết.
Hướng triển khai là thống kê tần xuất các từ, cụm từ trong danh mục, tiêu đề, trong bài viết để tiến hành chiết suất các từ khóa ra. Việc này cũng cần làm với các yếu tố ngữ nghĩa, đồng nghĩa.