Mỗi ngày một kiến thức mới

Lấy tên theo ý tưởng từ chương trình Mỗi ngày một cuốn sách trên chương trình VTV1 mỗi buổi sáng, thì đây là mỗi ngày một kiến thức mới.

Mỗi ngày một kiến thức mới

Manh nha ra ý tưởng này xuất phát từ việc mình luôn muốn tìm hiểu về nhiều lĩnh vực, vấn đề này mình đã đề cập đến ở bài Muốn tìm hiểu những cái mà ta chưa biết. Một phương pháp mình định áp dụng đó là tận dụng thông tin từ trang https://vi.wikipedia.org.

Đây là từ điển bách khoa toàn thư mở, ai cũng có thể sửa chữa hoặc thêm bài (tất nhiên sẽ phải có đội ngũ quản trị – phi chính phủ) bởi vậy thông tin là đa chiều và có thể một số thông tin không được chính xác và chính thống. Chi tiết bạn có thể xem thêm thông tin.

Từ nguồn dữ liệu phong phú này, ta có thể tận dụng để làm bàn đạp lấy các thông tin ở đây để tiến hành mở mang trí thức cho bản thân. Bởi vì dù làm thợ hay làm thầy, mọi người đều cần phải biết rộng (sau đó sâu theo vấn đề nào thì tùy).

Trang này có mục: Bài viết ngẫu nhiên khá là hay và thú vị.

Theo ý tưởng trên, mình sẽ thiết kế 1 app hay trang web để lấy thông tin ngẫu nhiên này làm tính năng đề xuất hàng ngày để mình tìm hiểu. Hàng ngày ta chỉ cần vào 1 lần, lấy ý tưởng từ đó mà dành một thời gian ngắn 10-15 phút để có thêm những kiến thức bổ ích mới.

Mỗi ngày một kiến thức mới đem đến cho ta sự tò mò và có những hiểu biết mới về cuộc sống. Vì không cố định về chủ đề nào nên ta có thể vô tình biết được những kiến thức bổ ích mà trước đây có thể ta chưa bao giờ có thể tưởng tượng tới.

 

API kiểm tra tên miền

Trong nhiều trường hợp ta muốn kiểm tra một tên miền đã được đăng ký hay chưa, hoặc đăng ký từ bao giờ hoặc ai là người đăng ký, tình trạng hiện hành tên miền còn hạn không… Thường khi ta đi đăng ký tên miền thì các nhà cung cấp đều có tính năng kiểm tra tên miền xem đã được đăng ký hay chưa. Với chừng đó thông tin thì đối với ta là chưa đủ.

Trong quá trình phát triển trang http://khamphaweb.com, để thu thập tên miền chúng tôi có sử dụng 2 phương thức:

+ Dùng con bot để thu thập dữ liệu giữa các trang web khác nhau, việc này cũng cần kiểm tra các thông tin liên quan đến tên miền tìm được

+ Sinh tên miền và tiến hành kiểm tra xem nó đã được đăng ký hay tồn tại hay chưa.

Rất may tổ chức vnwho đã cung cấp API kiểm tra các thông tin của tên miền mà ta sử dụng:

https://vnwho.com/api?domain=tenmien.xxx

API này dựa trên phương thức GET, ta có thể dễ dàng sử dụng nó tùy theo nhu cầu.

Giữ gìn bản sắc dân tộc

Đã có nhiều nhà nghiên cứu đã công bố nhiều lý do tại sao giặc Phương Bắc đã đô hộ chúng ta cả ngàn năm mà sao vẫn không thể đồng hóa được người Việt Nam. Nổi bật nhất chính là vấn đề ngôn ngữ.
Để có thể cai trị cũng như xâm chiếm lâu dài, bọn giặc đã tiến hành các chính sách đồng hóa về ngôn ngữ, văn hóa. Nhưng dân tộc ta chỉ tiến hành tiếp thu hoặc có ảnh hưởng đến ngôn ngữ, văn hóa chứ không bị sao chép y nguyên. Chính vì việc này nên chúng ta luôn luôn dành được chiến thắng. Các cụ hay nói ngôn ngữ mẹ đẻ là như vậy.
Dân tộc Kinh là dân tộc phổ biến ở Việt Nam nhưng mỗi vùng miền, địa phương lại có những nét riêng về cách phát âm, dọng điệu… riêng. Chính điều này làm nên bản sắc văn hóa, nét đặc trưng của từng vùng miền. Người ta có thể dễ dàng biết được người này ở vùng nào khi nghe họ nói. Sự khác biệt này không nhất thiết phải ở khoảng cách xa nhau, ngay nội tại một khu vực ngăn cách nhau bởi con sông, dải núi thì cũng đã khác nhau rùi.
Ví dụ:
+ Giọng ở các khu vực Thanh Hóa, Nghệ An đặc trưng với nhiều từ riêng
+ Giọng nghe có vẻ nặng nặng ở Quảng Nam, Quảng Trị
+ Giọng ở Hà Tây (trước đây)
+ Giọng ngọng l với n ở Hải Dương
+ Giọng miền Tây đặc biệt nhẹ nhàng…
+ Giọng Huế
Có nhiều nguyên nhân dẫn đến sự phân hóa:
+ Do phong tục tập quán
+ Do điều kiện khí hậu
+ Do nước uống
Khi một người từ nơi khác đến, ở lâu dẫn đến dần dần giọng nói bị thay đổi theo ở khu vực đó, nhiều người nó đó là do nước uống. Đó cũng là một phần, nhưng nguyên nhân chính đó là ở đâu theo đó, khi nghe nhiều thì phản xạ con người sẽ nói theo như vậy.
Khi giao thông ngày càng thuận tiện cũng như sự tập trung dân cư ngày càng phát triển. Việc tiếp xúc ngôn ngữ, văn hóa vì vậy ngày càng phổ biến. Ví dụ Thủ Đô Hà Nội, TP Hồ Chí Minh là 2 địa điểm tập trung dân cư nhiều nhất Việt Nam. Các khu vực này dẫn đầu về đô thị hóa cũng như mật độ dân số tăng nhanh mà đa phần là do việc nhập cư.
Dân khác nhập cư đến một địa bàn nhất định sẽ dần dần được tiếp xúc với ngôn ngữ, nền văn hóa của địa bàn. Ví dụ người Nghệ An ra Hà Nội có thể nói được cả 2 giọng là giọng Nghệ An và giọng Hà Nội. Đơn cử khi mình trọ cùng với một người Nghệ An, khi họ nói chuyện với mình thì bình thường nhưng khi nọ nói chuyện giữa hai người Nghệ An với nhau thì mình nghe không kịp hiểu vì họ nói nhanh với âm tiết riêng cũng như những từ ngữ địa phương.
Việc đồng hóa giọng nói, ngôn ngữ sẽ có 2 hình thức: Chủ động và bị động.
+ Bị động đó là ở đâu theo đó, nói nhiều thì quen. Hình thức này thì đó tự nhiên.
+ Chủ động đó là do người muốn hòa nhập nhanh thì phải tập và học giọng nói, ngôn ngữ.
Vậy thì khi bị đồng hóa giọng nói, ngôn ngữ là tốt hay là xấu?
Theo tôi thì tùy theo góc độ nhưng cơ bản hãy giữ được bản sắc địa phương là tốt nhất.
Tốt là: Dễ hòa nhập, thuận lợi trong cuộc sống ở địa phương nơi cư trú.
Xấu là: Làm mất đi bản sắc văn hóa riêng.
Về vấn đề này có nhiều ý kiến cũng như cách nghĩ từng người:
+ Có người nói là muốn theo chuẩn chung, không phân biệt
+ Có người bảo thủ, muốn giữ bản sắc văn hóa, đó cũng là một điều tự hào và tạo nên sự khác biệt
+ Có người giữ cả hai, ở đâu thì sử dụng giọng, ngôn ngữ ở đó.
Đây là vấn đề gây tranh cãi nhiều và chưa bao giờ có dấu hiệu kết thúc.
Từ vấn đề này có nhiều vấn đề xoay quanh như: đồng nghĩa, đồng âm, ngữ nghĩa văn bản – câu nói, từ khóa tìm kiếm…

Phương án thu thập các từ khóa

Mục đích: Có nhiều mục đích khác nhau để thu thập từ khóa như:
+ Thống kê sự phổ cập của từ khóa, nhóm từ khóa
+ Danh sách các từ khóa để tiến hành chọn làm SEO
+ Xu hướng các bài viết
Phương án:
+ Thống kê thuần túy:
Để các bài viết được các công cụ tìm kiếm để ý và tăng lượng tìm kiếm, người viết bài thường sử dụng các từ khóa quan trọng liên quan đến bài viết để đặt vào thẻ keyword. Ý tưởng chính và việc thống kê các keyword này. Hiện nay, các ngôn ngữ như C#, PHP đã phát triển các thư viện như DOM… để dễ dàng có thể lấy được các thẻ như keyword, descriptions, title… Hoặc sử dụng chính các tag, categori để làm từ khóa.
+ Trích xuất từ khóa từ bài viết:
Đây cũng là một hướng mới trong việc nghiên cứu từ khóa. Để đánh chỉ mục và tìm kiếm hiệu quả hơn, các công cụ tìm kiếm hiện cũng đang phát triển việc tự trích xuất các từ khóa từ chính bài viết.
Hướng triển khai là thống kê tần xuất các từ, cụm từ trong danh mục, tiêu đề, trong bài viết để tiến hành chiết suất các từ khóa ra. Việc này cũng cần làm với các yếu tố ngữ nghĩa, đồng nghĩa.

Cái gì hot nhất hiện nay?

Hôm trước, đi ăn trưa cùng sếp tại công ty, anh đấy có hỏi mọi người có biết hiện nay cái gì đang hot nhất trong giới công nghệ. Sau vài phút, trong lúc mọi người còn đang suy nghĩ thì sếp đã cho biết đó chính là POKEMON. Thời điểm đó, trò chơi POKEMON bắt đầu cho người chơi ở một số nước trên thế giới. Việt Nam không nằm trong danh sách đó nên mấy anh trong công ty phải cài hack, giả lập… Sau một thời gian thì cũng chán và bỏ (gần đây cũng không thấy ai nhắc đến trò đó).
Lan man quá, vậy thì làm thế nào để biết vấn đề hot nhất hiện nay là gì? Google thì dựa vào lưu lượng tìm kiếm theo từ khóa, số lượt đọc về vấn đề gì đó. Facebook thì dựa vào việc đặt mã #hastag, nghĩa là mọi người nói đến, nhắc đến thì sẽ đặt #hastag để dễ tìm hơn, cũng là một dạng của từ khóa để đề xuất người xem. Các diễn đàn, trang web thì đương nhiên các bài viết đó sẽ lên đầu, lượng view cao, lượng thảo luận cũng cao…
Đối với người dùng thì sao? Google thì chưa có phần gợi ý đó nhưng Cốc cốc thì đã có mục những từ khóa đang được quan tâm, Facebook thì sẽ có phần gợi ý hoặc dựa trên các mẩu tin hoặc quan tâm của bạn bè sẽ hiển thị lên trên Newfeed của mình… Người dùng có thể tham gia các trang tin điện tử, các diễn đàn để nắm bắt thông tin…
Nhưng đối với những người lười như mình thì không muốn xem những thứ đó rùi mới kết luận ra các vấn đề gì đang hot nhất hiện nay. Mình chỉ quan tâm đó là từ khóa, rồi từ đó nếu thấy thú vị thì mình sẽ đi tìm hiểu tiếp. Google hoặc Facebook thì hiện chưa cung cấp nhưng có Cốc Cốc là trình duyệt cũng đã có phần này nhưng sơ khai ở dạng: Từ khóa ví dụ…
Ý tưởng của mình đơn giản là liên tục lấy các bài viết mới ở các trang thông tin điện tử hoặc các diễn đàn lớn, trích xuất ra các từ khóa (đơn giản nhất lấy từ thẻ keyword hoặc các tag) sau đó tập hợp lại tiến hành đánh giá các từ nào, cụm từ nào nhiều nhất…
Để có phương pháp tập hợp danh sách các từ khóa thì xin được để cập ở bài viết khác.

Bài viết liên quan: Phương án thu thập các từ khóa

Tái bút: Có đồng nghiệp chia sẻ muốn lấy phần #hastag của facebook nhưng hiện tại nó không cho thì phải.