Công nghệ tìm kiếm trên Web

28/01/2010 13:01 # 1

Luckystar

Cấp độ: 2 - Kỹ năng: 3

Kinh nghiệm: 14/20 (70%)

Kĩ năng: 2/30 (7%)

Ngày gia nhập: 21/12/2009

Bài gởi: 24

Được cảm ơn: 32

Công nghệ tìm kiếm trên Web

Bài viết này sẽ đưa ra các khái niệm cơ bản nhằm định hướng ban đầu cho những người muốn tìm hiểu các công nghệ tìm kiếm trên Web

Về cơ bản có 3 loại công cụ tìm kiếm: một số được vận hành bởi các crawler (hoặc spider); một số được vận hành bởi human submissions, và một số là sự kết hợp của hai loại trên.

(http://www.vietnambiz.com/thumbnail.php?file=marketing_cho_website_voi_cong_cu_tim_kiem_367670248.gif&size=article_medium)

1/Crawler - Based Search Engines

• Do chuơng trình máy tính tự động tạo ra.

(http://www.monet.k12.ca.us/drivers_lic/tutorial/images/WebCrawler.gif)

Các công cụ dựa trên Crawler gửi các crawler, hoặc là spider ra ngoài. Các crawler này sẽ đến một trang web, đọc các thông tin thực sự của trang web đó, đọc các meta tag của trang web và nó cũng đến tận các link mà trang web đó link đến. Các crawler này sẽ gửi tất cả các thông tin về trung tâm lưu trữ để liệt kê các dư liệu ra. Crawler sẽ quay trở lại trang web đó một cách định kỳ để cập nhập sự thay đổi trên trang web đó, và chu kỳ cập nhật này là do ngưòi quản trị của công cụ tìm kiếm đó đặt cấu hình.

Web crawler, web spider hay web robot là một chương trình tự động tìm kiếm trên Internet. Nó được thiết kết để thu thập tài nguyên Internet (trang Web, hình ảnh, video, tài liệu Word, PDF hay PostScrips) , cho phép máy tìm kiếm đánh chỉ số sau đó.

Cùng phương thức, nhưng một số robots lại bị sử dụng để lượm các tài nguyên hoặc để lọc địa chỉ email.

Để đánh chỉ số các tài nguyên Web, mỗi robot sẽ đi theo các liên kết mà nó tìm thấy tại một trang trung tâm. Sau đó, mỗi trang đã duyệt sẽ được ghi nhớ lại và gán cho tần số đánh lại chỉ số dựa vào mức độ cập nhật thường xuyên hay không của trang.

Để điểu chỉnh ứng xử các robots, một tệp tin ngoại trừ (robots.txt) sẽ được đặt tại thư mục gốc của trang Web để chỉ định cho robots một danh sách những tài nguyên không được tiếp cận. Tệp tin robots.txt này còn đưa ra danh sách những bọ tìm kiếm nào được quyền đánh chỉ số trang Web. Qui tắc này cho phép giảm tải trên máy chủ và tránh đánh chỉ số những tài liệu không cần thiết hoặc nhạy cảm. Tuy nhiên có nhiều bọ tìm kiếm không tôn trọng chỉ định này, và hoàn toàn bỏ qua tệp tin ngoại trừ (robots.txt).

Một số bọ tìm kiếm phổ biến của các máy tìm kiếm :

- Googlebot của Google
- MSNBot của MSN
- Slurp của Yahoo
- Scooter của Alta Vista
- Baidu của Baidu

(http://cyrilonbi.files.wordpress.com/2007/10/collaboration-pyramids.gif)

Thuật ngữ khác của Web Crawler có thể dễ hiểu hơn là Web Spider hoặc Web Robot. Được hiểu nó là 1 chương trình hoặc các đoạn mã có khả năng tự động duyệt các trang web # theo 1 phương thức, cách thức tự động. Ngoài ra có thể dung những từ để chỉ thuật ngữ Web Crawler như ants, automatic indexers, bots, and worms.

Quá trình thực hiện được gọi là Web crawling hay spidering, rất nhiều các công cụ tìm kiếm trên thế giới sử dụng spidering để cập nhật kho dữ liệu website của mình. Chẳng hạn như google dùng nó để lấy các thông tin trên các website rồi cập nhật vào cơ sở dữ liệu của nó giúp người dùng search ra các trang theo ý muốn.

Web crawler là 1 loại của cái gọi là bot (là 1 tác tử thực hiện tự động, nghĩa giống như spider). Nó bắt đầu từ danh sách các địa chỉ URL được gọi là seeds (hạt giống). Nó sẽ vào các địa chỉ này lọc thông tin rồi tìm ra các địa chỉ URL khác thêm chúng vào danh sách các địa chỉ đã duyệt qua gọi là crawl frontier. Sau nó nó lại lặp lại quá trình đó duyệt qua những URL mới. Cứ thế, cứ thể nó lần qua rất nhiều địa chỉ website và thu thập rất nhiều nội dung khác nhau giúp ta dễ dàng tìm kiếm thông tin mình cần.

Trên thế giới những web crawler rất nhiều và áp dụng vào rất nhiều loại hình website khác nhau như: web rao vặt, web so sánh giá, web tổng hợp tin tức, web tìm kiếm,…

Ở Việt Nam cũng đã xuất hiện khá nhiều như:

- Web so sánh giá cả aha.vn

- Web tổng hợp tìm kiếm rao vặt 123g0.com

- Web tổng hợp tin tức như: baomoi.com, timnhanh.com,…

- Web tổng hợp nhạc, tìm kiếm nhạc như: baamboo.com, mp3.zing.vn, 7sac.com

- Web tổng hợp tìm kiếm như: vnnsearch.com, vnsearch.net,…

2/Human-powered Directories

• Là dạng quản lý thư mục internet do con người quản lý.
(http://www.onboom.com/images/stories/_41228796_google203bbc.jpg)

Các công cụ tìm kiếm Human-powered thì lại tin vào các thông tin được liệt kê ra bởi người quản trị trang web, rồi sau đó các thông tin này sẽ được liệt kê và đưa vào bảng liệt kê. Chỉ những thông tin được đưa ra bởi nhà quản trị web mới được đưa vào bảng liệt kê.

Các thư mục internet hòan tòan phụ thuộc vào sự quản lý của con người. Bạn đăng ký website của bạn vào thư mục với một vài dòng mô tả ngắn gọn hoặc các biên tập viên của thư mục viết giúp phần mô tả cho bạn - chúng phù hợp với nội dung và chủ đề của từng danh mục.

Việc thay đổi những trang web không có hiệu lực trên danh mục của bạn. Những thứ hữu ích để cải thiện vị trí xếp hạng với một cỗ máy tìm kiếm không có gì để làm với việc cải thiện một vị trí trong một thư mục. Ngoại lệ duy nhất là một site tốt, với nội dung tốt, có lẽ thích hợp hơn để được xem xét so với một website nghèo nàn.

3/Kết hợp 2 loại trên

Trong cả hai trường hợp, khi bạn yêu cầu tìm kiếm một thông tin gì thì thực tế bạn đều phải tìm trong bảng liệt kê công cụ tìm kiếm mà nó đã tạo ra. Thực tế bạn sẽ không tìm trên các web! Các bảng liệt kê này là những cơ sở dữ liệu khổng lồ được tạo ra, lưu trữ và sau đó được tìm kíêm. Điều này giải thích tại sao thỉnh thoảng khi tìm kiếm trên các công cụ tìm kiếm thương mại, ví dụ như Yahoo! Hay Google, sẽ trả về kết quả chỉ là các link. Bởi vì là các kết quả dựa trên bảng liệt kê, nên khi các công cụ tìm kiếm chưa kịp cập nhật thì nếu có một web nào đó không hoạt động nữa, kết quả vẫn ra link tới nó. Điều này chỉ được sửa lại khi công cụ tìm kiếm cập nhật lại thông tin từ web đó.

Trong thực tế, các hãng tìm kiếm khổng lồ đều kết hợp cả 2 loại trên, crawler để tự động update thông tin mới, còn bảng thư mục do nguời quản trị xử lý trong những truờng hợp website đăng ký trả tiền để đưọc lên các vị trí đầu trong quá trình search.

Vậy, tại sao cùng tìm kiếm một thông tin trên các công cụ khác nhau thì lại cho kết quả không giống nhau? Một phần là vì không phải các bảng liệt kê của các công cụ là hoàn toàn giống nhau. Nó phụ thuộc vào các spider được tìm thấy hay thông tin được nhà quản trị web trình ra. Nhưng một điều quan trọng là không phải các công cụ đều dùng chung một thuật toán để tìm trên các bảng liệt kê. Thuật toán là cách mà các công cụ tìm ra các thông tin liên quan, phù hợp với thông tin mà người dùng cần tìm.

Một trong các yếu tố của thuật toán tìm kiếm của các công cụ tìm kiếm là: tần số xuất hiện và vị trí của các từ khoá (Keyword). Tần số suất hiện càng cao thì càng thích hợp.

Một yếu tố khác cũng rất phổ biến của công cụ tìm kiếm là nó dựa vào cách trang web đó link đến các trang khác như thế nào trong trang web. Bằng cách phân tích các trang link tới nhau như thế nào, các công cụ tìm kiếm có thể xác định được nội dung trang đấy là về cái gì, biết được trang nào là phù hợp hơn. Các công cụ ngày càng trở nên tinh vi hơn và tìm kiếm cũng hiệu quả, chính xác hơn!

Trong tương lai việc lọc các tin tức trên internet sẽ là rất quan trọng giúp cho người sử dụng dễ dàng tìm được cái minh muốn bởi vì Internet ngày càng lớn mạnh cũng có nghĩa là lượng thông tin ngày càng nhiều và càng trở nên hỗn độn hơn.

4/Các thành phần của một cỗ máy tìm kiếm tự động
Những cỗ máy tìm kiếm tự động có 3 phần tử chính:

Đầu tiên là spider, cũng được gọi là crawlers. Spider đến thăm một trang web, đọc nó, và sau đó đi theo sau những mối liên kết tới những trang khác bên trong website. Có nghĩa là, khi có ai đó tìm kiếm đến một trang, các spiders sẽ ghi nhớ điều đó. Nó sẽ quay lại trang đó và theo chu kỳ 1-2 tháng. Như vậy, nếu trang web được tìm thấy càng nhiều, thì các spiders càng năng quay trở lại hơn và như thế, kết quả tìm kiếm của bạn cũng được cải thiện theo.

Mọi thứ spider tìm thấy đi vào trong phần thứ hai của cỗ máy tìm kiếm, Chỉ mục (the index). Chỉ mục, đôi khi gọi là tài liệu, là một kho lưu trữ khổng lồ chứa đựng một sự sao chép của mọi trang web mà spider tìm thấy. Nếu một trang web thay đổi, thì danh sách này được cập nhật với thông tin mới. Đôi khi, cần phải có thời gian để các spiders lập chỉ mục cho một trang mới hay một trang được thay đổi nội dung. Như vậy, sẽ có trường hợp: một trang đã được các spiders tìm đến, nhưng lại chưa được lập chỉ mục. Và trong khỏang thời gian này, trang web sẽ hòan tòan không tồn tại trên Search engine.

Phần mềm tìm kiếm chính là phần tử thứ ba của một cỗ máy tìm kiếm. Đây là một chương trình máy tính có chức năng sàng lọc thông tin từ hàng triệu trang tương tự nhau để sắp xếp vị trí từng trang sao cho phù hợp nhất. Đây chính là nơi mà các công ty SEO khai thác để đưa một website nào đó lên vị trí Top khi được tìm kiếm với một hay nhiều từ khóa chỉ định.

Tham khảo:
http://en.wikipedia.org/wiki/Web_crawler (http://en.wikipedia.org/wiki/Web_crawler)
http://www.vietseo.net/glossary/web-crawler-spider-robot-googlebot-slurp-thuat-ngu/ (http://www.vietseo.net/glossary/web-crawler-spider-robot-googlebot-slurp-thuat-ngu/)
http://vdms.wordpress.com/2006/11/29/tim-hi%E1%BB%83u-v%E1%BB%81-cac-cong-c%E1%BB%A5-tim-ki%E1%BA%BFm/ (http://vdms.wordpress.com/2006/11/29/tim-hi%E1%BB%83u-v%E1%BB%81-cac-cong-c%E1%BB%A5-tim-ki%E1%BA%BFm/)
http://www.webcrawler.com/ (http://www.webcrawler.com/)

Các thành viên đã Thank Luckystar vì Bài viết có ích:
tanphuong85

29/01/2010 18:01 # 2

Samuel

Cấp độ: 1 - Kỹ năng: 1

Kinh nghiệm: 2/10 (20%)

Kĩ năng: 0/10 (0%)

Ngày gia nhập: 20/01/2010

Bài gởi: 2

Được cảm ơn: 0

Phản hồi: Công nghệ tìm kiếm trên Web

Thông tin rất bổ ích, cảm ơn bạn. Nhưng mình vẫn khoái Google hơn.

Các thành viên đã Thank Samuel vì Bài viết có ích:

Trả lời nhanh
Các bạn vui lòng dùng từ ngữ lịch sự và có văn hóa,sử dụng Tiếng Việt có dấu chuẩn. Biểu tượng vui Tùy chọn Hiển thị chữ ký Trích thông tin khi trả lời?

Chatbox