Các dịch vụ và công cụ của bộ máy tìm kiếm

Ở bài trước chúng ta đã biết về việc Bắt đầu một chiến dịch xây dựng liên kết như thế nào.

Dân làm SEO có xu hướng sử dụng rất nhiều công cụ. Nhiều công cụ hữu ích được cung cấp bởi chính các bộ máy tìm kiếm. Để khuyến khích các webmaster xây dựng nội dung và website theo phương thức dễ tiếp cận, bộ máy tìm kiếm đã cung cấp rất nhiều công cụ đa dạng, thông số phân tích cùng tài liệu hướng dẫn. Các nguồn tài nguyên miễn phí này cung cấp nhiều dữ liệu cũng như cơ hội giúp bạn trao đổi thông tin độc quyền với các bộ máy tìm kiếm.

Phần dưới trình bày các yếu tố các công cụ tìm kiếm thường hỗ trợ, cũng như giải thích tại sao chúng lại hữu dụng.

Các giao thức thông dụng của công cụ tìm kiếm

1. Sitemap (Bản Đồ Trang Web)

Hãy xem sitemap như danh sách các tệp tin cung cấp gợi ý cho công cụ tìm kiếm để giúp chúng thu thập website của bạn. Sitemap giúp công cụ tìm kiếm có thể tìm thấy và phân loại nội dung trên website – một hoạt động mà bản thân chúng không thể tự thực hiện. Sitemap có rất nhiều định dạng và có thể làm nổi bật nhiều loại nội dung khác nhau, gồm video, hình ảnh, tin tức và di động.

Bạn có thể xem thông tin đầy đủ về các giao thức tại Sitemaps.org. Ngoài ra, bạn có thể xây dựng một sitemap cho riêng mình tại XML-Sitemaps.com. Sitemap có ba loại:

XML

Extensible Markup Language – Ngôn ngữ đánh dấu mở rộng (Là định dạng được khuyến dùng)

Ưu điểm: Đây là định dạng được chấp nhận rộng rãi nhất cho sitemap, giúp các công cụ tìm kiếm dễ dàng phân tích và có thể được tạo ra bởi nhiều công cụ tạo sitemap. Hơn nữa, nó giúp công cụ tìm kiếm có thể quản lí từng tham số trên trang.

Nhược điểm: Là một tệp tin có kích thước tương đối lớn. Vì XML cần một thẻ mở và một thẻ đóng cho từng yếu tố nội dung, do đó kích thước tệp tin có thể rất lớn.

RSS

Really Simple Syndication hay Rich Site Summary

Ưu điểm: Dễ duy trì. Sitemap RSS có thể được viết mã tự động update mỗi khi có nội dung mới thêm vào.

Nhược điểm: Khó quản lí. Dù RSS là một nhánh ngôn ngữ của XML, bạn khó có thể quản lí nó vì tính năng tự động update này.

Txt

Text File (Tệp tin dạng văn bản)

Ưu điểm: Cực dễ. ‘Sitemap định dạng văn bản’ là một URL/dòng trong số 50,000 dòng.

Nhược điểm: Không có chức năng bổ sung siêu dữ liệu cho các trang.

2. Robots.txt

Tệp tin robots.txt (một sản phẩm của Robots Exclusion Protocol) nên được lưu giữ trong thư mục gốc của website (vd, www.google.com/robots.txt). Tệp tin đóng vai trò hướng dẫn lối đi cho các crawler truy cập tự động, kể cả spider tìm kiếm.

Bằng cách sử dụng robots.txt, các webmaster có thể khoanh vùng khu vực họ không muốn các bot thu thập cũng như xác định vị trí của các tệp tin sitemap và hoãn thu thập các tham chiếu. Bạn có thể tìm hiểu thêm về robots.txt tại trang Knowledge Center.

Bạn có thể đưa ra các yêu cầu sau:

Disallow (Không cho phép)

Ngăn các robot truy cập các trang hoặc thư mục xác định nào đó.

Sitemap

Xác định vị trí một sitemap của website hay các sitemap.

Crawl Delay (Hoãn thu thập)

Chỉ định vận tốc (một phần nghìn giây) một robot có thể thu thập một server.

Một ví dụ về Robots.txt

#Robots.txt www.example.com/robots.txt
User-agent: *
Disallow:

# Không cho spambot thu thập bất cứ trang nào
User-agent: spambot
disallow: /

sitemap:www.example.com/sitemap.xml

Cảnh báo: Bạn nên biết rằng không phải tất cả robot tìm kiếm website đều tuân theo robots.txt. Những người có mục đich xấu (vd như, các scraper địa chỉ email) đã tạo ra các bot không tuân theo giao thức này, và trong vài trường hợp cực đoan, họ có thể dùng chúng để đánh cắp thông tin cá nhân. Vì lí do đó, các website cho phép truy cập công cộng được khuyến cáo không nên dùng robots.txt cho các vị trí thông tin quản trị hoặc các thông tin cá nhân. Thay vào đó, các trang này có thể dùng thẻ meta robot (sẽ được thảo luận trong phần tiếp theo) để ngăn công cụ tìm kiếm đánh chỉ số những phần nội dung nhạy cảm.

3. Thẻ Meta Robot

Thẻ meta robot hướng dẫn các bot của công cụ tìm kiếm thu thập các trang con trên một website.

Thẻ meta robot được đặt trong phần đầu của tài liệu HTML.

Một ví dụ về thẻ meta Robots

<html>
<head>
<title>The Best Webpage on the Internet</title>
<meta name=”ROBOTS” content=”NOINDEX, NOFOLLOW”>
</head>
<body>
<h1>Hello World</h1>
</body>
</html>

Trong ví dụ trên, “NOINDEX, NOFOLLOW” dùng để cảnh báo các robot không thu thập trang này vào danh mục của công cụ tìm kiếm, cũng không đi theo bất cứ liên kết nào trên trang đó.

4. Thẻ Rel=”Nofollow”

Bạn còn nhớ liên kết có chức năng như lá phiếu bầu chọn chứ? Thuộc tính rel=”nofollow” cho phép bạn liên kết đến một tài nguyên, nhưng đồng thời xóa bỏ vai trò “lá phiếu” của bạn. Nói một cách đơn giản, “nofollow” báo cho công cụ tìm kiếm biết không đi theo chúng để khám phá những trang mới. Các liên kết loại này cung cấp ít giá trị hơn (và hầu như chẳng có chút giá trị nào) so với người anh em ‘dofollow’, nhưng chúng rất hữu ích trong một số trường hợp khi bạn liên kết đến một nguồn không tin cậy.

Một Ví Dụ Về Nofollow

<a href=”http://www.example.com” title=“Example” rel=”nofollow”>Example Link</a>

Trong ví dụ trên, giá trị của liên kết không được chuyển đến example.com vì thuộc tính rel=nofollow đã được đặt vào.

5. Rel=”canonical”

Thông thường, hai hay nhiều bản sao của cùng một nội dung xuất hiện trên website của bạn dưới các URL khác nhau. Chẳng hạn như, các URL dưới đây có thể đều liên quan đến một trang chủ mà thôi:

  • http://www.example.com/
  • http://www.example.com/default.asp
  • http://example.com/
  • http://example.com/default.asp
  • http://Example.com/Default.asp

Công cụ tìm kiếm hiểu rằng đây là 5 trang web tách biệt. Vì nội dung trên các trang này như nhau, công cụ tìm kiếm có thể hạ thấp giá trị nội dung cũng như tiềm năng xếp hạng của nó.

Thẻ canonical giúp giải quyết vấn đề này bằng cách báo cho các robot của công cụ tìm kiếm biết rằng trang web nào là phiên bản “chính thức” có thể được tin cậy để hiển thị trên trang kết quả tìm kiếm.

Một Ví Dụ về rel=”canonical” của URL http://example.com/default.asp

<html>
<head>
<title>The Best Webpage on the Internet</title>
<link rel=”canonical” href=”http://www.example.com”>
</head>
<body>
<h1>Hello World</h1>
</body>
</html>

Trong ví dụ trên, rel=canonical báo cho robot biết trang web này là bản sao của http://www.example.com, và nên xem URL sau là phiên bản chính.

Các công cụ của bộ máy tìm kiếm

1. Google Webmaster Tools

Google Webmaster Tools

Google Webmaster Tools

Settings (Phần cài đặt)

Geographic target (Mục tiêu địa lý) – Nếu một website chỉ nhắm đến người dùng ở một vùng cụ thể nào đó, các webmaster có thể cung cấp cho Google thông tin giúp xác định website đó nên hiển thị trong kết quả tìm kiếm theo từng vùng ra sao, đồng thời vẫn đáp ứng được các truy vấn về địa lý.

Preferred Domain (Tên miền nên sử dụng) – Tên miền nên sử dụng là tên miền các webmaster sử dụng để đánh chỉ mục các trang web của họ. Nếu webmaster xác định http://www.example.com là tên miền nên sử dụng và Google phát hiện một liên kết dẫn đến website này cũng có định dạng http://www.example.com, Google sẽ hiểu liên kết đó vẫn trỏ đến trang http://www.example.com.

URL parameters (Tham chiếu URL) – Bạn có thể cung cấp thông tin trên Google về từng tham chiếu trên website của bạn, như “sort=price” và “sessionid=2”. Điều này sẽ giúp Google thu thập website của bạn hiệu quả hơn, lờ đi các tham chiếu cung cấp nội dung trùng lắp và gia tăng số lượng trang web duy nhất mà Google có thể thu thập trên website của bạn.

Crawl Rate (Tỉ lệ thu thập) – Tỉ lệ thu thập phản ánh thời gian một Googlebot cần dùng trong suốt quá trình thu thập. Tỉ lệ này không nói lên mức độ thường xuyên một Googlebot tiến hành thu thập một website xác định. Tỉ lệ này phụ thuộc vào số trang của một website.

Diagnostics (Đặc trưng)

Malware (Phần mềm độc hại) – Google sẽ gửi đi thông báo nếu họ phát hiện có phần mềm độc hại trên website của bạn. Phần mềm này tuy không tác động đến người dùng, nhưng chúng gây ảnh hưởng nghiêm trọng đến thứ hạng của website.

Crawl Errors (Các lỗi thu thập) – Nếu Googlebot gặp phải lỗi nghiêm trọng khi thu thập website của bạn, như lỗi 404 chẳng hạn, họ sẽ gửi báo cáo về vấn đề này và xác định nơi Googlebot tìm thấy liên kết dẫn đến URL không thể truy cập.

HTML Suggestions (Các đề nghị về HTML) – Phân tích này giúp xác định các thành phần HTML không thân thiện với công cụ tìm kiếm. Cụ thể là, nó liệt kê các vấn đề với thẻ meta mô tả, thẻ tiêu đề, và các nội dung không thể đánh chỉ mục.

Your Site on the Web (Website của bạn trên Hệ Thống Web)

Các số liệu thống kê này giúp người làm SEO có kiến thức sâu sắc hơn, vì chúng cung cấp số impression về từ khóa, tỉ lệ nhấp chuột, các trang hiển thị hàng đầu trên công cụ tìm kiếm, và thống kê liên kết. Tuy nhiên, nhiều người làm SEO thường phàn nàn rằng dữ liệu của Webmaster Tool thường không đầy đủ và chỉ là những con số phỏng đoán.

Site Configuration (Cấu Hình Website)

Phần quan trọng này cho phép bạn đăng nộp sitemap, thử nghiệm các tệp tin robots.txt, điều chỉnh sitelink, và đăng nộp các yêu cầu thay đổi địa chỉ khi bạn chuyển website từ tên miền này sang tên miền khác. Phần này cũng bao gồm cả phần “Settings” và “URL parameters” như đã đề cập ở trên.

+1 Metrics (Tiêu chí +1)

Khi người dùng chia sẻ nội dung trên Google+ với nút +1, hoạt động này thường được giải thích trên kết quả hiển thị. Hãy xem video minh họa về Google+ để hiểu tại sao điều này lại quan trọng như vậy. Trong phần này, Google Webmaster Tool báo cáo tác động của việc chia sẻ +1 đến kết quả hiển thị của website.

Labs (Phòng thí nghiệm)

Phần Labs của Webmaster Tool chứa các bản báo cáo vẫn nằm trong giai đoạn thử nghiệm, nhưng vẫn rất quan trọng với các quản trị web. Một trong những báo cáo quan trọng nhất là Site Performance, giúp phản ánh tốc độ tải của website là nhanh hay chậm với khách truy cập.

2. Bing Webmaster Center

Bing Webmaster Center

Bing Webmaster Center

Key Features (Đặc điểm chủ đạo)

Sites Overview (Tổng quát về các website) – Giao diện này cung cấp cái nhìn tổng quát về khả năng hiển thị của tất cả các website của bạn trên trang kết quả tìm kiếm được quản lí bởi Bing. Chúng cung cấp thông tin ngắn gọn về số lần nhấp chuột, impression, các trang được đánh chỉ mục và số lượng trang con được thu thập của một website.

Crawl Stats (Thống kê thu thập) – Ở đây, bạn có thể xem xét các báo cáo về số trang con trên website của bạn đã được Bing thu thập cũng như khám phá các lỗi đã mắc phải. Giống Google Webmaster, bạn có thể đăng nộp sitemap để giúp Bing biết cách thu thập và ưu tiên nội dung của bạn.

Index (Lập chỉ mục) – Phần này cho phép webmaster xem xét cũng như theo dõi quá trình Bing đánh chỉ mục các trang web của họ. Một lần nữa, cũng giống như phần settings của Google Webmaster Tools, bạn có thể tìm hiểu nội dung của bạn được tổ chức trong Bing ra sao, đăng nộp URL, xóa URL khỏi kết quả tìm kiếm, kiểm tra inbound link và điều chỉnh các cài đặt về tham chiếu.

Traffic (Lưu lượng truy cập) – Phần traffic summary của Bing Webmaster giúp báo cáo các dữ liệu về impression và tỉ lệ nhấp chuột bằng cách kết hợp dữ liệu từ trang kết quả tìm kiếm của cả Bing và Yahoo. Các báo cáo này cung cấp vị trí tương đối cũng như chi phí ước đoán nếu bạn muốn mua mẩu quảng cao nhắm đến một từ khóa cụ thể nào đó.

3. Open Site Explorer của Seomoz

Open Site Explorer của Seomoz

Open Site Explorer của Seomoz

Tuy không được quản lí bởi công cụ tìm kiếm, nhưng Open Site Explorer của SEOmoz vẫn cung cấp các dữ liệu tương tự.

Features (Đặc điểm)

Identify Powerful Links (Xác định các liên kết tầm cỡ) – Open Site Explorer khảo sát tất cả các inbound link trên website của bạn dựa trên tiêu chí riêng của họ, giúp bạn xác định liên kết nào quan trọng nhất.

Find the Strongest Linking Domains (Phát hiện tên miền liên kết mạnh nhất) – Công cụ này giúp bạn xác định các tên miền nào mạnh nhất đang liên kết đến tên miền của bạn.

Analyze Link Anchor Text Distribution (Phân tích tính phân phối của đoạn văn liên kết) – Open Site Explorer giúp xác định tính phân phối của văn bản người dùng sử dụng để liên kết đến trang web của bạn.

Head to Head Comparison View (So sánh một đối một) – Đặc tính này cho phép bạn so sánh hai website để tìm hiểu tại sao website này lại có thứ hạng cao hơn website kia.

Social Share Metrics (Tiêu chí đánh giá chia sẻ xã hội) – Đánh giá Facebook Share, Like, Tweet, và +1 của bất cứ URL nào.

Các bộ máy tìm kiếm đã bắt đầu hỗ trợ một số công cụ hiệu quả hơn nhằm giúp đỡ các webmaster cải thiện kết quả tìm kiếm. Đây là bước tiến dài trong SEO cũng như trong mối quan hệ giữa webmaster và công cụ tìm kiếm. Có thể nói, các công cụ tìm kiếm chỉ có thể tiến xa nếu chúng biết cách “nâng đỡ” các webmaster. Hiện nay, và cả trong tương lai, các marketer và webmaster là những người có trách nhiệm tối cao về SEO.Đó là lí do tại sao, với bạn, việc học SEO lại quan trọng như vậy.

Tiếp theo, cùng tìm hiểu về Những bí ẩn và quan niệm sai lầm về công cụ tìm kiếm

Add Comment