Xây dựng liên kết (URL)

Trước khi đọc bài xây dựng liên kết, bạn nên tìm hiểu kĩ Cách công cụ tìm kiếm đánh dấu chỉ mục ở bài trước!

Cấu trúc liên kết (URL)

Cũng như việc công cụ tìm kiếm cần nhìn thấy nội dung để phân loại theo từ khóa và lập các chỉ mục, chúng cũng cần nhìn thấy liên kết để tìm thấy các nội dung đó. Một cấu trúc liên kết giúp các spider xem lướt các kết nối trong website và thu thập thông tin – là yếu tố sống còn đối với việc tìm thấy các trang trong của website đó. Hàng trăm ngàn website đã phạm phải sai lầm nghiêm trọng khi cố tình giấu hay phức tạp hoá các định hướng bằng nhiều cách khác nhau để công cụ tìm kiếm không thể truy cập, từ đó gây ảnh hưởng đến khả năng liệt kê trang web trong sổ mục của công cụ tìm kiếm.

Chúng tôi minh hoạ vấn đề này như sau:

Cách Google quét urls

Cách Google quét urls

Trong ví dụ trên, spider của Google đã tiếp cận được trang “A” và trông thấy liên kết dẫn đến các trang “B” và “E”. Tuy nhiên, dù trang C và D cũng là những trang rất quan trọng trên website nhưng spider không tìm thấy liên kết để tiếp cận chúng (và thậm chí còn không biết chúng đang hiện hữu). Đó là vì không có “liên kết trực tiếp và có thể thu thập” nào dẫn đến những trang này. Theo Google, các trang web này không tồn tại – nội dung chất lượng, chọn từ khóa tốt, quảng bá thông minh, tất cả sẽ là con số không tròn trĩnh nếu ngay từ đầu các spider đã không thu thập được những trang này.

Các thành phần của một liên kết

Các thành phần của một liên kết

Các thành phần của một liên kết

Trong hình minh hoạ trên, thẻ “<a” là phần bắt đầu của một liên kết. Các thẻ liên kết có thể chứa đựng hình ảnh, văn bản hay các yếu tố khác. Tất cả các thành phần đó tạo ra một khu vực có thể nhấp chuột được trên trang web và người dùng có thể nhấp vào đó để chuyển đến một trang khác. Đây là yếu tố định hướng cơ bản của Internet – “các siêu liên kết”. Phần ‘href’ báo cho trình duyệt (và công cụ tìm kiếm) biết liên kết sẽ trỏ đến đâu. Trong ví dụ này, đó chính là URL http://www.jonwye.com. Tiếp theo, là phần liên kết khách truy cập có thể nhìn thấy, được dân SEO gọi là “văn bản liên kết”, giúp miêu tả trang web mà liên kết này trỏ đến. Trang web được trỏ đến nói về “belt” (dây nịt), được làm bởi một người bạn của tôi sống ở Washington D.C., John Wye, vì vậy tôi dùng đoạn liên kết “Jon Wye’s Custom Designed Belts”. Thẻ </a> kết thúc liên kết, nghĩa là, các thành phần khác (phía sau </a>) của trang web sẽ không được liên kết tới.

Đây là định dạng cơ bản nhất của một liên kết – và rất dễ hiểu đối với công cụ tìm kiếm. Các spider biết rằng chúng nên lưu liên kết này vào biểu đồ liên kết của trang web mà công cụ tìm kiếm đã thu thập, sử dụng nó để đánh giá các biến số truy vấn độc lập (như PageRank của Google), và đi theo nó để đánh chỉ mục nội dung của trang web được trỏ tới.

Cùng tìm hiểu vài lí do phổ biến khiến trang web của bạn không thể truy cập

Các hình thức yêu cầu đăng kí

Nếu bạn buộc người dùng phải hoàn tất thủ tục đăng kí trực tuyến trước khi truy cập một nội dung nào đó, có thể công cụ tìm kiếm sẽ không bao giờ trông thấy các trang web được bảo vệ quá kĩ này. Thao tác đăng kí có thể ngắn gọn như nhập password để đăng nhập, hoặc dài dòng như một bản khảo sát nghiên cứu. Trong cả hai trường hợp, các spider sẽ không nỗ lực đi “đăng kí”, do đó, bất cứ nội dung hay liên kết nào chỉ có thể được truy cập sau khi đăng kí đều trở nên vô hình đối với công cụ tìm kiếm.

Các liên kết có định dạng Javascript không thể phân tích

Nếu bạn dùng Javascript cho liên kết, bạn sẽ nhận thấy, các công cụ tìm kiếm không thể thu thập hoặc sẽ đánh giá thấp giá trị của các liên kết được nhúng bên trong. Chính vì vậy, bạn nên dùng các liên kết HTML tiêu chuẩn thay thế Javascript (hoặc dùng kèm theo) cho những trang bạn muốn spider thu thập.

Liên kết trỏ đến các trang bị khóa bởi thẻ meta robot hay robots.txt

Thẻ Meta Robots và tệp tin Robots.txt cho phép chủ website ngăn các spider tiếp cận trang web của họ. Bạn nên cẩn thận vì khá nhiều các webmaster đã vô tình sử dụng chức năng này vì nghĩ rằng có thể ngăn chặn các bot lừa đảo, nhưng rốt cuộc, chính các công cụ tìm kiếm lại không thể thu thập thông tin.

Liên kết dùng Frame hoặc I-frame

Về mặt kĩ thuật, các liên kết dùng frame hay I-frame đều có thể thu thập được, nhưng cả hai đều gây khó khăn về mặt cấu trúc cho các công cụ tìm kiếm khi chúng muốn tổ chức và đi theo liên kết đó. Trừ phi bạn là chuyên gia có kiến thức kĩ thuật tốt và hiểu biết cặn kẽ về qui trình đánh chỉ mục và đi theo liên kết của công cụ tìm kiếm thì hãy sử dụng. Nếu không, tốt nhất bạn nên tránh xa chúng.

Robots không dùng hình thức tìm kiếm

Mặc dù điều này cũng gần giống như hình thức đăng kí đã đề cập bên trên, nhưng chúng tôi vẫn phải nhắc lại vì đây là lỗi rất phổ biến. Một số webmaster tin rằng nếu họ đặt một khung tìm kiếm trên website, khi đó công cụ tìm kiếm có thể tìm thấy tất cả thông tin khách truy cập đã tìm kiếm. Nhưng thật không may khi các spider sẽ không cố gắng thực hiện thao tác tìm kiếm. Hiện nay người ta ước đoán có hàng triệu trang web không được thu thập vì bị chặn bởi các bức tường “đăng kí” hoặc “tìm kiếm”. Chúng vẫn vô danh cho đến khi có một trang nào đó (đã được thu thập) liên kết trực tiếp với chúng.

Các liên kết dạng flash, java hay các plug-in khác

Các liên kết được nhúng vào website Panda (trong ví dụ trên) là một minh họa rõ nét cho hiện tượng này. Mặc dù hàng tá con panda được liệt kê và liên kết đến trang Panda, nhưng không spider nào có thể tiếp cận chúng thông qua cấu trúc liên kết của website được, khiến chúng vô hình đối với công cụ tìm kiếm (cũng không thể hiển thị cho người thực hiện truy vấn tìm kiếm).

Liên kết trên các trang có hàng trăm hàng ngàn liên kết

Các công cụ tìm kiếm có thể thu thập rất nhiều liên kết trên một trang bất kì, nhưng không có nghĩa là vô hạn. Chúng chỉ thu thập nội dung các website có một số lượng liên kết nhất định, và nguyên tắc này rất cần thiết trong việc hạn chế spam và bảo vệ thứ hạng website. Các trang web chứa hàng trăm liên kết không có nghĩa tất cả các liên kết trên trang đều được thu thập và đánh chỉ mục.

Nếu tránh được các “cạm bẫy” trên, bạn sẽ có được các liên kết HTML thân thiện với spider, giúp chúng dễ dàng truy cập nội dung trên các trang web của bạn

Thẻ rel=“nofollow”

Thẻ rel=“nofollow” có thể được dùng trong cú pháp sau:

<a href=”http://www.seomoz.org” rel=”nofollow”>Lousy Punks!</a>

Bạn có thể chèn nhiều thuộc tính vào liên kết, nhưng công cụ tìm kiếm hầu như lờ đi tất cả, nếu bạn dùng thẻ rel=“nofollow”. Trong ví dụ trên, bằng cách chèn thêm thuộc tính rel=“nofollow” vào thẻ liên kết, chúng ta nói với công cụ tìm kiếm rằng, chúng ta – những người chủ website, không muốn liên kết này được đánh giá như một liên kết bình thường, “một lá phiếu bình chọn”.

Nofollow – không theo – hiểu theo đúng nghĩa đen, là một dấu hiệu để công cụ tìm kiếm không thu thập liên kết (dù đôi khi vẫn được thu thập). Thẻ nofollow được xem là phương pháp giúp ngăn chặn các comment tự động trên blog, guestbook, và các spam liên kết, nhưng nó dần biến đổi để “kiêm luôn chức năng” báo cho công cụ tìm kiếm biết các giá trị liên kết nào chúng nên xóa bỏ. Mỗi công cụ tìm kiếm sẽ có phương pháp phân tích ‘các liên kết gắn thẻ nofollow’ khác nhau, nhưng các liên kết này tất nhiên không có giá trị cao như các liên kết dofollow khác.

Có Phải Liên Kết Nofollow Nào Cũng Xấu?

Dù chúng không chứa nhiều giá trị như các liên kết anh em “dofollow” khác, các liên kết “nofollow” cũng là một phần tự nhiên của một cấu trúc liên kết đa dạng. Một website với rất nhiều inbound link sẽ dần tích lũy nhiều liên kết ‘không theo’, và đây không phải là vấn đề gì tồi tệ. Thật ra, SEOmoz đã chỉ ra rằng các website có thứ hạng cao hơn có tỉ lệ phần trăm inbound link ‘nofollow’ cao hơn các webite có thứ hạng thấp hơn.

Đối với Google

Google khẳng định trong hầu hết các trường hợp, họ không đi theo các liên kết ‘nofollow’, và các liên kết này cũng không cung cấp giá trị cho PageRank hoặc liên kết văn bản. Thông thường, việc sử dụng tính năng nofollow là để loại bỏ các liên kết cụ thể nào đó ra khỏi biểu đồ tổng thể của website. Liên kết nofollow không chứa giá trị và không được xem là văn bản HTML (như thể liên kết không hề tồn tại). Tuy nhiên, không ít webmaster vẫn một mực tin rằng một liên kết nofollow đến từ website có độ uy tín cao, như Wikipedia, vẫn góp phần tạo nên uy tín cho trang web của họ.

Đối với Bing & Yahoo!

Bing, quản lí kết quả tìm kiếm trên Yahoo, cũng khẳng định rằng họ không tính liên kết nofollow vào biểu đồ liên kết. Trước đây, họ từng tuyên bố vẫn dùng liên kết nofollow để giúp các crawler thu thập trang web mới. Điều đó có nghĩa, tuy họ “có thể” đi theo liên kết này, nhưng không xem chúng là phương pháp giúp cải thiện thứ hạng cho website.

Tiếp tục, chúng ta sẽ tìm hiểu về cách Chọn từ khóa phù hợp.

Add Comment