Robot.txt cho blogger website
- Posted by: Trần Văn Tuấn at
- tin-tuc
- 0 Comments
[tintuc]
Tệp robots.txt
của bạn khá ổn nhưng có một số điểm có thể cải thiện để đáp ứng tiêu chuẩn tốt hơn:
Gợi ý điều chỉnh:
- Cú pháp: Loại bỏ khoảng trống thừa trong đường dẫn URL hoặc các dòng không cần thiết.
- Độ chính xác của các chỉ thị: Đảm bảo rằng các chỉ thị
Disallow
không ngăn chặn các nội dung bạn muốn được thu thập. - Định dạng chuẩn của sitemap: URL trong
Sitemap
cần được liền mạch, không có khoảng trắng. - Cách viết thân thiện hơn: Sắp xếp các phần theo nhóm và sử dụng các nhận xét để dễ quản lý.
Copy và nhớ sửa đổi theo đúng tên website của bạn nhé:
# Blogger robots.txt - Last updated on 2024.12.26
# Allow Google Ads bots
User-agent: Mediapartners-Google
Disallow:
# Allow all user agents except for certain patterns
User-agent: *
Allow: /
Allow: /search/label/
Disallow: /*max-results=*
Disallow: /*archive.html
Disallow: /*?m=0
Disallow: /search?*
Disallow: /*?showComment=*
Disallow: /*?spref=fb
Disallow: /*?utm_source=*
# Sitemap locations
Sitemap: https://www.trangtrinhadepxinh.io.vn/sitemap.xml
Sitemap: https://www.trangtrinhadepxinh.io.vn/feeds/posts/default?orderby=UPDATED
Kiểm tra:
- Tệp này nên được đặt trong thư mục gốc của website (
https://www.trangtrinhadepxinh.io.vn/robots.txt
). - Sử dụng công cụ kiểm tra Google Robots Testing Tool để xác minh hoạt động.
Dưới đây là giải thích chi tiết từng dòng trong tệp robots.txt
:
Phần chung:
# Blogger robots.txt - Last updated on 2024.12.26
Dòng này là nhận xét (bắt đầu bằng ký tự#
) để ghi chú tệp được tạo hay cập nhật vào ngày nào. Các công cụ tìm kiếm sẽ bỏ qua dòng này.
Quy tắc dành cho bot Google Ads:
-
User-agent: Mediapartners-Google
Đây là chỉ thị dành riêng cho bot Google Ads (được sử dụng để phân phối quảng cáo). -
Disallow:
Dòng này không cấm bất kỳ nội dung nào đối với Google Ads bot. Có nghĩa là bot này được phép thu thập tất cả nội dung trên trang.
Quy tắc chung cho tất cả các bot:
-
User-agent: *
Dòng này áp dụng cho tất cả các công cụ tìm kiếm, bao gồm Googlebot, Bingbot, và các bot khác. -
Allow: /
Cấp quyền thu thập toàn bộ nội dung trên website (trang chủ và các trang con). -
Allow: /search/label/
Cấp quyền thu thập nội dung trong mục "label" (chẳng hạn các bài viết thuộc nhãn cụ thể trên Blogger).
Các dòng Disallow:
ngăn chặn nội dung không mong muốn:
-
Disallow: /*max-results=*
- Ngăn chặn các URL chứa tham số
max-results=
. - Tham số này thường xuất hiện khi Blogger phân trang kết quả tìm kiếm hoặc danh sách bài viết, gây ra trùng lặp nội dung.
- Ngăn chặn các URL chứa tham số
-
Disallow: /*archive.html
- Ngăn chặn các URL chứa
archive.html
. - Đây thường là các trang lưu trữ (archive) trên Blogger, không cần thiết để lập chỉ mục vì chúng không có giá trị SEO cao.
- Ngăn chặn các URL chứa
-
Disallow: /*?m=0
- Ngăn chặn các URL chứa
?m=0
. - Tham số này liên quan đến chế độ xem trên thiết bị di động. Ngăn chặn để tránh nội dung trùng lặp với các URL khác.
- Ngăn chặn các URL chứa
-
Disallow: /search?*
- Ngăn chặn các URL chứa
/search?
. - Đây là các trang kết quả tìm kiếm nội bộ trên Blogger, không cần thiết để thu thập.
- Ngăn chặn các URL chứa
-
Disallow: /*?showComment=*
- Ngăn chặn các URL chứa
?showComment=
. - Tham số này được sử dụng để hiển thị các bình luận của bài viết, không cần lập chỉ mục riêng.
- Ngăn chặn các URL chứa
-
Disallow: /*?spref=fb
- Ngăn chặn các URL chứa
?spref=fb
. - Tham số này được thêm khi liên kết bài viết từ Facebook, không cần lập chỉ mục vì không thêm giá trị SEO.
- Ngăn chặn các URL chứa
-
Disallow: /*?utm_source=*
- Ngăn chặn các URL chứa
?utm_source=
. - Đây là các tham số theo dõi từ các chiến dịch marketing, không cần lập chỉ mục.
- Ngăn chặn các URL chứa
Chỉ định vị trí Sitemap:
-
Sitemap: https://www.trangtrinhadepxinh.io.vn/sitemap.xml
- Đây là tệp sơ đồ trang web chính, giúp các công cụ tìm kiếm thu thập toàn bộ nội dung website.
-
Sitemap: https://www.trangtrinhadepxinh.io.vn/feeds/posts/default?orderby=UPDATED
- Đây là tệp sơ đồ bổ sung, liệt kê bài viết của Blogger được sắp xếp theo thứ tự cập nhật.
Kết luận:
Tệp robots.txt
này:
- Cấp quyền thu thập nội dung chính.
- Ngăn chặn các URL có tham số gây trùng lặp hoặc không cần thiết.
- Chỉ định các tệp Sitemap để công cụ tìm kiếm lập chỉ mục dễ dàng.
Hãy đảm bảo rằng nội dung trong tệp phù hợp với chiến lược SEO và không ngăn chặn nhầm nội dung quan trọng.
[/tintuc]
Comments
Post a Comment