Chuyển đến nội dung chính

Robots.txt là gì ? Cách sử dụng robots.txt

1.Robots.txt là gì ?Robots.txt là một dạng text đặc biệt không phải là HTML hay một loại nào khác. Nó giúp cho các webmaster linh hoạt hơn trong việc cho hay không cho bot của các công cụ tìm kiếm(SE) đánh chỉ mục(index) một khu vực nào đó trong website của bạn.
Ví dụ:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
chú giải :
  • User-agent: * : cho phép tất cả các loại bot
  • Disallow: /wp-admin/  : chặn thư mục wp-admin và tất cả những gì nằm trong thư mục wp-admin
2.Hướng dẫn sử dụng Robots.txt
a.Khóa toàn bộ website không cho bot đánh chỉ mục
User-agent: *
Disallow: /
==> có nghĩa là cấm tất cả các loại bot truy cập vào tất cả tài nguyên có trên website của bạn, như vậy có nghĩa là website bạn chả thèm chơi với các SE
b.Không cho phép bot truy cập vào thư mục nào mà mình không muốn
Lấy lại ví dụ trên :
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
==> Diều này có nghĩa là cho phép tất cả các loại bot thu thập chỉ trừ 2 thư mục wp-admin và wp-includes
c.Chặn 1 trang
Disallow: /lien-he.html
d.Loại bỏ 1 hình từ  Google Images
User-agent: Googlebot-Image
Disallow: /images/hinh.png
e.Chặn một bot nào đó
User-agent: SpamBot
Disallow: /

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-includes/
==> Để bắt đầu chỉ định mới thì bạn hãy đặt một dòng trắng. Và bot SpamBot bị cấm truy cập tất cả tài nguyên. Trong khi các bot khác  được truy cập tất cả trừ thư mục “wp-admin ” và "wp-includes"
User-agent: SpamBot
Disallow: /admin/
Disallow: /includes/
Disallow: /config/config.php

User-agent: *
Disallow: /admin/
Disallow: /includes/
==> Không cho phép SpamBot truy cập các thư mục được liệt kê như: thư mục “admin”, “includes” và và file “config.php” . Còn các bot khác được truy cập mọi thứ trừ hai thư mục “admin” và “includes”.
f.sử dụng đồng thời “Allow” và “Disallow” cùng nhau
User-agent: Googlebot
Disallow: /vidu/
Allow: /vidu/demo-thoi-nha.html
== > có nghĩa là chặn Googlebot truy cập vào tài nguyên có trong thư mục "vidu"  .Nhưng chỉ có thể truy cập được file "demo-thoi-nha.html"
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow: /
 Robots là gì và cách sử dụng
== > Chặn không cho Googlebot truy cập vào tài nguyên trên website, nhưng lại cho phép Googlebot-Mobile truy cập vào tài nguyên trên website bạn
3.Nên tránh những sai sót sau
khi các bạn sử dụng lại một robots.txt của ai đó hoặc tự mình tạo ra một robots.txt riêng cho website mình thì cũng không tránh khỏi những sai sót
- Phân biệt chữ hoa chữ thường.
- Không được viết dư, thiếu khoảng trắng.
- Không nên chèn thêm bất kỳ ký tự nào khác ngoài các cú pháp lệnh.
- Mỗi một câu lệnh nên viết trên 1 dòng.
Đó là tất cả những gì mà kiến thức của tôi biết về robots.txt , rất mong nhận được sự đóng góp của các bạn.

Bài đăng phổ biến từ blog này

Pentest lab - Metasploitable 2

Today I will walk through different ways of exploiting Metasploitable 2, the newer release of Rapid7’s popular vulnerable machine. First, what is Metasploitable? Metasploitable is an intentionally vulnerable Linux virtual machine. This VM can be used to conduct security training, test security tools, and practice common penetration testing techniques. In my lab environment, the IP of the attacker machine is 192.168.127.159, and the victim machine is 192.168.127.154. Since this is a test lab, I won’t be concerned about stealth. Instead, I will try to get the most information out of the scans. Let’s start by port scanning the target with nmap. I did a full port, aggresive scan against the target. Here are the results. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 ...

Metasploitable 2 vulnerability assessment

A vulnerability assessment is a crucial part in every penetration test and is the process of identifying and assessing vulnerabilities on a target system. In this part of the tutorial we will be assessing the vulnerabilities available on the network side of the Metasploitable 2 virtual machine. We will be assessing the web applications on the Metasploitable 2 machine in a later tutorial. In the previous Metasploit enumeration and fingerprinting tutorial we’ve learned that the Metasploitable 2 machine contains a lot of vulnerabilities. We have collected valuable information about the target system which we will be using to find known vulnerabilities both on- and offline. Exploitation of these vulnerabilities will be demonstrated in the next exploitation tutorial. In this tutorial we will be looking at a few different ways to perform vulnerability analysis. We will be manually searching for exploits, use scanning tools like Nmap with scripts and we will be...

CEH v9 (CEHVIETNAM.COM) - Hacking Metasploitable Lab

CEH v9 : Hacking Metasploitable VM In this guide, I will demonstrate how to root a Metasploitable 2 virtual machine. Metasploitable is an intentionally vulnerable Ubuntu machine. I’ll explore just a few of the many ways Metasploitable can be attacked, from vulnerabilities in common services to little known exploits and web vulnerabilities. I’ve set up Kali Linux and Metasploitable VMs in VirtualBox on the same network (bridged mode). Kali – 192.168.56.101 Metasploitable – 192.168.56.102 - Hãy thay IP của bạn cho thích hợp Contents   1 Footprinting 1.1 Ping 1.2 Traceroute 2 Scanning 2.1 Port Scanning 2.2 OS Fingerprinting 2.2.1 nmap 2.2.2 xprobe2 3 Enumeration 3.1 FTP (TCP 21) Enumeration 3.2 Telnet (TCP 53) Enumeration 3.3 SMTP (TCP 25) Enumeration 3.4 VNC (TCP 5900) Enumeration 3.5 X11 (TCP 6000) Enumeration 3.6 RLogin (TCP 513) Enumeration 3.7 IRC (TCP 6667) Enumeration 4 Exploitation 4.1 FTP Exploit 4.2 VNC Password Cracking 4.3 IRC E...