So verhindern Sie die Indizierung erforderlicher Seiten. Je weniger Seiten indiziert sind, desto mehr Datenverkehr senden Robots, die von der Indizierung ausgeschlossen werden sollen

Beim Besuch einer Website nutzt ein Suchroboter eine begrenzte Menge an Ressourcen für die Indexierung. Das heißt, ein Suchroboter kann bei einem Besuch herunterladen eine bestimmte Menge von Seiten. Abhängig von der Aktualisierungshäufigkeit, dem Umfang, der Anzahl der Dokumente usw. können Roboter häufiger kommen und herunterladen weitere Seiten.

Je häufiger Seiten heruntergeladen werden, desto schneller gelangen die Informationen Ihrer Website in die Suchergebnisse. Neben der Tatsache, dass Seiten bei der Suche schneller angezeigt werden, werden auch Änderungen am Inhalt von Dokumenten schneller wirksam.

Schnelle Site-Indexierung

Schnelle Indizierung von Site-Seiten Dank seiner Aktualität und Relevanz trägt es dazu bei, den Diebstahl einzigartiger Inhalte zu bekämpfen. Aber das Wichtigste. Durch die schnellere Indizierung können Sie nachverfolgen, wie sich bestimmte Änderungen auf die Position der Website auswirken Suchergebnisse.

Schlechte, langsame Indexierung der Website

Warum ist die Website schlecht indiziert? Dafür kann es viele Gründe geben, und hier sind die Hauptgründe für eine langsame Website-Indexierung.

  • Die Seiten der Website werden langsam geladen. Dies kann dazu führen, dass die Site vollständig aus dem Index ausgeschlossen wird.
  • Die Website wird selten aktualisiert. Warum kommt ein Roboter oft einmal im Monat auf eine Website, auf der neue Seiten erscheinen?
  • Nicht eindeutiger Inhalt. Wenn die Site (Artikel, Fotos) enthält, verringert die Suchmaschine das Vertrauen (Vertrauen) in Ihre Site und verringert den Ressourcenverbrauch für deren Indizierung.
  • Große Seitenanzahl. Wenn die Site über viele Seiten verfügt und nicht, kann die Indizierung oder Neuindizierung aller Seiten der Site sehr lange dauern.
  • Komplexe Site-Struktur. Verwirrende Seitenstruktur und große Mengen Anhänge machen es sehr schwierig, Seiten einer Website zu indizieren.
  • Viele zusätzliche Seiten. Jede Website verfügt über Zielseiten, deren Inhalt statisch, einzigartig und für Benutzer nützlich ist, sowie über Seitenseiten, wie z. B. Anmelde- oder Filterseiten. Wenn solche Seiten existieren, sind es meist viele davon, aber nicht alle sind indexiert. Und die Seiten, die hinzukommen, konkurrieren mit den Landingpages. Alle diese Seiten werden regelmäßig neu indiziert, wodurch die ohnehin begrenzten Ressourcen, die für die Indizierung Ihrer Website vorgesehen sind, aufgebraucht werden.
  • Dynamische Seiten. Wenn es Seiten auf der Website gibt, deren Inhalt nicht von dynamischen Parametern abhängt (Beispiel: site.ru/page.html?lol=1&wow=2&bom=3), entstehen dadurch viele Duplikate der Zielseite site.ru/page Möglicherweise wird .html angezeigt.

Es gibt andere Gründe für eine schlechte Site-Indexierung. Der häufigste Fehler ist jedoch.

Entfernen Sie alles Unnötige aus der Indizierung

Es gibt viele Möglichkeiten, die Ressourcen, die Suchmaschinen für die Indexierung von Websites bereitstellen, sinnvoll zu nutzen. UND reichlich Möglichkeiten Um die Site-Indizierung zu verwalten, wird robots.txt geöffnet.

Mithilfe der Anweisungen Allow, Disallow, Clean-param und anderer können Sie nicht nur die Aufmerksamkeit des Suchroboters effektiv verteilen, sondern auch die Belastung der Website erheblich reduzieren.

Zunächst müssen Sie mithilfe der Disallow-Direktive alles Unnötige von der Indizierung ausschließen.

Deaktivieren wir beispielsweise die Anmelde- und Registrierungsseiten:

Nicht zulassen: /login Nicht zulassen: /register

Deaktivieren wir die Indizierung von Tags:

Nicht zulassen: /tag

Einige dynamische Seiten:

Nicht zulassen: /*?lol=1

Oder alle dynamischen Seiten:

Nicht zulassen: /*?*

Oder lassen Sie uns Seiten mit dynamischen Parametern entfernen:

Clean-param: lol&wow&bom /

Auf vielen Websites kann die Anzahl der vom Roboter gefundenen Seiten um das Dreifache oder mehr von der Anzahl der Seiten in der Suche abweichen. Das heißt, mehr als 60 % der Seiten der Website nehmen nicht an der Suche teil und sind Ballast, der entweder in die Suche eingegeben oder entfernt werden muss. Indem Sie Nichtzielseiten ausschließen und die Anzahl der Seiten in der Suche näher an 100 % bringen, werden Sie eine deutliche Steigerung der Geschwindigkeit der Website-Indexierung, eine Erhöhung der Positionen in den Suchergebnissen und mehr Verkehr feststellen.

Mehr Details über die Indexierung von Websites, Auswirkungen der Indizierung auf Suchergebnisse, Website-Seiten usw Möglichkeiten zur Beschleunigung der Website-Indizierung Und Gründe für eine schlechte Site-Indexierung lesen Sie in den folgenden Beiträgen. In der Zwischenzeit.

Werfen Sie unnötigen Ballast weg und kommen Sie schnell an die Spitze.

Nun, Sie haben beispielsweise beschlossen, das Design Ihres Blogs zu ändern und möchten zu diesem Zeitpunkt nicht, dass Such-Bots die Ressource besuchen. Oder Sie haben gerade eine Website erstellt und eine Engine darauf installiert, falls die Ressource nicht vorhanden ist nützliche Informationen, dann sollten Sie es Such-Bots nicht zeigen. In diesem Artikel erfahren Sie, wie Sie die Indexierung einer Website in Yandex, Google oder allen Suchmaschinen gleichzeitig blockieren. Zuvor können Sie aber auch noch einen ähnlichen Artikel lesen: „?“ Jetzt fangen wir an.

1. Wir schließen die Indizierung der Site mithilfe der robots.txt-Datei.
Um loszulegen, benötigen Sie. Erstellen Sie dazu ein reguläres auf Ihrem Computer Text dokument mit dem Namen robots und der Erweiterung .txt. Folgendes habe ich gerade erstellt:

Jetzt muss diese Datei in geladen werden. Wenn die Ressource auf der WordPress-Engine erstellt wird, befinden sich die Ordner „wp-content“, „wp-includes“ usw. im Stammordner.

Wir haben also eine leere Datei auf das Hosting hochgeladen. Jetzt müssen wir diese Datei verwenden, um den Blog irgendwie von der Indizierung auszuschließen. Dies ist, wie ich bereits geschrieben habe, nur für Yandex, Google oder alle Suchmaschinen gleichzeitig möglich. Reden wir der Reihe nach über alles.

Wie kann ich die Indexierung einer Website nur für Yandex blockieren?
Schreiben Sie die folgende Zeile in die robots.txt-Datei:

Benutzeragent: Yandex
Nicht zulassen: /

Um sicherzustellen, dass Sie Yandex daran gehindert haben, Ihre Ressource zu indizieren, fügen Sie zunächst eine Website hinzu, falls Sie dies noch nicht getan haben, und gehen Sie dann zu dieser Seite. Geben Sie als Nächstes mehrere Seiten Ihrer Website ein und klicken Sie auf die Schaltfläche „Überprüfen“. Wenn Seiten von der Indexierung ausgeschlossen sind, sehen Sie etwa Folgendes:

Wie kann ich verhindern, dass eine Website nur von Google indiziert wird?
Öffnen Sie die robots.txt-Datei und schreiben Sie dort die folgende Zeile:

Benutzeragent: Googlebot
Nicht zulassen: /

Um zu überprüfen, ob Google die Website nicht indiziert, erstellen Sie Ihre Ressource, fügen Sie sie zu Google Webmaster hinzu und rufen Sie sie auf. Auch hier müssen Sie mehrere Seiten eingeben und auf die Schaltfläche „Prüfen“ klicken.


Mir ist aufgefallen, dass die Google-Suchmaschine sogar verbotene Dokumente in der robots.txt-Datei indexiert und in einen zusätzlichen Index, den sogenannten „Snot“, einträgt. Ich weiß nicht warum, aber Sie müssen verstehen, dass es zu 100 % unmöglich ist, eine Website oder eine einzelne Seite mithilfe der robots.txt-Datei zu blockieren. Diese Datei ist meines Wissens nur eine Empfehlung für Google und entscheidet darüber, was indexiert wird und was nicht.

Wie kann ich die Indexierung einer Website für alle Suchmaschinen blockieren?
Um zu verhindern, dass alle Suchmaschinen Ihre Ressource gleichzeitig indizieren, fügen Sie der robots.txt die folgende Zeile hinzu:

User-Agent: *
Nicht zulassen: /

Jetzt können Sie auch zu Yandex oder Google Webmaster gehen und das Indexierungsverbot überprüfen.

Sie können Ihre robots.txt-Datei unter dieser Adresse sehen:

Vashdomain.ru/robots.txt

Alles, was Sie in diese Datei geschrieben haben, sollte im Browser angezeigt werden. Wenn beim Aufrufen dieser Adresse eine Meldung angezeigt wird, bedeutet dies, dass Sie Ihre Datei an den falschen Ort hochgeladen haben.

Meine robots.txt befindet sich übrigens . Wenn Ihre Ressource auf der WordPress-Engine erstellt wurde, können Sie sie einfach kopieren. Es ist richtig konfiguriert, um sicherzustellen, dass Suchbots nur die erforderlichen Dokumente indizieren und dass es keine Duplikate auf der Website gibt.

2. Blockieren Sie die Indizierung der Site mithilfe der Symbolleiste.
Diese Methode ist nur für diejenigen geeignet, deren Ressource auf WordPress erstellt wurde. Gehen Sie zu „Systemsteuerung“ – „Einstellungen“ – „Lesen“. Hier müssen Sie das Kontrollkästchen neben „Empfehlen“ aktivieren. Suchmaschinen Indexieren Sie die Website nicht.“


Bitte beachten Sie, dass sich unten eine sehr interessante Inschrift befindet: „ Suchmaschinen Sie entscheiden selbst, ob sie Ihrer Bitte nachkommen.“ Genau darüber habe ich oben geschrieben. Yandex indiziert höchstwahrscheinlich keine Seiten, deren Indexierung verboten ist, es können jedoch Probleme mit Google auftreten.

3. Wir schließen die Site manuell von der Indizierung aus.
Wenn Sie eine gesamte Ressource oder Seite aus der Indizierung ausschließen, erscheint automatisch die folgende Zeile im Quellcode:

meta name="robots" content="noindex,follow"

Es teilt Suchbots mit, dass das Dokument nicht indiziert werden kann. Sie können diese Zeile einfach manuell an einer beliebigen Stelle auf Ihrer Website schreiben. Hauptsache, sie erscheint auf allen Seiten und die Ressource wird dann von der Indizierung ausgeschlossen.

Wenn Sie übrigens ein unnötiges Dokument auf Ihrer Website erstellen und nicht möchten, dass Suchbots es indizieren, können Sie diese Zeile auch in den Quellcode einfügen.

Nach der Aktualisierung öffnen Quelle Seite (STRG + U) und sehen Sie, ob diese Zeile dort erscheint. Wenn ja, dann ist alles in Ordnung. Für alle Fälle können Sie auch die Verwendung von Tools für Webmaster von Yandex und Google überprüfen.

Das ist alles für heute. Jetzt wissen Sie, wie Sie die Indexierung einer Website blockieren. Ich hoffe, dieser Artikel war hilfreich für Sie. Tschüss zusammen.

Die technischen Aspekte der erstellten Website spielen für die Website-Werbung in Suchmaschinen eine ebenso wichtige Rolle wie ihr Inhalt. Einer der wichtigsten technischen Aspekte ist die Site-Indizierung, d. h. die Bestimmung der Bereiche der Site (Dateien und Verzeichnisse), die von Suchmaschinen-Robots indiziert werden können oder nicht. Für diese Zwecke wird robots.txt verwendet – eine spezielle Datei, die Befehle für Suchmaschinen-Robots enthält. Die richtige robots.txt-Datei für Yandex und Google hilft Ihnen, viele unangenehme Folgen im Zusammenhang mit der Website-Indexierung zu vermeiden.

2. Das Konzept der robots.txt-Datei und die Anforderungen daran

Die Datei /robots.txt soll alle Suchroboter (Spider) zur Indexierung anweisen Informationsserver wie in dieser Datei definiert, d.h. nur die Verzeichnisse und Serverdateien, die nicht in /robots.txt beschrieben sind. Diese Datei sollte 0 oder mehr Datensätze enthalten, die einem bestimmten Roboter zugeordnet sind (wie durch den Wert des Felds agent_id bestimmt) und für jeden Roboter oder für alle gleichzeitig angeben, was genau er nicht indizieren muss.

Die Dateisyntax ermöglicht es Ihnen, eingeschränkte Indizierungsbereiche festzulegen, sowohl für alle als auch für bestimmte Roboter.

Für die robots.txt-Datei gelten besondere Anforderungen, deren Nichtbeachtung dazu führen kann, dass der Roboter die Suchmaschine falsch liest oder sogar handlungsunfähig wird. Diese Datei.

Hauptanforderungen:

  • Alle Buchstaben im Dateinamen müssen großgeschrieben werden, d. h. sie müssen kleingeschrieben sein:
  • robots.txt ist korrekt,
  • Robots.txt oder ROBOTS.TXT – falsch;
  • Die robots.txt-Datei muss im Unix-Textformat erstellt werden. Beim Kopieren dieser Datei auf eine Website muss der FTP-Client für den Textdatei-Austauschmodus konfiguriert sein;
  • Die robots.txt-Datei muss im Stammverzeichnis der Site abgelegt werden.

3. Inhalt der robots.txt-Datei

Die robots.txt-Datei enthält zwei Einträge: „User-agent“ und „Disallow“. Bei den Namen dieser Einträge wird die Groß-/Kleinschreibung nicht beachtet.

Einige Suchmaschinen unterstützen auch zusätzliche Einträge. So verwendet beispielsweise die Yandex-Suchmaschine den „Host“-Eintrag, um den Hauptspiegel einer Site zu bestimmen (der Hauptspiegel einer Site ist eine Site, die im Suchmaschinenindex enthalten ist).

Jeder Eintrag hat seinen eigenen Zweck und kann mehrmals erscheinen, abhängig von der Anzahl der Seiten und/oder Verzeichnisse, die für die Indexierung gesperrt sind, und der Anzahl der Robots, die Sie kontaktieren.

Das erwartete Zeilenformat für die robots.txt-Datei ist wie folgt:

Anschriftname[Optional

Leerzeichen] : [Optional

Leerzeichen] Bedeutung[optionale Leerzeichen]

Damit eine robots.txt-Datei als gültig gilt, muss nach jedem „User-Agent“-Eintrag mindestens eine „Disallow“-Anweisung vorhanden sein.

Eine vollständig leere robots.txt-Datei ist gleichbedeutend damit, dass keine robots.txt-Datei vorhanden ist, was die Berechtigung zur Indizierung der gesamten Website impliziert.

User-Agent-Eintrag

Der Eintrag „User-Agent“ muss den Namen des Suchroboters enthalten. In diesem Eintrag können Sie für jeden einzelnen Robot festlegen, welche Seiten der Site indiziert werden sollen und welche nicht.

Ein Beispiel für einen „User-Agent“-Datensatz, bei dem jeder kontaktiert wird Suchmaschinen ausnahmslos und das Symbol „*“ wird verwendet:

Ein Beispiel für einen „User-Agent“-Datensatz, bei dem nur der Suchmaschinenroboter Rambler kontaktiert wird:

Benutzeragent: StackRambler

Jeder Suchmaschinenroboter hat seinen eigenen Namen. Es gibt zwei Möglichkeiten, seinen (Namen) herauszufinden:

Auf den Websites vieler Suchmaschinen gibt es einen speziellen Bereich „Webmaster-Hilfe“, in dem häufig der Name des Suchroboters angegeben wird.

Beim Anzeigen von Webserverprotokollen, insbesondere beim Anzeigen von Aufrufen der robots.txt-Datei, können Sie viele Namen sehen, die die Namen von Suchmaschinen oder einen Teil davon enthalten. Daher müssen Sie lediglich den gewünschten Namen auswählen und in die robots.txt-Datei eintragen.

Eintrag „verbieten“.

Der Eintrag „Disallow“ muss entsprechende Anweisungen enthalten Suchroboter aus dem „User-Agent“-Datensatz, welche Dateien und/oder Verzeichnisse nicht indiziert werden dürfen.

Schauen wir uns verschiedene Beispiele der „Disallow“-Aufnahme an.

Beispiel für einen Eintrag in robots.txt (alles zur Indizierung zulassen):

Nicht zulassen:

Beispiel (Die Website ist vollständig verboten. Hierfür wird das Symbol „/“ verwendet): Nicht zulassen: /

Beispiel (die Datei „page.htm“ im Stammverzeichnis und die Datei „page2.htm“ im Verzeichnis „dir“ dürfen nicht indiziert werden):

Nicht zulassen: /page.htm

Nicht zulassen: /dir/page2.htm

Beispiel (die Verzeichnisse „cgi-bin“ und „forum“ und damit alle Inhalte dieses Verzeichnisses sind für die Indizierung gesperrt):

Nicht zulassen: /cgi-bin/

Nicht zulassen: /forum/

Es ist möglich, mehrere Dokumente und (oder) Verzeichnisse, die mit denselben Zeichen beginnen, mit nur einem „Disallow“-Eintrag für die Indizierung zu sperren. Dazu müssen Sie die ersten identischen Zeichen ohne abschließenden Schrägstrich schreiben.

Beispiel (Das Verzeichnis „dir“ ist für die Indizierung verboten, ebenso alle Dateien und Verzeichnisse, die mit den Buchstaben „dir“ beginnen, d. h. Dateien: „dir.htm“, „direct.htm“, Verzeichnisse: „dir“, „directory1 „“, „Verzeichnis2“ usw.):

Eintrag „Erlauben“.

Die Option „Zulassen“ wird verwendet, um Ausnahmen von nicht indizierbaren Verzeichnissen und Seiten zu kennzeichnen, die durch den Eintrag „Disallow“ angegeben sind.

Es gibt zum Beispiel einen Datensatz wie diesen:

Nicht zulassen: /forum/

In diesem Fall ist es jedoch erforderlich, dass die Seite page1 im Verzeichnis /forum/ indiziert wird. Dann werden die folgenden Zeilen in der robots.txt-Datei benötigt:

Nicht zulassen: /forum/

Erlauben: /forum/page1

Sitemap-Eintrag

Dieser Eintrag gibt den Speicherort der Sitemap in an XML-Format, das von Suchrobotern verwendet wird. Dieser Eintrag gibt den Pfad zu dieser Datei an.

Sitemap: http://site.ru/sitemap.xml

Eintrag „Host“.

Der „Host“-Eintrag wird von der Yandex-Suchmaschine verwendet. Es ist notwendig, den Hauptspiegel der Site zu bestimmen, d. h. ob die Site über Spiegel verfügt (ein Spiegel ist eine teilweise oder vollständige Kopie der Site). Das Vorhandensein von Ressourcenduplikaten ist manchmal für Besitzer häufig besuchter Sites erforderlich, um die Zuverlässigkeit zu erhöhen Verfügbarkeit ihres Dienstes), dann können Sie mit der „Host“-Direktive den Namen auswählen, unter dem Sie indiziert werden möchten. Andernfalls wählt Yandex den Hauptspiegel selbst aus und andere Namen werden von der Indizierung ausgeschlossen.

Aus Gründen der Kompatibilität mit Suchrobotern, die die Host-Anweisung bei der Verarbeitung der robots.txt-Datei nicht akzeptieren, ist es notwendig, unmittelbar nach den Disallow-Einträgen einen „Host“-Eintrag hinzuzufügen.

Beispiel: www.site.ru – Hauptspiegel:

Host: www.site.ru

Aufnahme mit „Crawl-Delay“.

Dieser Eintrag wird von Yandex wahrgenommen. Dabei handelt es sich um einen Befehl an den Roboter, eine bestimmte Zeit (in Sekunden) zwischen der Indizierung von Seiten zu verstreichen. Manchmal ist dies notwendig, um die Site vor Überlastungen zu schützen.

Der folgende Eintrag bedeutet also, dass der Yandex-Roboter frühestens nach 3 Sekunden von einer Seite zur anderen wechseln muss:

Kommentare

Jede Zeile in robots.txt, die mit dem Zeichen „#“ beginnt, gilt als Kommentar. Kommentare sind am Ende von Direktivenzeilen erlaubt, aber einige Roboter erkennen die Zeile möglicherweise nicht richtig.

Beispiel (der Kommentar befindet sich in derselben Zeile wie die Anweisung):

Nicht zulassen: /cgi-bin/ #comment

Es empfiehlt sich, den Kommentar in einer separaten Zeile zu platzieren. Ein Leerzeichen am Anfang einer Zeile ist zulässig, wird jedoch nicht empfohlen.

4. Beispiele für robots.txt-Dateien

Beispiel (Kommentar steht in einer separaten Zeile):

Nicht zulassen: /cgi-bin/#comment

Ein Beispiel für eine robots.txt-Datei, die es allen Robots ermöglicht, die gesamte Site zu indizieren:

Host: www.site.ru

Ein Beispiel für eine robots.txt-Datei, die allen Robots die Indizierung einer Website verbietet:

Host: www.site.ru

Ein Beispiel für eine robots.txt-Datei, die allen Robotern die Indizierung des Verzeichnisses „abc“ sowie aller Verzeichnisse und Dateien, die mit den Zeichen „abc“ beginnen, verbietet.

Host: www.site.ru

Ein Beispiel für eine robots.txt-Datei, die verhindert, dass die Seite „page.htm“ im Stammverzeichnis der Website vom Googlebot-Suchroboter indiziert wird:

User-Agent: Googlebot

Nicht zulassen: /page.htm

Host: www.site.ru

Ein Beispiel für eine robots.txt-Datei, die die Indizierung deaktiviert:

– an den Roboter „googlebot“ – die Seite „page1.htm“, die sich im Verzeichnis „directory“ befindet;

– an den „Yandex“-Roboter – alle Verzeichnisse und Seiten, die mit den Symbolen „dir“ beginnen (/dir/, /direct/, dir.htm, Direction.htm usw.) und sich im Stammverzeichnis der Site befinden.

User-Agent: Googlebot

Nicht zulassen: /directory/page1.htm

Benutzeragent: Yandex

5. Fehler im Zusammenhang mit der robots.txt-Datei

Einer der häufigsten Fehler ist die invertierte Syntax.

Falsch:

Nicht zulassen: Yandex

Rechts:

Benutzeragent: Yandex

Falsch:

Nicht zulassen: /dir/ /cgi-bin/ /forum/

Rechts:

Nicht zulassen: /cgi-bin/

Nicht zulassen: /forum/

Wenn der Webserver bei der Verarbeitung des Fehlers 404 (Dokument nicht gefunden) eine spezielle Seite anzeigt und die robots.txt-Datei fehlt, dann ist es möglich, dass der Suchroboter bei der Anforderung der robots.txt-Datei dasselbe erhält Sonderseite, bei der es sich in keiner Weise um eine Indexierungskontrolldatei handelt.

Fehler im Zusammenhang mit der falschen Verwendung der Groß-/Kleinschreibung in der robots.txt-Datei. Wenn Sie beispielsweise das Verzeichnis „cgi-bin“ schließen müssen, können Sie im Eintrag „Disallow“ den Namen des Verzeichnisses nicht in Großbuchstaben „cgi-bin“ schreiben.

Falsch:

Nicht zulassen: /CGI-BIN/

Rechts:

Nicht zulassen: /cgi-bin/

Fehler im Zusammenhang mit fehlendem öffnendem Schrägstrich beim Schließen eines Verzeichnisses aus der Indizierung.

Falsch:

Nicht zulassen: page.HTML

Rechts:

Nicht zulassen: /page.HTML

Um die häufigsten Fehler zu vermeiden, kann die robots.txt-Datei mit Yandex.Webmaster oder Tools for überprüft werden Google-Webmaster. Die Prüfung erfolgt nach dem Herunterladen der Datei.

6. Fazit

Daher kann sich das Vorhandensein einer robots.txt-Datei sowie deren Kompilierung auf die Werbung der Website in Suchmaschinen auswirken. Ohne die Syntax der robots.txt-Datei zu kennen, können Sie die Indizierung möglicher beworbener Seiten sowie der gesamten Website verhindern. Und umgekehrt kann eine kompetente Zusammenstellung dieser Datei bei der Förderung einer Ressource sehr hilfreich sein; Sie können beispielsweise Dokumente blockieren, die die Förderung notwendiger Seiten beeinträchtigen.

Robots.txt ist eine Servicedatei, die als Empfehlung für die Einschränkung des Zugriffs auf den Inhalt von Webdokumenten für Suchmaschinen dient. In diesem Artikel werden wir uns mit der Einrichtung von Robots.txt befassen, die Anweisungen beschreiben und es kompilieren beliebtes CMS.

Diese Robot-Datei befindet sich im Stammverzeichnis Ihrer Website und kann mit einem einfachen Editor geöffnet/bearbeitet werden, ich empfehle Notepad++. Für diejenigen, die nicht gerne lesen, gibt es ein VIDEO, siehe Ende des Artikels 😉

Warum brauchen Sie robots.txt?

Wie ich oben sagte, können wir mithilfe der robots.txt-Datei den Zugriff von Suchbots auf Dokumente beschränken, d. h. Wir haben direkten Einfluss auf die Indexierung der Website. Am häufigsten wird die Indizierung blockiert:

  • Servicedateien und CMS-Ordner
  • Duplikate
  • Dokumente, die für den Benutzer nicht nützlich sind
  • Keine eindeutigen Seiten

Schauen wir uns ein konkretes Beispiel an:

Ein Online-Shop für Schuhe ist auf einem der gängigen CMS implementiert, und das nicht optimal. Ich kann sofort erkennen, dass die Suchergebnisse Suchseiten, Paginierung, einen Warenkorb, einige Suchmaschinendateien usw. umfassen. Bei all diesen handelt es sich um Duplikate und Dienstdateien, die für den Benutzer nutzlos sind. Deshalb sollten sie von der Indexierung ausgeschlossen werden, und wenn es auch einen „News“-Bereich gibt, in den verschiedene interessante Artikel von Mitbewerberseiten kopiert und eingefügt werden, dann besteht kein Grund zur Überlegung, wir schließen ihn gleich.

Deshalb achten wir darauf, eine robots.txt-Datei zu erstellen, damit kein Müll in die Ergebnisse gelangt. Vergessen Sie nicht, dass die Datei unter http://site.ru/robots.txt geöffnet werden sollte.

Robots.txt-Anweisungen und Konfigurationsregeln

User-Agent. Dies ist ein Appell an einen bestimmten Suchmaschinen-Roboter oder an alle Robots. Falls verordnet spezifischer Name Roboter, zum Beispiel „YandexMedia“, dann werden dafür keine allgemeinen User-Agent-Anweisungen verwendet. Schreibbeispiel:

Benutzeragent: YandexBot Disallow: /cart # wird nur vom Haupt-Indizierungsroboter von Yandex verwendet

Nicht zulassen/erlauben. Hierbei handelt es sich um ein Verbot bzw. eine Erlaubnis zur Indexierung eines bestimmten Dokuments oder Abschnitts. Die Schreibreihenfolge spielt keine Rolle, aber wenn es zwei Anweisungen und dasselbe Präfix gibt, hat „Zulassen“ Vorrang. Der Suchroboter liest sie anhand der Länge des Präfixes, vom kleinsten zum größten. Wenn Sie die Indizierung einer Seite verbieten müssen, geben Sie einfach den relativen Pfad dazu ein (Disallow: /blog/post-1).

User-Agent: Yandex Disallow: / Allow: /articles # Wir verbieten die Site-Indizierung, mit Ausnahme von Artikeln im ersten Abschnitt

Reguläre Ausdrücke mit * und $. Ein Sternchen bedeutet eine beliebige Zeichenfolge (einschließlich Leerzeichen). Das Dollarzeichen bedeutet Unterbrechung. Anwendungsbeispiele:

Disallow: /page* # verbietet alle Seiten und Konstruktionen http://site.ru/page Disallow: /arcticles$ # verbietet nur die Seite http://site.ru/articles und erlaubt die Seiten http://site.ru/ Artikel /Neu

Sitemap-Anweisung. Wenn Sie es verwenden, sollte es in robots.txt wie folgt angezeigt werden:

Sitemap: http://site.ru/sitemap.xml

Host-Anweisung. Wie Sie wissen, verfügen Websites über Spiegel (wir lesen). Diese Regel verweist den Suchbot auf den Hauptspiegel Ihrer Ressource. Bezieht sich auf Yandex. Wenn Sie einen Spiegel ohne WWW haben, dann schreiben Sie:

Host: site.ru

Crawl-Verzögerung. Legt die Verzögerung (in Sekunden) zwischen dem Herunterladen Ihrer Dokumente durch den Bot fest. Es ist nach den Disallow/Allow-Anweisungen geschrieben.

Crawl-Verzögerung: 5 # Timeout in 5 Sekunden

Clean-param. Zeigt dem Suchbot an, dass keine Notwendigkeit besteht, zusätzliche doppelte Informationen (Sitzungskennungen, Referrer, Benutzer) herunterzuladen. Clean-param sollte für dynamische Seiten angegeben werden:

Clean-param: ref /category/books # Wir geben an, dass unsere Seite die Hauptseite ist und http://site.ru/category/books?ref=yandex.ru&id=1 dieselbe Seite ist, jedoch mit Parametern

Hauptregel: robots.txt muss in Kleinbuchstaben geschrieben sein und sich im Stammverzeichnis der Site befinden. Beispieldateistruktur:

Benutzeragent: Yandex Nicht zulassen: /cart Erlauben: /cart/images Sitemap: http://site.ru/sitemap.xml Host: site.ru Crawl-Verzögerung: 2

Meta-Robots-Tag und wie es geschrieben ist

Diese Option zum Sperren von Seiten wird von der Google-Suchmaschine besser berücksichtigt. Yandex berücksichtigt beide Optionen gleichermaßen gut.

Es gibt zwei Richtlinien: folgen/nofollow Und index/noindex. Dies ist die Erlaubnis/das Verbot, Links zu folgen, und die Erlaubnis/das Verbot der Dokumentindizierung. Anweisungen können zusammen geschrieben werden, siehe Beispiel unten.

Für jede einzelne Seite können Sie das Tag eingeben Folgendes:

Korrigieren Sie robots.txt-Dateien für gängige CMS

Beispiel Robots.txt für WordPress

Unten können Sie meine Version aus diesem SEO-Blog sehen.

Benutzeragent: Yandex Nicht zulassen: /wp-content/uploads/ Erlauben: /wp-content/uploads/*/*/ Nicht zulassen: /wp-login.php Nicht zulassen: /wp-register.php Nicht zulassen: /xmlrpc.php Nicht zulassen : /template.html Nicht zulassen: /cgi-bin Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-content/cache Nicht zulassen: /wp-content/themes Nicht zulassen: / wp-trackback Disallow: /wp-feed Disallow: /wp-comments Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Nicht zulassen: */comments/ Nicht zulassen: /?feed= Nicht zulassen: /?.php Nicht zulassen: /wp-register.php Nicht zulassen: /xmlrpc.php Nicht zulassen: /template.html Nicht zulassen: /cgi-bin Nicht zulassen: /wp-admin Nicht zulassen: /wp-includes Nicht zulassen: /wp-content/plugins Nicht zulassen: /wp-content/cache Nicht zulassen: /wp-content/themes Nicht zulassen: /wp-trackback Nicht zulassen: /wp-feed Nicht zulassen: /wp-comments Nicht zulassen: */trackback Disallow: */feed Disallow: */comments Disallow: /tag Disallow: /archive Disallow: */trackback/ Disallow: */feed/ Disallow: */comments/ Disallow: /?feed= Disallow: /?. xml

Ich verbiete Trackbacks, da dadurch ein Teil des Artikels in den Kommentaren dupliziert wird. Und wenn es viele Trackbacks gibt, erhalten Sie eine Menge identischer Kommentare.

Ich versuche, die Dienstordner und Dateien aller CMS zu schließen, weil... Ich möchte nicht, dass sie in den Index aufgenommen werden (obwohl Suchmaschinen sie sowieso nicht akzeptieren, aber es wird nicht schlimmer sein).

Feeds sollten geschlossen werden, weil Dabei handelt es sich um teilweise oder vollständig doppelte Seiten.

Wir schließen Tags, wenn wir sie nicht verwenden oder zu faul sind, sie zu optimieren.

Beispiele für andere CMS

Um die richtigen Robots für das gewünschte CMS herunterzuladen, klicken Sie einfach auf den entsprechenden Link.

Das Textdatei(Dokument im .txt-Format) mit klaren Anweisungen zum Indizieren einer bestimmten Site. Die Datei zeigt Suchmaschinen an, welche Seiten einer Webressource indiziert werden müssen und welche von der Indizierung ausgeschlossen werden sollten.

Es scheint, warum die Indexierung einiger Website-Inhalte zu verbieten? Lassen Sie den Suchroboter alles wahllos indizieren, nach dem Prinzip: Je mehr Seiten, desto besser! Aber das ist nicht so.

Nicht alle Inhalte einer Website werden von Suchrobotern benötigt. Es gibt Systemdateien, es gibt doppelte Seiten, es gibt Kategorien Schlüsselwörter und es gibt noch viel mehr, das nicht unbedingt indiziert werden muss. Andernfalls kann die folgende Situation nicht ausgeschlossen werden.

Wenn ein Suchroboter auf Ihre Website gelangt, versucht er zunächst, die berüchtigte robots.txt-Datei zu finden. Wenn diese Datei von ihr nicht erkannt wird oder erkannt wird, sie aber falsch kompiliert ist (ohne die erforderlichen Verbote), beginnt die Suchmaschine „Messenger“ nach eigenem Ermessen, die Website zu untersuchen.

Dabei indiziert er alles und es ist keineswegs eine Tatsache, dass er mit den Seiten beginnt, die zuerst in die Suche eingegeben werden müssen (neue Artikel, Rezensionen, Fotoberichte usw.). In diesem Fall kann die Indexierung der neuen Website natürlich einige Zeit in Anspruch nehmen.

Um solch ein wenig beneidenswertes Schicksal zu vermeiden, muss der Webmaster rechtzeitig darauf achten, die richtige robots.txt-Datei zu erstellen.

„User-agent:“ ist die Hauptanweisung von robots.txt

In der Praxis werden Anweisungen (Befehle) in robots.txt unter Verwendung spezieller Begriffe geschrieben, von denen der wichtigste als Direktive angesehen werden kann „ User-Agent: " Letzteres dient der Festlegung des Suchroboters, der in Zukunft bestimmte Anweisungen erhalten soll. Zum Beispiel:

  • Benutzeragent: Googlebot– Alle Befehle, die dieser Grundanweisung folgen, beziehen sich ausschließlich auf die Suchmaschine Google-Systeme(ihr Indexierungsroboter);
  • Benutzeragent: Yandex– Adressat ist in diesem Fall die inländische Suchmaschine Yandex.

Über die robots.txt-Datei können alle anderen Suchmaschinen kombiniert angesprochen werden. Der Befehl sieht in diesem Fall so aus: User-Agent: *. Das Sonderzeichen „*“ bedeutet normalerweise „beliebiger Text“. In unserem Fall alle anderen Suchmaschinen als Yandex. Google nimmt diese Weisung übrigens auch persönlich, es sei denn, Sie wenden sich persönlich an ihn.

Befehl „Disallow:“ – Verbieten der Indizierung in robots.txt

Der Hauptanweisung „User-agent:“, die an Suchmaschinen gerichtet ist, können spezifische Befehle folgen. Am gebräuchlichsten ist unter ihnen die Richtlinie „ Nicht zulassen: " Mit diesem Befehl können Sie verhindern, dass der Suchroboter die gesamte Webressource oder einen Teil davon indiziert. Es hängt alles davon ab, welche Erweiterung diese Richtlinie haben wird. Schauen wir uns Beispiele an:

Benutzeragent: Yandex Disallow: /

Ein solcher Eintrag in der robots.txt-Datei bedeutet, dass der Yandex-Suchroboter diese Site überhaupt nicht indizieren darf, da das Verbotszeichen „/“ allein steht und keine Erläuterungen enthält.

Benutzeragent: Yandex Nicht zulassen: /wp-admin

Wie Sie sehen, gibt es dieses Mal Klarstellungen, die den Systemordner betreffen wp-admin V . Das heißt, der Indizierungsroboter weigert sich mit diesem Befehl (dem darin angegebenen Pfad), den gesamten Ordner zu indizieren.

Benutzeragent: Yandex Disallow: /wp-content/themes

Eine solche Anweisung an den Yandex-Roboter setzt seine Aufnahme in eine große Kategorie voraus. wp-Inhalt ", in dem alle Inhalte außer " indiziert werden können Themen ».

Lassen Sie uns die „verbotenen“ Funktionen des Textdokuments robots.txt weiter untersuchen:

Benutzeragent: Yandex Disallow: /index$

In diesem Befehl wird, wie aus dem Beispiel hervorgeht, ein weiteres Sonderzeichen „$“ verwendet. Seine Verwendung teilt dem Roboter mit, dass er die Seiten, deren Links die Buchstabenfolge enthalten, nicht indizieren kann. Index " Gleichzeitig Index separate Datei Website mit demselben Namen " index.php » Der Roboter ist nicht verboten. Daher wird das Symbol „$“ verwendet, wenn ein selektiver Ansatz zum Verbot der Indizierung erforderlich ist.

Außerdem können Sie in der robots.txt-Datei die Indizierung einzelner Ressourcenseiten verbieten, die bestimmte Zeichen enthalten. Es könnte so aussehen:

Benutzeragent: Yandex Disallow: *&*

Dieser Befehl weist den Yandex-Suchroboter an, nicht alle Seiten einer Website zu indizieren, deren URLs das Zeichen „&“ enthalten. Darüber hinaus muss dieses Zeichen im Link zwischen allen anderen Symbolen erscheinen. Es kann jedoch eine andere Situation vorliegen:

Benutzeragent: Yandex Disallow: *&

Dabei gilt das Indexierungsverbot für alle Seiten, deren Links mit „&“ enden.

Wenn es keine Fragen zum Verbot der Indizierung von Systemdateien einer Website gibt, können solche Fragen zum Verbot der Indizierung einzelner Seiten der Ressource auftauchen. Warum ist das grundsätzlich notwendig? Ein erfahrener Webmaster mag in dieser Hinsicht viele Überlegungen haben, aber die wichtigste ist die Notwendigkeit, doppelte Seiten bei der Suche zu entfernen. Mit dem Befehl „Disallow:“ und der oben besprochenen Gruppe von Sonderzeichen können Sie ganz einfach mit „unerwünschten“ Seiten umgehen.

Befehl „Zulassen:“ – Indizierung in robots.txt zulassen

Der Antipode der vorherigen Richtlinie kann als Befehl angesehen werden „ Erlauben: " Wenn Sie dieselben klärenden Elemente verwenden, aber diesen Befehl in der robots.txt-Datei verwenden, können Sie dem Indexierungsroboter erlauben, die von Ihnen benötigten Site-Elemente hinzuzufügen Suchdatenbank. Um dies zu bestätigen, hier ein weiteres Beispiel:

Benutzeragent: Yandex Zulassen: /wp-admin

Aus irgendeinem Grund änderte der Webmaster seine Meinung und nahm die entsprechenden Anpassungen an robots.txt vor. Als Konsequenz von nun an der Inhalt des Ordners wp-admin offiziell zur Indexierung durch Yandex freigegeben.

Obwohl der Befehl Allow: existiert, wird er in der Praxis nicht sehr oft verwendet. Im Großen und Ganzen ist dies nicht erforderlich, da die Anwendung automatisch erfolgt. Der Websitebesitzer muss lediglich die Direktive „Disallow:“ verwenden, um die Indizierung dieses oder jenes Inhalts zu verhindern. Danach werden alle anderen Inhalte der Ressource, die in der robots.txt-Datei nicht verboten sind, vom Suchroboter als etwas wahrgenommen, das indiziert werden kann und sollte. Alles ist wie in der Rechtswissenschaft: „Erlaubt ist alles, was nicht gesetzlich verboten ist.“

„Host:“- und „Sitemap:“-Anweisungen

Die Übersicht über wichtige Anweisungen in robots.txt wird durch die Befehle „ Gastgeber: " Und " Seitenverzeichnis: " Was das erste betrifft, ist es ausschließlich für Yandex bestimmt und gibt an, welcher Site-Spiegel (mit oder ohne www) als der wichtigste gilt. Eine Website könnte beispielsweise so aussehen:

Benutzeragent: Yandex Host: Website

Benutzeragent: Yandex Host: www.site

Durch die Verwendung dieses Befehls wird außerdem eine unnötige Duplizierung des Website-Inhalts vermieden.

Im Gegenzug lautet die Richtlinie „ Seitenverzeichnis: » zeigt dem Indexierungsroboter an der richtige Weg zu den sogenannten Sitemap-Dateien sitemap.xml Und sitemap.xml.gz (im Falle von CMS WordPress). Ein hypothetisches Beispiel könnte sein:

Benutzeragent: * Sitemap: http://site/sitemap.xml Sitemap: http://site/sitemap.xml.gz

Wenn Sie diesen Befehl in die robots.txt-Datei schreiben, kann der Suchroboter die Sitemap schneller indizieren. Dies wiederum beschleunigt auch den Prozess, Webressourcenseiten in die Suchergebnisse zu bringen.

Die robots.txt-Datei ist fertig – wie geht es weiter?

Nehmen wir an, dass Sie als unerfahrener Webmaster die gesamte Palette der oben aufgeführten Informationen beherrschen. Was tun danach? Erstellen Sie ein robots.txt-Textdokument unter Berücksichtigung der Funktionen Ihrer Website. Dazu benötigen Sie:

  • ausnutzen Texteditor(z. B. Notepad), um die benötigte robots.txt zu kompilieren;
  • Überprüfen Sie die Richtigkeit des erstellten Dokuments beispielsweise mit diesem Yandex-Dienst.
  • Laden Sie die fertige Datei mit einem FTP-Client hoch root-Verzeichnis Ihre Website (im Fall von WordPress sprechen wir normalerweise davon). Systemordner public_html).

Ja, fast hätten wir es vergessen. Ein unerfahrener Webmaster wird zweifellos einen ersten Blick darauf werfen wollen vorgefertigte Beispiele dieser Datei durch andere durchgeführt. Nichts könnte einfacher sein. Geben Sie dazu einfach in die Adresszeile Ihres Browsers ein site.ru/robots.txt . Anstelle von „site.ru“ – der Name der Ressource, an der Sie interessiert sind. Das ist alles.

Viel Spaß beim Experimentieren und vielen Dank fürs Lesen!