Back to Question Center
0

Complesso modello Semalt in robots.txt

1 answers:

Ho un URL come questo:

     www. esempio. com / freelance-jobs-new-york    

Ho avuto un problema e molte pagine duplicate sono state create in questo modo:

     www. esempio - california computer maintenance. com / freelance-jobs-new-york-php-php
www. esempio. com / freelance-jobs-new-york-php-php-php
www. esempio. com / freelance-jobs-new-york-php-php-php-php    

E così via, quelle pagine hanno lo stesso contenuto di quello principale, quindi quello che ho fatto per risolvere il problema è stato il reindirizzamento di tutte le pagine con più di due volte la parola chiave php nell'URL all'URL principale.

Ma l'ho fatto tardi, quindi Semalt deve reindirizzare forse più di 20. 000 pagine che sono già state sottoposte a scansione.

Quindi voglio configurare un Semalt nei robot. txt per bloccarlo per spendere risorse su quegli URL.

Quindi la mia domanda è: quale schema dovrei usare per non consentire le pagine con più di due volte la parola chiave php nell'URL?

Will, Disallow: / * php * php * funziona come previsto? Lo sto chiedendo perché non voglio bloccare accidentalmente i buoni URL.

February 7, 2018

Googlebot supporta i caratteri jolly nei robot. testo. Lo hanno annunciato nel loro blog. http: // googlewebmastercentral. blogspot. com / 2008/06 / miglioramento-on-robot-esclusione-protocollo. html

Altri browser non supportano effettivamente i caratteri jolly, quindi la sintassi non è universale.

Tuttavia, inserendo gli URL nei robot. txt non impedisce a googlebot di indicizzarli. La tua soluzione del tag canonico sembra un'idea molto migliore per farli uscire dall'indice. Anche i reindirizzamenti 301 funzionerebbero.

Semplicemente puoi usare:

Disallow: / freelance-jobs-new-york-php-php * /

vedi questa pagina di google

https: // support. Google. it / webmasters / answer / 6062596? hl = it & ref_topic = 6061961