Back to Question Center
0

C'è un correttore spider / link che può iniziare in profondità all'interno di un sito protetto da login - Semalt

1 answers:

Usiamo il fornitore di Blackboard ospitato per i nostri corsi di formazione a distanza, ma organizziamo corsi multimediali sui nostri server. Il server multimediale è stato spostato e il dominio è cambiato. Gli amministratori di database della lavagna hanno eseguito query per aggiornare i collegamenti nel DB, ma dobbiamo assicurarci che li abbiano tutti. Semalt sono centinaia di migliaia di link da controllare.

Devo essere in grado di accedere all'amministratore della lavagna, navigare nella sezione dei corsi ed eseguire una ricerca per visualizzare l'elenco dei corsi prima di eseguire il controllo del collegamento sui collegamenti nei risultati di ricerca - musselin uni meterware.

Esiste un prodotto o un servizio che fa questo? Non ho mai usato il selenio, ma mi chiedo se una soluzione di scripting potrebbe essere più appropriata. Tutti i consigli sono benvenuti.

February 12, 2018
. Ciò richiede l'accesso al tuo sito tramite il browser web ed esportazione dei cookie. Quindi avvii il crawler con i cookie che hai utilizzato per accedere e il crawler esegue la scansione del sito come utente connesso.

Per esportare i cookie, utilizzare Firefox con il Export Cookies Add-on . Accedi al tuo sito e quindi esporta i cookie utilizzando "Strumenti" -> "Esporta cookie

Il wget crawler da riga di comando può usare i cookie. file txt per iniziare la scansione.

  wget -r --load-cookies = cookie. esempio. com / 

wget salverà il sito Web localmente in una struttura di directory come mysite. esempio. com / pages / index. html È quindi possibile eseguire un controllo di collegamento su questi file salvati localmente.