Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Check that all the entries are present and browse each in turn.

Følgende udføres på sb-test-bar-001.statsbiblioteket.dk som bruger netarkiv

Kør følgende, som laver to sorterede lister af dels indhold i ARC-filerne, dels indhold i CDX-filerne og sammenligner:
(NB: Der skrives nu igen til /netarkiv/0001 er fyldt op)
export TESTX=TEST?

Code Block
cd /netarkiv/0001/$TESTX/filedir
grep -a '^http://[^ ] [0-9.]+ [0-9]+' *.dk.arc | sort >/tmp/$TESTX-arc-headers
grep -a '^http://[^ ] [0-9.]+ [0-9]+' *-metadata-1.arc | cut -d' ' -f1-5 | sort >/tmp/$TESTX-cdx-headers
diff -a /tmp/$TESTX-arc-headers /tmp/$TESTX-cdx-headers

Dette skulle ikke give noget output.
Kør følgende, som udregner mængden af høstede sider, mængden af duplikater og mængden af DNS-opslag for 'netarkivet.dk':

Code Block
grep '^http://[^ /]*netarkivet.dk/.*\ ' *-metadata-1.arc |wc -l
grep '[0-9]\ http://[^ /]*netarkivet.dk.*\ .*duplicate' *-metadata-1.arc| wc -l
grep '[0-9]\ dns:[^ /]*netarkivet.dk.*' *-metadata-1.arc| wc -l

Disse tre tal skulle tilsammen antallet af dokumenter der er høstet fra netarkivet.dk. Det skulle være mindst det samme som summen af dokumenter høstet der vises under Høstnings-historie for netarkivet.dk (http://kb-test-adm-001.kb.dk:807?/History/Harveststatus-perdomain.jsp?domainName=netarkivet.dk).
Hvis {sum af tal fra grep's} < {sum af tal fra Høstnings-historik} så gøres følgende:
Hvis tallet er højere er det fordi der er høstet noget netarkiv-data i jobs der ikke er nået tilbage til GUI'en eller som subdele af høstninger der ikke angiver netarkivet.dk som et domæne. I så fald findes jobnumre der har høstet i http://kb-test-adm-001.kb.dk:807?/History/Harveststatus-perdomain.jsp?domainName=netarkivet.dk. Så køres:

Code Block
grep '^http://[^ /]*netarkivet.dk/.*\ ' {<<id>>,<<id>>,<<id>>}-metadata-1.arc |wc -l
grep '[0-9]\ http://[^ /]*netarkivet.dk.*\ .*duplicate' {<<id>>,<<id>>,<<id>>}-metadata-1.arc| wc -l
grep '[0-9]\ dns:[^ /]*netarkivet.dk.*' {<<id>>,<<id>>,<<id>>}-metadata-1.arc| wc -l

hvor <> er jobid'erne.
Læs metadata-arc filen. se evt.heritrix doku på http://crawler.archive.org/articles/user_manual.html#creating
Check:
At den starter med en "filedesc:" indgang
At der følger et antal "metadata:" indgange som i URL-en har følgende parametre:

  • heritrix version, dog ikke i cdx-metadata-indgangen, og jobids for duplicate reduction-indgangen.
  • harvestid=<nummeret på den foretagne høstning>
  • jobid=<nummberet på jobbet>
  • IP på høstermaskinen
  • timestamp=<tidspunktet høstningen gik i gang> (i UTC tidszone)
  • har passende mime-type
  • At der findes en efterfølgende duplicatereductionjobs metadata-sektion med passende krop [Er der kun, hvis jobbet laver deduplicatereduction på basis af nogle bestemte jobs, som dette job kan opfattes som en fortsættelse af; hvis listen af disse jobs er tom, laves denne sektion ikke!!]
  • At def findes en efterfølgende crawl-manifest metadata-sektion med passende krop
  • At der findes en efterfølgende harvestInfo metadata-sektion med passende krop
  • At der findes en efterfølgende crawl-order metadata-sektion med passende krop
  • At der findes en efterfølgende seedlist metadata-sektion med passende krop
  • At der findes en efterfølgende crawlreport metadata-sektion med passende krop
  • At der findes en efterfølgende frontier-report metadata-sektion med passende krop
  • At der findes en efterfølgende hosts-report metadata-sektion med passende krop
  • At der findes en efterfølgende mimetype-report metadata-sektion med passende krop
  • At der findes en efterfølgende processors-report metadata-sektion med passende krop
  • At der findes en efterfølgende responsecode-report metadata-sektion med passende krop
  • At der findes en efterfølgende seedsreport metadata-sektion med passende krop
  • At der findes en efterfølgende crawllog metadata-sektion med passende krop
  • At der findes en efterfølgende heritrix.out metadata-sektion med passende krop
  • At der findes en efterfølgende heritrix_dmesg.log metadata-sektion med passende krop
  • At der findes en efterfølgende local-errorslog metadata-sektion med passende krop
  • At der findes en efterfølgende progress-statistics metadata-sektion med passende krop
  • At der findes en efterfølgende runtime-errorslog metadata-sektion med passende krop
  • At der findes en efterfølgende uri-errorslog metadata-sektion med passende krop
  • At der findes en efterfølgende crawl/index metadata-sektion med passende krop
  • NB: En passende krop kan være den tomme streng (f.eks i runtime-errors, local-errors, og uri-errors)

Check at scheduleren overspringer forældede hændelser

Child pages (Children Display)
styleh4
excerpttrue

Shutdown the system