...
Check that all the entries are present and browse each in turn.
Følgende udføres på sb-test-bar-001.statsbiblioteket.dk som bruger netarkiv
Kør følgende, som laver to sorterede lister af dels indhold i ARC-filerne, dels indhold i CDX-filerne og sammenligner:
(NB: Der skrives nu igen til /netarkiv/0001 er fyldt op)
export TESTX=TEST?
Code Block |
---|
cd /netarkiv/0001/$TESTX/filedir
grep -a '^http://[^ ] [0-9.]+ [0-9]+' *.dk.arc | sort >/tmp/$TESTX-arc-headers
grep -a '^http://[^ ] [0-9.]+ [0-9]+' *-metadata-1.arc | cut -d' ' -f1-5 | sort >/tmp/$TESTX-cdx-headers
diff -a /tmp/$TESTX-arc-headers /tmp/$TESTX-cdx-headers |
Dette skulle ikke give noget output.
Kør følgende, som udregner mængden af høstede sider, mængden af duplikater og mængden af DNS-opslag for 'netarkivet.dk':
Code Block |
---|
grep '^http://[^ /]*netarkivet.dk/.*\ ' *-metadata-1.arc |wc -l
grep '[0-9]\ http://[^ /]*netarkivet.dk.*\ .*duplicate' *-metadata-1.arc| wc -l
grep '[0-9]\ dns:[^ /]*netarkivet.dk.*' *-metadata-1.arc| wc -l |
Disse tre tal skulle tilsammen antallet af dokumenter der er høstet fra netarkivet.dk. Det skulle være mindst det samme som summen af dokumenter høstet der vises under Høstnings-historie for netarkivet.dk (http://kb-test-adm-001.kb.dk:807?/History/Harveststatus-perdomain.jsp?domainName=netarkivet.dk).
Hvis {sum af tal fra grep's} < {sum af tal fra Høstnings-historik} så gøres følgende:
Hvis tallet er højere er det fordi der er høstet noget netarkiv-data i jobs der ikke er nået tilbage til GUI'en eller som subdele af høstninger der ikke angiver netarkivet.dk som et domæne. I så fald findes jobnumre der har høstet i http://kb-test-adm-001.kb.dk:807?/History/Harveststatus-perdomain.jsp?domainName=netarkivet.dk. Så køres:
Code Block |
---|
grep '^http://[^ /]*netarkivet.dk/.*\ ' {<<id>>,<<id>>,<<id>>}-metadata-1.arc |wc -l
grep '[0-9]\ http://[^ /]*netarkivet.dk.*\ .*duplicate' {<<id>>,<<id>>,<<id>>}-metadata-1.arc| wc -l
grep '[0-9]\ dns:[^ /]*netarkivet.dk.*' {<<id>>,<<id>>,<<id>>}-metadata-1.arc| wc -l |
hvor <> er jobid'erne.
Læs metadata-arc filen. se evt.heritrix doku på http://crawler.archive.org/articles/user_manual.html#creating
Check:
At den starter med en "filedesc:" indgang
At der følger et antal "metadata:" indgange som i URL-en har følgende parametre:
- heritrix version, dog ikke i cdx-metadata-indgangen, og jobids for duplicate reduction-indgangen.
- harvestid=<nummeret på den foretagne høstning>
- jobid=<nummberet på jobbet>
- IP på høstermaskinen
- timestamp=<tidspunktet høstningen gik i gang> (i UTC tidszone)
- har passende mime-type
- At der findes en efterfølgende duplicatereductionjobs metadata-sektion med passende krop [Er der kun, hvis jobbet laver deduplicatereduction på basis af nogle bestemte jobs, som dette job kan opfattes som en fortsættelse af; hvis listen af disse jobs er tom, laves denne sektion ikke!!]
- At def findes en efterfølgende crawl-manifest metadata-sektion med passende krop
- At der findes en efterfølgende harvestInfo metadata-sektion med passende krop
- At der findes en efterfølgende crawl-order metadata-sektion med passende krop
- At der findes en efterfølgende seedlist metadata-sektion med passende krop
- At der findes en efterfølgende crawlreport metadata-sektion med passende krop
- At der findes en efterfølgende frontier-report metadata-sektion med passende krop
- At der findes en efterfølgende hosts-report metadata-sektion med passende krop
- At der findes en efterfølgende mimetype-report metadata-sektion med passende krop
- At der findes en efterfølgende processors-report metadata-sektion med passende krop
- At der findes en efterfølgende responsecode-report metadata-sektion med passende krop
- At der findes en efterfølgende seedsreport metadata-sektion med passende krop
- At der findes en efterfølgende crawllog metadata-sektion med passende krop
- At der findes en efterfølgende heritrix.out metadata-sektion med passende krop
- At der findes en efterfølgende heritrix_dmesg.log metadata-sektion med passende krop
- At der findes en efterfølgende local-errorslog metadata-sektion med passende krop
- At der findes en efterfølgende progress-statistics metadata-sektion med passende krop
- At der findes en efterfølgende runtime-errorslog metadata-sektion med passende krop
- At der findes en efterfølgende uri-errorslog metadata-sektion med passende krop
- At der findes en efterfølgende crawl/index metadata-sektion med passende krop
- NB: En passende krop kan være den tomme streng (f.eks i runtime-errors, local-errors, og uri-errors)
Check at scheduleren overspringer forældede hændelser
- Gå ind på http://kb-test-adm-001.kb.dk:807?/HarvestDefinition/Harveststatus-alljobs.jsp
- Check at scheduleren for den højfrekvente selektive høstning kun danner et nyt job i joboversigten
Child pages (Children Display) | ||||
---|---|---|---|---|
|
Shutdown the system