Page Comparison

...

Check that all the entries are present and browse each in turn.

Følgende udføres på sb-test-bar-001.statsbiblioteket.dk som bruger netarkiv

Kør følgende, som laver to sorterede lister af dels indhold i ARC-filerne, dels indhold i CDX-filerne og sammenligner:
(NB: Der skrives nu igen til /netarkiv/0001 er fyldt op)
export TESTX=TEST?

Code Block

cd /netarkiv/0001/$TESTX/filedir
grep -a '^http://[^ ] [0-9.]+ [0-9]+' *.dk.arc | sort >/tmp/$TESTX-arc-headers
grep -a '^http://[^ ] [0-9.]+ [0-9]+' *-metadata-1.arc | cut -d' ' -f1-5 | sort >/tmp/$TESTX-cdx-headers
diff -a /tmp/$TESTX-arc-headers /tmp/$TESTX-cdx-headers

Dette skulle ikke give noget output.
Kør følgende, som udregner mængden af høstede sider, mængden af duplikater og mængden af DNS-opslag for 'netarkivet.dk':

Code Block

grep '^http://[^ /]*netarkivet.dk/.*\ ' *-metadata-1.arc |wc -l
grep '[0-9]\ http://[^ /]*netarkivet.dk.*\ .*duplicate' *-metadata-1.arc| wc -l
grep '[0-9]\ dns:[^ /]*netarkivet.dk.*' *-metadata-1.arc| wc -l

Disse tre tal skulle tilsammen antallet af dokumenter der er høstet fra netarkivet.dk. Det skulle være mindst det samme som summen af dokumenter høstet der vises under Høstnings-historie for netarkivet.dk (http://kb-test-adm-001.kb.dk:807?/History/Harveststatus-perdomain.jsp?domainName=netarkivet.dk).
Hvis {sum af tal fra grep's} < {sum af tal fra Høstnings-historik} så gøres følgende:
Hvis tallet er højere er det fordi der er høstet noget netarkiv-data i jobs der ikke er nået tilbage til GUI'en eller som subdele af høstninger der ikke angiver netarkivet.dk som et domæne. I så fald findes jobnumre der har høstet i http://kb-test-adm-001.kb.dk:807?/History/Harveststatus-perdomain.jsp?domainName=netarkivet.dk. Så køres:

Code Block

grep '^http://[^ /]*netarkivet.dk/.*\ ' {<<id>>,<<id>>,<<id>>}-metadata-1.arc |wc -l
grep '[0-9]\ http://[^ /]*netarkivet.dk.*\ .*duplicate' {<<id>>,<<id>>,<<id>>}-metadata-1.arc| wc -l
grep '[0-9]\ dns:[^ /]*netarkivet.dk.*' {<<id>>,<<id>>,<<id>>}-metadata-1.arc| wc -l

hvor <> er jobid'erne.
Læs metadata-arc filen. se evt.heritrix doku på http://crawler.archive.org/articles/user_manual.html#creating
Check:
At den starter med en "filedesc:" indgang
At der følger et antal "metadata:" indgange som i URL-en har følgende parametre:

heritrix version, dog ikke i cdx-metadata-indgangen, og jobids for duplicate reduction-indgangen.
harvestid=<nummeret på den foretagne høstning>
jobid=<nummberet på jobbet>
IP på høstermaskinen
timestamp=<tidspunktet høstningen gik i gang> (i UTC tidszone)
har passende mime-type
At der findes en efterfølgende duplicatereductionjobs metadata-sektion med passende krop [Er der kun, hvis jobbet laver deduplicatereduction på basis af nogle bestemte jobs, som dette job kan opfattes som en fortsættelse af; hvis listen af disse jobs er tom, laves denne sektion ikke!!]
At def findes en efterfølgende crawl-manifest metadata-sektion med passende krop
At der findes en efterfølgende harvestInfo metadata-sektion med passende krop
At der findes en efterfølgende crawl-order metadata-sektion med passende krop
At der findes en efterfølgende seedlist metadata-sektion med passende krop
At der findes en efterfølgende crawlreport metadata-sektion med passende krop
At der findes en efterfølgende frontier-report metadata-sektion med passende krop
At der findes en efterfølgende hosts-report metadata-sektion med passende krop
At der findes en efterfølgende mimetype-report metadata-sektion med passende krop
At der findes en efterfølgende processors-report metadata-sektion med passende krop
At der findes en efterfølgende responsecode-report metadata-sektion med passende krop
At der findes en efterfølgende seedsreport metadata-sektion med passende krop
At der findes en efterfølgende crawllog metadata-sektion med passende krop
At der findes en efterfølgende heritrix.out metadata-sektion med passende krop
At der findes en efterfølgende heritrix_dmesg.log metadata-sektion med passende krop
At der findes en efterfølgende local-errorslog metadata-sektion med passende krop
At der findes en efterfølgende progress-statistics metadata-sektion med passende krop
At der findes en efterfølgende runtime-errorslog metadata-sektion med passende krop
At der findes en efterfølgende uri-errorslog metadata-sektion med passende krop
At der findes en efterfølgende crawl/index metadata-sektion med passende krop
NB: En passende krop kan være den tomme streng (f.eks i runtime-errors, local-errors, og uri-errors)

Check at scheduleren overspringer forældede hændelser

Gå ind på http://kb-test-adm-001.kb.dk:807?/HarvestDefinition/Harveststatus-alljobs.jsp
Check at scheduleren for den højfrekvente selektive høstning kun danner et nyt job i joboversigten

Child pages (Children Display)

style	h4
excerpt	true

Version	Old Version 23	New Version 24
Changes made by	Colin Samuel Rosenthal	Colin Samuel Rosenthal
Saved on	Aug 14, 2013	Aug 14, 2013

Versions Compared

Key

Følgende udføres på sb-test-bar-001.statsbiblioteket.dk som bruger netarkiv

Check at scheduleren overspringer forældede hændelser

Shutdown the system