Content Comparison

...

Stop the system after the first arc fil has been uploaded
1. Go to harvest status page at http://kb-test-adm-001.kb.dk:8076/HarvestDefinition and find the Job for kum.dk.
2. In the system overview finde the harvester running the job. The information will appear in the log column when the job has been started.
3. Run the attached script to stop the test system after the first arcfile has been uploaded. Note that the script needs to be updated with the relevant job number and harvester.
Check that the coreect correct file has been generated.
1. Log on to the harveterharvester, eg. ssh kb-test-har-001.
2. Verify that a meta data fil exists at ~/TEST?/harvester_low/{crawldir}/metadata/
3. Copy the file to /tmp
Create a fake crawl dir
1. ssh sb-test-har-001.statsbiblioteket.dk
2. cd TEST6/harvester_high
3. cp -r ~netarkiv/testdata/TEST6/23-fakejobdir .
Restart the test system moran 3 hours after the shutdown.

Verify the restarted system. On kb-test-adm-001

Check the log for warnings and errors.

Code Block
cd /home/test/$TESTX/log/ grep SEVERE .log.0 grep WARNING .log.0

The following entries are normal:

Code Block

arcrepositoryapplication0.log.0:WARNING: AdminDataFile (./admin.data) was not found.
guiapplication0.log.0:WARNING: Refusing to schedule harvest definition 'netarkivet' in the past. Skipped 18 events. Old nextDate was Mon Dec 18 14:29:30 CET 2006 new nextDate is Tue Dec 19 09:29:30 CET 2006
GUIApplication0.log.0:WARNING: Job 2 failed: HarvestErrors = dk.netarkivet.common.exceptions.IOFailure: Crawl probably interrupted by shutdown of HarvestController

The following warning may occur after a while:

Code Block

WARNING: Error processing message '
Class:                  com.sun.messaging.jmq.jmsclient.ObjectMessageImpl
getJMSMessageID():      ID:40-130.225.27.140(d2:1:3:b1:10:de)-46478-1197902260630
getJMSTimestamp():      1197902260630
getJMSCorrelationID():  null
JMSReplyTo:             null
JMSDestination:         TEST6_COMMON_THE_SCHED
getJMSDeliveryMode():   PERSISTENT
getJMSRedelivered():    false
getJMSType():           null
getJMSExpiration():     0
getJMSPriority():       4
Properties:             null'
dk.netarkivet.common.exceptions.UnknownID: Job id 23 is not known in persistent storage
        at dk.netarkivet.harvester.datamodel.JobDBDAO.read(JobDBDAO.java:294)
        at dk.netarkivet.harvester.scheduler.HarvestSchedulerMonitorServer.processCrawlStatusMessage(HarvestSchedulerMonitorServer.java:103)
        at dk.netarkivet.harvester.scheduler.HarvestSchedulerMonitorServer.visit(HarvestSchedulerMonitorServer.java:285)
        at dk.netarkivet.harvester.harvesting.distribute.CrawlStatusMessage.accept(CrawlStatusMessage.java:133)
        at dk.netarkivet.harvester.distribute.HarvesterMessageHandler.onMessage(HarvesterMessageHandler.java:67)
        at com.sun.messaging.jmq.jmsclient.MessageConsumerImpl.deliverAndAcknowledge(MessageConsumerImpl.java:330)
        at com.sun.messaging.jmq.jmsclient.MessageConsumerImpl.onMessage(MessageConsumerImpl.java:265)
        at com.sun.messaging.jmq.jmsclient.SessionReader.deliver(SessionReader.java:102)
        at com.sun.messaging.jmq.jmsclient.ConsumerReader.run(ConsumerReader.java:174)
        at java.lang.Thread.run(Thread.java:595)

Go to the system overview page and check that all the expected applications are listen and are without warnings or errors.

...

Check that you can reject a job for resubmission using the "Reject?" button so that it is no longer visible when you list failed jobs.
Check that you can see the rejected job when you now list all jobs.
Click on one or more "Genstart"/"Resubmit" buttons. Note that you only can resubmit jobs failed due to harvesting errors, not due to upload errors.
Check that the job-status changes to "resubmitted" and that a new Job is made from the same harvestdefinition with the same configurations.
Check that resubmitted jobs contain information about which job they were resubmitted (FR770)

Følgende udføres på sb-test-bar-001.statsbiblioteket.dk som bruger netarkiv

Kør følgende, som laver to sorterede lister af dels indhold i ARC-filerne, dels indhold i CDX-filerne og sammenligner:
(NB: Der skrives nu igen til /netarkiv/0001 er fyldt op)
export TESTX=TEST?

Code Block

cd /netarkiv/0001/$TESTX/filedir
grep -a '^http://[^ ] [0-9.]+ [0-9]+' *.dk.arc | sort >/tmp/$TESTX-arc-headers
grep -a '^http://[^ ] [0-9.]+ [0-9]+' *-metadata-1.arc | cut -d' ' -f1-5 | sort >/tmp/$TESTX-cdx-headers
diff -a /tmp/$TESTX-arc-headers /tmp/$TESTX-cdx-headers

Dette skulle ikke give noget output.
Kør følgende, som udregner mængden af høstede sider, mængden af duplikater og mængden af DNS-opslag for 'netarkivet.dk':

Code Block

grep '^http://[^ /]*netarkivet.dk/.*\ ' *-metadata-1.arc |wc -l
grep '[0-9]\ http://[^ /]*netarkivet.dk.*\ .*duplicate' *-metadata-1.arc| wc -l
grep '[0-9]\ dns:[^ /]*netarkivet.dk.*' *-metadata-1.arc| wc -l

Version	Old Version 9	New Version 10
Changes made by	M	M
Saved on	Jan 22, 2013	Jan 24, 2013

Versions Compared

Key

Følgende udføres på sb-test-bar-001.statsbiblioteket.dk som bruger netarkiv