...
- Stop the system after the first arc fil has been uploaded
- Go to harvest status page at http://kb-test-adm-001.kb.dk:8076/HarvestDefinition and find the Job for kum.dk.
- In the system overview finde the harvester running the job. The information will appear in the log column when the job has been started.
- Run the attached script to stop the test system after the first arcfile has been uploaded. Note that the script needs to be updated with the relevant job number and harvester.
- Check that the correct file has been generated.
- Log on to the harvester, eg. ssh kb-test-har-001.
- Verify that a meta data fil exists at ~/TEST?/harvester_low/{crawldir}/metadata/
- Copy the file to /tmp
- Create a fake crawl dir (failing, see
)Jira Legacy server SBForge key NAS-2162 - ssh sb-test-har-001.statsbiblioteket.dk
- cd TEST6/harvester_high
- cp -r ~netarkiv/testdata/TEST6/23-fakejobdir .
- Restart the test system moran 3 hours after the shutdown.
- Verify the restarted system. On kb-test-adm-001
Check the log for warnings and errors.
Code Block cd /home/test/$TESTX/log/ grep SEVERE *.log.0 grep WARNING *.log.0
The following entries are normal:
Code Block arcrepositoryapplication0.log.0:WARNING: AdminDataFile (./admin.data) was not found. guiapplication0.log.0:WARNING: Refusing to schedule harvest definition 'netarkivet' in the past. Skipped 18 events. Old nextDate was Mon Dec 18 14:29:30 CET 2006 new nextDate is Tue Dec 19 09:29:30 CET 2006 GUIApplication0.log.0:WARNING: Job 2 failed: HarvestErrors = dk.netarkivet.common.exceptions.IOFailure: Crawl probably interrupted by shutdown of HarvestController
The following warning may occur after a while:
Code Block WARNING: Error processing message ' Class: com.sun.messaging.jmq.jmsclient.ObjectMessageImpl getJMSMessageID(): ID:40-130.225.27.140(d2:1:3:b1:10:de)-46478-1197902260630 getJMSTimestamp(): 1197902260630 getJMSCorrelationID(): null JMSReplyTo: null JMSDestination: TEST6_COMMON_THE_SCHED getJMSDeliveryMode(): PERSISTENT getJMSRedelivered(): false getJMSType(): null getJMSExpiration(): 0 getJMSPriority(): 4 Properties: null' dk.netarkivet.common.exceptions.UnknownID: Job id 23 is not known in persistent storage at dk.netarkivet.harvester.datamodel.JobDBDAO.read(JobDBDAO.java:294) at dk.netarkivet.harvester.scheduler.HarvestSchedulerMonitorServer.processCrawlStatusMessage(HarvestSchedulerMonitorServer.java:103) at dk.netarkivet.harvester.scheduler.HarvestSchedulerMonitorServer.visit(HarvestSchedulerMonitorServer.java:285) at dk.netarkivet.harvester.harvesting.distribute.CrawlStatusMessage.accept(CrawlStatusMessage.java:133) at dk.netarkivet.harvester.distribute.HarvesterMessageHandler.onMessage(HarvesterMessageHandler.java:67) at com.sun.messaging.jmq.jmsclient.MessageConsumerImpl.deliverAndAcknowledge(MessageConsumerImpl.java:330) at com.sun.messaging.jmq.jmsclient.MessageConsumerImpl.onMessage(MessageConsumerImpl.java:265) at com.sun.messaging.jmq.jmsclient.SessionReader.deliver(SessionReader.java:102) at com.sun.messaging.jmq.jmsclient.ConsumerReader.run(ConsumerReader.java:174) at java.lang.Thread.run(Thread.java:595)
- Go to the system overview page and check that all the expected applications are listen and are without warnings or errors.
Check that a job can be
...
resubmitted
- Check that you can reject a job for resubmission using the "Reject?" button so that it is no longer visible when you list failed jobs.
- Check that you can see the rejected job when you now list all jobs.
- Click on one or more "Genstart"/"Resubmit" buttons. Note that you only can resubmit jobs failed due to harvesting errors, not due to upload errors.
- Check that the job-status changes to "resubmitted" and that a new Job is made from the same harvestdefinition with the same configurations.
- Check that resubmitted jobs contain information about which job they were resubmitted (FR770)
...
- heritrix version, dog ikke i cdx-metadata-indgangen, og jobids for duplicate reduction-indgangen.
- harvestid=<nummeret på den foretagne høstning>
- jobid=<nummberet på jobbet>
- IP på høstermaskinen
- timestamp=<tidspunktet høstningen gik i gang> (i UTC tidszone)
- har passende mime-type
- At der findes en efterfølgende duplicatereductionjobs metadata-sektion med passende krop [Er der kun, hvis jobbet laver deduplicatereduction på basis af nogle bestemte jobs, som dette job kan opfattes som en fortsættelse af; hvis listen af disse jobs er tom, laves denne sektion ikke!!]
- At def findes en efterfølgende crawl-manifest metadata-sektion med passende krop
- At der findes en efterfølgende harvestInfo metadata-sektion med passende krop
- At der findes en efterfølgende crawl-order metadata-sektion med passende krop
- At der findes en efterfølgende seedlist metadata-sektion med passende krop
- At der findes en efterfølgende crawlreport metadata-sektion med passende krop
- At der findes en efterfølgende frontier-report metadata-sektion med passende krop
- At der findes en efterfølgende hosts-report metadata-sektion med passende krop
- At der findes en efterfølgende mimetype-report metadata-sektion med passende krop
- At der findes en efterfølgende processors-report metadata-sektion med passende krop
- At der findes en efterfølgende responsecode-report metadata-sektion med passende krop
- At der findes en efterfølgende seedsreport metadata-sektion med passende krop
- At der findes en efterfølgende crawllog metadata-sektion med passende krop
- At der findes en efterfølgende heritrix.out metadata-sektion med passende krop
- At der findes en efterfølgende heritrix_dmesg.log metadata-sektion med passende krop
- At der findes en efterfølgende local-errorslog metadata-sektion med passende krop
- At der findes en efterfølgende progress-statistics metadata-sektion med passende krop
- At der findes en efterfølgende runtime-errorslog metadata-sektion med passende krop
- At der findes en efterfølgende uri-errorslog metadata-sektion med passende krop
- At der findes en efterfølgende crawl/index metadata-sektion med passende krop
- NB: En passende krop kan være den tomme streng (f.eks i runtime-errors, local-errors, og uri-errors)
Check at scheduleren overspringer forældede hændelser
- Gå ind på http://kb-test-adm-001.kb.dk:807?/HarvestDefinition/Harveststatus-alljobs.jsp
- Check at scheduleren for den højfrekvente selektive høstning kun danner et nyt job i joboversigten
Shutdown the system