
山西省图书馆《山西日报》数字化项目询价公告
为了便于读者阅读,山西省图书馆拟开展《山西日报》数字化项目,现开展该项目的前期询价工作。
一、商务要求
1.建设内容:
对1949年4月26日至1980年6月30日期间的《山西日报》老报纸的全文(图文)标引和文字编校,并在山西省图书馆馆藏《山西日报》平台完成数据上传和功能对接。
对1980年7月1日至1990年12月31日期间的《山西日报》进行数字图像采集、处理、命名、保存、质检、题录标引和文字编校,并在山西省图书馆馆藏《山西日报》平台完成数据上传和功能对接。
2.交付期限:2025年11月30日前完成全部报纸的数字化加工工作,并上传平台。
3.服务地点:山西省图书馆指定地点。
二、技术要求
加工标准:主要根据国家图书馆《关于公共数字文化工程2019年度数字资源联合建设著录规则》的“地方文献数字化项目加工规则(2019)”,参照已完成的《山西日报》数据库各参数。
1.数字图像采集
(1)为确保报纸的所有内容得到完整采集,数字图像采集的范围必须全面覆盖报纸的每一项内容,包括但不限于文字、图片、广告信息以及热点等关键要素。
(2)数字图像采集过程中,要求非接触式扫描仪。报纸平铺或微张开放置在扫描台上方,镜头从上方拍摄。避免对脆弱、易损、大尺寸或装订的报纸造成物理损伤。使用高质量镜头的扫描仪,在光学系统质量方面要确保整个扫描区域(特别是边缘和角落)图像锐利无模糊。扫描仪需有优秀的去网纹/Descreening功能(硬件或软件),有效消除因扫描网点图案产生的干扰性莫尔条纹,获得平滑的文字和图像。必须严格按照1:1的比例进行扫描。扫描分辨率设定为600 dpi,色彩模式为24位彩色(RGB)或以上,高动态范围需要扫描仪能同时清晰捕捉深色文字/图片和明亮纸张背景的细节,扫描仪需支持16位ADC模数转换,避免过曝(纸张丢失细节)或欠曝(文字糊成一片);精确色调还原要尽可能忠实再现原件的色彩、灰阶和对比度。避免引入不自然的色彩偏移或过度增强/减弱对比度。文件格式选择为无压缩的TIFF格式,以确保图像质量。
(3)在处理原件时,若其表面附有粘贴物件,需先将原件与粘贴物(即粘贴物覆盖于文献的部分)一并进行扫描。随后,将粘贴物轻轻掀起,对原件进行二次扫描,以保证采集到的图像完整无误。
(4)对于生成的数字图像文件,需使用专业的图像类软件进行详细检查。重点验证图像是否失真(即将图像放大至实际尺寸的100%进行查看),并评估其清晰度是否满足要求。主存档文件要求为TIFF无损压缩格式,必须包含未压缩的原始位图数据层,为所有后续处理(包括OCR、图像处理)提供最高质量源文件,为未来细颗粒度加工及多光谱分析提供基础。扫描时使用并嵌入标准的ICC色彩配置文件(如Adobe RGB, sRGB),确保色彩在不同设备和软件中解释一致。加工中间文件为JPEG2000无损文件,用于未来AI模型输入。结构描述文件为ALTO XML 4.2,用于储存版面坐标或OCR结果。预览文件为IIIF IMAGE API 3.0,M, 用于进行可视化校验。
2.数字图像处理
(1)纠偏处理。为确保图像符合阅读习惯,我们将对发生倾斜的图像进行纠正处理,并对方向错误的图像进行旋转还原。
(2)图像剪裁。在处理过程中,我们将避免进行锐化或图像增强操作,不会更改图像的颜色,并尽量减少对图像文件的后期处理,以保持其原貌。
(3)去污去黑。背景分离预处理:扫描时同步生成纸张底色蒙版。结构标识注入:在TIFF文件中嵌入版面坐标标记(如ALTO XML),标识文章/图片/广告区域边界。
3.数字图像命名、保存
(1)对于扫描完成的图像,将根据相关规定和要求进行妥善保存和处置。图像的分辨率和尺寸是决定文件大小和输出质量的关键因素,因此必须得到充分考虑和控制。
(2)在命名图像时,将遵循行业主管单位或藏书单位的要求和标准,以确保文件命名的一致性和规范性。
4.数字图像质检
(1)对图像进行细致检查,确保其分辨率和命名符合既定标准。同时,还需审视图像质量,查看是否存在透光、透字、彩点、彩线、色彩过淡或过浓、黑边、污点、歪斜(如马赛克等现象)或图像内容不完整等问题。
(2)按照相关要求,图像的综合错误率必须严格控制在0.5‰以内。
(3)所有工作均将遵循《公共数字文化工程2019年度数字资源联合建设著录规则》的标准进行。
5.全文(图文)标引
对报纸的名称、加工编号、报刊日期、卷期、版次、版名、栏目、引题、标题、副标题、作者、摘要、关键词、广告、图片、正文等主要信息进行标引,并与报纸原版式建立一一对应的关系,每篇文章的坐标应精确展示。
6.文字编校
对报纸图像文件执行OCR文字识别,并对识别结果文件逐份进行人工精校,文字编校差错率根据字体规定,繁体文字差错率不超过2‰,简体文字不超过0.5‰。
7.数据交付及上传
数据成果:TIFF图像、双层PDF、XML、对应数据库、说明文件、介质说明文件、书目数据文件、版权证明、第三方质检报告各一份。
数据上传:将加工的成果物上传至山西省图书馆馆藏《山西日报》平台,完成功能和数据对接。
三、报价单
单位:元
产品类型 | 报纸情况 | 成品交付格式 | 报价/版 |
报纸全文标引及文字编校 | 1949年4月26日—1955年12月31日: | TIFF图像、双层PDF、XML、对应数据库、 说明文件、介质说明文件、书目数据文件、 版权证明、第三方质检报告各一份。 | |
1956年1月1日—1972年2月3日: | |||
1972年2月4日—1972年3月31日、 1973年1月1日—1980年6月30日: 分栏排版,每版约6000字,简体字 | |||
图像采集、处理、命名、保存、质检、题录标引、文字编校 | 1980年7月1日—1990年12月31日,简体字 | TIFF图像、双层PDF、XML、对应数据库、 说明文件、介质说明文件、书目数据文件、 版权证明、第三方质检报告各一份。 |
报价需包含人工、设备、耗材、运输等全部费用,注明是否含税。
四、联系方式
联系人:贾晋峰
联系电话:19935181931
地址:太原市长风商务区广经路5号
公告公示时间:2025年6月18日—2025年6月20日
需要查看报纸及平台建设等情况的报价单位请于2025年6月23日10:00前往山西省图书馆(长风馆)地方文献部。
请于2025年6月24日15:00前向山西省图书馆地方文献部提交密封报价文件并加盖公章,包含报价单、营业执照副本复印件、开户许可证复印件。
逾期不予受理。
山西省图书馆
2025年6月18日