·文档下载
·软件下载
·具有加工资质单位名单

CADAL 加工 FAQ

·CADAL 加工 FAQ

1 软件及软件安装
2 目录和文件结构
3 资源格式
4 古籍制作
5 数据传递
6 技术支持

1 软件及软件安装

   数字对象加工系统目前涉及的软件主要有:
   1、扫描软件:QuickScan(美方提供,各馆可以选用熟悉的替代软件);
   2、图像处理软件:Crop(美方提供,尚有待改进);浙江大学现在是用清华同方OCR软件中的去污功能,也有学校使用PhotoShop的。据访印归来的人员介绍,印度方面是用自己开发的一个程序,简单地手工抠出版芯粘贴到空白页上完成去污步骤。
   3、目录编辑软件:CatCreater;由于大小写在UNIX下是敏感的,目录名是手工建的,所以存在大小写统一问题。目前浙江大学通过使用一个模板再复制暂时解决了。但是从长远来说,技术中心将通过程序来解决。
   4、元数据编辑软件:DCEdit;由于DC元数据规范用于描述文献类电子资源,本身存在着一定的局限性,虽说可以将现存的MARC套录成DC格式,但依然难以尽述,如ISBN号、卷号、分卷名等信息就不能著录。
   5、封裝软件:OEBMaker;管理中心版的封装程序可以全自动批处理把目录下所有的书都打包,所以选择目录时应选择存放所有待封装书的目录,而不是一本书的子目录。目前程序同时支持封装为html和djvu.格式。
   目前对于中英文图书制作存在两种格式,因此后三项软件存在两个版本。
   管理中心版的制作软件是完全编译的二进制可执行文件,不需要其他库文件和软件支持(JAVA或者VB),整个软件包才1M,下载以后直接点击就可以开始安装,安装完毕以后在桌面上生成一个图标“EBOOKMAKER”。使用的时候只需点击桌面上的ebookmaker图标。请在 http://www.cadal.net/cn/rjxz/EbookMaker1.6.exe 下载。
中科院版制作软件情况比较复杂,需要安装JAVA和VB支持库,请在 http://159.226.42.80/software.htm 下载。中文书与英文书就其本质而言,没有差别,因此不管采用哪种制作工具,只要底层格式一致,制作出来的电子书符合规定的标准、规范,都可以选择,当然使用方便的应作为首选。目前由于存储格式存在疑义,中英文书的目录结构有差异,但是管理中心承诺,将在下一版程序中兼容中科院的格式。

补充说明:

  1、管理中心版的软件目录层数是没有限制的,支持全屏输入。在输入的同时就可以做目录指向。只需要指明一下图片的文件名就自动连接了,但是应首先保证图片存在ptiff目录下。
   2、中科院版目录页数只能线性的从小到大录入。如果某书的目录是先正文章节目录,1,4,6,13 ... 267然后有图片目录 图一 4, 图二 7, ... 图一三二 256 则系统会乱套。管理中心版支持页码跳跃。
   3、如果不能封装,可能是因为没有把PTIF下面的文件转成DjVu(下一版程序会兼容所有的格式),请在 http://www.cadal.net/cn/rjxz/djvuerproin.exe 下载DjVu转换程序。
   由于现在的程序(3个制作程序)只是简单的三个重要步骤的加工过程,而不是一个系统(大家现在试用的系统是清华同方根据浙江大学的要求编的)。我们正在调试完整的ebook制作系统,包括制作过程中的一系列问题,都将在新系统中完善。

TOP

2 目录和文件结构

  管理中心版简化了ebook的目录结构,说明如下。

目录

文件

解释

根目录

oebbrowser.html

浏览文件

Meta

dc制作软件生成的文件: dc.htm,dc.xml,dcAdd.xml;

Catalog制作软件生成的文件:Catalog.xml,other.xml;

封装文件生成的a.opf文件

DC 加工过程显示生成 DC.xml ,但是在保存时会同时生成 dcAdd.xml 和 dc.htm ,可以在 meta 目录下看到这些文件。

Otiff

存放TIFF图象

600dpi,经过边框去污和倾斜校正

Ptiff

存放Djvu图象

300dpi

Output

存放其他发布格式文件

拟建

TOP

3 资源格式

  根据 http://www.cadal.net/cn/jsgf/jsgf2.htm 的要求,扫描图像的标准为:
   1 、扫描分辨率标准为 600dpi 二值;
   2 、对于有灰度插图的页面,采用 600dpi 256 级灰度;
   3、对于彩页,采用600dpi 真彩色扫描; (PS-7000无法进行真彩色扫描,各馆可以用新分配的AV3书刊扫描仪进行彩扫。)
   4 、图像文件采用 TIF CCITT4 压缩格式保存原图于 OTIFF 目录。
   5 、图象处理后必须保证图象信息与原书本内容完全一致,不得删除页面任何有用信息,包括正文内容、页眉、页脚、手写注释和印鉴等(图书馆藏书章除外)。所有扫描留下的黑线、指印或阴影都必须清除干净。
   6 、页面的倾斜度不得超过 1 度。
   7 、处理后的图像以 300dpi 的 DjVu 格式保存于 PTIFF 目录。( DjVu的选用是基于它的若干优点:高分辨率高压缩,实时传输显示以及类PDF的控制等等。)
   把扫描图像经过去边框和倾斜校正后的TIF图存放在OTIFF中,在PTIFF下存放300DPI的DjVu文件。对于最初确定的PTIFF中的TIF是否保留,其可探讨之处有二:1、人工是否有能力进行扫描图像和书籍原图的比较?2、扫描图像是否即是原始图像,能够反映图书原貎?
  第一,管理中心认为:“工人应该有能力判断扫描图和书页的异同”,即工人在做傾斜校正和边框去污的时候(不要求内容去污)不会损坏图书内容。如果怀疑工人的能力,那么工人也可能选错扫描范围造成书页的残损,那又该如何补救呢?
   第二,由于光线、操作设置、设备的不同,扫描图像与原书的差异是很明显的,任何研究者都不会通过扫描图像来进行版本或者痕迹研究的。原图并不是指扫描成像的图,比如黑边、手影之类本来就不是书籍上面固有的东西,而是扫描产生的。如果是印章、原稿上的指纹等当然应该保留了。
   第三,两套600dpiTIF图的存储开销太大,如果没有特别明确的目的和必要性,我们认为太浪费。关于存储代价,并不能以硬盘的容量来衡量。事实上,存储管理的开销要超过硬盘很多,再加上运行维护和备份的开销,绝不是一本书一块钱,百万册书一百万这样的类推。容量增长与设备价格的增长不是线性的, CADAL的一份镜像远不是一百万的设备开销可以解决的。
   根据CADAL第一次工作会议决定,OCR将由技术中心统一进行,所以我们现在只扫描不识别,准备统一招标一个公司来进行OCR的工作。

TOP

4 古籍制作

  由于影印版四库是缩印,一张图像上包含两页内容,如果要裁得裁成4版,否则仅仅是上下切开也不对。我们参看了迪志文的电子四库产品,考虑到切分会增加成本,而且目前的方式也不影响阅读,所以建议不切。如果有两卷在一页的情况,因为导航是直接对应到图像的,用户打开一页中有卷尾和卷首,应该问题不大。
   四库全书的加工,目前采用的是按册封装。如果一册有几种书,在目录导航中第一级即为书名,二级为卷名,同时在元数据中Title、Creator等项会有几个值。假如其中某本书有几个作者的话,TITLE与CREATOR之间的对应关系会显得混乱。Format项应改为image/DjVu 。
   目前的元数据著录存在很大问题,管理中心正在积极寻求与CALIS的合作,我们将参考和兼容CALIS的DC著录规范。

TOP

5 数据传递

  中科院与浙大的FTP服务器之间目前还不能互为备份,建议中文资源直接上传浙大,英文上传中科院,以后浙大和中科院之间再互备。
   网上FTP提交的网址为:210.32.137.91;
   用户和口令已经由管理中心通知到各馆联系人;
   填写好Cadal数据提交单,提交单为管理中心统一制作的word文件。任何提交数据都需要这个提交单。
   把提交单发信给submit@cadal.cn。
   FTP每次提交数据时候,把每次提交数据放在一个自建目录下,目录名称以当天日期为目录名,如今天2004-10-8,那么就建立一个目录"2004-10-8",把需要提交的iso文件都上载到此目录下,然后再把数据提交单word文件也上载到此目录下。
   数据检查完毕以后,检查工作人员将在此目录下上载一个检查状况word文件,这个文件详细的描述了检查情况。请各个制作中心按照此文件修改错误地方,然后把更正的iso文件重新上载到FTP上。更新ISO文件上载请重新填写数据提交单,按照前面的步骤上载数据。

TOP

6 技术支持

  技术支持按分工,北方高校由中科院负责,但是由于制作程序的开发没有最后定型,所以中文书的制作问题,目前仍由浙江大学负责解答。学期初管理中心会安排一次培训,届时应该有更完善的程序和支持了。

TOP





Copyright 2010 Administration Center for China Academic Digital Associative Library