默认情况下,MOSS爬网和过滤的文档大小限制为16MB。遇到的文档一旦超过这个大小,那么SharePoint(包括所有的版本,Microsoft Office SharePoint以及SharePoint Server For Search)会在LOG中写入一个警告“The file reached the maximum download limit.Check that the full text of the document can be meaningfully crawled.”。
很多情况下我们的文档都会很容易就超过16MB的,比如一个PPT的用户操作手顺等等,于是就会有许多文档无法被搜索以及LOG中会出现很多的警告(我讨厌警告,总是给人怕怕的感觉哈^^)。还好可以通过注册表进行修改。
Actions:
为了能够突破16MB的限制,必须在注册表中追加一个新的项目 MaxDownloadSize 。
- 打开注册表编辑器(Regedit.exe)。
- 找到注册项:
HKEY_LOCAL_MACHINE\SOFTWARE\Microsoft\Office Server\12.0\Search\Global\Gathering Manager - 对着右边的空白处,右键菜单 –> 新建 –> DWORD值。
命名为MaxDownloadSize,请注意这里大小写是敏感的。创建好之后,双击该项,修改基数为十进制,数值数据为你想要的大小。 - 如下图:
- 重启服务器
- 用命令行stsadm –o spsearch –action fullcrawlstart 重新开始爬网工作。
Additional(扩大索引超时时间):
加大了搜索文件的大小,那么当搜索引擎进行索引或者爬网时,对当个文件的操作时间会超时。
因此,我们需要进行扩大索引超时的限制。
- 在管理中心站点,应用程序管理的TAB页中,找到搜索部分,进入管理搜索服务连接。
- 进入服务场级的搜索设置
- 在超时设置部分,修改连接和请求时间。
参考资料:《HowTo Crawl large files with SharePoint》
Tags: search, SharePoint
