如何创建维基百科镜像网站?步骤解析
安装MediaWiki软件及相关依赖:可以选择安装DeBIan,然后通过“apt-get INStall mediaWiki”命令来安装MediaWiki及其所依赖的软件Apache、php5、Mysql等,也可以选择下载VMWARe Player和预安装Mediawiki的虚拟机,或者直接下载一个预安装Mediawiki的虚拟机。
配置数据库:编辑/ETC/my.cnf文件,在[mysqld]部分添加“max_allowed_packet=128M”和“innodb_log_file_size=100m”,保存后重启mysql。
清空数据库:执行“mysql -p wikidb”进入数据库,输入密码后,使用“drop database page; drop database revision; drop database text;”命令清空数据库中的部分表格。
导入数据:用Java运行mwdumper.jAR进行数据倒入,命令为“Java -Xmx600M -server --format=sql:1.5 --enforce-max-length=false --skIP-revisions --skIP-templates mwdumper.jAR --format sql:1.5 --enforce-max-length=false --skIP-revisions --skip-templates enwiki-20061130-pages-articles.xml.bz2 | mysql -u wikiuser -p wikidb -U mysql -p 123456”,此过程大约需要1天时间才能全部导入完毕。
2、初始化设置
建立Wikipedia:安装Mediawiki软件后,需进行初始化配置,包括设置Mediawiki的URL、安装目录、配置文件位置以及数据库信息等,假设要创建英文Wikipedia的镜像,可设置URL为hTTp://localhost/mediawiki/,安装目录为/var/www/mediawiki,Mysql数据库为wikidb,用户为wikiuser,密码为123456。
清空数据库:为了导入Wikipedia的镜像数据,需要先清空数据库的部分表格,如page、revision和text表。
3、数据导入与处理
导入数据:由于数据文件网站和导入工具被封锁,需要自行想办法下载wikipedia的数据文件,下载完成后,用Java运行mwdumper.jar进行数据倒入,倒入时可能会生成约10G的数据库文件和10G左右的Undo日志。
修复数据问题:导入过程中可能会出现一些数据表出错的情况,如pagelinks、templatelinks、page模板表等,可以使用mysql的修复命令修复这些表,但可能需要较长时间,如果发现即将写满分区,可以清空Undo日志。
4、优化与完善
配置MySQL:编辑/ETC/my.cnf文件,在[mysqld]部分添加合适的配置,如“max_allowed_packet=128M”和“innodb_log_file_size=100m”,以优化数据库性能。
安装扩展项:检查并安装Mediawiki所需的扩展项,如ParserFunctions、CITe等,可以通过Subversion下载到extensions目录下的相应文件夹中,然后将其安装到/var/www/mediawiki/extensions目录里。
创建维基百科镜像网站是一个复杂且耗时的过程,需要具备一定的技术知识和耐心,在操作过程中,务必遵守相关法律法规和版权规定,确保镜像网站的合法性和合规性。
本文系作者个人观点,不代表本站立场,转载请注明出处!如有侵权,有联系邮箱845981614@qq.com处理!