NODEJS自己抓站看小说问题小结

Home文章
 简介:分析下抓站遇到的问题

1、抓站乱码问题,需要单独转码speragent-charset

2、正则匹配任意内容[\w\W]+   起初用的.  (小数点)匹配除了换行符(\n)之外的任何单个字符。

3、mac下换行符为 \r  windows 下为  \n   所以匹配为[\r\n]+

4、mongoskin查询条件是区分数据类型的

5、抓取漏掉字段处理方法 db.collection.update({}, {$set: {otherkey: ‘otherval’}}, {multi: 1})

6、显示章节的话需要有个索引,方便索引上下页

7、express用起来相当方便


标签:抓站

评论
Login