随便取个名字_哈哈的gravatar头像
随便取个名字_哈哈 2020-06-14 09:30:50

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

项目描述

使用selenium、webdriver爬取淘宝的图片、商品、价格等信息。在命令行界面输入爬取的参数,把参数信息记录到txt文件中,运行爬虫程序后,先使用手机扫码登陆,然后pc端网页会自动翻淘宝的网页,知道翻到淘宝的最后一页,就会停止对商品的爬取

web端功能:

1.下拉框选择商品搜索

2.点击图片放大

3.点击详情,查看商品详情

4.用饼图查看交易量占比

运行:

1.新建命令行记录文件。命令行记录文件是记录爬虫时,你输入的商品名字和数据库名字(具体位置是E:\a\cmd.txt) 2.pip安装selenium,然后查看你的chrome版本,根据你的版本安装webdriver.exe。具体教程: 3.启动爬虫(商品名字是要在淘宝搜索的商品,数据库名字是爬取的商品要存在哪个数据库里面,数据库名字最好是拼音或者英文) python crawl_taobao.py -k 商品名字 -d 数据库名字 4.启动web: python runserver.py

运行环境

python+pycharm

项目技术(必填)

python+selenium+mongodb+layui

数据库文件(可选)

mongodb

依赖包文件(可选)

>pip install pyquery

>pip install pymongo

运行视频(可选)

链接:https://pan.baidu.com/s/1ijbE7ih3-AH0t5nuAgtjOQ
提取码:9ym9

是否原创(转载必填原文地址)

基于网上的项目修改的

项目截图(必填)

抓取端

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

web端

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

运行截图(必填)

http://127.0.0.1:5000/

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

商品详情

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

按商品类别搜索商品

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

统计图

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

按商品类别统计

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

执行抓取命令python crawl_taobao.py -k 电脑 -d diannao

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

搜最代码

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

会自动写入cmd.txt

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

cmd下查询mongodb数据库

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

>use zuidaima

>db.zuidaimatable.find()

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

注意事项(可选)

1.mongodb的db可以先建立也可以不用

2.cmd.txt文件需要在执行爬虫脚本之前建立

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

CmdSave.py

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

SwitchGoods.py

python+selenium爬虫按关键词搜索实现自动化抓取淘宝商品写入mongodb数据库

3.抓取时,分页有时候会卡,手动点击下一页就会恢复正常

4.运行runserver.py时需要设置配置python sdk才可以


打赏

已有1人打赏

最代码官方的gravatar头像

文件名:taobao.zip,文件大小:2934.736K 下载
  • /
      • /taobao_crawled-master
        • /taobao_crawled-master/.gitattributes
          • /taobao_crawled-master/.idea
            • /taobao_crawled-master/.idea/encodings.xml
            • /taobao_crawled-master/.idea/misc.xml
            • /taobao_crawled-master/.idea/modules.xml
            • /taobao_crawled-master/.idea/taobao_crawled-master.iml
            • /taobao_crawled-master/.idea/workspace.xml
        • /taobao_crawled-master/crawl_taobao.py
        • /taobao_crawled-master/ghostdriver.log
最代码最近下载分享源代码列表最近下载
SZEPEZS  LV9 2024年3月12日
穿山甲1001  LV6 2023年12月13日
ewan007  LV30 2023年12月5日
韩健威  LV3 2023年8月21日
qiheideguang  LV18 2023年3月29日
2386908104  LV1 2023年2月17日
qinzudinxu  LV1 2023年2月11日
双方各何必呢  LV13 2022年10月16日
zhangjfd  LV10 2022年10月2日
jerry_mouse  LV6 2022年7月25日
最代码最近浏览分享源代码列表最近浏览
王东东  LV17 4月16日
IT达人  LV22 1月21日
xp95323  LV15 1月9日
tiancj  LV1 2024年11月25日
大明代码时代  LV7 2024年7月24日
曾显示  LV6 2024年7月7日
IT小牛  LV3 2024年6月18日
chenranr  LV10 2024年6月13日
Myxh00 2024年4月11日
暂无贡献等级
微信网友_6902352269217792  LV3 2024年3月12日
顶部 客服 微信二维码 底部
>扫描二维码关注最代码为好友扫描二维码关注最代码为好友