如何爬取google应用商店的应用分类呢?

article/2025/6/7 13:07:32

以下是爬取Google Play商店应用包名(package name)和对应分类的完整解决方案,采用Scrapy+Playwright组合应对动态渲染页面,并处理反爬机制:

0

完整爬虫实现

1. 安装必要库

# 卸载现有安装pip uninstall playwright scrapy-playwright -y# 重新安装(指定国内镜像加速)pip install playwright scrapy-playwright -i https://pypi.tuna.tsinghua.edu.cn/simple# 安装浏览器二进制文件playwright install chromiumplaywright install-deps  # Linux系统需要额外依赖

2. 创建Scrapy项目

scrapy startproject google_play_crawler cd google_play_crawler

3. 修改settings.py​​​​​​​

# 启用Playwright和中间件DOWNLOAD_HANDLERS = {    "http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",    "https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",}TWISTED_REACTOR = "twisted.internet.asyncioreactor.AsyncioSelectorReactor"# 反爬配置USER_AGENT = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"ROBOTSTXT_OBEY = FalseCONCURRENT_REQUESTS = 2DOWNLOAD_DELAY = 3# Playwright设置PLAYWRIGHT_BROWSER_TYPE = "chromium"PLAYWRIGHT_LAUNCH_OPTIONS = {    "headless": True,    "timeout": 30000,}

4. 爬虫主代码spiders/google_play.py​​​​​​​

import scrapyfrom scrapy.http import Requestimport refrom urllib.parse import urljoinclass GooglePlaySpider(scrapy.Spider):    name = 'google_play'    start_urls = ['https://play.google.com/store/apps']    custom_settings = {        'FEEDS': {            'apps.csv': {                'format': 'csv',                'fields': ['package_name', 'app_name', 'main_category', 'sub_category'],                'overwrite': True            }        }    }    def start_requests(self):        for url in self.start_urls:            yield Request(                url,                callback=self.parse_categories,                meta={"playwright": True}            )    def parse_categories(self, response):        """解析所有分类链接"""        # 新版Google Play分类选择器        category_links = response.xpath('//a[contains(@href, "/store/apps/category/")]/@href').extract()        for link in set(category_links):  # 去重            full_url = urljoin(response.url, link)            category_name = link.split('/')[-1]            yield Request(                full_url,                callback=self.parse_app_list,                meta={                    "playwright": True,                    "category": category_name                }            )    def parse_app_list(self, response):        """解析应用列表页"""        app_links = response.xpath('//a[contains(@href, "/store/apps/details?id=")]/@href').extract()        for link in set(app_links):            package_name = link.split('=')[-1]            full_url = urljoin(response.url, link)            yield Request(                full_url,                callback=self.parse_app_detail,                meta={                    "playwright": True,                    "package_name": package_name,                    "main_category": response.meta["category"]                }            )        # 分页处理        next_page = response.xpath('//a[contains(@aria-label, "Next page")]/@href').extract_first()        if next_page:            yield Request(                urljoin(response.url, next_page),                callback=self.parse_app_list,                meta={                    "playwright": True,                    "category": response.meta["category"]                }            )    def parse_app_detail(self, response):        """解析应用详情页"""        item = {            "package_name": response.meta["package_name"],            "app_name": response.xpath('//h1[@itemprop="name"]/span/text()').get(),            "main_category": response.meta["main_category"],            "sub_category": response.xpath('//a[@itemprop="genre"]/text()').get()        }        # 额外信息(可选)        item['rating'] = response.xpath('//div[@class="TT9eCd"]/@aria-label').get()        item['downloads'] = response.xpath('//div[contains(text(), "Downloads")]/following-sibling::span//text()').get()        yield item

5.google_play_crawler目录启动Google商店爬虫

scrapy crawl google_play -O Google.csv

执行后可以看到开始进行Google 应用商店的应用分类可视化爬虫

0

6.运行结果

    可以爬取应用的分类,但是感觉稳定哈。可能是国内VPN不稳定,且爬虫很费时间,感觉跑完也需要好几小时以上哈。

0

我家公司没有自己的应用商店,故应用类型需要自己爬虫生成数据库,供后续代码查询实现了。


http://www.hkcw.cn/article/YaomeWyALF.shtml

相关文章

英福康INFICON VGC501, VGC502, VGC503 单通道、双通道和三通道测量装置

英福康INFICON VGC501, VGC502, VGC503 单通道、双通道和三通道测量装置

C++ Visual Studio 2017厂商给的源码没有.sln文件 易兆微芯片下载工具加开机动画下载。

1.先用Visual Studio 2017打开Yichip YC31xx loader.vcxproj,再用Visual Studio 2022打开。再保侟就有.sln文件了。 易兆微芯片下载工具加开机动画下载 ExtraDownloadFile1Info.\logo.bin|0|0|10D2000|0 MFC应用兼容CMD 在BOOL CYichipYC31xxloaderDlg::OnIni…

JsonCpp 库如何集成到Visual studio

这是用于 在 C 中解析和生成 JSON 数据 的工具包,适合在需要与前端、网络、配置等 JSON 格式交互的 C 项目中使用。 Json(基于JsonCpp) 格式全称:JavaScript Object Notation 格式特点: 与开发语言无关轻量级的数据…

sourceinsight4.0不识别.cc解决办法

options—>preferences 选择 c language, 点击右边的 file types, 添加 ;*.cc即可 重新创建工程, 不仅有.cc, 还有.cc的目录结构

RNN结构扩展与改进:从简单循环网络到时间间隔网络的技术演进

本文系统介绍 RNN 结构的常见扩展与改进方案。涵盖 简单循环神经网络(SRN)、双向循环神经网络(BRNN)、深度循环神经网络(Deep RNN) 等多种变体,解析其核心架构、技术特点及应用场景,…

IBM DB2分布式数据库架构

一、什么是分布式数据库架构 分布式数据库架构是现代数据库系统的重要发展方向,特别适合处理大规模数据、高并发访问和高可用性需求的应用场景。下面我们从原理、架构模式、关键技术、实现方式和常见产品几个方面来系统讲 1、分布式数据库的基本概念与原理 1. 什…

第十三章 Java基础-特殊处理

文章目录 1.包和final2.权限修饰符和代码块3.抽象类1.包和final 2.权限修饰符和代码块 3.抽象类

Could not get unknown property ‘mUser‘ for Credentials [username: null]

最近遇到jekins打包报错: Could not get unknown property mUser for Credentials [username: null] of type org.gradle.internal.credentials.DefaultPasswordCredentials_Decorated。 项目使用的是gradle,通过pipeline打docker包;因为ma…

核显战3A,锐龙9000G系列CPU曝光

在刚过去不久的台北国际电脑展上,AMD 为大家带来了 RX 9060 XT、Radeon AI PRO R 9700 显卡以及线程撕裂者系列新品。 尽管狠活儿不少,但这场电脑展仍然让不少同学失望而归。 因为,原本预期亮相锐龙 9000G 系列桌面 APU 竟没有公布半点消息。…

[yolov11改进系列]基于yolov11引入空间通道系统注意力机制SCSA的python源码+训练源码

【SCSA介绍】 1、Spatial and Channel Synergistic Attention ​ 通道和空间注意力分别为各种下游视觉任务的特征依赖性和空间结构关系提取带来了显著的改进。虽然两者的组合更有利于发挥各自的优势,但通道和空间注意力之间的协同作用尚未得到充分探索&#xff0c…

穿越文件之海:Linux链接与库的奇幻旅程,软硬连接与动静态库

文章目录 引言1、软硬链接1.1、基本认知1.2、实现原理1.3、应用场景1.4、取消链接1.5、ACM时间 2、动静态库2.1、认识库2.2、库的作用 3、制作静态库3.2、静态库的使用 4、制作动态库4.1、动态库的打包4.3、动态库的链接原理 5、动态库知识补充 引言 在计算机的无形世界中&…

2024年认证杯SPSSPRO杯数学建模D题(第二阶段)AI绘画带来的挑战解题全过程文档及程序

2024年认证杯SPSSPRO杯数学建模 D题 AI绘画带来的挑战 原题再现: 2023 年开年,ChatGPT 作为一款聊天型AI工具,成为了超越疫情的热门词条;而在AI的另一个分支——绘图领域,一款名为Midjourney(MJ&#xff…

6.3 计算机网络面试题

网络OSI模型和TCP/IP模型分别介绍一下 OSI 应用层:http htps DNS 为应用程序提供统一的接口表示层:将数据转换为兼容另一个系统能识别的格式会话层: 建立管理终止表示层实体之间的通信会话传输层: tcp udp 负责端到端的数据传输网络层: ip …

LeetCode 高频 SQL 50 题(基础版) 之 【高级查询和连接】· 下

上部分链接:LeetCode 高频 SQL 50 题(基础版) 之 【高级查询和连接】 上 题目:1164. 指定日期的产品价格 题解: select product_id,10 price from Products group by product_id having min(change_date) > 201…

ssm学习笔记day04

RequestMapping 首先添加依赖 Maven的配置 测试 在controller创建HelloController,如果只加RequestMapping,默认跳转到新页面 如果要是加上ResponseBody就把数据封装在包(JSON),标签RestController是前后分离的注解(因为默认用…

Spine工具入门教程4之网格与权重

1、概念 网格的定义: 启用网格,可以在图片内设置多边形,操纵多边形的顶点可以让图片变形。 权重的定义: 图解网格和权重的操作方法: 2、调整网格/权重 (1)设置网格 目前调整小臂骨骼对图片不…

吉他入门个人学习笔记

目录 一.一二期 1. 十二平均律 2.调音 3.弦数-音名-唱名 三.第三期 1.43231323训练 2.c大调二十四品常用音阶图 四.第四期 1.小星星 2.爬格子训练 五.第五期 六.第六期——大三和弦 和弦总览 1.C和弦 2.D和弦 3.E和弦 4.G和弦 5.A和弦 第七期.小三和弦 五百…

队列的讲解:C++队列的使用

一.队列的介绍: 队列是C/C中最基础的数据结构之一,队列本质上是一种线性表。它遵循着先进先出(fifo)的特点,在队列中一般在队尾插入,队头出队。这就相当于排队一样,刚入队的人需要排在队尾(rear),每次出队…

使用Process Explorer、System Informer(Process Hacker)和Windbg工具排查软件高CPU占用问题

目录 1、问题现象 2、使用Process Explorer和System Informer(该工具原先叫Process Hacker)查看占用CPU高的线程 3、使用System Informer工具时发现了一个关键细节 4、将Windbg附加到软件进程上,根据System Informer中显示的线程id到Wind…

华为云Flexus+DeepSeek征文|DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建

华为云FlexusDeepSeek征文|DeepSeek-V3/R1 商用服务开通全流程与本地部署搭建 前言 如今大模型其性能出色,华为云 ModelArts Studio_MaaS大模型即服务平台华为云内置了大模型,能助力我们轻松驾驭 DeepSeek-V3/R1,本文中将分享如何…