一到年底,就有一件让很多人头疼的事情——春运抢票。交通部门的数据显示,2017年全国春运旅客发送量为29.8亿人次,而2018年的春运旅客人次将进一步上涨,预计会突破30亿人次,其中,铁路预计发送旅客量3.93亿人次,同比增长10%。
魔咒继续:史上最难抢票年
无疑,2018年春运,我们依然没能逃脱“史上最难抢票年”的魔咒。
火车票预售期依然为30天,2018年2月1日春运正式开始, 也就是说1月3日春运售票期的第一天。按照以往经验,年前春运高峰期将是在法定节假日的前一周,也就是农历腊月二十二到腊月二十八。
2018年春运抢票日历
下周开始,春运抢票将逐渐达到高潮。拼运气、拼手速、拼眼力、拼网速?面对一年才一次的春运抢票大战,这些手段似乎还不够看。想必多数人都恨不得想拥有一款抢票神器,才能安心准备过年。
那今年你不妨自己写一段代码来抢回家的火车票,是不是很Cool。
A2039185
Python
820次
回家
开车时间
08:20开
13车14号
票价 技术无价
一经认证 全国有效
先准备好:
12306网站用户名和密码
chrome浏览器及下载chromedriver
下载Python代码,来自网络整理 [https://github.com/ppy2790/tickets ]
12306网站用户名和密码
chrome浏览器及下载chromedriver
下载Python代码,来自网络整理 [https://github.com/ppy2790/tickets ]
代码用的Python+Splinter开发,Splinter是一个使用Python开发的开源Web应用测试工具,它可以帮你实现自动浏览站点和与其进行交互。Splinter官网
http://splinter.readthedocs.io/en/latest/ 。
Splinter执行的时候会自动打开你指定的浏览器,访问指定的URL。然后你所开发的模拟的任何行为,都会自动完成,你只需要坐在电脑面前,像看电影一样看着屏幕上各种动作自动完成然后收集结果即可。
了解原理:
找到相应URL,找到控件模拟登录、查询、订票操作。关键是找到控件名称,难点是起始地不是直接输入的页面值,需要在cookie中查出。
12306查询URL: https://kyfw.12306.cn/otn/leftTicket/init
12306登录URL: https://kyfw.12306.cn/otn/login/init
我的12306URL: https://kyfw.12306.cn/otn/index/initMy12306
购票确认URL: https://kyfw.12306.cn/otn/confirmPassenger/initDc
12306查询URL: https://kyfw.12306.cn/otn/leftTicket/init
12306登录URL: https://kyfw.12306.cn/otn/login/init
我的12306URL: https://kyfw.12306.cn/otn/index/initMy12306
购票确认URL: https://kyfw.12306.cn/otn/confirmPassenger/initDc
Python代码打开URL,找到控件填充值:
def login(self):
self.driver.visit(self.login_url)
# 填充用户名
self.driver.fill("loginUserDTO.user_name", self.username)
# 填充密码
self.driver.fill("userDTO.password", self.passwd)
print u"等待验证码,自行输入..."
找到用户名密码控件名
找到起始地控件名
确定起始地的值,方法Chrome浏览器中的“检查”功能(按F12),Network ---> Cookies中找到:
cookie中起始地的值
拷贝起始地的cookie值,我把几个常用的城市拷出来,放到了字典中:
cities= {'成都':'%u6210%u90FD%2CCDW',
'重庆':'%u91CD%u5E86%2CCQW',
'北京':'%u5317%u4EAC%2CBJP',
'广州':'%u5E7F%u5DDE%2CGZQ',
'杭州':'%u676D%u5DDE%2CHZH',
'宜昌':'%u5B9C%u660C%2CYCN',
'郑州':'%u90D1%u5DDE%2CZZF',
'深圳':'%u6DF1%u5733%2CSZQ',
'西安':'%u897F%u5B89%2CXAY',
'大连':'%u5927%u8FDE%2CDLT',
'武汉':'%u6B66%u6C49%2CWHN',
'上海':'%u4E0A%u6D77%2CSHH',
'南京':'%u5357%u4EAC%2CNJH',
'合肥':'%u5408%u80A5%2CHFH'}
查询车票代码:
print u"购票页面开始..."
# 加载查询信息
self.driver.cookies.add({"_jc_save_fromStation": self.starts})
self.driver.cookies.add({"_jc_save_toStation": self.ends})
self.driver.cookies.add({"_jc_save_fromDate": self.dtime})
self.driver.find_by_text(u"查询").click()
其实,你只需要运行代码:
python tickets.py 上海 广州 2018-02-05
当然,还需要手动点一下的还是万恶的12306验证码,抢到票后确认支付就行啦。
抢票进行中
抢票成功!
不过,这也不过是一个自动模拟你买票操作的程序,万恶的验证码依旧没能逃掉。
不要试图问一个程序员,为什么你不能写一个完美跳过验证码的抢票软件。
这问题就像,不是每一个程序员都能写出一个吃鸡外挂。当你跟一个写代码的朋友聊到这样的话题时,你们的聊天基本可以到此结束了。
那么自动识别验证码的抢票神器是否存在?
当然,对于12306的验证码机制,其实早就已经不算是难题了。Google、百度等搜索引擎早就可以实现以图搜图,那么同样利用算法实现图形验证码的自动识别也同样变成可能,准确度还是非常可观的。
利用Python即可实现12306图形验证码的自动识别,实现步骤基本可以简单地归纳为以下:
抓取验证码图片——识别标题文字——切图,识别八张小图片——内容对比
根据一名网友的实践结果,抓取约23000张图去重之后竟然只剩下6900张。也就是说,12306图形验证码并没有想象中那么复杂。具体的实践过程,笔者也留下两个链接供大家参考。不排除12306在不断调整验证系统,但实现方法都是类似的:
Python-12306模拟登陆过程(https://zhuanlan.zhihu.com/p/31865300)
Python3.x 12306自动登录完整实现(https://www.jianshu.com/p/d3e2b3442974)
普通用户在抢票过程中,遇到图形验证码一般需要花5秒甚至更多的时间,而机器识别已经基本可以做到在1-2s内完成这个过程。到这个地步的话,真不是拼手速的问题了……
最后小蓝想提醒大家,抢票软件只能算是购票的辅助工具,毕竟大多数人还是利用12306官方APP或者官网抢到了票,抢票软件大多数只是在捡漏刷票的过程中会比较方便。为了早点抢到火车票回家的心情能够理解,但还是要以个人信息和财产安全为重,谨防诈骗哦。
作者:然学科技、Andy
来源:简书、FreeBuf.COM
· END ·