python爬虫--URL部分加密破解
背景说明
最近在爬取网站数据时,碰到提取到的a标签的url与真实的url地址不同,将a标签中的部分内容进行了加密处理,再拼接处理,拿到真实的url,进行访问。
示例及分析
a标签: 真实url: 加密文件:
$(function () {
$("a").click(function () {
var hh = $(this).attr("href");
// 切割url http://www.sdggzyjy.gov.cn/jsgczbgg/2803000.jhtml
var aa = hh.split("/");
var aaa = aa.length;
var bbb = aa[aaa - 1].split(.);
// ccc 为 加密部分字符串 如 2803000
var ccc = bbb[0];
var cccc = bbb[1];
var r = /^+?[1-9][0-9]*$/;
if (r.test(ccc) && cccc.indexOf(jhtml) != -1) {
//开始进行加密处理 此处开始调用 jquery.lyh-1.1.0.js 文件中的方法
var srcs = CryptoJS.enc.Utf8.parse(ccc);
var k = CryptoJS.enc.Utf8.parse(s);
var en = CryptoJS.AES.encrypt(srcs, k, {
mode: CryptoJS.mode.ECB, padding: CryptoJS.pad.Pkcs7});
var ddd = en.toString();
ddd = ddd.replace(///g, "^");
// ddd= V6MerV5ghNJQJOl+vAZ2vA
ddd = ddd.substring(0, ddd.length - 2);
var bbbb = ddd + . + bbb[1];
aa[aaa - 1] = bbbb;
var uuu = ;
for (i = 0; i < aaa; i++) {
uuu += aa[i] + /
}
uuu = uuu.substring(0, uuu.length - 1);
window.open(uuu)
}
})
});
经过调试,确定调用文件为: jquery.lyh-1.1.0.js
解决方案
开始进行了比较多的尝试,无意中看到该篇文章: 尝试直接进行AES解密,竟然成功了,代码如下
from Crypto.Cipher import AES
import base64
def add_to_16(s):
while len(s) % 16 != 0:
s += (16 - len(s) % 16) * chr(16 - len(s) % 16)
return str.encode(s) # 返回bytes
def get_secret_url(text,key=qnbyzzwmdgghmcnm):
aes = AES.new(str.encode(key), AES.MODE_ECB) # 初始化加密器,本例采用ECB加密模式
encrypted_text = str(base64.encodebytes(aes.encrypt(add_to_16(text))), encoding=utf8).replace(
, ) # 加密
encrypted_text=encrypted_text.replace(/, "^") # ddd.replace(///g, "^")
return encrypted_text[:-2]
def get_real_url(first_url,key):
aa=first_url.split(/)
aaa=len(aa)
bbb=aa[aaa - 1].split(.)
ccc = bbb[0]
secret_text=get_secret_url(ccc,key=key)
return first_url.replace(ccc,secret_text)
url=http://www.sdggzyjy.gov.cn/jsgczbgg/2803000.jhtml
key=****** # 此处问加密key值
url=get_real_url(s,key=key)
print(url)
结果 :
注意
该处解密使用的是 : AES —pkcs5补码方式 而在调用jQuery文件时,传参值是 CryptoJS.pad.Pkcs7 具有一定的误导性 究其原因:因为AES并没有64位的块, 如果采用PKCS5, 那么实质上就是采用PKCS7 参看:
