js逆向

import execjs node = execjs.get() file = 'eleme.js' ctx = node.compile(open(file).read()) js_encode = 'getParam()' params = ctx.eval(js_encode) print(params) 尝试执行，心凉，代码异常：

execjs._exceptions.ProgramError: TypeError: 'window' 未定义 window对象估计是浏览器打开是创建的，蕴含浏览器的信息，所以用Python来执行这段代码时，没有这个对西乡。本来想尝试伪造window对象，但查找之后发现js脚本中上百个地方用到window，这还没完，代码经过混淆，在下水平不够，没法追根溯源（这地方困扰了我许久，哪位前辈如果知道方法，请告知）。后来，从一个前辈那里（感谢前辈）获知一个方法绕过去。这个前辈的方法是将execjs的引擎换成PhantomJS这个无头浏览器（之前用的引擎是node.js），换句话说就是用PhantomJS来执行js脚本，PhantomJS是一个浏览器，自然就会创建window对象。使用PhantomJS之前，需要下载它的驱动，然后放下Python代码统一目录下。对之前的Python代码也进行修改：

import execjs import os os.environ["EXECJS_RUNTIME"] = "PhantomJS" node = execjs.get() file = 'eleme.js' ctx = node.compile(open(file).read()) js_encode = 'getParam()' params = ctx.eval(js_encode) print(params) 果然，按照这个方法，成功获取加密字符串。

3.2 方案二

事实上，这个方案二才是我在出现未定义window对象异常后首先尝试的方法，不过因为往js代码中添加的js脚本有问题，以为行不通，所以请教前辈，得到了方案一。方案二的思路和方案一类似，不过更加粗暴一些。不是因为没在浏览器执行，造成没有window对象吗？那我就模拟浏览器来执行。在执行之前，同样要修改js脚本，在js文件末尾调用e方法，添加如下代码：

var a; var param = e(2,a); return param; 切记：不要放在任何函数里面，我之前就是因为将这段代码放在函数里头强制执行，导致的结果就是在浏览器里可以获取加密字符串，但是在Python中获取到的却是None。模拟浏览器用的selenium和chrome的webDriver，代码如下：

from selenium import webdriver browser = webdriver.Chrome(executable_path='chromedriver.exe') with open('eleme.js', 'r') as f: js = f.read() print(browser.execute_script(js)) 这个方法也是可以获得加密之后的字符串。最后，有必要说一下的是，如果需要获取大量的x-uab，采用方案二效率会高一下，因为采用方案二的话，可以自打开一个浏览器（都调用一个webdriver对象），然后快速执行js，返回加密字符串。

4 总结

一次js逆向解密，算是完成了吧。但是也留下了一些问题：（1）使用chrome断点调试时，js脚本都是压缩混淆之后的，通过chrome的pretty print功能（也就是说那对花括号）可以格式美化，但是，有的时候却会失败，就像下图，格式化后，还是一团糟：

这个问题耽搁了我很长时间，没法调试啊！ js逆向解析技巧--selenium 由于工作后期偏向架构方向，很久没做单独的爬取操作，居然有点忘记js的逆向过程了，研究了一晚上终于有了点头绪，记录下来免得以后忘记。下面内容以对美团店铺抓取时需要破解的_token加密为准。

1. chrome浏览器的使用--js断点调试

以美团为例，点进美团的美食页面，使用f12打开开发者工具。清空当前产生的各种请求，然后点击下一页，会发现重新生成大量的请求。切换到xhr页面观察是否通过ajax进行的请求，我们发现getPoiList开头的请求返回了我们需要的结果。

然而观察该请求所携带的参数我们发现，大多数参数是可以通过找规律的办法得到解决的，但_token这个参数是被加密过得，我们无法获取到它的值，这就需要通过反编译来解决问题。

通常情况下，我们可以全局搜索_token来看是否能找到对其进行加密的js，但有的时候，数据的整个键值对都是被加密过得（参考知乎登陆的加密），我们无法通过键找到对应值得加密算法。这时候可以尝试搜索请求url中的关键部分来定位加密部位。

我们可以看到，根据getPoiList我们找到了_token的的值为d，d又是通过Rohr_Opt.reload(p)方法进行加密得到想要的结果的。我们在这个位置打上断点，再次执行下一页，当执行到reload时，我们进入找到了_token的加密js，打上断点继续观察就可以看到加密的整个流程了，如果你是js高手，可以尝试解密js，然后用python重写，这样结果的性能会好一些，但我这里使用了python直接调用js的方法进行加密。

以上就是js加密的关键部位了。到这里chrome的断点调试完成。

2. python实现js代码的调用

通常来讲，使用execjs或者pyV8是比较主流的python调用js模块，但因为我两者都安装失败了，暂时没法使用，因此使用selenium的execute_script方法进行js调用。首先，我们将其改造成一个html文件rohr.html，并且为其添加一个可被外界调用的返回函数ssss，如下：

<html>
<head>
<meta http-equiv="content-type" content="text/html;charset=utf-8" />
<title>Checkbox</title>
<script type="text/javascript">
var Rohr_Opt = new Object;
Rohr_Opt.Flag = 100007;
Rohr_Opt.LogVal = "rohrdata";

(function() { var _$_543c = ["\x75\x6E\x64\x65\x66\x69\x6E\x65\x64", 
.................
])})();

function ssss(url){
 return Rohr_Opt.reload(url);
}
</script> 
</head>
<body></body>
</html>复制代码

使用python对其进行调用：

from selenium import webdriver
import os

file_path = 'file:///' + os.path.abspath('rohr.html')
print(file_path)
browser = webdriver.Chrome()
browser.get(url=file_path)
jv = "https://bj.meituan.com/meishi/api/poi/getPoiList?cityName=北京&cateId=0&areaId=0&sort=&dinnerCountAttrId=&page=3&userId=&uuid=7dc6d913fda1472c8d42.1552289338.1.0.0&platform=1&partner=126&originUrl=https://bj.meituan.com/meishi/pn3/&riskLevel=1&optimusCode=1"
data = browser.execute_script('return ssss()', jv)# 这里使用execute_script调用了ssss函数，并传入参数jv
print(data) # data即我们加密后的_token
browser.close()复制代码

第一行是rohr.html文件的绝对路径，第二行即我们所需要的_token的加密结果

Scrapy Splash Crawling Javascript Website

crawl a Javascript-rendered page using the following codes: import scrapy from scrapy_splash import SplashRequest class QuotejscrawlerSpider(scrapy.Spider): name = 'quotejscrawler' def start_requests(self): yield SplashRequest( url = 'http://www.horsedeathwatch.com/', callback=self.parse, ) def parse(self, response): for quote in response.xpath("//tr"): item = { 'horse': quote.xpath('td[@data-th="Horse"]/a/text()').extract(), 'date': quote.xpath('td[@data-th="Date"]/text()').extract(), 'cause': quote.xpath('td[@data-th="Cause of Death"]/text()').extract(), } yield item would like to crawl multiple pages by clicking the "Next" button on each webpage there seem to be 2 (non-python) ways to somewhat script splash: passing javascript code through the js_source parameter passing lua code through the lua_source parameter (there are some examples showing how to do this using scrapy-splash) That said, I think it would be far simpler (at least in this case) to reverse-engineer the requests the website is making and implement those in your python code, completely avoiding the need for splash. Advanced Web Scraping with Scrapy Scraping HTML & Javascript WebApps with Python and Scrapy

js逆向

replace selenium by js逆向

js逆向

常见的加密算法

js逆向作用

js逆向的实现

寻找加密函数位置

设置断点找到未加密参数与函数

把加密参数的方法写入js文件

调试js文件

node.js

node.js插件

数据爬取

创建Scrapy项目、Spider爬虫

读取js文件——Read_js.py

items.py文件

NC.py文件

pipelines.py文件

获取多条评论

settings.py文件

结果展示

制作词云

js逆向技巧分享

1. 搜索

1.1 全局搜索

1.2 代码内搜索

2. debug

2.1 常规debug

2.2 XHR debug

2.3 行为debug

3 查看请求调用的堆栈

4. 执行堆内存中的函数

5. 修改堆栈中的参数值

6. 写js代码

7. 打印windows对象的值

8. 勾子

8.1 cookie钩子

8.2 请求钩子

8.3 header钩子

8.4 manifest.json

使用方法

9. 破解无限debugger防调试

9.1 方法置空

9.2 干掉定时器

9.3 中间人拦截替换无限debug函数

10. console中使用xpath或css

11. Network下 Filters（过滤器）

8.2.2 熟悉前端JavaScript

8.2.3 快速定位请求源码

8.2.4 理解JS源码混淆

8.2.5 JS代码调试利器

8.2.6 模拟JS代码的执行

js逆向解密经历

2 js逆向求解

3 撸代码

3.1 方案一

3.2 方案二

4 总结

1. chrome浏览器的使用--js断点调试

2. python实现js代码的调用

Scrapy Splash Crawling Javascript Website