最近无聊想抓一抓抖音的数据玩玩,把整个过程大概的记录给大家,分享一下。
一、寻找接口
通过几个小时的观察,我发现可以从分享页面入手,因为这里包含了所有我们想要的数据。随便挑一个分享出他的个人信息页面,这里就以抖音上最火的“莉哥”为例。分享出来后拿到的分享链接是:
https://www.douyin.com/share/user/57720812347/?share_type=link
<https://www.douyin.com/share/user/57720812347/?share_type=link>
。利用Chrome的开发者工具,直接在XHR拿到通讯数据。
Respone里面便是我们想要的莉哥所有的视频数据,包含播放量,点赞,评论等等各种信息。在让我们看看Headers里面请求的URL会需要哪些参数。
标出的URL:
https://www.douyin.com/aweme/v1/aweme/post/?user_id=57720812347&count=21&max_cursor=0&aid=1128&_signature=R8qxlhATHPXt5fEW4KBhFkfKsY
user_id : 这个在分享出来的链接里面有,看参数名都知道是代表什么了。
max_cursor :这个第一次是0,之后需要取剩余列表的时候应该就要用上一次请求得到的JSON数据中的“max_cursor”了。
aid:不清楚用途,直接跟着用1128。
_signature:签名,这次的目标。
二、寻找_signature
既然要破解签名,那么肯定是要先找到是哪里生成的。直接在NetWork搜索就是了,马上就发现了签名生成的位置。再在这个js文件搜索一下
signature是哪里赋值的。
这里就看到签名函数_bytedAcrawler.sign,nonce参数传的就是user_id。继续看看_bytedAcrawler是哪里来的。
可以看到
_bytedAcrawler应该就是这个混淆了的函数生成的。看到这里大概心里就知道该怎么样去拿到这个_signature了,我们只要把“_M”的define函数和require函数都拿到手,直接调用就可以了。那么让我们找找define函数和require函数在哪定义的吧。一样继续搜关键词“_M”,如下。
_M整个都定义在base_327cc85的js文件内,我们想要的define和require都在,而n和e都在上面定义了。
到这里我们所要找的东西都找齐了。按猜想只要把define和require搬出来,然后“douyin_falcon:node_modules/byted-acrawler/dist/runtime”的定义也搬出来,我们就能够自己生成自己的
_bytedAcrawler.sign了。
三、验证
现在把关键处的几块代码copy出来。
_M的define和require:
!function(t) { if (t.__M = t.__M || {}, !t.__M.require) { var e, n, r =
document.getElementsByTagName("head")[0], i = {}, o = {}, a = {}, u = {}, c =
{}, s = {}, l = function(t, n) { if (!(t in u)) { u[t] = !0; var i =
document.createElement("script"); if (n) { var o = setTimeout(n, e.timeout);
i.onerror = function() { clearTimeout(o), n() } ; var a = function() {
clearTimeout(o) }; "onload"in i ? i.onload = a : i.onreadystatechange =
function() { ("loaded" === this.readyState || "complete" === this.readyState)
&& a() } } return i.type = "text/javascript", i.src = t, r.appendChild(i), i }
}, f = function(t, e, n) { var r = i[t] || (i[t] = []); r.push(e); var o, a =
c[t] || c[t + ".js"] || {}, u = a.pkg; o = u ? s[u].url || s[u].uri : a.url ||
a.uri || t, l(o, n && function() { n(t) } ) }; n = function(t, e) { "function"
!= typeof e && (e = arguments[2]), t = t.replace(/\.js$/i, ""), o[t] = e; var n
= i[t]; if (n) { for (var r = 0, a = n.length; a > r; r++) n[r](); delete i[t]
} } , e = function(t) { if (t && t.splice) return e.async.apply(this,
arguments); t = e.alias(t); var n = a[t]; if (n) return n.exports; var r =
o[t]; if (!r) throw "[ModJS] Cannot find module `" + t + "`"; n = a[t] = {
exports: {} }; var i = "function" == typeof r ? r.apply(n, [e, n.exports, n]) :
r; return i && (n.exports = i), n.exports && !n.exports["default"] &&
Object.defineProperty && Object.isExtensible(n.exports) &&
Object.defineProperty(n.exports, "default", { value: n.exports }), n.exports }
, e.async = function(n, r, i) { function a(t) { for (var n, r = 0, h =
t.length; h > r; r++) { var p = e.alias(t[r]); p in o ? (n = c[p] || c[p +
".js"], n && "deps"in n && a(n.deps)) : p in s || (s[p] = !0, l++, f(p, u, i),
n = c[p] || c[p + ".js"], n && "deps"in n && a(n.deps)) } } function u() { if
(0 === l--) { for (var i = [], o = 0, a = n.length; a > o; o++) i[o] = e(n[o]);
r && r.apply(t, i) } } "string" == typeof n && (n = [n]); var s = {} , l = 0;
a(n), u() } , e.resourceMap = function(t) { var e, n; n = t.res; for (e in n)
n.hasOwnProperty(e) && (c[e] = n[e]); n = t.pkg; for (e in n)
n.hasOwnProperty(e) && (s[e] = n[e]) } , e.loadJs = function(t) { l(t) } ,
e.loadCss = function(t) { if (t.content) { var e =
document.createElement("style"); e.type = "text/css", e.styleSheet ?
e.styleSheet.cssText = t.content : e.innerHTML = t.content, r.appendChild(e) }
else if (t.url) { var n = document.createElement("link"); n.href = t.url, n.rel
= "stylesheet", n.type = "text/css", r.appendChild(n) } } , e.alias =
function(t) { return t.replace(/\.js$/i, "") } , e.timeout = 5e3, t.__M.define
= n, t.__M.require = e } }(this);
“douyin_falcon:node_modules/byted-acrawler/dist/runtime”模块:
__M.define("douyin_falcon:node_modules/byted-acrawler/dist/runtime",
function(l, e) { Function(function(l) { return
'e(e,a,r){(b[e]||(b[e]=t("x,y","x "+e+"
y")(r,a)}a(e,a,r){(k[r]||(k[r]=t("x,y","new
x[y]("+Array(r+1).join(",x[y]")(1)+")")(e,a)}r(e,a,r){n,t,s={},b=s.d=r?r.d+1:0;for(s["$"+b]=s,t=0;t<b;t)s[n="$"+t]=r[n];for(t=0,b=s=a;t<b;t)s[t]=a[t];c(e,0,s)}c(t,b,k){u(e){v[x]=e}f{g=,ting(bg)}l{try{y=c(t,b,k)}catch(e){h=e,y=l}}for(h,y,d,g,v=[],x=0;;)switch(g=){case
1:u(!)4:f5:u((e){a=0,r=e;{c=a<r;c&&u(e[a]),c}}(6:y=,u((y8:if(g=,lg,g=,y===c)b+=g;else
if(y!==l)y9:c10:u(s(11:y=,u(+y)12:for(y=f,d=[],g=0;g<y;g)d[g]=y.charCodeAt(g)^g+y;u(String.fromCharCode.apply(null,d13:y=,h=delete
[y]14:59:u((g=)?(y=x,v.slice(x-=g,y:[])61:u([])62:g=,k[0]=65599*k[0]+k[1].charCodeAt(g)>>>065:h=,y=,[y]=h66:u(e(t[b],,67:y=,d=,u((g=).x===c?r(g.y,y,k):g.apply(d,y68:u(e((g=t[b])<"<"?(b--,f):g+g,,70:u(!1)71:n72:+f73:u(parseInt(f,3675:if(){bcase
74:g=<<16>>16g76:u(k[])77:y=,u([y])78:g=,u(a(v,x-=g+1,g79:g=,u(k["$"+g])81:h=,[f]=h82:u([f])83:h=,k[]=h84:!085:void
086:u(v[x-1])88:h=,y=,h,y89:u({e{r(e.y,arguments,k)}e.y=f,e.x=c,e})90:null91:h93:h=0:;default:u((g<<16>>16)-16)}}n=this,t=n.Function,s=Object.keys||(e){a={},r=0;for(c
in e)a[r]=c;a=r,a},b={},k={};r'.replace(/[-]/g, function(e) { return l[15 &
e.charCodeAt(0)] }) }("v[x++]=v[--x]t.charCodeAt(b++)-32function return
))++.substrvar .length(),b+=;break;case ;break}".split("")))()('gr$Daten Иb/s!l
y͒yĹg,(lfi~ah`{mv,-n|jqewVxp{rvmmx,&effkx[!cs"l".Pq%widthl"@q&heightl"vr*getContextx$"2d[!cs#l#,*;?|u.|uc{uq$fontl#vr(fillTextx$$龘ฑภ경2<[#c}l#2q*shadowBlurl#1q-shadowOffsetXl#$$limeq+shadowColorl#vr#arcx88802[%c}l#vr&strokex[
c}l"v,)}eOmyoZB]mx[ cs!0s$l$Pb<k7l l!r&lengthb%^l$1+s$jl
s#i$1ek1s$gr#tack4)zgr#tac$! +0o![#cj?o ]!l$b%s"o
]!l"l$b*b^0d#>>>s!0s%yA0s"l"l!r&lengthb<k+l"^l"1+s"jl s&l&z0l!$
+["cs\'(0l#i\'1ps9wxb&s() &{s)/s(gr&Stringr,fromCharCodes)0s*yWl ._b&s o!])l l
Jb<k$.aj;l .Tb<k$.gj/l .^b<k&i"-4j!+& s+yPo!]+s!l!l Hd>&l!l Bd>&+l!l <d>&+l!l
6d>&+l!l &+ s,y=o!o!]/q"13o!l q"10o!],l 2d>& s.{s-yMo!o!]0q"13o!]*Ld<l
4d#>>>b|s!o!l q"10o!],l!& s/yIo!o!].q"13o!],o!]*Jd<l 6d#>>>b|&o!]+l &+
s0l-l!&l-l!i\'1z141z4b/@d<l"b|&+l-l(l!b^&+l-l&zl\'g,)gk}ejo{cm,)|yn~Lij~em["cl$b%@d<l&zl\'l
$ +["cl$b%b|&+l-l%8d<@b|l!b^&+ q$sign ', [Object.defineProperty(e,
"__esModule", { value: !0 })]) });
调用处:
dycs = __M.require("douyin_falcon:node_modules/byted-acrawler/dist/runtime") ;
signc = dycs.sign(57720812347); document.write(signc);
直接Chrome打开就可以看到了,真的生成了。
放入接口参数试试看能不能用?
可以看到里面都是部分的视频列表封面和视频点赞数据等等数据。
四、结语
感觉有点标题党,其实并没有把整个算法破解出来,不过既然都已经都到了这个地步了,把算法破解出来看起来也不是很难而且也没什么意思,有点懒,能用就行吧。整个过程好像挺简单,其实也花了一些时间并没有写的这么顺利,本想详细过程都写下来。不过都是些基础操作,懒得写了。“_M”的定义那块代码,应该是有很多没有用的。比如document相关的,f函数和n函数。想拿去用的话最好精简一下吧。
有什么问题再留言,有空的话回尽量回复。不过抖音也真是重视反爬,昨天还能拿到视频播放量,评论数以及各种个人信息,今天写Blog的时候突然发现很多数据都没了,只留下了个点赞数等等对页面有用的数据而已了,还以为我出了什么问题。要是大家发现了其他什么有好玩的数据接口,告诉我一声。偷偷的~
这里献上文中的源码:https://github.com/swukong/douyin_signature
<https://github.com/swukong/douyin_signature>
<https://github.com/swukong/douyin_signature/blob/master/demo.html>
热门工具 换一换