8.2.1 什么是 alinode?

Node.js 性能平台(原 alinode)是面向中大型 Node.js 应用提供性能监控、安全提醒、故障排查、性能优化等服务的整体性解决方案。alinode 团队凭借对 Node.js 内核的深入理解,提供了完善的工具链和服务,协助客户主动、快速地发现和定位线上问题。

8.2.2 创建 alinode 应用

访问官网 https://www.aliyun.com/product/nodejs,如未开通,则使用阿里云账号登录并免费开通即可。

登录后进入控制台,单击 “创建新应用”,创建一个名为 test_alinode 的应用。

进入设置页面,如下所示:

App ID 和 App Secret 后面会用到。

8.2.3 安装 alinode

alinode 的整套服务由 alinode 运行时、agenthub(原 agentx + commdx 命令集)和服务平台组成,所以在自己的服务器上部署时需要安装 alinode 运行时和 agenthub。

我们使用交互式一键安装 alinode 和 agenthub:

$ uname -a # 阿里云 ECS Ubuntu@16.04
Linux nswbmw 4.4.0-105-generic #128-Ubuntu SMP Thu Dec 14 12:42:11 UTC 2017 x86_64 x86_64 x86_64 GNU/Linux
$ wget https://raw.githubusercontent.com/aliyun-node/alinode-all-in-one/master/alinode_all.sh
$ bash -i alinode_all.sh # App ID 和 App Secret 填写上面生成的
...
$ node -p 'process.alinode' # 查看 alinode 版本

注意:如果遇到 wget 报错 wget: unable to resolve host address 'raw.githubusercontent.com',需要修改 DNS 配置,在 /etc/resolv.conf 最上面添加 nameserver 8.8.8.8

生成一个 yourconfig.json 配置文件,内容如下:

{
  "server": "agentserver.node.aliyun.com:8080",
  "appid": "xxx",
  "secret": "xxx",
  "logdir": "/tmp/",
  "reconnectDelay": 10,
  "heartbeatInterval": 60,
  "reportInterval": 60,
  "error_log": [],
  "packages": []
}

使用该配置启动 agenthub:

$ nohup agenthub yourconfig.json &

agenthub 将以常驻进程的方式运行。

下面通过两个例子使用 alinode 分别调试内存泄露和 CPU 性能瓶颈的问题。

8.2.4 使用 alinode 诊断内存泄露

我们以一段内存泄露代码为例,演示如何使用 alinode 调试内存泄漏的问题。代码如下:

server.js

const Paloma = require('paloma')
const session = require('koa-generic-session')
const app = new Paloma()

app.keys = ['some secret']
app.use(session())

class User {
  constructor () {
    this.name = new Array(1e6).join('*')
  }
}

app.use((ctx) => {
  ctx.session.user = new User()
  ctx.status = 204
})

app.listen(3000)

这段代码内存泄露的原因是:koa-generic-session 默认将 session 信息存储到了内存中。

client.js

const axios = require('axios')

setInterval(() => {
  axios.get('http://localhost:3000')
}, 1000)

打开两个终端,分别运行 :

$ ENABLE_NODE_LOG=YES node server # 开启 alinode 的 log 功能,使得 agenthub 可以监控内核级的性能数据
$ node client # 1s 发起一次请求

过一会儿就可以在 alinode 控制台看到数据了,如下所示:

可以看出,alinode 监控了:

  • 异常日志
  • 慢 HTTP 日志
  • 模块依赖
  • 系统监控数据(包含非常详尽的图表数据,有 Memory、CPU、Load、QPS、GC、Apdex、Apdex detail、node 进程数、磁盘)

单击 “堆快照” 生成一个 heapsnapshot 文件,单击左侧的 “文件”,查看刚才生成的堆快照:

在转储后单击 “分析”,选择 “对象簇视图” 的树状列表,展开后如下所示:

可以看出:MemoryStore 的 sessions 对象中存储了 97 个 session,并且每个 session.user 上有一个 name 字段是长字符串。

8.2.5 使用 alinode 诊断 CPU 性能瓶颈

测试代码如下:

server.js

const crypto = require('crypto')
const Paloma = require('paloma')
const app = new Paloma()

app.route({ method: 'GET', path: '/encrypt', controller: function encryptRouter (ctx) {
  const password = ctx.query.password || 'test'
  const salt = crypto.randomBytes(128).toString('base64')
  const encryptedPassword = crypto.pbkdf2Sync(password, salt, 10000, 64, 'sha512').toString('hex')

  ctx.body = encryptedPassword
}})

app.listen(3000)

client.js

const axios = require('axios')

setInterval(() => {
  const tps = Math.floor(Math.random() * 10)
  for (let i = 0; i < tps; i++) {
    axios.get('http://localhost:3000/encrypt?password=123456')
  }
  console.log(`Sent ${tps} requests`)
}, 1000)

打开两个终端,分别运行:

$ ENABLE_NODE_LOG=YES node server
$ node client

回到 alinode 控制台,单击 “CPU Profile”,然后到 “文件” 查看刚才生成的 cpuprofile 文件,转储后单击 “分析”,可以看到生成的火焰图。展开后如下所示:

可以看出:server.js 的第 5 行,即 encryptRouter 占用 CPU 较多,而 encryptRouter 里的 exports.pbkdf2Sync 占用了 encryptRouter 绝大部分 CPU 时间。

回到 “文件”,选择 “devtools 分析”,如下所示:

可以看出:alinode 已经帮我们把可疑的 CPU 性能瓶颈的元凶标红显示了。

小提示:不管是生成的 heapsnapshot 还是 cpuprofile,都可以选择 “下载” 后使用 Chrome DevTools 分析。

我们在上面只演示了 “堆快照” 和 “CPU Profile” 的使用,alinode 支持抓取以下 5 种数据:

  • 堆快照
  • 堆时间线
  • CPU Profile
  • GC Trace
  • Heap Profile

本节就不一一演示了。

alinode 如此强大,而且免费使用,可以说是开发 Node.js 应用必不可少的好伙伴了。

8.2.6 参考链接

  • https://www.aliyun.com/product/nodejs
  • https://github.com/aliyun-node/agenthub
  • https://cnodejs.org/topic/561f289b4928c5872abc18ee

上一节:8.1 node-clinic

Copyright© 2013-2020

All Rights Reserved 京ICP备2023019179号-8