# 本文目的
在用 Windows 平台使用 qiling 模拟执行框架中遇到了诸多困难,有些问题并没有查询到解决办法,于是记录此篇文章,希望能给到大家一些参考。
以下列举了本文想阐述的内容点:
- aarch64 so 基于 qiling 如何做模拟执行
- Windows 上使用 qiling 的一些问题解决
- 算法中虚拟机的模拟执行
本文尽可能从初学者的视角来阐述,初学者可以自行实践。
# 分析目标
最近需要分析一个 libxx.so 的加密算法,发现是 aarch64 的 so,于是有以下三个思路
- 用 IDA 静态分析
- 用调试器调试,跟踪算法流程
- 用 unidbg、unicorn 做模拟执行
# 选择模拟执行的原因
# 静态分析成本过高
用 IDA 看了一下加密函数,有点像嵌套的控制流平坦化,但实际上是一个虚拟机,这样静态分析的难度就提升了不少。
# 用调试器调试
最初的想法是编译一个 ARM64 的可执行文件,然后加载 libxx.so,调用加密函数来调试。通过 IDA 查看字符串信息,发现是 ndk+llvm 编译的 so,给安卓平台使用的。于是想安装一个 ARM64 的 ubuntu 虚拟机来调试,但 ubuntu 似乎没提供 ARM64 的客户机,只有服务端版本。可能准备其他发行版本的 linux(比如 centos)可以调试,但想到模拟执行在 trace 等功能相较于调试器会更好用点,所以最后选择了用模拟器的方式。
现在想来,可能用 Android Studio 写个 app,然后用 lldb 来调试可能是最稳定的调试方式。大家有什么其他好的意见呢?
# 模拟执行
unidbg 基于 unicorn,可以模拟执行安卓的 so,能很好的满足需求。但从 Bet4 的这篇文章中,unidbg 也存在模拟缺陷,于是我选择了 qiling 作为模拟执行框架,详细理由可参考上文提及的 Bet4 的文章。
从官方文档了解 qiling 的大致使用方法后,发现 qiling 有自带的 qdb 调试器,不过不支持多线程,而 Bet4 开源的 udbserver 支持多线程,配合 pwndbg 效果图如下(图来自 Bet4 的帖子):
之后又发现 qiling 提供了 IDA 插件,方便直接在 IDA 中模拟执行 so。因为分析算法会经常参考 IDA 的一些视图,如果用 udbserver 的话,会在 gdb 调试器和 IDA 之间频繁切换,最后我选择使用 qiling 的 IDA 插件来 “可视化地调试 so”。
# ARM64 demo 运行
在 qiling 源码的 examples\rootfs\arm64_linux\bin 目录下,有很多 arm64 程序可供模拟执行,lib 目录下包含了程序对应的动态链接器,ARM64 对应的动态链接器一般是 ld-linux-aarch64.so.1。这个动态链接器非常关键,它负责程序依赖的库的加载和程序自身的重定位等功能。
接下来拿 bin 目录下的 arm64_hello 举例,演示如何用 IDA 插件来模拟执行一个 aarch64 的 so,arm64_hello 的功能是输出 “Hello, World!” 字符串,然后退出。官网的完整 demo 可查看这个链接。
# 初始化 qiling 环境
用 IDA 加载 arm64_hello,选择 "File->Script file..." 加载 qiling\extensions\idaplugin\qilingida.py。
在我的电脑上软连接无法生效,可能 qiling 只测试了 Linux,所以这里直接用 IDA 加载脚本的方式来加载 qilingida.py。
然后在 IDA 汇编视图右键 ->Qiling Emulator->Setup(后续简称 Qiling->
),加载 IDA 插件,这里使用 qiling 默认的辅助脚本(custom_script.py)。在 IDA 中的一些自动化逻辑都可以放到该脚本中,比如添加一些 syscall 或者针对某地址的 hook 到该辅助脚本,之后会举例脚本的用法。
俗话说万事开头难,运行 demo 就出现加载失败了,如下:
File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\linux.py", line 30, in __init__
super(QlOsLinux, self).__init__(ql)
File "C:\Program Files\Python39\lib\site-packages\qiling\os\posix\posix.py", line 190, in __init__
super().__init__(ql)
File "C:\Program Files\Python39\lib\site-packages\qiling\os\os.py", line 63, in __init__
sys.stdin.fileno()
AttributeError: 'NoneType' object has no attribute 'fileno'
观察 os.py 的源码:
try: | |
# Qiling may be used on interactive shells (ex: IDLE) or embedded python | |
# interpreters (ex: IDA Python). such environments use their own version | |
# for the standard streams which usually do not support certain operations, | |
# such as fileno(). here we use this to determine how we are going to use | |
# the environment standard streams | |
sys.stdin.fileno() | |
except UnsupportedOperation: | |
# Qiling is used on an interactive shell or embedded python interpreter. | |
# if the internal stream buffer is accessible, we should use it | |
self._stdin = getattr(sys.stdin, 'buffer', sys.stdin) | |
self._stdout = getattr(sys.stdout, 'buffer', sys.stdout) | |
self._stderr = getattr(sys.stderr, 'buffer', sys.stderr) |
报错提示 sys.stdin 为 None,这是因为 IDA 修改了 sys.stdin,使用了自己的输入输出流。这个问题在 qiling 的 github issues,pull request 都有提到,我这里直接捕获 AttributeError 异常,如下:
except (UnsupportedOperation, AttributeError): |
修复之后,重启 IDA 加载 qiling 环境(python 安装的 qiling 环境),Qiling->Setup,报错如下:
这里修复的 os.py 文件是 python 库下的 qiling,也就是 C:\Program Files\Python39\lib\site-packages\qiling\os\os.py。
File "E:\gitRepo\qiling\examples\extensions\idaplugin\custom_script.py", line 1, in <module>
from future import __annotations__
ImportError: cannot import name '__annotations__' from 'future' (C:\Program Files\Python39\lib\site-packages\future\__init__.py)
[INFO][(unknown file):0] Custom user script not found.
这里我使用的 python 版本是 3.9.13,大致查了一下,python 库有__future__,没有 future,不知道与 python 版本是否有关,改成如下形式,再次加载就成功了。
from __future__ import annotations |
# 开始模拟执行
现在,arm64_hello 已加载进内存,动态链接器需要修复重定位表、设置程序入口点等,然后开始运行。
阅读 qiling\os\linux.py 的 QlOsLinux::run 方法,由于当前是单线程环境,且没有显式指定运行的起始地址,因此程序的起始地址是动态链接器的入口点,待动态链接器初始化后,将跳转到程序的真正入口点:
try:# 如果是一段二进制代码
if self.ql.code: self.ql.emu_start(self.entry_point, (self.entry_point + len(self.ql.code)), self.ql.timeout, self.ql.count) else:# 如果是多线程环境
if self.ql.multithread:# start multithreading
thread_management = thread.QlLinuxThreadManagement(self.ql) self.ql.os.thread_management = thread_management thread_management.run() else:# 不是多线程环境
# 程序入口点是否有显式指定
if self.ql.entry_point is not None: self.ql.loader.elf_entry = self.ql.entry_point# do we have an interp?
elif self.ql.loader.elf_entry != self.ql.loader.entry_point: entry_address = self.ql.loader.elf_entry if self.ql.arch.type == QL_ARCH.ARM: entry_address &= ~1# start running interp, but stop when elf entry point is reached
self.ql.emu_start(self.ql.loader.entry_point, entry_address, self.ql.timeout) self.ql.do_lib_patch() self.run_function_after_load() self.ql.loader.skip_exit_check = False self.ql.write_exit_trap() self.ql.emu_start(self.ql.loader.elf_entry, self.exit_point, self.ql.timeout, self.ql.count)
IDA 汇编视图右键 ->Qiling Emulator->Continue 开始模拟执行,报错:
[+] brk: increasing program break from 0x555555568000 to 0x555555589000 | |
[+] 0x00007fffb7e9e93c: brk(inp = 0x555555589000) = 0x555555589000 | |
[+] Received interrupt: 0x2 | |
[+] write() CONTENT: b'Hello, World!\n' | |
[x] Syscall ERROR: ql_syscall_write DEBUG: A string expected | |
Traceback (most recent call last): | |
... | |
File "C:\Program Files\Python39\lib\site-packages\qiling\os\posix\syscall\unistd.py", line 410, in ql_syscall_write | |
f.write(data) | |
File "D:\Tools\IDA 7.5\python\3\init.py", line 63, in write | |
ida_kernwin.msg(text) | |
File "D:\Tools\IDA 7.5\python\3\ida_kernwin.py", line 236, in msg | |
return _ida_kernwin.msg(*args) | |
TypeError: A string expected |
这里看到已经成功执行 puts 函数,打印了 “Hello, World”,当把这个字符串传给 python 打印时,出现异常,原因是 qiling 传给 ida_kernwin.msg 方法的类型是字节字符串,不是字符串。
解决办法有两个:
- 直接改 D:\Tools\IDA 7.5\python\3\ida_kernwin.py 的源码,兼容字节字符串
- hook write 函数,替换掉 qiling 自己的 ql_syscall_write
第一种方法由于是全局的,会影响到其他二进制文件的分析,且 hook 系统函数是 qiling 自身的功能,所以使用第二种方法。
修改 custom_script.py,如下:
def my_syscall_write(ql: Qiling, fd: int, buf: int, count: int): | |
ql.log.info('my_syscall_write called') | |
try: | |
# read data from emulated memory | |
data = ql.mem.read(buf, count) | |
# select the emulated file object that corresponds to the requested | |
# file descriptor | |
fobj = ql.os.fd[fd] | |
if fobj == None: | |
ql.log.ingo('none file descriptor') | |
# write the data into the file object, if it supports write operations | |
elif hasattr(fobj, 'write'): | |
fobj.write(data.decode('utf-8')) | |
except: | |
ret = -1 | |
else: | |
ret = count | |
ql.log.info(f'my_syscall_write({fd}, {buf:#x}, {count}) = {ret}') | |
return ret | |
class QILING_IDA: | |
def _show_context(self, ql: Qiling): | |
registers = tuple(ql.arch.regs.register_mapping.keys()) | |
grouping = 4 | |
for idx in range(0, len(registers), grouping): | |
ql.log.info('\t'.join(f'{r:5s}: {ql.arch.regs.read(r):016x}' for r in registers[idx:idx + grouping])) | |
def custom_prepare(self, ql: Qiling) -> None: | |
ql.log.info('Context before starting emulation:') | |
ql.os.set_syscall('write', my_syscall_write) | |
ql.log.info('my_syscall_write registered') | |
self._show_context(ql) |
这里实现了一个 my_syscall_write 函数,然后在 QILING_IDA 类的 custom_prepare 方法中调用 ql.os.set_syscall 来注册 write 的 syscall。
修改 custom_script 后右键 ->Qiling Emulator->Reload User Scripts(后续简称 Qiling 菜单)就会重新加载脚本,最后在 Qiling 菜单点击 Restart
,重新开始运行,结果正常,打印出了 “Hello, World!”。
[+] Received interrupt: 0x2
[=] my_syscall_write called
Hello, World!
[=] my_syscall_write(1, 0x555555568260, 14) = 14
[+] 0x00007fffb7e98afc: my_syscall_write(fd = 0x1, buf = 0x555555568260, count = 0xe) = 0xe
[+] Received interrupt: 0x2
[+] 0x00007fffb7e78a2c: exit_group(code = 0x0) = ?
# 通过显式设置 PC 寄存器指定程序执行入口
上节跑通了 Qiling->Continue,现在尝试 Qiling 菜单的 “设置运行地址”。
首先 Qiling->Restart,在 IDA 里对__libc_start_main 函数下断点,Qiling->Continue。此时会看到成功地断在了这里:
Qiling->View Register,查看 PC 寄存器,确认地址是否一致。这里发现 PC 的值是 0x5E0 + 程序基址。
可以 Qiling->Step,单步几次,会看到 IDA 中的不同颜色,这些颜色代表不同的执行操作。蓝色是单步,绿色的直接运行覆盖的路径。
sub_724 函数是真正的打印函数,将光标移到 sub_724 的第一条指令,Qiling->Set PC,此时打印:
[INFO][(unknown file):0] QIling PC set to 0x724
看到设置好了 PC 后,继续 Qiling->Continue,结果报错:
[x] CPU Context:
[x] x0 : 0x555555554724
[x] x1 : 0x1
[x] x2 : 0x80000000de18
...
[x] PC = 0x0000000000000724 (unreachable)
...
File "C:\Program Files\Python39\lib\site-packages\qiling\core.py", line 771, in emu_start
self.uc.emu_start(begin, end, timeout, count)
File "C:\Program Files\Python39\lib\site-packages\unicorn\unicorn.py", line 547, in emu_start
raise UcError(status)
unicorn.unicorn.UcError: Invalid memory fetch (UC_ERR_FETCH_UNMAPPED)
错误提示 PC 为 0x724 的代码是无法访问的,看寄存器:
这里的 PC 是 0x724,回想之前看 Qiling 寄存器是 IDA 地址 + 基址的形式,于是知道原因是 Qiling->Set PC 设置的是 IDA 地址,没有加上模块基址。
修改 qiling 的 IDA 插件,qilingida.py 如下:
def ql_set_pc(self): | |
if self.qlinit: | |
# ea = IDA.get_current_address() | |
ea = self.qlemu.ql_addr_from_ida(IDA.get_current_address()) | |
self.qlemu.ql.arch.regs.arch_pc = ea | |
logging.info(f"QIling PC set to {hex(ea)}") | |
self.qlemu.status = self.qlemu.ql.save() | |
self.ql_update_views(self.qlemu.ql.arch.regs.arch_pc, self.qlemu.ql) | |
else: | |
logging.error('Qiling should be setup firstly.') |
IDA 插件更新后,先 "Qiling->Unload Plugin" 卸载插件,再 IDA->File->Script file 加载插件,然后重新操作一遍,这次设置 PC 就添上基址了:
[INFO][(unknown file):0] QIling PC set to 0x555555554724
最后,移动光标,点击 sub_724 的最后一条指令,然后 Qiling->Execute Till,会看到这次成功执行,橙色代表 Execute Till 执行过的指令:
可以看到下一条指令就是 0x748:
# 小节
从这里可以看到,qiling 的 IDA 插件其实还不完善,即使是官方的 dev 分支(官方推荐使用 dev 分支),模拟执行 demo 还是有很多问题,所以对初学者不算非常友好。因此这里记录下相关问题的解决建议,供大家参考,后文还会有稍麻烦的 bug 需要解决。
# libxx.so 的模拟执行(排错)
OK,demo 已经跑通了,现在来模拟执行 libxx.so。
可以看到算法的核心几个步骤是 init,encrypt,decrypt。那么首先分析 tps_init 函数。
加载 libxx.so、初始化 qiling 后,不能直接将 PC 寄存器指向 tps_init 函数,因为这时运行环境还没有准备好,比如 tpidr_el0 寄存器,这个寄存器类似与 windows 的 fs 段寄存器(TEB),指向当前线程的运行环境。另外,此时还没有做 so 的重定位,很多 so 里的全局引用是需要重定位的,比如调用一个 memset 函数。
首先 IDA 加载 libxx.so,初始化 qiling(Qiling->Setup),对 libxx.so 的入口地址(start 函数)下断点,然后开始模拟执行(Qiling->Continue),报错:
[x] Syscall ERROR: ql_syscall_futex DEBUG: 'NoneType' object has no attribute 'cur_thread'
Traceback (most recent call last):
File "C:\Program Files\Python39\lib\site-packages\qiling\os\posix\posix.py", line 374, in load_syscall
retval = syscall_hook(self.ql, *params)
File "C:\Program Files\Python39\lib\site-packages\qiling\os\posix\syscall\futex.py", line 43, in ql_syscall_futex
regreturn = ql.os.futexm.futex_wake(ql, uaddr,ql.os.thread_management.cur_thread, val)
AttributeError: 'NoneType' object has no attribute 'cur_thread'
查看源码:
elif op & (FUTEX_PRIVATE_FLAG - 1) == FUTEX_WAKE: | |
regreturn = ql.os.futexm.futex_wake(ql, uaddr,ql.os.thread_management.cur_thread, val) |
futex 是 linux 中的锁,这里的 thread_management 是需要 qiling 启动多线程模式才会初始化的,于是在 qilingida.py 创建 Qiling 实例的时候添加多线程参数:
class QlEmuQiling: | |
def __init__(self): | |
self.path = None | |
self.rootfs = None | |
self.ql: Qiling = None | |
self.status = None | |
self.exit_addr = None | |
self.baseaddr = None | |
self.env = {} | |
def start(self, *args, **kwargs): | |
self.ql = Qiling(argv=self.path, rootfs=self.rootfs, verbose=QL_VERBOSE.DEFAULT, multithread=True, env=self.env, log_plain=True, *args, **kwargs) | |
# ... |
这里日志打印从 QL_VERBOSE.DEBUG 改为 QL_VERBOSE.DEFAULT,减少一些调试内容的输出,然后 multithread 显式打开。再卸载、加载一次 qilingida.py,重新运行,以下报错:
[x] [Thread 2000] Syscall ERROR: ql_syscall_writev DEBUG: A string expected
Traceback (most recent call last):
File "C:\Program Files\Python39\lib\site-packages\qiling\os\posix\posix.py", line 374, in load_syscall
retval = syscall_hook(self.ql, *params)
File "C:\Program Files\Python39\lib\site-packages\qiling\os\posix\syscall\uio.py", line 23, in ql_syscall_writev
ql.os.fd[fd].write(buf)
File "D:\Tools\IDA 7.5\python\3\init.py", line 63, in write
ida_kernwin.msg(text)
File "D:\Tools\IDA 7.5\python\3\ida_kernwin.py", line 236, in msg
return _ida_kernwin.msg(*args)
TypeError: A string expected
这个和之前 demo 的问题一样,只是这次的 syscall 是 writev,不是 write。在 custom_script.py 添加 writev 的 syscall hook,定义 my_syscall_writev 函数,Qiling->Reload User Script 重新加载自定义脚本,重启 qiling 环境运行,这次成功运行到 start 函数:
但注意 tpidr_el0 为 0,代表线程运行环境没有准备好。如果这时直接 Qiling->continue,还会出现另一个报错:
[x] [Thread 2000] PC = 0x000000000009aec0 (unreachable)
[x] [Thread 2000] Memory map:
[x] [Thread 2000] Start End Perm Label Image
[x] [Thread 2000] 00555555554000 - 00555555847000 r-x libxx.so E:\gitRepo\qiling\examples\rootfs\arm64_linux\bin\libxx.so
[x] [Thread 2000] 00555555856000 - 0055555588f000 rw- libxx.so E:\gitRepo\qiling\examples\rootfs\arm64_linux\bin\libxx.so
[x] [Thread 2000] 0055555588f000 - 00555555891000 rwx [hook_mem]
[x] [Thread 2000] 007ffffffde000 - 0080000000e000 rwx [stack]
Traceback (most recent call last):
...
File "C:\Program Files\Python39\lib\site-packages\unicorn\unicorn.py", line 547, in emu_start
raise UcError(status)
unicorn.unicorn.UcError: Invalid memory fetch (UC_ERR_FETCH_UNMAPPED)
这里可以看到,PC 准备执行 0x9aec0 处的指令,但从打印的内存映射来看,0x9aec0 是没有映射的,所以导致指令读取失败。
再更仔细地看内存映射信息,发现没有动态链接器加载到内存空间,用 readelf 看一下:
$ readelf -S libxx.so | grep interp
---
$ readelf -S arm64_hello | grep interp
[ 1] .interp PROGBITS 0000000000000200 00000200
libxx.so 没有 interp 节,而 arm64_hello 有,所以 qiling 在加载 libxx.so 的时候没有加载动态链接器。
那现在需要给 libxx.so 显示指定动态链接器,为确定在哪指定,先打开 debug 级别的日志输出:
def start(self, *args, **kwargs):
self.ql = Qiling(argv=self.path, rootfs=self.rootfs, verbose=QL_VERBOSE.DEBUG, multithread=True, env=self.env, log_plain=True, *args, **kwargs)
重新加载 qilingida.py,初始化 qiling 环境,结果没有相关输出。再用 IDA 打开 arm64_hello,相关输出如下:
[INFO][qilingida:1034] Custom env: {}
[+] Profile: default
[+] Mapped 0x555555554000-0x555555555000
[+] Mapped 0x555555564000-0x555555566000
[+] mem_start : 0x555555554000
[+] mem_end : 0x555555566000
[+] Interpreter path: /lib/ld-linux-aarch64.so.1
[+] Interpreter addr: 0x7ffff7dd5000
[+] Mapped 0x7ffff7dd5000-0x7ffff7df2000
[+] Mapped 0x7ffff7e01000-0x7ffff7e04000
[+] mmap_address is : 0x7fffb7dd6000
看到 arm64_hello 的动态链接器是 /lib/ld-linux-aarch64.so.1,根据这个打印日志,去 qiling 源码查找:
def load_with_ld() | |
def load_elf_segments() | |
# ... | |
# determine interpreter path | |
interp_seg = next(elffile.iter_segments(type='PT_INTERP'), None) | |
interp_path = str(interp_seg.get_interp_name()) if interp_seg else '' |
这里的 interp_path 为动态链接器的路径,所以显示指定如下:
if len(interp_path) == 0: | |
interp_path = "/lib/ld-linux-aarch64.so.1" |
重启 qiling 环境,可看到动态链接器的加载:
[INFO][qilingida:1034] Custom env: {}
[+] Profile: default
[+] Mapped 0x555555554000-0x555555847000
[+] Mapped 0x555555856000-0x55555588f000
[+] mem_start : 0x555555554000
[+] mem_end : 0x55555588f000
[+] Interpreter path: /lib/ld-linux-aarch64.so.1
[+] Interpreter addr: 0x7ffff7dd5000
[+] Mapped 0x7ffff7dd5000-0x7ffff7df2000
[+] Mapped 0x7ffff7e01000-0x7ffff7e04000
然后开始 qiling 的模拟执行(Qiling->Continue),如下报错:
[+] [Thread 2000] b'Inconsistency detected by ld.so: '
Inconsistency detected by ld.so: [+] [Thread 2000] b'rtld.c'
rtld.c[+] [Thread 2000] b': '
: [+] [Thread 2000] b'1266'
1266[+] [Thread 2000] b': '
: [+] [Thread 2000] b'dl_main'
dl_main[+] [Thread 2000] b': '
: [+] [Thread 2000] b'Assertion `'
Assertion `[+] [Thread 2000] b'GL(dl_rtld_map).l_libname'
GL(dl_rtld_map).l_libname[+] [Thread 2000] b"' failed!\n"
' failed!
...
File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\linux.py", line 167, in run
thread_management.run()
File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\thread.py", line 613, in run
previous_thread = self._prepare_lib_patch()
File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\thread.py", line 593, in _prepare_lib_patch
raise QlErrorExecutionStop('Dynamic library .init() failed!')
qiling.exception.QlErrorExecutionStop: Dynamic library .init() failed!
第一句话直接提示了该动态链接器不兼容当前 so。想起这个 so 是通过 ndk 编译给安卓用的,那动态链接器应该是安卓下的 linker64。
Bet4 从 qiling 的 github fork 了仓库,里面有 linker64 和安卓下所需的其他 so,比如 libz、libm、liblog。
用 readelf 看到 libxx.so 引用了这些库,所以这里一并准备好,路径如下:
$ readelf -d libxx.so
Dynamic section at offset 0x311f88 contains 29 entries:
Tag Type Name/Value
0x0000000000000001 (NEEDED) Shared library: [liblog.so]
0x0000000000000001 (NEEDED) Shared library: [libz.so]
0x0000000000000001 (NEEDED) Shared library: [libm.so]
0x0000000000000001 (NEEDED) Shared library: [libdl.so]
0x0000000000000001 (NEEDED) Shared library: [libc.so]
0x000000000000000e (SONAME) Library soname: [libtps.so]
0x0000000000000019 (INIT_ARRAY) 0x302dc0
0x000000000000001b (INIT_ARRAYSZ) 8 (bytes)
0x000000000000001a (FINI_ARRAY) 0x302dc8
...
E:\gitRepo\qiling\examples\rootfs\arm64_linux\system\lib64:保存libm.so等库
E:\gitRepo\qiling\examples\rootfs\arm64_linux\lib:保存linker64
该动态链接器更换为 linker64 后,重启 IDA,初始化 qiling 环境,Qiling->Continue,出现以下报错:
[x] [Thread 2000] Disassembly:
[=] [Thread 2000] 00007ffff7ddfbd0 [linker64 + 0x00abd0] 9c 20 40 79 ldrh w28, [x4, #0x10]
[=] [Thread 2000] 00007ffff7ddfbd4 [linker64 + 0x00abd4] 9f 0f 00 71 cmp w28, #3
[=] [Thread 2000] 00007ffff7ddfbd8 [linker64 + 0x00abd8] 81 34 00 54 b.ne #0x7ffff7de0268
...
File "C:\Program Files\Python39\lib\site-packages\qiling\core.py", line 771, in emu_start
self.uc.emu_start(begin, end, timeout, count)
File "C:\Program Files\Python39\lib\site-packages\unicorn\unicorn.py", line 547, in emu_start
raise UcError(status)
unicorn.unicorn.UcError: Invalid memory read (UC_ERR_READ_UNMAPPED)
此时 X4 为 0,导致了内存访问异常。用 IDA 打开 linker64,崩溃点如下:
大致看了上下文,该函数是_dl___linker_init,用来初始化动态库 so,要知道 X4 为什么是 0 还得往上回溯,需要一点时间。且这个 linker64 是安卓低版本 6.0,可能有不兼容的地方,于是我想尝试另外的 linker64,正好手上有一台 PIXEL,于是把里面的 linker64 复制出来,再测试一次,结果如下:
[+] [Thread 2001] b'libc'
libc[+] [Thread 2001] b': '
: [+] [Thread 2001] b'unable to stat "/proc/self/exe": Operation not permitted'
unable to stat "/proc/self/exe": Operation not permitted[+] [Thread 2001] b'\n'
报错无法读取 /proc/self/exe,这是一个符号链接,linker64 用它来获取自身的绝对路径,linker 伪代码如下:
这里用 qiling hook 0x27DA8 地址,然后返回绝对路径和长度,更新 custom_script.py:
def custom_continue(self, ql: Qiling) -> List[HookRet]: | |
# ... | |
def addr_27DA8_hook(ql: Qiling) -> None: | |
ql.arch.regs.W0 = 0 | |
ql.arch.regs.PC += 4 | |
# ... | |
return [ql.hook_address(addr_27DA8_hook, 0x27DA8+linker_baseaddr)] |
重新来一遍,又来一个报错:
[+] [Thread 2000] b'libc'
libc[+] [Thread 2000] b': '
: [+] [Thread 2000] b'Could not find a PHDR: broken executable?'
Could not find a PHDR: broken executable?[+] [Thread 2000] b'\n'
这里找不到 PHDR 程序头表,用 readelf 看一下:
$ readelf -l libxx.so
Elf file type is DYN (Shared object file)
Entry point 0xa5370
There are 8 program headers, starting at offset 64
Program Headers:
Type Offset VirtAddr PhysAddr
FileSiz MemSiz Flags Align
LOAD 0x0000000000000000 0x0000000000000000 0x0000000000000000
0x00000000002f25b4 0x00000000002f25b4 R E 0x10000
LOAD 0x00000000002f2dc0 0x0000000000302dc0 0x0000000000302dc0
0x0000000000034478 0x0000000000037d58 RW 0x10000
DYNAMIC 0x0000000000311f88 0x0000000000321f88 0x0000000000321f88
0x0000000000000210 0x0000000000000210 RW 0x8
NOTE 0x0000000000000200 0x0000000000000200 0x0000000000000200
0x0000000000000024 0x0000000000000024 R 0x4
NOTE 0x00000000002f251c 0x00000000002f251c 0x00000000002f251c
0x0000000000000098 0x0000000000000098 R 0x4
GNU_EH_FRAME 0x00000000002da5dc 0x00000000002da5dc 0x00000000002da5dc
0x000000000000355c 0x000000000000355c R 0x4
GNU_STACK 0x0000000000000000 0x0000000000000000 0x0000000000000000
0x0000000000000000 0x0000000000000000 RW 0x10
GNU_RELRO 0x00000000002f2dc0 0x0000000000302dc0 0x0000000000302dc0
0x0000000000025240 0x0000000000025240 R 0x1
一般 PHDR 是程序表 (program table) 的第一个元素,这里确实没有。看一下 IDA:
这里也出现了一个变量 + 0x10 的判断,对比 Bet4 的 linker64 上下文和 PIXEL 的 linker64 上下文,可确定是同一个问题,看来必须要往上逆向一下了。
图的注释是分析后的结果。
这里有两种方式,一种是打 trace,即使用 Qiling 的 hook_code,在每一条代码运行前打印现场环境,一种是断在对应的代码,单步做动态调试,这里我选择动态调试的方式。那如何断在对应的代码地址呢,这里要熟悉下 qilingida.py 的这部分代码:
def ql_continue(self): | |
logging.info("before continue...") | |
if self.qlinit: | |
userhook = None | |
# 调用 hook_code,每条指令执行前调用 ql_path_hook | |
pathhook = self.qlemu.ql.hook_code(self.ql_path_hook) | |
def ql_path_hook(self, ql, addr, size): | |
addr = addr - self.qlemu.baseaddr + get_imagebase() | |
set_color(addr, CIC_ITEM, 0x007FFFAA) | |
# 获取断点数量 | |
bp_count = get_bpt_qty() | |
bp_list = [] | |
if bp_count > 0: | |
for num in range(0, bp_count): | |
bp_list.append(get_bpt_ea(num)) | |
# 如果当前准备执行的指令是断点处的指令,调用 ql.save 和 ql.os.stop () 保存当前模拟执行环境 | |
if addr in bp_list and (addr != self.lastaddr or self.is_change_addr>1): | |
self.qlemu.status = ql.save() | |
ql.os.stop() | |
self.lastaddr = addr | |
self.is_change_addr = -1 | |
jumpto(addr) | |
self.is_change_addr += 1 |
这部分代码表示让模拟执行跑起来时,如果遇到断点,就保存现场环境并停下来,所以断在想分析的代码地址处可以在 ql_path_hook 手动加一个断点,如下:
def ql_path_hook(self, ql, addr, size): | |
addr = addr - self.qlemu.baseaddr + get_imagebase() | |
set_color(addr, CIC_ITEM, 0x007FFFAA) | |
bp_count = get_bpt_qty() + 1 | |
bp_list = [] | |
bp_list.append(0x27f2c+0x007ffff7dd5000-0x555555554000) | |
if bp_count > 0: | |
for num in range(0, bp_count): | |
bp_list.append(get_bpt_ea(num)) |
这里给 bp_list 加一个元素,0x27f2c 为相对虚拟地址 (RVA),后面是重定位的基址调整,这样就能断下来,然后单步调试了。
因为第二行 addr 变量重定位时减去的 libxx 模块的基址,所以 bp_list 添加的元素要减去 libxx 模块的基址,而不是 0x27f2c+0x007ffff7dd5000-0x007ffff7dd5000=0x27f2c。
因为中断后,PC 寄存器指向 linker64 模块,所以会报以下错误,不过该错误不影响继续单步调试:
[x] [Thread 2000] [Thread 2000] Expect 0x5555555f9370 but get 0x7ffff7e9e920 when running loader. Traceback (most recent call last): ... File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\linux.py", line 167, in run thread_management.run() File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\thread.py", line 613, in run previous_thread = self._prepare_lib_patch() File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\thread.py", line 593, in _prepare_lib_patch raise QlErrorExecutionStop('Dynamic library .init() failed!') qiling.exception.QlErrorExecutionStop: Dynamic library .init() failed!
单步调试后,伪代码如下:
i = 0; | |
while (program_table_element[i].p_type!=PT_PHDR) { | |
i++; | |
if (i >= elf_header.e_phnum) | |
break; | |
} | |
if (i == elf_header.e_phnum) { | |
print("no phdr"); | |
} | |
else { | |
// 获取文件基址在内存的地址 | |
a = phdr_addr - program_table_element[i].p_paddr; | |
// 获取内存基址 | |
b = phdr_addr - program_table_elemet[i].p_offset; | |
} |
这里可以模拟程序头表获取变量 a 和变量 b,修改 custom_script.py 如下:
def custom_continue(self, ql: Qiling) -> List[HookRet]: | |
#... | |
def addr_27FB4_hook(ql: Qiling) -> None: | |
# 如果是检测第一个程序表元素,且不是程序头表 | |
if ql.arch.regs.X11 == 0 and ql.arch.regs.W12 == 1: | |
phdr_vir_addr = ql.arch.regs.X8 | |
poffset_addr = ql.arch.regs.x10 | |
write_base = ql.arch.regs.X19 | |
ql.log.info(f'phdr_vir_addr: {phdr_vir_addr:#x}') | |
ql.log.info(f'poffset_addr: {poffset_addr:#x}') | |
sub1 = to_bstring(phdr_vir_addr-0x40) | |
# *(QWORD*)((__int64)v50+0x100) = image_vir_addr | |
ql.mem.write(write_base+0x100, sub1) | |
ql.log.info(b'sub1: ' + sub1) | |
image_vir_addr = phdr_vir_addr-0x40 | |
# *(QWORD*)((__int64)v50+0x10) = image_vir_addr | |
ql.mem.write(write_base+0x10, to_bstring(0x40)) | |
ql.log.info(f'sub2: {image_vir_addr:#x}') | |
ql.arch.regs.X8 = image_vir_addr | |
ql.arch.regs.PC = 0x28070 + 0x7ffff7dd5000 | |
ql.hook_address(addr_27FB4_hook, 0x27FB4+linker_baseaddr) |
记得把之前在 qilingida.py 添加的断点去掉。
重启 qiling 环境,这样就能够断在 libxx.so 的 start 地址处了。
遗憾的是,到这里仍然不能顺利模拟执行我们的目标函数,因为 qiling 模拟执行到 start 大约需要 3-4 分钟,如果每次分析调整完 qiling 代码后,都重启一次 qiling,那这个效率就太低了。
写这篇文章的时候,为了演示,我重新又走了一遍流程,结果这次直接卡死了,IDA 一直消耗 CPU 一整晚,到白天都还没有弄完:
经过分析,发现通过 Qiling->Continue 的方式,每执行一条执行都会调用设置的 callback(qilingida.py->ql_path_hook),如果取消这个回调注册,qiling 就会大约 2-3 秒来到 start 地址处。
重启 qiling 环境,这次遇到了这个错误:
[x] [Thread 2000] v28 : 0x0
[x] [Thread 2000] v29 : 0x0
[x] [Thread 2000] v30 : 0x0
[x] [Thread 2000] v31 : 0x0
[x] [Thread 2000] PC = 0x0000000000000000 (unreachable)
[x] [Thread 2000] Memory map:
[x] [Thread 2000] Start End Perm Label Image
[x] [Thread 2000] 00555555554000 - 00555555847000 r-x libxx.so E:\gitRepo\qiling\examples\rootfs\arm64_linux\bin\libxx.so
[x] [Thread 2000] 00555555856000 - 0055555587c000 r-- libxx.so E:\gitRepo\qiling\examples\rootfs\arm64_linux\bin\libxx.so
[x] [Thread 2000] 0055555587c000 - 0055555588f000 rw- libxx.so E:\gitRepo\qiling\examples\rootfs\arm64_linux\bin\libxx.so
[x] [Thread 2000] 0055555588f000 - 00555555891000 rwx [hook_mem]
[x] [Thread 2000] 007fffb7dd6000 - 007fffb7dd7000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb7dd7000 - 007fffb7dda000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7dda000 - 007fffb7ddb000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb7ddb000 - 007fffb7ddc000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb7ddc000 - 007fffb7de0000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7de0000 - 007fffb7de1000 r-- [mmap anonymous]
[x] [Thread 2000] 007fffb7de1000 - 007fffb7de2000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7de2000 - 007fffb7de3000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7de3000 - 007fffb7de4000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7de5000 - 007fffb7de6000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7de6000 - 007fffb7de7000 r-- [mmap anonymous]
[x] [Thread 2000] 007fffb7de7000 - 007fffb7de8000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb7de8000 - 007fffb7de9000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7de9000 - 007fffb7dea000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb7dea000 - 007fffb7deb000 r-- [mmap anonymous]
[x] [Thread 2000] 007fffb7deb000 - 007fffb7dec000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7dec000 - 007fffb7ded000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7ded000 - 007fffb7dee000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7dee000 - 007fffb7def000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7def000 - 007fffb7df0000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7df0000 - 007fffb7df1000 r-- [mmap anonymous]
[x] [Thread 2000] 007fffb7df1000 - 007fffb7df2000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7e31000 - 007fffb7e32000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7e32000 - 007fffb7e33000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7e4b000 - 007fffb7f0e000 r-x [mmap] libc.so
[x] [Thread 2000] 007fffb7f0e000 - 007fffb7f1d000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb7f1d000 - 007fffb7f23000 r-- [mmap] libc.so
[x] [Thread 2000] 007fffb7f23000 - 007fffb7f26000 rw- [mmap] libc.so
[x] [Thread 2000] 007fffb7f26000 - 007fffb7f34000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb7f5d000 - 007fffb7f5e000 r-x [mmap] libdl.so
[x] [Thread 2000] 007fffb7f5e000 - 007fffb7f6d000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb7f6d000 - 007fffb7f6e000 r-- [mmap] libdl.so
[x] [Thread 2000] 007fffb7f6e000 - 007fffb7f6f000 rw- [mmap] libdl.so
[x] [Thread 2000] 007fffb7f81000 - 007fffb8058000 r-x [mmap] libc++.so
[x] [Thread 2000] 007fffb8058000 - 007fffb8067000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb8067000 - 007fffb806e000 r-- [mmap] libc++.so
[x] [Thread 2000] 007fffb806e000 - 007fffb806f000 rw- [mmap] libc++.so
[x] [Thread 2000] 007fffb806f000 - 007fffb8072000 rw- [mmap anonymous]
[x] [Thread 2000] 007fffb80b5000 - 007fffb80ed000 r-x [mmap] libm.so
[x] [Thread 2000] 007fffb80ed000 - 007fffb80fd000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb80fd000 - 007fffb80fe000 r-- [mmap] libm.so
[x] [Thread 2000] 007fffb80fe000 - 007fffb80ff000 rw- [mmap] libm.so
[x] [Thread 2000] 007fffb8106000 - 007fffb8122000 r-x [mmap] libz.so
[x] [Thread 2000] 007fffb8122000 - 007fffb8131000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb8131000 - 007fffb8132000 r-- [mmap] libz.so
[x] [Thread 2000] 007fffb8132000 - 007fffb8133000 rw- [mmap] libz.so
[x] [Thread 2000] 007fffb8160000 - 007fffb8165000 r-x [mmap] liblog.so
[x] [Thread 2000] 007fffb8165000 - 007fffb8174000 --- [mmap anonymous]
[x] [Thread 2000] 007fffb8174000 - 007fffb8175000 r-- [mmap] liblog.so
[x] [Thread 2000] 007fffb8175000 - 007fffb8176000 rw- [mmap] liblog.so
...
File "C:\Program Files\Python39\lib\site-packages\qiling\core.py", line 771, in emu_start
self.uc.emu_start(begin, end, timeout, count)
File "C:\Program Files\Python39\lib\site-packages\unicorn\unicorn.py", line 547, in emu_start
raise UcError(status)
unicorn.unicorn.UcError: Invalid memory fetch (UC_ERR_FETCH_UNMAPPED)
这里 PC 跳到了 0x0,不过我们可以看到 libxx.so 需要的依赖库都被完美地加载到内存了,说明动态链接器加载 libxx.so 应该是完成了。
因为取消了 ql_path_hook 的回调,所以不能断到断点处,所以得另外用一种方法断到 start 地址处。
qiling 有一个 “运行到” 的函数,右键是 Qiling->Execute Till,观察 qiling 的 IDA 插件:
def ql_run_to_here(self): | |
if self.qlinit: | |
curr_addr = get_screen_ea() | |
# 每执行一条命令前,调用 ql_until_hook | |
untillhook = self.qlemu.ql.hook_code(self.ql_untill_hook) | |
if self.qlemu.status is not None: | |
self.qlemu.ql.restore(self.qlemu.status) | |
show_wait_box("Qiling is processing ...") | |
try: | |
self.qlemu.run(begin=self.qlemu.ql.arch.regs.arch_pc, end=curr_addr+self.qlemu.baseaddr-get_imagebase()) | |
finally: | |
hide_wait_box() | |
else: | |
show_wait_box("Qiling is processing ...") | |
try: | |
self.qlemu.run(end=curr_addr+self.qlemu.baseaddr-get_imagebase()) | |
finally: | |
hide_wait_box() |
qiling 在 run 方法中提供了 end,代表模拟执行在哪里结束。我们可以把 end 设置为 start 地址就相当于断在 start 上了,通过在 IDA 将光标移到对应的代码处即可设置 end。不过这里也有一个指令级回调(第 5 行),观察 ql_until_hook 的实现:
def ql_untill_hook(self, ql, addr, size): | |
addr = addr - self.qlemu.baseaddr + get_imagebase() | |
set_color(addr, CIC_ITEM, 0x00B3CBFF) |
该函数只是将模拟执行过的代码设置高亮,因此我们可以直接注视掉这个回调的注册(在 ql_run_to_here 去掉对 ql_until_hook 的 hook_code 和 hook_del 调用)。另外,之前在 custom_continue 设置的回调都要 copy 一份到 custom_run_to_here,由于 custom_script.py 没有 custom_run_to_here 函数,那么就创建一个:
qilingida.py:
def ql_run_to_here(self): | |
if self.qlinit: | |
curr_addr = get_screen_ea() | |
userhook = None | |
# 注册新创建的 custom_run_to_here 方法 | |
if self.userobj is not None: | |
userhook = self.userobj.custom_run_to_here(self.qlemu.ql) | |
# 去掉 ql_until_hook 的回调 | |
# untillhook = self.qlemu.ql.hook_code(self.ql_untill_hook) | |
if self.qlemu.status is not None: | |
self.qlemu.ql.restore(self.qlemu.status) | |
show_wait_box("Qiling is processing ...") | |
try: | |
self.qlemu.run(begin=self.qlemu.ql.arch.regs.arch_pc, end=curr_addr+self.qlemu.baseaddr-get_imagebase()) | |
finally: | |
hide_wait_box() | |
else: | |
show_wait_box("Qiling is processing ...") | |
try: | |
self.qlemu.run(end=curr_addr+self.qlemu.baseaddr-get_imagebase()) | |
finally: | |
hide_wait_box() | |
set_color(curr_addr, CIC_ITEM, 0x00B3CBFF) | |
# 回调删除部分也注视掉 | |
# self.qlemu.ql.hook_del(untillhook) | |
if userhook and userhook is not None: | |
for hook in userhook: | |
self.qlemu.ql.hook_del(hook) | |
self.qlemu.status = self.qlemu.ql.save() | |
self.ql_update_views(self.qlemu.ql.arch.regs.arch_pc, self.qlemu.ql) | |
else: | |
logging.error('Qiling should be setup firstly.') |
custom_script.py:
def custom_run_to_here(self, ql: Qiling) -> List[HookRet]: | |
linker_baseaddr = 0x007ffff7dd5000 | |
def addr_27DA8_hook(ql: Qiling) -> None: | |
# content from custom_continue | |
def addr_27FB4_hook(ql: Qiling) -> None: | |
# content from custom_continue | |
return [ql.hook_address(addr_27DA8_hook, 0x27DA8+linker_baseaddr), | |
ql.hook_address(addr_27FB4_hook, 0x27FB4+linker_baseaddr)] |
OK,输出终于没有报错了,观察寄存器,也顺利执行到了 start 地址处:
修改之后,重启 qiling 环境,将光标移到 start 代码处,右键 Qiling->Execute Till。
接下来就是单步执行了,结果遇到如下问题:
[=] [Thread 2000] custom_step hook
[=] [Thread 2001] Executing: 0x7ffff7e0373c
[x] [Thread 2001] [Thread 2001] Expect 0x5555555f9370 but get 0x7ffff7e03740 when running loader.
File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\thread.py", line 611, in run
previous_thread = self._prepare_lib_patch()
File "C:\Program Files\Python39\lib\site-packages\qiling\os\linux\thread.py", line 590, in _prepare_lib_patch
raise QlErrorExecutionStop('Dynamic library .init() failed!')
qiling.exception.QlErrorExecutionStop: Dynamic library .init() failed!
这里显示单步执行的命令地址是 0x7ffff7e0373c,而不是 0x5555555f9370。要定位这个问题需要了解 qiling 源码,分析流程如下:
# qilingida.py | |
# 单步执行的入口是 qlemu.run | |
def ql_step(self): | |
self.qlemu.run(begin=self.qlemu.ql.arch.regs.arch_pc, end=self.qlemu.exit_addr) | |
# qiling/os/linux/linux.py | |
class QlOsLinux(QlOsPosix): | |
def run(self): | |
if self.ql.multithread: | |
# start multithreading | |
# 多线程环境下调用 thread_management.run () | |
thread_management = thread.QlLinuxThreadManagement(self.ql) | |
self.ql.os.thread_management = thread_management | |
thread_management.run() | |
else: | |
# 单线程环境 | |
if self.ql.entry_point is not None: | |
self.ql.loader.elf_entry = self.ql.entry_point | |
# do we have an interp? | |
# 如果有动态链接器,就用动态链接器初始化目标 so | |
elif self.ql.loader.elf_entry != self.ql.loader.entry_point: | |
entry_address = self.ql.loader.elf_entry | |
if self.ql.arch.type == QL_ARCH.ARM: | |
entry_address &= ~1 | |
# start running interp, but stop when elf entry point is reached | |
self.ql.emu_start(self.ql.loader.entry_point, entry_address, self.ql.timeout) | |
# 开始模拟执行目标 so | |
self.ql.emu_start(self.ql.loader.elf_entry, self.exit_point, self.ql.timeout, self.ql.count) | |
# qiling/os/linux/thread.py | |
class QlLinuxThreadManagement: | |
def run(self): | |
# 调用_prepare_lib_patch,让动态链接器加载目标 libxx.so | |
previous_thread = self._prepare_lib_patch() | |
def _prepare_lib_patch(self): | |
# 如果有动态链接器,就用动态链接器初始化目标 libxx.so | |
if self.ql.loader.elf_entry != self.ql.loader.entry_point: | |
entry_address = self.ql.loader.elf_entry | |
if self.ql.arch.type == QL_ARCH.ARM: | |
entry_address &= ~1 | |
self.main_thread = self.ql.os.thread_class.spawn(self.ql, self.ql.loader.entry_point, entry_address) | |
self.cur_thread = self.main_thread | |
self._clear_queued_msg() | |
gevent.joinall([self.main_thread], raise_error=True) | |
if self.ql.arch.regs.arch_pc != entry_address: | |
self.ql.log.error(f"{self.cur_thread} Expect {hex(self.ql.loader.elf_entry)} but get {hex(self.ql.arch.regs.arch_pc)} when running loader.") | |
raise QlErrorExecutionStop('Dynamic library .init() failed!') | |
self.ql.do_lib_patch() | |
self.ql.os.run_function_after_load() | |
self.ql.loader.skip_exit_check = False | |
self.ql.write_exit_trap() | |
return self.main_thread | |
return None |
观察代码流程,我们发现单线程环境下,如果指定了 ql.entry_point(调用 ql.run 的 begin 参数),就不会用动态加载器去重定位,而是直接开始模拟执行。这是正常的,因为第一次模拟执行时我们一般不会指定 ql.run 的 begin 参数,而是让动态链接器去初始化 so,不过我们会注册一些回调,使得之后可以保存快照和恢复模拟执行,而恢复模拟执行就会设置 ql.run 的 begin 参数。再看多线程的环境,qiling 官方显然没有考虑到这个,每次调用 ql.run 都会执行_prepare_lib_path,都用动态链接器初始化 so。在我们的场景下,我们已经初始化过 libxx.so,想要开始单步调试 so,而由于 qiling 又一次初始化 libxx.so,所以单步调试后的下一条指令是动态加载器的入口地址 + 4,而不是 libxx.so 的入口地址 + 4。
这里直接模仿单线程环境,修改如下:
# qiling/os/linux/thread.py | |
def _prepare_lib_patch(self): | |
if self.ql.entry_point is not None: | |
self.ql.loader.elf_entry = self.ql.entry_point | |
return None | |
elif self.ql.loader.elf_entry != self.ql.loader.entry_point: | |
entry_address = self.ql.loader.elf_entry |
这里添加一个 ql.entry_point 的判断,如果 ql.run 设置了 begin,就不重定位,直接从 begin 地址处开始模拟执行。
重启 qiling 环境,再次执行 Qiling->Execute Till:
可以看到,这次单步调试成功了,顺利断在了 libxx.so 的下一条指令。
继续单步执行,进入 ".__cxa_finalize" 函数,该函数是从内存读取__cxa_finalize 真正的函数地址并执行,该函数地址是需要重定位的,因为该函数属于其他模块,我们观察其内存:
__cxa_finalize_ptr 是保存函数地址的指针,通过 IDA View-B 可看到其相对虚拟地址是 0x3266D0,X16 寄存器保存了__cxa_finalize_ptr 所在的内存页,我们查看内存,发现 0x6D0 偏移处是 0x7FFFB80F942C,该地址位于 libc.so 中,所以由此得知动态链接器正确地完成了 libxx.so 的重定位。
[x] [Thread 2000] 007fffb8085000 - 007fffb8148000 r-x [mmap] libc.so
# 虚拟机框架解析
libxx.so 有 3 个重要的接口:
- tps_init:tps_init 初始化和收集环境信息,发送给服务器
- tps_encrypt、tps_decrypt:负责数据的加解密
因为 tps_init 与算法无关,这里就直接忽略了。
先看下加解密函数的伪代码:
两个函数结构一致,sub_F736C 是真正的加解密函数,加密与解密的不同在于 sub_F736C 的第 1、3、4 参数。
# 虚拟机的简要流程
回顾 sub_F736C 的整体结构:
感觉像是几层嵌套的控制流平坦化,通过单步模拟执行,其实际上是一个虚拟机的简化版,这里简要说明其流程:
初始化一些计算因子,然后进入 while (1) 无限循环,v66 从 a1 参数读取一个四字节大小的无符号整形,然后与 0x3F 做 & 算法,最后传给 switch
这里 IDA 反编译出现了一点问题,传给 switch 的不是 v39
一个大 switch
假如 v39 是 0x9,跳到对应的 case,执行 [vmstack-off1] = [vmstack-off2] + number,之后跳到 LABEL_331
LABEL_331 是所有 case 的最后一段代码,类似 switch 的所有 case 都没有 break,然后都跳转到了 default 分支下
LABEL_331 有两个功能:
改变控制流,做指令跳转
一种是 a1 数组自增到下一个元素
a1 = (unsigned int *)(*(_QWORD *)beg + 4LL);
*(_QWORD *)beg = a1;
一种是直接跳转到 a1 数组的某个元素
//func_data - 0x18 地址处保存的是上一个 switch-case 写入的值
a1 = *(unsigned int **)(func_data - 0x18);
*(_QWORD *)(func_data - 0x20) = 0LL;
*(_QWORD *)beg = a1;
调用回调函数
real_data = ((__int64 (__fastcall *)(_QWORD, _QWORD))func)(*v13, *v14);
最后,回到 while (1),继续走 switch。
# 虚拟机结构剖析
switch-case 的参数来源:sub_F736C 的第一个参数是一个 4 字节数组,每个 4 字节的一部分都是 switch-case 的参数,用来执行一个操作。
因此每一个 4 字节就是一个 handler,其 handler 的内部解析如下,handler index 和 subhandler index 为 switch-case 的参数。
handler 的执行示例:
handler index:0x2B subhandler index:0xC2B handler:[vm_stack-off3] = [vm_stack-off1] + [vm_stack-off2] example: [=] [Thread 2008] index: 0xc2b -> [func_data-0x110] = [func_data-0x80] + [func_data-0x128]; 0xffffffffff971488, 0x555555cd9eb0, rs: 0x55555564b338 ------------------------------------------------ handler index:0x2B subhandler index:0xA6B handler:[vm_stack-off3] = [vm_stack-off1] >> operand2 example: [=] [Thread 2008] index: 0xa6b -> [func_data-0x128] = d[func_data-0x88] >> 0x18; 0x555f9370, rs: 0x55 ------------------------------------------------ handler index:0x9 no subhandler index handler:[vm_stack-off1] = [vm_stack-off2] + operand1 example: [=] [Thread 2008] index: 0x9 -> [func_data-0x120] = [func_data-0x130] + 0x4; 0x0, rs: 0x4
看第一个例子,index 为 0x2B,则进一步判断 subindex,执行 subindex 为 0xC2B 的操作,这里有 3 个变量,off1、off2、off3,分别从 handler 中做位运算提取。
控制流的变化
加解密的执行就是遍历 handler 数组实现的,一个 handler 一个 handler 的执行。对于 for 循环,虚拟机需要改变控制流来实现,以下给出控制流改变的一个例子:
[=] [Thread 2008] index: 0x34 -> [func_data-0x130]; 0x0 [func_data-0x128]; 0x1 [func_data-0x18] = index_table_pointer+4+((int)(0xfffc << 0x10) >> 0xE); 0x5555557e5bd0 [func_data-0x20] = 2 [=] [Thread 2008] index: 0x9 -> [func_data-0x120] = [func_data-0x120] + 0x1; func_data-0x234, rs: func_data-0x233 index_table_pointer = [func_data-0x18]; 0x5555557e5bc4 [func_data-0x20] = 0 [beg] = index_table_pointer
执行 0x34 handler,如果 *(DWORD*)(func_data-0x130)!= *(DWORD*)(func_data-0x128),handler 数组指针就减 0xC,并且 func_data-0x20 地址处写入 2,表示下一个 handler 执行后即将跳转:
index_table_pointer+4+((int)(0xfffc << 0x10) >> 0xE) = index_table_pointer-0xC = 0x5555557e5bd0-0xC= 0x5555557e5bc4
执行下一条 0x9 handler 时,因为 func_data-0x20 地址处的值为 2,所以让 handler 跳转到 0x5555557e5bc4。
如果 0x34 handler 执行时 *(DWORD*)(func_data-0x130)== *(DWORD*)(func_data-0x128),那么下一个 handler 执行后仍顺序执行。
# 虚拟机执行流程解析
每次执行一个 handler,相当于进入 switch 走一遍,因为我们已经解析了 handler4 字节的内部组成,所以我们可以记录每一条 handler 具体代表的语义。每当进入 switch 时,我们把当前 handler 的语义打出来,就可以看到完整的加解密流程了。
于是,我们调用 ql.hook_code 方法,每当执行到 0xF7E20 这,就打印 handler 语义:
更新 custom_script.py:
def custom_run_to_here(self, ql: Qiling) -> List[HookRet]: | |
def addr_tps_F7E20_hook(ql: Qiling) -> None: | |
# ql.log.info(f'index_base: {ql.arch.regs.X19:#x}') | |
index = ql.arch.regs.X12 & 0x3F | |
# ql.log.info(f'index_value: {index:#x}') | |
# ql.log.info(f'off1: {ql.arch.regs.W8:#x}') | |
# ql.log.info(f'off2: {ql.arch.regs.W9:#x}') | |
indent = f'\n\t\t\t\t\t\t' | |
off = calc_off(ql) | |
W11 = calc_W11(ql) | |
rs = f'index: {index:#x} -> ' | |
base_W8 = f'[func_data-{0x130-ql.arch.regs.W8*8:#x}]' | |
base_W9 = f'[func_data-{0x130-ql.arch.regs.W9*8:#x}]' | |
base_W10 = f'[func_data-{0x130-ql.arch.regs.W10*8:#x}]' | |
global update_index_table_flag | |
if update_index_table_flag == 2: | |
update_index_table_flag += 1 | |
if index == 0x9 or index == 0x1C: | |
base_W9_value = get_base_W9(ql) | |
rs += f'{base_W8} = {base_W9} + {off:#x}; {get_base(ql, base_W9_value)}, rs: {get_base(ql, base_W9_value+off)}' | |
elif index in [0, 0x34]: | |
flag_20 = ql.arch.regs.X0 | |
if flag_20 != 0: | |
rs += "ignore!!" | |
v78 = f'(int)({off:#x} << 0x10) >> 0xE' | |
v77 = get_base_W8(ql) | |
rs += f'{base_W8}; {v77:#x}' | |
v79 = get_base_W9(ql) | |
rs += f'{indent}{base_W9}; {v79:#x}' | |
str1 = f'{indent}[func_data-0x18] = index_table_pointer+8(2 elements); {ql.arch.regs.X19:#x}, rs: {ql.arch.regs.X19+8:#x}' | |
str2 = f'{indent}[func_data-0x18] = index_table_pointer+4+({v78}); {ql.arch.regs.X19:#x}' | |
if index == 0: | |
if v77 != v79: | |
rs += str1 | |
else: | |
rs += str2 | |
if index == 0x34: | |
if v77 == v79: | |
rs += str1 | |
else: | |
rs += str2 | |
# elif... | |
if log_flag: | |
ql.log.info(rs) | |
return [ql.hook_address(addr_27DA8_hook, 0x7ffff7dfcda8), | |
ql.hook_address(addr_27FB4_hook, 0x7ffff7dfcfb4), | |
ql.hook_address(addr_tps_ADAB8_hook, 0x555555601ab8), | |
ql.hook_address(addr_tps_F7E20_hook, 0x55555564be20)] |
完整的 custom_script.py 已上传至附件。
因为 switch-case 有些路径是没有走到的,也就是说加解密的 handler 不是全集,所以我们在写 handler 的时候,只需要一个一个写,遇到一个新的待执行的 handler,就增加一个 elif,不需要把 switch-case 的所有路径都挨着写完。
当我们新增 handler 时,就需要重启 qiling 环境,这样会很耗时。因此在遇到没有记录的 handler 时,我们可以手动调用 ql.os.stop (),这样 ql_run_to_here 可以为我们保存当前执行环境,之后我们仍然可以单步模拟执行:
# qilingida.py
def ql_run_to_here(self):# ...
userhook = None if self.userobj is not None: userhook = self.userobj.custom_run_to_here(self.qlemu.ql)# 当 qlemu.run 方法在模拟执行时,如果 custom_run_to_here 调用了 ql.os.stop (),
# 那么 qlemu.run 就会返回。
self.qlemu.run(end=curr_addr+self.qlemu.baseaddr-get_imagebase())# qlemu.run 返回后保存当前模拟执行环境。
self.qlemu.status = self.qlemu.ql.save()# custom_script.py
def custom_run_to_here(self, ql: Qiling) -> List[HookRet]: def next_pc(ql: Qiling, index = ""): next_pc = ql.arch.regs.X1 - 0x555555554000 index = ql.arch.regs.X12 & 0x3F rs = f'next unknown index: {index:#x} -> ' ql.log.info(rs + f'next pc: {next_pc:#x}') ql.os.stop()global log_flag
log_flag = False
模拟执行的输出结果示例如下:
[=] [Thread 2008] index: 0x9 -> [func_data-0x48] = [func_data-0x48] + 0xfea0; func_data-0x150, rs: func_data--0xfd50
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x158] = [func_data-0x38]; func_data-0x158, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x150] = [func_data-0x80]; func_data-0x160, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x148] = [func_data-0x88]; func_data-0x168, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x140] = [func_data-0x90]; func_data-0x170, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x138] = [func_data-0x98]; func_data-0x178, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x130] = [func_data-0xa0]; func_data-0x180, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x128] = [func_data-0xa8]; func_data-0x188, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x120] = [func_data-0xb0]; func_data-0x190, 0x0
[=] [Thread 2008] index: 0x3c -> [func_data-0xb0] = [[func_data-0x110] + 0x10]; func_data-0x450 -> func_data-0x440, 0x20
[=] [Thread 2008] index: 0x3c -> [func_data-0xa8] = [[func_data-0x110] + 0x8]; func_data-0x450 -> func_data-0x448, 0x100000
[=] [Thread 2008] index: 0x3c -> [func_data-0x90] = [[func_data-0x108] + 0x0]; 0x555555857110 -> 0x555555857110, 0x555555f0abb0
[=] [Thread 2008] index: 0x35 -> [func_data-0x88] = (signed )d[[func_data-0x110] + 0x0]; func_data-0x450, 0x555f9370
[=] [Thread 2008] index: 0x3c -> [func_data-0x128] = [[func_data-0x100] + 0x0]; 0x555555857118 -> 0x555555857118, 0x555555cd9eb0
[=] [Thread 2008] index: 0x2d -> [func_data-0x98] = d[func_data-0x130] + (int64)(int)0x0; 0x0, rs: 0x0
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x48] + 0x110] = b[func_data-0x130]; func_data-0x1a0, 0x0
[=] [Thread 2008] index: 0x9 -> [func_data-0xa0] = [func_data-0x48] + 0x4; func_data-0x2b0, rs: func_data-0x2ac
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x108] = [func_data-0xa0]; func_data-0x1a8, func_data-0x2ac
[=] [Thread 2008] index: 0x9 -> [func_data-0x120] = [func_data-0x130] + 0x4; 0x0, rs: 0x4
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x118] = [func_data-0x120]; func_data-0x198, 0x4
[=] [Thread 2008] index: 0x1f -> [func_data-0x120] = int(0xff97 << 0x10)
[=] [Thread 2008] index: 0x1d -> [func_data-0x80] = [func_data-0x120] | 0x1488; 0xffffffffff970000, rs:0xffffffffff971488
[=] [Thread 2008] index: 0xc2b -> [func_data-0x110] = [func_data-0x80] + [func_data-0x128]; 0xffffffffff971488, 0x555555cd9eb0, rs: 0x55555564b338
[=] [Thread 2008] index: 0x92b -> [func_data-0x68] = [func_data-0x130] | [func_data-0xf8]; 0x0, 0x55555564b34c, rs: 0x55555564b34c
[=] [Thread 2008] index: 0xdeb -> [func_data-0x18] = [func_data-0x68]; 0x55555564b34c
[func_data-0x20] = 2
[func_data-0x38] = index_table_pointer+8; 0x5555557e5b90, rs: 0x5555557e5b98
[func_data-0x10] = index_table_pointer+8; 0x5555557e5b90, rs: 0x5555557e5b98
[=] [Thread 2008] index: 0x9 -> [func_data-0x108] = [func_data-0x48] + 0x108; func_data-0x2b0, rs: func_data-0x1a8
index_table_pointer = [func_data-0x18]; 0x55555564b34c
[func_data-0x20] = 0
[beg] = index_table_pointer
call func:(0x55555564b34c)([func_data-0x110], [func_data-0x108]); memset
index_table_pointer = [func_data-0x10]; 0x5555557e5b98
[beg] = index_table_pointer
[=] [Thread 2008] index: 0xa6b -> [func_data-0x128] = d[func_data-0x88] >> 0x18; 0x555f9370, rs: 0x55
[=] [Thread 2008] index: 0xa6b -> [func_data-0x120] = d[func_data-0x88] >> 0x10; 0x555f9370, rs: 0x555f
[=] [Thread 2008] index: 0xa6b -> [func_data-0x118] = d[func_data-0x88] >> 0x8; 0x555f9370, rs: 0x555f93
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x48] + 0x5] = b[func_data-0x118]; func_data-0x2ab, 0x93
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x48] + 0x4] = b[func_data-0x88]; func_data-0x2ac, 0x70
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x48] + 0x6] = b[func_data-0x120]; func_data-0x2aa, 0x5f
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x48] + 0x7] = b[func_data-0x128]; func_data-0x2a9, 0x55
[=] [Thread 2008] index: 0xc2b -> [func_data-0x118] = [func_data-0x80] + [func_data-0x90]; 0xffffffffff971488, 0x555555f0abb0, rs: 0x55555587c038
[=] [Thread 2008] index: 0x38 -> [func_data-0x128] = [func_data-0x98] < 0x100; 0x0, rs: 0x1
# 加解密算法分析
观察 sub_F736C 返回前,所有 handler 的执行记录,主要分为四部分:
handler 执行过程.txt 已上传至附件,里面记录了整个执行流程。
# 环境初始化
虚拟栈的初始化已经 sub_F736C 的参数保存到虚拟栈:
[=] [Thread 2008] index: 0x9 -> [func_data-0x48] = [func_data-0x48] + 0xfea0; func_data-0x150, rs: func_data--0xfd50
//这里分号后面为自动生成的注释,表示从左到右,其内存的值。比如下面这一行,[func_data-0x48]的值是func_data-0x158;[func_data-0x38]的值是0。因为这是个写操作,就没有打印[[func_data-0x48]+0x158]的值了。
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x158] = [func_data-0x38]; func_data-0x158, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x150] = [func_data-0x80]; func_data-0x160, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x148] = [func_data-0x88]; func_data-0x168, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x140] = [func_data-0x90]; func_data-0x170, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x138] = [func_data-0x98]; func_data-0x178, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x130] = [func_data-0xa0]; func_data-0x180, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x128] = [func_data-0xa8]; func_data-0x188, 0x0
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x120] = [func_data-0xb0]; func_data-0x190, 0x0
[=] [Thread 2008] index: 0x3c -> [func_data-0xb0] = [[func_data-0x110] + 0x10]; func_data-0x450 -> func_data-0x440, 0x20
[=] [Thread 2008] index: 0x3c -> [func_data-0xa8] = [[func_data-0x110] + 0x8]; func_data-0x450 -> func_data-0x448, 0x100000
[=] [Thread 2008] index: 0x3c -> [func_data-0x90] = [[func_data-0x108] + 0x0]; 0x555555857110 -> 0x555555857110, 0x555555f0abb0
[=] [Thread 2008] index: 0x35 -> [func_data-0x88] = (signed )d[[func_data-0x110] + 0x0]; func_data-0x450, 0x555f9370
[=] [Thread 2008] index: 0x3c -> [func_data-0x128] = [[func_data-0x100] + 0x0]; 0x555555857118 -> 0x555555857118, 0x555555cd9eb0
[=] [Thread 2008] index: 0x2d -> [func_data-0x98] = d[func_data-0x130] + (int64)(int)0x0; 0x0, rs: 0x0
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x48] + 0x110] = b[func_data-0x130]; func_data-0x1a0, 0x0
[=] [Thread 2008] index: 0x9 -> [func_data-0xa0] = [func_data-0x48] + 0x4; func_data-0x2b0, rs: func_data-0x2ac
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x108] = [func_data-0xa0]; func_data-0x1a8, func_data-0x2ac
[=] [Thread 2008] index: 0x9 -> [func_data-0x120] = [func_data-0x130] + 0x4; 0x0, rs: 0x4
[=] [Thread 2008] index: 0x29 -> [[func_data-0x48]+0x118] = [func_data-0x120]; func_data-0x198, 0x4
[=] [Thread 2008] index: 0x1f -> [func_data-0x120] = int(0xff97 << 0x10)
[=] [Thread 2008] index: 0x1d -> [func_data-0x80] = [func_data-0x120] | 0x1488; 0xffffffffff970000, rs:0xffffffffff971488
[=] [Thread 2008] index: 0xc2b -> [func_data-0x110] = [func_data-0x80] + [func_data-0x128]; 0xffffffffff971488, 0x555555cd9eb0, rs: 0x55555564b338
[=] [Thread 2008] index: 0x92b -> [func_data-0x68] = [func_data-0x130] | [func_data-0xf8]; 0x0, 0x55555564b34c, rs: 0x55555564b34c
[=] [Thread 2008] index: 0xdeb -> [func_data-0x18] = [func_data-0x68]; 0x55555564b34c
[func_data-0x20] = 2
[func_data-0x38] = index_table_pointer+8; 0x5555557e5b90, rs: 0x5555557e5b98
[func_data-0x10] = index_table_pointer+8; 0x5555557e5b90, rs: 0x5555557e5b98
[=] [Thread 2008] index: 0x9 -> [func_data-0x108] = [func_data-0x48] + 0x108; func_data-0x2b0, rs: func_data-0x1a8
index_table_pointer = [func_data-0x18]; 0x55555564b34c
[func_data-0x20] = 0
[beg] = index_table_pointer
call func:(0x55555564b34c)([func_data-0x110], [func_data-0x108]); memset
index_table_pointer = [func_data-0x10]; 0x5555557e5b98
[beg] = index_table_pointer
# 准备一个 256 字节大小的 S-box 表
读取 [func_data-0x98] 的一个字节,赋值给 func_data-0x2a8 地址处,同时 [func_data-0x98] 和 [func_data-0x120] 都自增 1,直到 [func_data-0x98]==0x100。
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x120] + 0x0] = b[func_data-0x98]; func_data-0x2a8, 0x0
[=] [Thread 2008] index: 0x2d -> [func_data-0x98] = d[func_data-0x98] + (int64)(int)0x1; 0x0, rs: 0x1
[=] [Thread 2008] index: 0x38 -> [func_data-0x128] = [func_data-0x98] < 0x100; 0x1, rs: 0x1
[=] [Thread 2008] index: 0x34 -> [func_data-0x130]; 0x0
[func_data-0x128]; 0x1
[func_data-0x18] = index_table_pointer+4+((int)(0xfffc << 0x10) >> 0xE); 0x5555557e5bd0
[func_data-0x20] = 2
[=] [Thread 2008] index: 0x9 -> [func_data-0x120] = [func_data-0x120] + 0x1; func_data-0x2a8, rs: func_data-0x2a7
index_table_pointer = [func_data-0x18]; 0x5555557e5bc4
[func_data-0x20] = 0
[beg] = index_table_pointer
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x120] + 0x0] = b[func_data-0x98]; func_data-0x2a7, 0x1
[=] [Thread 2008] index: 0x2d -> [func_data-0x98] = d[func_data-0x98] + (int64)(int)0x1; 0x1, rs: 0x2
[=] [Thread 2008] index: 0x38 -> [func_data-0x128] = [func_data-0x98] < 0x100; 0x2, rs: 0x1
[=] [Thread 2008] index: 0x34 -> [func_data-0x130]; 0x0
[func_data-0x128]; 0x1
[func_data-0x18] = index_table_pointer+4+((int)(0xfffc << 0x10) >> 0xE); 0x5555557e5bd0
[func_data-0x20] = 2
[=] [Thread 2008] index: 0x9 -> [func_data-0x120] = [func_data-0x120] + 0x1; func_data-0x2a7, rs: func_data-0x2a6
index_table_pointer = [func_data-0x18]; 0x5555557e5bc4
[func_data-0x20] = 0
[beg] = index_table_pointer
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x120] + 0x0] = b[func_data-0x98]; func_data-0x2a6, 0x2
[=] [Thread 2008] index: 0x2d -> [func_data-0x98] = d[func_data-0x98] + (int64)(int)0x1; 0x2, rs: 0x3
[=] [Thread 2008] index: 0x38 -> [func_data-0x128] = [func_data-0x98] < 0x100; 0x3, rs: 0x1
[=] [Thread 2008] index: 0x34 -> [func_data-0x130]; 0x0
[func_data-0x128]; 0x1
[func_data-0x18] = index_table_pointer+4+((int)(0xfffc << 0x10) >> 0xE); 0x5555557e5bd0
[func_data-0x20] = 2
[=] [Thread 2008] index: 0x9 -> [func_data-0x120] = [func_data-0x120] + 0x1; func_data-0x2a6, rs: func_data-0x2a5
index_table_pointer = [func_data-0x18]; 0x5555557e5bc4
[func_data-0x20] = 0
[beg] = index_table_pointer
以上逻辑用 C++ 实现如下:
#define SHUFFLE_TABLE_LEN 256 | |
unsigned char shuffle_table[SHUFFLE_TABLE_LEN] = { 0 }; | |
for (int i = 0; i < SHUFFLE_TABLE_LEN; ++i) | |
shuffle_table[i] = i; |
# S-box 表置换
遍历 S-box 表,i 从 0 自增到 255:
//读取S-box表的第i个元素 a
[=] [Thread 2008] index: 0x72b -> [func_data-0x128] = (int)d[func_data-0x120] >> 0x1f; 0x0
[=] [Thread 2008] index: 0xa6b -> [func_data-0xe0] = d[func_data-0x128] >> 0x1b; 0x0, rs: 0x0
[=] [Thread 2008] index: 0xcab -> [func_data-0xe0] = d[func_data-0xe0] + d[func_data-0x120]; 0x0, 0x0, rs: 0x0
[=] [Thread 2008] index: 0x9eb -> [func_data-0xe0] = [func_data-0x108] & [func_data-0xe0]; 0xffffffffffffffe0, 0x0, rs: 0x0
[=] [Thread 2008] index: 0xb2b -> [func_data-0xe0] = d[func_data-0x120] - d[func_data-0xe0]; 0x0, 0x0, rs: 0x0
[=] [Thread 2008] index: 0x4ab -> [func_data-0xe0] = d[func_data-0xe0] << 0x0; 0x0
[=] [Thread 2008] index: 0x9 -> [func_data-0xd8] = [func_data-0xf0] + 0x1; func_data-0x2a8, rs: func_data-0x2a7
[=] [Thread 2008] index: 0x30 -> [func_data-0xd0] = b[[func_data-0xf0] + 0x0]; func_data-0x2a8, 0x0
// S-box表的第i个元素和上一轮结果相加:a+last_result
// last_result初始化为0
[=] [Thread 2008] index: 0xcab -> [func_data-0xe8] = d[func_data-0xd0] + d[func_data-0xe8]; 0x0, 0x0, rs: 0x0
// [func_data-0x118]是sub_F736C函数的第3个参数,是一个0x20字节的数组,元素长度为1,这里命名为shuffle_factor_table。
// 从shuffle_factor_table取(i%0x20),然后与上一步相加:
// 得 a+last_result+shuffle_factor_table[i%0x20]
[=] [Thread 2008] index: 0x2d -> [func_data-0xc8] = d[func_data-0x120] + (int64)(int)0x1; 0x0, rs: 0x1
[=] [Thread 2008] index: 0xa6b -> [func_data-0x128] = d[func_data-0x128] >> 0x1e; 0x0, rs: 0x0
[=] [Thread 2008] index: 0xc2b -> [func_data-0xe0] = [func_data-0xe0] + [func_data-0x118]; 0x0, 0x55555587c038, rs: 0x55555587c038
[=] [Thread 2008] index: 0x30 -> [func_data-0xe0] = b[[func_data-0xe0] + 0x0]; 0x55555587c038, 0x48
[=] [Thread 2008] index: 0xcab -> [func_data-0xe8] = d[func_data-0xe0] + d[func_data-0xe8]; 0x48, 0x0, rs: 0x48
// tps_encrypt和tps_decrypt的第一个参数serino,小端序保存在内存中,然后取出一字节与上一步相加:
// 地 a+last_result+shuffle_factor_table[i%0x20]+serino[i%4]
[=] [Thread 2008] index: 0xcab -> [func_data-0x128] = d[func_data-0x128] + d[func_data-0x120]; 0x0, 0x0, rs: 0x0
[=] [Thread 2008] index: 0x9eb -> [func_data-0x128] = [func_data-0xf8] & [func_data-0x128]; 0xfffffffffffffffc, 0x0, rs: 0x0
[=] [Thread 2008] index: 0xb2b -> [func_data-0x128] = d[func_data-0x120] - d[func_data-0x128]; 0x0, 0x0, rs: 0x0
[=] [Thread 2008] index: 0x4ab -> [func_data-0x128] = d[func_data-0x128] << 0x0; 0x0
[=] [Thread 2008] index: 0xc2b -> [func_data-0x128] = [func_data-0x128] + [func_data-0xa0]; 0x0, func_data-0x2ac, rs: func_data-0x2ac
[=] [Thread 2008] index: 0x30 -> [func_data-0x128] = b[[func_data-0x128] + 0x0]; func_data-0x2ac, 0x70
[=] [Thread 2008] index: 0xcab -> [func_data-0x128] = d[func_data-0x128] + d[func_data-0xe8]; 0x70, 0x48, rs: 0xb8
// 上一步结果与0xFF求余
// 得 last_result = (a+last_result+shuffle_factor_table[i%0x20]+serino[i%4]) & 0xFF
[=] [Thread 2008] index: 0x72b -> [func_data-0x120] = (int)d[func_data-0x128] >> 0x1f; 0xb8
[=] [Thread 2008] index: 0xa6b -> [func_data-0x120] = d[func_data-0x120] >> 0x18; 0x0, rs: 0x0
[=] [Thread 2008] index: 0xcab -> [func_data-0x120] = d[func_data-0x120] + d[func_data-0x128]; 0x0, 0xb8, rs: 0xb8
[=] [Thread 2008] index: 0x9eb -> [func_data-0x120] = [func_data-0x100] & [func_data-0x120]; 0xffffffffffffff00, 0xb8, rs: 0x0
[=] [Thread 2008] index: 0xb2b -> [func_data-0xe8] = d[func_data-0x128] - d[func_data-0x120]; 0xb8, 0x0, rs: 0xb8
[=] [Thread 2008] index: 0x4ab -> [func_data-0x128] = d[func_data-0xe8] << 0x0; 0xb8
// S-box表置换
// tmp = S-box[i]
// S-box[i] = S-box[last_result]
// S-box[last_result] = tmp
[=] [Thread 2008] index: 0xc2b -> [func_data-0x128] = [func_data-0x128] + [func_data-0x110]; 0xb8, func_data-0x2a8, rs: func_data-0x1f0
[=] [Thread 2008] index: 0x30 -> [func_data-0x120] = b[[func_data-0x128] + 0x0]; func_data-0x1f0, 0xb8
[=] [Thread 2008] index: 0x2a -> b[[func_data-0xf0] + 0x0] = b[func_data-0x120]; func_data-0x2a8, 0xb8
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x128] + 0x0] = b[func_data-0xd0]; func_data-0x1f0, 0x0
[=] [Thread 2008] index: 0x92b -> [func_data-0x120] = [func_data-0x130] | [func_data-0xc8]; 0x0, 0x1, rs: 0x1
// 没有遍历到0x256,回调到S-box置换的第一条指令,继续置换
[=] [Thread 2008] index: 0x38 -> [func_data-0x128] = [func_data-0x120] < 0x100; 0x1, rs: 0x1
[=] [Thread 2008] index: 0x34 -> [func_data-0x130]; 0x0
[func_data-0x128]; 0x1
[func_data-0x18] = index_table_pointer+4+((int)(0xffde << 0x10) >> 0xE); 0x5555557e5c80
[func_data-0x20] = 2
[=] [Thread 2008] index: 0x92b -> [func_data-0xf0] = [func_data-0x130] | [func_data-0xd8]; 0x0, 0x80000000db39, rs: func_data-0x2a7
index_table_pointer = [func_data-0x18]; 0x5555557e5bfc
[func_data-0x20] = 0
[beg] = index_table_pointer
以上逻辑用 C++ 实现如下:
void Fisher_Yates(unsigned char shuffle_table[SHUFFLE_TABLE_LEN], unsigned int serino) { | |
unsigned char shuffle_factor_table[SHUFFLE_FACTOR_TABLE_LEN] = { | |
0x48, 0xA9, 0xC8, 0x12, 0xCA, 0xFC, 0xD3, 0x5E, 0xB7, 0x61, 0x50, 0x17, 0x68, 0xBA, 0x7E, 0x2E, | |
0xB9, 0xA2, 0x38, 0x85, 0x35, 0x48, 0x55, 0x6C, 0x2C, 0x38, 0x43, 0x1F, 0x51, 0xD6, 0x30, 0x30 }; | |
unsigned char last_result = 0; | |
unsigned char serino_table[] = { serino & 0xFF, (serino >> 8) & 0xFF, (serino >> 16) & 0xFF, (serino >> 24) & 0xFF }; | |
for (int i = 0; i < SHUFFLE_TABLE_LEN; ++i) { | |
last_result = (shuffle_factor_table[i % SHUFFLE_FACTOR_TABLE_LEN] + shuffle_table[i] + last_result + serino_table[i % 4]) & 0xFF; | |
unsigned char tmp = shuffle_table[i]; | |
shuffle_table[i] = shuffle_table[last_result]; | |
shuffle_table[last_result] = tmp; | |
//printf("exchange: %x -> %x, factor: %x\n", i, last_result, shuffle_factor_table[i%SHUFFLE_FACTOR_TABLE_LEN]); | |
} | |
} |
# 数据加解密
遍历待加解密的数据,i 从 0 到 len (data)-1
// a = (i+1) & 0xFF
[=] [Thread 2008] index: 0x2d -> [func_data-0x128] = d[func_data-0x120] + (int64)(int)0x1; 0x100, rs: 0x101
[=] [Thread 2008] index: 0x72b -> [func_data-0x120] = (int)d[func_data-0x128] >> 0x1f; 0x101
[=] [Thread 2008] index: 0xa6b -> [func_data-0x120] = d[func_data-0x120] >> 0x18; 0x0, rs: 0x0
[=] [Thread 2008] index: 0xcab -> [func_data-0x120] = d[func_data-0x120] + d[func_data-0x128]; 0x0, 0x101, rs: 0x101
[=] [Thread 2008] index: 0x9eb -> [func_data-0x120] = [func_data-0x118] & [func_data-0x120]; 0xffffffffffffff00, 0x101, rs: 0x100
[=] [Thread 2008] index: 0xb2b -> [func_data-0x120] = d[func_data-0x128] - d[func_data-0x120]; 0x101, 0x100, rs: 0x1
[=] [Thread 2008] index: 0x4ab -> [func_data-0x128] = d[func_data-0x120] << 0x0; 0x1
// func_data-0xa8为待加解密的数据,这里命名为x
// 保存当前的字节x[i]到[func_data-0x100]
[=] [Thread 2008] index: 0x9 -> [func_data-0xf8] = [func_data-0x100] + 0x1; 0x0, rs: 0x1
[=] [Thread 2008] index: 0xc2b -> [func_data-0x100] = [func_data-0x100] + [func_data-0xa8]; 0x0, 0x100000, rs: 0x100000
// func_data-0x110保存着S-box的地址
// 从置换后的S-box取出一字节,index为a,并与上一轮结果相加
// 得b = S-box[a]+last_result
[=] [Thread 2008] index: 0xc2b -> [func_data-0x128] = [func_data-0x128] + [func_data-0x110]; 0x1, func_data-0x2a8, rs: func_data-0x2a7
[=] [Thread 2008] index: 0x30 -> [func_data-0xf0] = b[[func_data-0x128] + 0x0]; func_data-0x2a7, 0xa9
[=] [Thread 2008] index: 0xcab -> [func_data-0x108] = d[func_data-0xf0] + d[func_data-0x108]; 0xa9, 0x0, rs: 0xa9
[=] [Thread 2008] index: 0x72b -> [func_data-0xe8] = (int)d[func_data-0x108] >> 0x1f; 0xa9
[=] [Thread 2008] index: 0xa6b -> [func_data-0xe8] = d[func_data-0xe8] >> 0x18; 0x0, rs: 0x0
[=] [Thread 2008] index: 0xcab -> [func_data-0xe8] = d[func_data-0xe8] + d[func_data-0x108]; 0x0, 0xa9, rs: 0xa9
[=] [Thread 2008] index: 0x9eb -> [func_data-0xe8] = [func_data-0x118] & [func_data-0xe8]; 0xffffffffffffff00, 0xa9, rs: 0x0
[=] [Thread 2008] index: 0xb2b -> [func_data-0x108] = d[func_data-0x108] - d[func_data-0xe8]; 0xa9, 0x0, rs: 0xa9
[=] [Thread 2008] index: 0x4ab -> [func_data-0xe8] = d[func_data-0x108] << 0x0; 0xa9
// S-box表置换
// tmp = S-box[a]
// S-box[a] = S-box[b]
// S-box[b] = S-box[a]
[=] [Thread 2008] index: 0xc2b -> [func_data-0xe8] = [func_data-0xe8] + [func_data-0x110]; 0xa9, func_data-0x2a8, rs: func_data-0x1ff
[=] [Thread 2008] index: 0x30 -> [func_data-0xe0] = b[[func_data-0xe8] + 0x0]; func_data-0x1ff, 0xc1
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x128] + 0x0] = b[func_data-0xe0]; func_data-0x2a7, 0xc1
[=] [Thread 2008] index: 0x2a -> b[[func_data-0xe8] + 0x0] = b[func_data-0xf0]; func_data-0x1ff, 0xa9
// x[i] = x[i] ^ ((S-box[a] + tmp) & 0xFF)
[=] [Thread 2008] index: 0x30 -> [func_data-0x128] = b[[func_data-0x128] + 0x0]; func_data-0x2a7, 0xc1
[=] [Thread 2008] index: 0xcab -> [func_data-0x128] = d[func_data-0xf0] + d[func_data-0x128]; 0xa9, 0xc1, rs: 0x16a
[=] [Thread 2008] index: 0x30 -> [func_data-0xf0] = b[[func_data-0x100] + 0x0]; 0x100000, 0x12
[=] [Thread 2008] index: 0x37 -> [func_data-0x128] = [func_data-0x128] & 0xff; 0x16a, rs:0x6a
[=] [Thread 2008] index: 0x7 -> [func_data-0x128] = ((1(LL) << (W10+1)) - 1) & ([func_data-0x128] >> W11); 0x1f, 0x6a, 0x0, rs: 0x6a
[=] [Thread 2008] index: 0xc2b -> [func_data-0x128] = [func_data-0x128] + [func_data-0x110]; 0x6a, func_data-0x2a8, rs: func_data-0x23e
[=] [Thread 2008] index: 0x30 -> [func_data-0x128] = b[[func_data-0x128] + 0x0]; func_data-0x23e, 0xef
[=] [Thread 2008] index: 0x36b -> [func_data-0x128] = [func_data-0x128] ^ [func_data-0xf0]; 0xef, 0x12, rs: 0xfd
[=] [Thread 2008] index: 0x2a -> b[[func_data-0x100] + 0x0] = b[func_data-0x128]; 0x100000, 0xfd
// 没有遍历到x的长度,继续遍历
[=] [Thread 2008] index: 0x92b -> [func_data-0x100] = [func_data-0x130] | [func_data-0xf8]; 0x0, 0x1, rs: 0x1
[=] [Thread 2008] index: 0x1eb -> base_W9_value < base_W8_value: [func_data-0x128] = 1; w8=[func_data-0xb0]=32, w9=[func_data-0x100]=1
[=] [Thread 2008] index: 0x34 -> [func_data-0x130]; 0x0
[func_data-0x128]; 0x1
[func_data-0x18] = index_table_pointer+4+((int)(0xffde << 0x10) >> 0xE); 0x5555557e5d24
[func_data-0x20] = 2
[=] [Thread 2008] index: 0x4ab -> [func_data-0x130] = d[func_data-0x130] << 0x0; 0x0
index_table_pointer = [func_data-0x18]; 0x5555557e5ca0
[func_data-0x20] = 0
[beg] = index_table_pointer
以上逻辑用 C++ 实现如下:
void encrypt_and_decrypt_data(unsigned char shuffle_table[SHUFFLE_TABLE_LEN], unsigned char* x, int len) { | |
unsigned char last_result = 0; | |
for (int i = 0; i < len; ++i) { | |
int s_i = (i + 1) & 0xFF; | |
unsigned char cur = shuffle_table[s_i]; | |
// last_result = (last_result + cur) & 0xFF; | |
last_result += cur; // no need to 'and 0xFF', because the type of last_result is unsigned char | |
shuffle_table[s_i] = shuffle_table[last_result]; | |
shuffle_table[last_result] = cur; | |
unsigned char tmp = (cur + shuffle_table[s_i]) & 0xFF; | |
x[i] = x[i] ^ shuffle_table[tmp]; | |
} | |
} |
# 总结
第一次使用 qiling 来做模拟执行,踩了不少坑。不过这些坑填完了,之后模拟执行就会方便很多。
libxx.so 的加解密算法很简单,相信大家已经能看出来这个是 RC4,不过稍微有一点魔改,把密钥分成了两部分。
加解密算法的保护主要还是通过虚拟机来实现的,其中也有一点花指令和动态字符串解密,不过这些在 libxx.so 里都很简单,所以没有细说。
希望本文可以给想用 qiling 做模拟执行的朋友一些提示,快速过掉 qiling 的一些坑。