Ray平台遇到的第一个坑
因为openai也用ray,所以对它还是充满好奇心的。
一、起因
团队已经用ray平台跑模型代码快2年了,该任务最近落在我身上;接触一个陌生的领域,一开始也没法就搞清楚它的原理;但是,写业务代码前我要让它在我的机器上能跑起来,能在生产环境部署运行。于是,我就见到了我的“第一个”坑(当然,它仅仅是第一个我忍不住想记一下的坑)。
二、经过
第一次碰撞
拉代码,装虚拟环境,跑测试,起服务。于是我就与问题进行了第一次碰撞,测试跑不动,既不往下运行,也不报错;尝试起服务,同样卡死;debug发现卡在了init(),issues上同样的问题,锁定grpcio==1.44.0版本,但没能直接解决我的问题。
raise ImportError(
ImportError: Failed to import grpc on Apple Silicon. On Apple Silicon machines, try `pip uninstall grpcio; conda install grpcio`. Check out https://docs.ray.io/en/master/ray-overview/installation.html#m1-mac-apple-silicon-support for more details.
参照提示信息,锁定了是M1芯片的原因;于是将virtualenv创建的虚拟环境改成了由conda创建虚拟环境,重新安装依赖,服务正常启动。
第二次碰撞
接着,开始跑测试,又迎来了与问题的第二次碰撞,测试提示pandas与numpy相关的错误,如下:
from pandas._libs.interval import Interval
pandas/_libs/interval.pyx:1: in init pandas._libs.interval
???
E ValueError: numpy.dtype size changed, may indicate binary incompatibility. Expected 96 from C header, got 88 from PyObject
make: *** [test] Error 4
在确认业务代码需要pandas版本不能升级,选择了锁定numpy到一个低版本(参照测试环境的版本),本地测试也顺利完成了;至此,也还没来得及深入思考这是为什么,仅仅是脑海中闪过一个想法,pandas依赖numpy,但pandas没有锁定numpy版本;便开始在本地验证生产环境流程,构建ray平台的docker镜像,启动ray平台,部署模型。
小插曲
本地构建docker镜像时,遇到的一个很奇怪的问题,构建镜像失败,原因是安装依赖时,找不到ray的当前版本并提示此版本后的版本都可以安装;尽管,我也尝试进入镜像切换不同的PyPI索引,也无济于事;由于正常情况下都是在服务器上由CI/CD来自动构建发布镜像,我就先绕开了本地的这个问题,去服务器上构建镜像并且成功了。但是这个小插曲就很奇怪了,PyPI索引一样,在M1机器上安装ray成功,在服务器上构建docker镜像时安装ray成功,在M1机器上构建docker镜像时安装ray不成功。
第三次碰撞
于是,在服务器上成功的构建了docker镜像,并“成功”的启动了Ray平台;但部署模型失败了,开始了与问题的第三次碰撞;由于这一次不存在环境的差异,第一时间想到了找同事Moore帮忙,想他可能遇到过相同的问题,那就刚好直接解决了;梳理好问题的再现过程,就找到了Moore,他也是第一次遇到。于是,两人开始了一起分析问题;查看ray的状态也确实是显示成功的,看serve部署日志是提示了ray/serve代码的运行错误;带着错误信息在issues上没有关联到想要的答案。
File "/usr/local/lib/python3.10/site-packages/ray/serve/config.py", line 208, in from_proto
data = MessageToDict(
TypeError: MessageToDict() got an unexpected keyword argument 'including_default_value_fields'
因为之前部署过很多次都是OK的,所以当时两人都没有想到这个问题和ray有关,想的可能是构建镜像时执行的命令导致运行环境的变化,结果在排除这个问题后,我联想到之前的grpcio、numpy版本问题,难道是ray没有锁定第三方依赖,一看果然如此;此时我的想法是将ray所有没有固定的依赖在全部在构建镜像时固定,做一个基础镜像,以后就可以避免同类型的问题了,此刻觉着Node.js侧的yarn.lock还是挺好的。Moore也很快定位到具体是哪个包升级导致的。 site-packages/google/protobuf/json_format.py 的 MessageToDict 方法升级到5.x.x版本就没有including_default_value_fields参数了。
三、思考
pip能否像npm一样锁定依赖版本?
可以,只不过node侧是安装依赖时,自动生成或更新相应的lock文件,来锁定版本加速安装。pip 需要手动来锁定已安装依赖的版本。
# 锁定依赖
pip freeze > requirements.txt
# 安装依赖
pip install -r requirements.txt
当然,也有第三方工具像pip-tools、poetry等。
为什么第三方库不完全指定其第三方库在小版本范围内变化?
更多的是考虑兼容性,宽松的版本范围可以减少与其他库之间的依赖冲突。与Node.js不同,Node.js 使用 npm 或 yarn 或 pnpm 作为包管理器,它们具有处理依赖版本冲突的机制。具体来说,Node.js 的模块系统允许不同的包在各自的 node_modules 目录下拥有自己版本的依赖。 举例:
project/
├── node_modules/
│ ├── packageA/
│ │ └── node_modules/
│ │ └── commonDependency@1.0.0
│ └── packageB/
│ └── node_modules/
│ └── commonDependency@2.0.0
├── package.json
Python 使用 pip 作为包管理器。在同一个虚拟环境或项目中,无法安装两个不同版本的同一个依赖,因为 Python 的依赖导入机制不支持这样做,所以宽松的版本对于与其他依赖兼容性有显著的提升。 当然,在开发项目时,作为非第三库,锁定当前项目的依赖版本及全覆盖的单元测试就显得尤为重要了。
四、结果
因为在运行的过程中,遇到了上述的问题,决定对于开发的模型库的依赖选择设置宽松的版本,通过全覆盖的单元测试确保其健壮性;对于模型服务则选择锁定版本来确保每次构建的稳定性。 对于过程中的小插曲,由于正常情况下不需要在开发机器上构建镜像所以暂时不解决;当然,也可以先在服务器上构建一个已安装ray的基础镜像,基于此基础镜像进行业务代码层面的构建。
五、Ray
Ray 是一个功能强大且灵活的分布式计算框架,适用于各种大规模计算任务。它简化了分布式计算的开发和管理,使开发者能够专注于业务逻辑而不是底层的计算复杂性。