查看问题详情

编号项目分类查看权限最后更新
0000259Anolis OS 8- iso-imagespublic2021-12-07 11:07
报告员Stephen 分派给tingyin  
优先级normal严重性crash出现频率always
状态 resolved处理状况no change required 
平台x86_64操作系统Anolis OS操作系统版本8
标题0000259: AnolisOS-8.4-x86_64版本在hygon机器上经常死机
描述下载的http://mirrors.openanolis.org/anolis/8.4/isos/x86_64/AnolisOS-8.4-x86_64-dvd.iso这个镜像文件,在公司的私有云环境上适配部署。部署完成后进入系统,随机执行ls 、cat、cd等命令,或fio、netperf、unixBench等测试软件,30分钟内就会出现死机,后台console上看也是黑屏。
问题重现步骤1、环境信息:私有云,底层为KVM,宿主机系统为kylin V7 update4,底层硬件为H620-G30,CPU为 Hygon 7265 2.2G;
2、OS:http://mirrors.openanolis.org/anolis/8.4/isos/x86_64/AnolisOS-8.4-x86_64-dvd.iso
3、在该私有云上部署anolis的虚拟机后,在虚拟机上安装fio/netperf/unixbench/stream/bonnie++等测试软件,在安装或测试过程中,系统突然死机,表现为无法远程Ping或telnet,KVM后台查看虚拟机console发现黑屏,这个现象通常在5~30分钟内出现;
4、重启该虚拟机,在/var/log/message和kdump上没发现挂掉的相关日志;
5、系统在启动过程中出现附件截图中无法识别海光CPU的提示。
标签没加标签.

活动

Stephen

2021-09-08 11:04

报告者  

tingyin

2021-09-09 22:55

开发人员   ~0000392

Hi,
1. 首先烦请确认下安装的时候是否进行了内核选择,如果选择默认,会默认安装RHCK 4.18的kernel,这个kernel没有合入海光处理器的识别补丁;
2. 建议安装的时候选择4.19的kernel进行测试,这个kernel合入了海光的补丁。

Stephen

2021-09-10 16:27

报告者   ~0000398

hi,
已选择4.19的kernel,没有突然死机了。
然后发现新的问题,
[root@ano-test-x02 index0]# cat coherency_line_size
833
[root@ano-test-x02 index0]# pwd
/sys/devices/system/cpu/cpu0/cache/index0
coherency_line_size这个参数正常应该是64的,适配海光的CPU变成833,导致所有读取这个参数的应用软件都会出现下面这个报错:
fio: lib/memalign.c:19: __fio_memalign: Assertion `!(alignment & (alignment - 1))' failed.
这个问题我在openEuler社区反馈过,确认是硬件适配问题,已提交工单到内核组去修复了。
在Intel上适配是正常的。

tingyin

2021-09-11 11:01

开发人员   ~0000403

Hi,
1) 针对RHCK 4.18的kernel:
您可以尝试我合入海光patch的kernel(AnolisOS 8.4编译)。
我用阿里云盘分享了「rpmbuild-kernel-4.18.0-305.an8-for-hygon」,你可以不限速下载�
复制这段内容打开「阿里云盘」App 即可获取
链接:https://www.aliyundrive.com/s/dcEunuf6fAj

我编译后测试了下这个kernel,可以正常识别海光cpu,/sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size 显示为64。

2) 针对4.19 kernel出现的问题:
我看了下3个操作系统:麒麟V10(4.19.90 kernel),海光版CentOS 8.3/8.4镜像,这个值也都是64。
您可以直接联系海光的FAE希求尽快解决。

tingyin

2021-09-11 17:30

开发人员   ~0000404

BTW,
4.19 kernel出现的问题, 您在物理机上复现过么?
我在海光物理机上安装AnolisOS-8.4-x86_64-dvd.iso,/sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size 的值也是64 。

Stephen

2021-09-13 09:10

报告者   ~0000406

4.19 kernel出现的问题, 您在物理机上复现过么?
回复:kylin V10(4.19.90 kernel)在我这边测试是正常的,目前测试的只有openEuler-20.03-LTS-SP2和anolisOS-8.4是出现海光CPU适配问题的。

我这两天打rpmbuild-kernel-4.18.0-305.an8-for-hygon这个补丁包测试一下。

Stephen

2021-09-18 15:48

报告者   ~0000431

@tingyin:Hi,
1) 针对RHCK 4.18的kernel:
您可以尝试我合入海光patch的kernel(AnolisOS 8.4编译)。
我用阿里云盘分享了「rpmbuild-kernel-4.18.0-305.an8-for-hygon」,你可以不限速下载�
复制这段内容打开「阿里云盘」App 即可获取
链接:https://www.aliyundrive.com/s/dcEunuf6fAj

我编译后测试了下这个kernel,可以正常识别海光cpu,/sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size 显示为64。

2) 针对4.19 kernel出现的问题:
我看了下3个操作系统:麒麟V10(4.19.90 kernel),海光版CentOS 8.3/8.4镜像,这个值也都是64。
您可以直接联系海光的FAE希求尽快解决。
-----------------------------------------------------------------------------------------------------------------------------------------------------

这个4.18的内核回到了这个issue最开始的问题,无法识别海光CPU啊。

tingyin

2021-09-22 09:50

开发人员   ~0000435

我在物理机上测试,可以识别到海光处理器。是不是虚拟化配置问题?
3185.jpg (138,474 字节)   
3185.jpg (138,474 字节)   

tingyin

2021-09-22 09:52

开发人员   ~0000436

或者是内核更新未成功?
kernel-4.18.0-305.an8.x86_64.jpg (206,211 字节)   
kernel-4.18.0-305.an8.x86_64.jpg (206,211 字节)   

Stephen

2021-10-11 16:36

报告者   ~0000477

@tingyin:我在物理机上测试,可以识别到海光处理器。是不是虚拟化配置问题?[附件]
-----------------------------------------------------
虚拟化也可以正常识别海光cpu,只是/sys/devices/system/cpu/cpu0/cache/index0/coherency_line_size 这个值不对,不是64,导致所有要读取这个值的应用进程都失败;

openeuler也是同样的问题,直接在物理机上安装OS,可以识别海光CPU,coherency_line_size这个值也是正确的,但是虚拟化就失败。现在的问题是不知道虚拟化的哪个配置导致的,其他OS是正常的。
我这边是某银行的私有云,监管要求,要逐渐国产化,所以底层硬件用的中科可控的物理机,宿主机为kylin V7,上层才是国产OS。

tingyin

2021-10-12 15:30

开发人员   ~0000478

最后编辑: 2021-12-07 10:59

您好,问题已复现,正在排查中,有什么消息及时与您同步。

833的问题,本质上是由qemu/libvirt版本过低,不支持海光处理器所致,可以升级宿主机操作系统(比如CentOS 8.4)顺带升级qemu/libvirt解决,或者通过模拟当前版本已支持x86处理器绕过。

tingyin

2021-10-16 18:47

开发人员   ~0000499

麒麟v7 + kvm + 8.4,coherency_line_size的值是833确实有问题。

tingyin

2021-10-16 18:50

开发人员   ~0000500

麒麟v7 + kvm + 8.4,使用之前提供的测试用合入海光patch的kernel,https://www.aliyundrive.com/s/dcEunuf6fAj ,coherency_line_size的值是64,是正确的。

问题历史

日期 用户名 字段 更改
2021-09-08 11:04 Stephen 新建问题
2021-09-08 11:04 Stephen 添加了以下文件:: 截图录屏_选择区域_20210907105653.png
2021-09-09 22:55 tingyin 注释已添加: 0000392
2021-09-10 16:27 Stephen 注释已添加: 0000398
2021-09-11 11:01 tingyin 注释已添加: 0000403
2021-09-11 17:30 tingyin 注释已添加: 0000404
2021-09-13 09:10 Stephen 注释已添加: 0000406
2021-09-18 15:48 Stephen 注释已添加: 0000431
2021-09-22 09:50 tingyin 注释已添加: 0000435
2021-09-22 09:50 tingyin 添加了以下文件:: 3185.jpg
2021-09-22 09:52 tingyin 注释已添加: 0000436
2021-09-22 09:52 tingyin 添加了以下文件:: kernel-4.18.0-305.an8.x86_64.jpg
2021-10-11 16:36 Stephen 注释已添加: 0000477
2021-10-12 15:30 tingyin 注释已添加: 0000478
2021-10-16 18:47 tingyin 注释已添加: 0000499
2021-10-16 18:47 tingyin 添加了以下文件:: 833-麒麟v7-kvm-alios-8.4-4.19.91.png
2021-10-16 18:50 tingyin 注释已添加: 0000500
2021-10-16 18:50 tingyin 添加了以下文件:: 64-麒麟v7-kvm-alios-8.4-4.180.305(for hygon).png
2021-11-22 15:55 jacobwang 分派给 => Shiloong
2021-11-22 15:55 jacobwang 状态 新建 => 已分配
2021-11-22 15:55 jacobwang 问题重现步骤已修改
2021-11-23 15:06 Shiloong 分派给 Shiloong => tingyin
2021-12-07 10:59 tingyin 注释已编辑: 0000478
2021-12-07 11:07 tingyin 状态 已分配 => 已解决
2021-12-07 11:07 tingyin 处理状况 未处理 => 不必改