Однажды собирал новый сервер доступа с Accel-ppp и сетевыми адаптерами Intel XL710, и после его запуска в работу, заметил что все ядра процессора используются равномерно, а десятое ядро используется почти на 100%, а также в логах я заметил сообщения:
BUG: Bad page state: 11 messages suppressed
BUG: Bad page state in process kworker/10:2 pfn:7ffdef
page:ffffe7789fff7bc0 count:-2 mapcount:0 mapping:0000000000000000 index:0x0
flags: 0x57ffffc0000000()
raw: 0057ffffc0000000 0000000000000000 0000000000000000 fffffffeffffffff
raw: dead000000000100 dead000000000200 0000000000000000 0000000000000000
page dumped because: nonzero _refcount
Modules linked in: ...
CPU: 10 PID: 24193 Comm: kworker/10:2 Tainted: G B OE 4.15.0-134-generic #138-Ubuntu
Hardware name: HPE ProLiant DL380 Gen10/ProLiant DL380 Gen10, BIOS U30 04/08/2020
Workqueue: mm_percpu_wq vmstat_update
Call Trace:
dump_stack+0x6d/0x8e
bad_page+0xcb/0x120
free_pages_check_bad+0x5f/0x70
free_pcppages_bulk+0x454/0x4f0
drain_zone_pages+0x3d/0x60
refresh_cpu_vm_stats+0x1df/0x2a0
vmstat_update+0x13/0x50
process_one_work+0x1de/0x420
worker_thread+0x32/0x410
kthread+0x121/0x140
? process_one_work+0x420/0x420
? kthread_create_worker_on_cpu+0x70/0x70
ret_from_fork+0x35/0x40
Я посмотрел версию драйвера для сетевых адаптеров:
modinfo i40e | grep ver
filename: /lib/modules/4.15.0-134-generic/updates/drivers/net/ethernet/intel/i40e/i40e.ko
version: 2.13.10
description: Intel(R) 40-10 Gigabit Ethernet Connection Network Driver
srcversion: 597EBD96218776AAA546464
vermagic: 4.15.0-134-generic SMP mod_unload
Прошивка на сетевых адаптерах была установлена 8.15.
После того как я обновил драйвер и прошивку сетевых адаптеров до версии 9.0 — этот баг исчез.
Хочу заметить что после обновления драйвера и прошивки может перестать работать сеть, из-за того что переименуются сетевые интерфейсы или из-за несовместимости версии драйвера с версией прошивки, по этому необходимо обновлять подключившись через iLO или имея физический доступ к серверу.
Детальнее смотрите мои статьи:
- Обновление драйвера i40e Intel
- Обновление прошивки Intel 700 серии сетевых адаптеров
- Решение ошибки NMI watchdog: BUG: soft lockup — CPU#0 stuck for 23s!