Cache module status degraded hp proliant что это
Перейти к содержимому

Cache module status degraded hp proliant что это

  • автор:

HP StoreOnce 4500 Backup — Cache module status — Failed

Добрый день. Имеется HP StoreOnce 4500 Backup на которые еженедельно бэкапятся данные.

HP StoreOnce 4500 Backup

Тип
HP StoreOnce 4500 Backup
Имя
HPCZ2511083J
Серийный номер
CZ2511083J
Версия программного обеспечения
3.12.1-1513.3

Сегодня обнаружили следующие ошибки:

В виду этого на сервер не могу скопировать бэкапы т.к. Nas постояно отключает сетевые папки.

component:superCapacitor, status:FAILED, location:IOCacheModule in storageController S/N:PCUUVC18S7X05I in PCI Slot 1 in server HPCZ2511083J, Message: The supercap has failed., Diagnostic message: Replace the supercap., uuid:50014380266AB5F0_IOC_1,50014380266AB5F0_BAT_1, eventName:SUPER_CAPACITOR_FAILED, eventId:001C0002, level:ALERT, category:SERVER, overallStatus:DEGRADED , name: ch_34303936-3538-5A43-3235-31313038334A , engine name: hpcz2511083j

component:IOCacheModule, status:FAILED, location:IOCacheModule in storageController S/N:PCUUVC18S7X05I in PCI Slot 1 in server HPCZ2511083J, Message: Write caching using the IO cache module has been temporarily disabled. This will cause degraded performance., Diagnostic message: Check the supercap status and if applicable the partner controller’s supercap status. If the supercap statuses are good, contact HP technical support for further assistance., uuid:50014380266AB5F0_IOC_1, eventName:IO_CACHE_MODULE_CACHE_DISABLED, eventId:00080003, level:ALERT, category:SERVER, overallStatus:DEGRADED , name: ch_34303936-3538-5A43-3235-31313038334A , engine name: hpcz2511083j

Сообщение ошибки в ILO:

POST Error: 1705-Slot X Drive Array — Please replace Cache Module Super-Cap. Caching will be enabled once Super-Cap has been replaced and charged.

Cache module / status information – HP Insight Management Agents User Manual

background image

RAID Stack Version—lists the RAID stack version operating the B-series array controller.
This value may change when upgrading or downgrading the operating system device
driver.

Option ROM Version—lists the option ROM revision of the chipset or HBA being used by
the B-Series controller.

HBA Firmware Version—lists the firmware revision of the chipset or HBA being used by
the B-Series controller.

HBA Mode Option ROM Version—lists the revision of option ROM that would run on this
chipset or HBA (being used by the B-Series controller), if it were to run in HBA mode.

Cache Module / Status Information

Select the cache module item from the Mass Storage submenu to display the following information:

For some controller models, a cache module board that physically attaches to the controller

or chipset may not be an available option. For these configurations, the Storage Agent will continue
to populate fields that are related to read caching operations.

Status—Displays the status of the cache module and/or cache operations. The following values
are valid:

Enabled—Cache operations are currently configured and enabled for at least one logical
drive.

Temporarily Disabled—Cache operations have been temporarily disabled. Check the
Cache Module Error Code for the monitored item to determine why the cache operations
have been temporarily disabled.

https://amdy.su/wp-admin/options-general.php?page=ad-inserter.php#tab-8

Permanently Disabled—Cache operations have been permanently disabled. Check the
Cache Module Error Code for the monitored item to determine why the cache operations
have been disabled.

Cache Module Flash Memory Not Attached—The flash memory component of the flash
backed cache module is not attached. This status will be set when the flash memory is
not attached and the Supercap is attached. This value is only used on flash backed cache
modules that support removable flash memory.

Cache Module Degraded—Failsafe Speed—The cache module board is currently degraded
and operating at a failsafe speed. View the cache memory fields Data Width and
Transfer Rate

to obtain the cache module board’s current memory data width and

memory transfer rate.

Cache Module Critical Failure—The cache module board has encountered a critical failure.
The controller is currently operating in Zero Memory Raid mode.

Read Cache Could Not Be Mapped—The read cache memory in a split cache configuration
could not be mapped by the operating system and as a result is not available. This status
may be caused by virtual space limitations in certain operating systems and is only
applicable to B-Series controllers.

HP proliant cache module failure

In our windows server environment, we often get the alert for HP servers that storage cache module has failed. What exactly is the function of cache module?

1 Answer 1

Unfortunately, you are neither mentioning a specific server model nor a specific controller, thus I’m assuming Smart Arrays here. HP/HPE Smart Array RAID controllers provide a battery-backed cache to e.g. temporarily store data before transferring them to disks. The cache is DRAM, thus it’s a lot faster than typical disk drives, and this speeds up e.g. write operations.

Let’s go one step back: Once a data write to the cache is completed, the cache must be able to protect the data in case of a power loss before the data has been transferred to the drives. This happens using a battery, and the battery is normally what fails after some time which leads to alerts or failure reports, because you might be on risk when using a non-battery-backed cache. If this does not apply for you, you should provide a specific failure message here.

The HP document Smart Array technology: advantages of battery-backed cache describes the details of the cache in detail.

    The Overflow Blog
Related
Hot Network Questions

Subscribe to RSS

To subscribe to this RSS feed, copy and paste this URL into your RSS reader.

Site design / logo © 2023 Stack Exchange Inc; user contributions licensed under CC BY-SA . rev 2023.5.25.43461

By clicking “Accept all cookies”, you agree Stack Exchange can store cookies on your device and disclose information in accordance with our Cookie Policy.

Linux: Работа с RAID контроллером от HP

HP-Smart-Array-P410-RAID-Controller-Card-462919-001-wSFF-8087-mini_SAS-Battery-291402637154-4

Небольшая инструкцию по мониторингу и настройке Raid массива на Raid контроллерах HP под CentOS 6.7.

При наличии необходимых навыков эта инструкция подойдет под любой другой дистрибутив Linux.

1) Для начала убедимся, что у нас есть HP контроллер:

Смотрим в разрезе устройств на шине:
Устройств при загрузке:
Или проверяем наличие символьного устройства hpilo.

Стоит уточнить, что на нескольких серверах, несмотря на наличие контроллера, символьного устройства не было.

1а) Более длинными способами, можно получить похожую картину:

Через smartctl:
Через lshw:

2) Устанавливаем утилиту hpacucli.

Подключаем репозитарий HP:

Версию и разрядность системы необходимо подставить самостоятельно или написать общий шаблон.

Как вариант ставим RPM пакет HP, который соответствует вашей системе:

3) Начало работа с hpacucli.

Проверяем статус контроллера:

Команда для проверки hpacucli controller all show status

Нормальное состояние контроллера должно отображаться так:
С чем я сталкивался:
Отсутствие «Cache Status» говорит об отсутствии батареи у кеша.

В этом состоянии:
— по неподтвержденным данным замедленной работой контроллера, по сравнению с присутствием батареи;
— невозможностью расширения массива на лету, путем добавления дисков и т.п.

Батарея есть, но подлежит замене

Примерно тоже самое, что выше, но также есть риск потери данных кеша при внезапном отключении питания.
Ошибка выглядит так:

2016-03-02 11-00-48

2016-03-02 11-04-24

2016-03-02 11-04-30

Пора заменить микрокод контроллера!

Ошибка намекает на несовместимость утилиты hpacucli с установленным микрокодом в контроллере. Вариант или подобрать утилиту или обновиться.

Процедура обновления достаточно простая, но как обычно существуют стандартные риски при обновлении любых рейд контроллеров и это тема для отдельной статьи.

Заинтересованным смотреть с Firmware CD Supplemental Update Smart Array P212, P410, P410i, P411, P712m, and P812. Обновление прошло на лету, изменения применяются после перезагрузки.

Это же обновление лечит появление ошибок вида:

Перед обновлением собираем диагностическую информацию:

Данные будут доступны в «/tmp/diag_log.txt»

А также текущую конфигурацию контроллера:

Проверяем ранее собранную информацию. В моей диагностике видно, что запущено расширение массива (хотя оно было уже после накатки микрокода), что определенно вводит ограничение на обновление.

4) Настройка RAID с hpacucli.

Просмотр статусов логических дисков

Если логический диск в «работе» статус это покажет.

Результат добавления дисков в массив:

Просмотр статусов физических дисков

Один из дисков в режиме «скоро умрет».

Можем получить более детальную информацию:

Создание RAID массива
Добавление дополнительного физического диска к логическому
Добавить запасной диск:
Увеличение размера логического диска до указанного в size, после добавление нового физического

В моем случае ругнется и даст подсказку — нельзя делать диск меньше чес он сейчас.

Свободное место можно взять из детального вывода «hpacucli ctrl all show config detail».
У меня после добавления свободно 0,9Tb

Работа с внутренним кешем

Категория: Администрирование

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *