ある日、Jenkins用ノートPCのUbuntuで、外部からJenkinsを表示できなくなりました。外部からsshも接続できません。
ノートPC本体を見ると、電源LEDは点灯しています。いつもならタッチパッドに触ると、ディスプレイが表示されますが、今回はタッチパッドに触ってもディスプレイはオフのままです。
電源ボタンを長押しして再起動したところ、GRUB画面をすぎて、紫の画面のままで止まってしまいました。sshも接続できませんでした。

なぜ〜😱
このノートPCは2台のSSDを搭載しています。1台目は2015年に交換したので、約5年経過。2台目は2014年に交換したので約6年経過です。
# | /dev | OS | SSD型番 |
1台目 | /dev/sda | Windows 7 | toshiba thnsnj512gcsu (MLC) |
2台目 | /dev/sdb | Ubuntu 18.04 | Crucial CT512MX100SSD1 (MLC) |
GRUBでWindiws 7を選択すると、Windows 7は問題なく起動しました。

少し安心ね

いや、恐ろしげな表示が😨
GRUBでUbuntuを起動すると、次のようなメッセージが表示されました。/dev/sdb1
にエラーがあるから、fsckしてください、とのこと。initramfsプロンプトが表示されました。BusyBoxという表示もありました。
Code language: plaintext (plaintext)/dev/sdb1 contains a file system with errors, check forced. Inodes that were part of a corrupted orphan linked list found. /dev/sdb1: UNEXPECTED INCONSISTENCY; Run fsck MANUALLY. (i.e., without -a or -p options) fsck exited with status code 4. The root file system on /dev/sdb1 requires manual fsck (initramfs)
試しに、電源ボタンを長押しして、再起動しましたが、同じ画面が表示されました。
参考記事を参考に、fsck しました。
(initramfs) fsck /dev/sdb1
何回も、Fixするかと聞かれて、y を入力します。途中で、Allの選択肢が表示されたので、aを入力しました。

言われるがままで、無力感を感じるね😓

これでだめなら、クリーンインスールなんだから、だめもとでやるしかないわね。
再起動します。
(initramfs) reboot
Ubuntuは無事起動しました。
動かしているサービスを確認します。Jenkinsは無事起動していました。一部のDockerコンテナが起動していなかったので、sudo docker-compose down
、sudo docker-compose up -d
で再起動したところ、問題なさそうでした。

SSDの寿命かもしれないよ、SMART情報を見てみたら?
SMART情報を見てみました。2台目のSSD、/dev/sdb
(Ubuntu用)は、FLAGS列にP(prefailure warning)がついている項目が、4項目もありました。
「196 Reallocated_Event_Count
」は通常0ですが、134になっています。今回のエラーと修復の結果かもしれません。
Code language: plaintext (plaintext)$ sudo smartctrl --xall /dev/sdb smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-59-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Crucial/Micron MX100/MX200/M5x0/M600 Client SSDs Device Model: Crucial_CT512MX100SSD1 Serial Number: LU WWN Device Id: Firmware Version: MU01 User Capacity: 512,110,190,592 bytes [512 GB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: Solid State Device Form Factor: 2.5 inches Device is: In smartctl database [for details use: -P show] ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 6 SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Sun Jun 14 17:58:38 2020 JST (省略) SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate POSR-K 100 100 000 - 781 5 Reallocate_NAND_Blk_Cnt PO--CK 097 097 000 - 134 9 Power_On_Hours -O--CK 100 100 000 - 16918 12 Power_Cycle_Count -O--CK 100 100 000 - 1408 171 Program_Fail_Count -O--CK 100 100 000 - 0 172 Erase_Fail_Count -O--CK 100 100 000 - 0 173 Ave_Block-Erase_Count -O--CK 099 099 000 - 45 174 Unexpect_Power_Loss_Ct -O--CK 100 100 000 - 60 180 Unused_Reserve_NAND_Blk PO--CK 000 000 000 - 4269 183 SATA_Interfac_Downshift -O--CK 100 100 000 - 0 184 Error_Correction_Count -O--CK 100 100 000 - 0 187 Reported_Uncorrect -O--CK 100 100 000 - 47 194 Temperature_Celsius -O---K 058 043 000 - 42 (Min/Max 15/57) 196 Reallocated_Event_Count -O--CK 100 100 000 - 134 197 Current_Pending_Sector -O--CK 100 100 000 - 0 198 Offline_Uncorrectable ----CK 100 100 000 - 0 199 UDMA_CRC_Error_Count -O--CK 100 100 000 - 0 202 Percent_Lifetime_Used P---CK 099 099 000 - 1 206 Write_Error_Rate -OSR-- 100 100 000 - 0 210 Success_RAIN_Recov_Cnt -O--CK 100 100 000 - 337 246 Total_Host_Sector_Write -O--CK 100 100 000 - 13663191345 247 Host_Program_Page_Count -O--CK 100 100 000 - 439287111 248 Bckgnd_Program_Page_Cnt -O--CK 100 100 000 - 1025879236 ||||||_ K auto-keep |||||__ C event count ||||___ R error rate |||____ S speed/performance ||_____ O updated online |______ P prefailure warning
1台目のSSD、/dev/sda
(Windows 7用)も見てみると、FLAGS列にP(prefailure warning)
がついている項目が10項目もありました。
Code language: plaintext (plaintext)$ sudo smartctrl --xall /dev/sda smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-59-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Device Model: TOSHIBA THNSNJ512GCSU Serial Number: LU WWN Device Id: Firmware Version: JURA0101 User Capacity: 512,110,190,592 bytes [512 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Form Factor: 2.5 inches Device is: Not in smartctl database [for details use: -P showall] ATA Version is: ACS-2 (minor revision not indicated) SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Sun Jun 14 18:02:59 2020 JST (省略) SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 1 Raw_Read_Error_Rate -O-R-- 100 100 000 - 0 2 Throughput_Performance P-S--- 100 100 050 - 0 3 Spin_Up_Time POS--- 100 100 050 - 0 5 Reallocated_Sector_Ct PO--C- 100 100 050 - 0 7 Unknown_SSD_Attribute PO-R-- 100 100 050 - 0 8 Unknown_SSD_Attribute P-S--- 100 100 050 - 0 9 Power_On_Hours -O--C- 100 100 000 - 22121 10 Unknown_SSD_Attribute PO--C- 100 100 050 - 0 12 Power_Cycle_Count -O--C- 100 100 000 - 1376 167 Unknown_Attribute -O---K 100 100 000 - 0 168 Unknown_Attribute -O--C- 100 100 000 - 0 169 Unknown_Attribute PO--C- 100 100 010 - 100 173 Unknown_Attribute -O--C- 195 195 000 - 0 175 Program_Fail_Count_Chip PO--C- 100 100 010 - 0 192 Power-Off_Retract_Count -O--C- 100 100 000 - 13 194 Temperature_Celsius PO---K 068 056 020 - 32 (Min/Max 17/44) 197 Current_Pending_Sector -O--C- 100 100 000 - 0 240 Unknown_SSD_Attribute PO--C- 100 100 050 - 0 ||||||_ K auto-keep |||||__ C event count ||||___ R error rate |||____ S speed/performance ||_____ O updated online |______ P prefailure warning

せっかくSMART情報が「prefailure warning」を通知しているんだから、そろそろ交換したほうがいいわよ
比較のため、メインPCのSSD(2016年購入)のSMART情報を表示すると、FLAGS列にP(prefailure warning)
がついていたのは、「232 Available_Reservd_Space
」の1項目だけでした。
Code language: plaintext (plaintext)$ sudo smartctrl --xall /dev/sda smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-59-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Device Model: SanDisk Ultra II 960GB Serial Number: LU WWN Device Id: Firmware Version: X41100RL User Capacity: 960,197,124,096 bytes [960 GB] Sector Size: 512 bytes logical/physical Rotation Rate: Solid State Device Form Factor: 2.5 inches Device is: Not in smartctl database [for details use: -P showall] ATA Version is: ACS-2 T13/2015-D revision 3 SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s) Local Time is: Sun Jun 14 18:06:58 2020 JST (省略) SMART Attributes Data Structure revision number: 4 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE 5 Reallocated_Sector_Ct -O--CK 100 100 --- - 0 9 Power_On_Hours -O--CK 100 100 --- - 27539 12 Power_Cycle_Count -O--CK 100 100 --- - 155 165 Unknown_Attribute -O--CK 100 100 --- - 859161495760 166 Unknown_Attribute -O--CK 100 100 --- - 3 167 Unknown_Attribute -O--CK 100 100 --- - 52 168 Unknown_Attribute -O--CK 100 100 --- - 19 169 Unknown_Attribute -O--CK 100 100 --- - 975 170 Unknown_Attribute -O--CK 100 100 --- - 0 171 Unknown_Attribute -O--CK 100 100 --- - 0 172 Unknown_Attribute -O--CK 100 100 --- - 0 173 Unknown_Attribute -O--CK 100 100 --- - 7 174 Unknown_Attribute -O--CK 100 100 --- - 53 184 End-to-End_Error -O--CK 100 100 --- - 0 187 Reported_Uncorrect -O--CK 100 100 --- - 0 188 Command_Timeout -O--CK 100 100 --- - 0 194 Temperature_Celsius -O---K 066 064 --- - 34 (Min/Max 16/64) 199 UDMA_CRC_Error_Count -O--CK 100 100 --- - 0 230 Unknown_SSD_Attribute -O--CK 100 100 --- - 6786065106476 232 Available_Reservd_Space PO--CK 100 100 004 - 100 233 Media_Wearout_Indicator -O--CK 100 100 --- - 8015 234 Unknown_Attribute -O--CK 100 100 --- - 46242 241 Total_LBAs_Written ----CK 253 253 --- - 31046 242 Total_LBAs_Read ----CK 253 253 --- - 33872 244 Unknown_Attribute -O--CK 000 100 --- - 0 ||||||_ K auto-keep |||||__ C event count ||||___ R error rate |||____ S speed/performance ||_____ O updated online |______ P prefailure warning
参考記事
