ある日、Jenkins用ノートPCのUbuntuで、外部からJenkinsを表示できなくなりました。外部からsshも接続できません。
ノートPC本体を見ると、電源LEDは点灯しています。いつもならタッチパッドに触ると、ディスプレイが表示されますが、今回はタッチパッドに触ってもディスプレイはオフのままです。
電源ボタンを長押しして再起動したところ、GRUB画面をすぎて、紫の画面のままで止まってしまいました。sshも接続できませんでした。
なぜ〜😱
このノートPCは2台のSSDを搭載しています。1台目は2015年に交換したので、約5年経過。2台目は2014年に交換したので約6年経過です。
# | /dev | OS | SSD型番 |
1台目 | /dev/sda | Windows 7 | toshiba thnsnj512gcsu (MLC) |
2台目 | /dev/sdb | Ubuntu 18.04 | Crucial CT512MX100SSD1 (MLC) |
GRUBでWindiws 7を選択すると、Windows 7は問題なく起動しました。
少し安心ね
いや、恐ろしげな表示が😨
GRUBでUbuntuを起動すると、次のようなメッセージが表示されました。/dev/sdb1
にエラーがあるから、fsckしてください、とのこと。initramfsプロンプトが表示されました。BusyBoxという表示もありました。
/dev/sdb1 contains a file system with errors, check forced.
Inodes that were part of a corrupted orphan linked list found.
/dev/sdb1: UNEXPECTED INCONSISTENCY; Run fsck MANUALLY.
(i.e., without -a or -p options)
fsck exited with status code 4.
The root file system on /dev/sdb1 requires manual fsck
(initramfs)
Code language: plaintext (plaintext)
試しに、電源ボタンを長押しして、再起動しましたが、同じ画面が表示されました。
参考記事を参考に、fsck しました。
(initramfs) fsck /dev/sdb1
何回も、Fixするかと聞かれて、y を入力します。途中で、Allの選択肢が表示されたので、aを入力しました。
言われるがままで、無力感を感じるね😓
これでだめなら、クリーンインスールなんだから、だめもとでやるしかないわね。
再起動します。
(initramfs) reboot
Ubuntuは無事起動しました。
動かしているサービスを確認します。Jenkinsは無事起動していました。一部のDockerコンテナが起動していなかったので、sudo docker-compose down
、sudo docker-compose up -d
で再起動したところ、問題なさそうでした。
SSDの寿命かもしれないよ、SMART情報を見てみたら?
SMART情報を見てみました。2台目のSSD、/dev/sdb
(Ubuntu用)は、FLAGS列にP(prefailure warning)がついている項目が、4項目もありました。
「196 Reallocated_Event_Count
」は通常0ですが、134になっています。今回のエラーと修復の結果かもしれません。
$ sudo smartctrl --xall /dev/sdb
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Model Family: Crucial/Micron MX100/MX200/M5x0/M600 Client SSDs
Device Model: Crucial_CT512MX100SSD1
Serial Number:
LU WWN Device Id:
Firmware Version: MU01
User Capacity: 512,110,190,592 bytes [512 GB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-2, ATA8-ACS T13/1699-D revision 6
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Sun Jun 14 17:58:38 2020 JST
(省略)
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate POSR-K 100 100 000 - 781
5 Reallocate_NAND_Blk_Cnt PO--CK 097 097 000 - 134
9 Power_On_Hours -O--CK 100 100 000 - 16918
12 Power_Cycle_Count -O--CK 100 100 000 - 1408
171 Program_Fail_Count -O--CK 100 100 000 - 0
172 Erase_Fail_Count -O--CK 100 100 000 - 0
173 Ave_Block-Erase_Count -O--CK 099 099 000 - 45
174 Unexpect_Power_Loss_Ct -O--CK 100 100 000 - 60
180 Unused_Reserve_NAND_Blk PO--CK 000 000 000 - 4269
183 SATA_Interfac_Downshift -O--CK 100 100 000 - 0
184 Error_Correction_Count -O--CK 100 100 000 - 0
187 Reported_Uncorrect -O--CK 100 100 000 - 47
194 Temperature_Celsius -O---K 058 043 000 - 42 (Min/Max 15/57)
196 Reallocated_Event_Count -O--CK 100 100 000 - 134
197 Current_Pending_Sector -O--CK 100 100 000 - 0
198 Offline_Uncorrectable ----CK 100 100 000 - 0
199 UDMA_CRC_Error_Count -O--CK 100 100 000 - 0
202 Percent_Lifetime_Used P---CK 099 099 000 - 1
206 Write_Error_Rate -OSR-- 100 100 000 - 0
210 Success_RAIN_Recov_Cnt -O--CK 100 100 000 - 337
246 Total_Host_Sector_Write -O--CK 100 100 000 - 13663191345
247 Host_Program_Page_Count -O--CK 100 100 000 - 439287111
248 Bckgnd_Program_Page_Cnt -O--CK 100 100 000 - 1025879236
||||||_ K auto-keep
|||||__ C event count
||||___ R error rate
|||____ S speed/performance
||_____ O updated online
|______ P prefailure warning
Code language: plaintext (plaintext)
1台目のSSD、/dev/sda
(Windows 7用)も見てみると、FLAGS列にP(prefailure warning)
がついている項目が10項目もありました。
$ sudo smartctrl --xall /dev/sda
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: TOSHIBA THNSNJ512GCSU
Serial Number:
LU WWN Device Id:
Firmware Version: JURA0101
User Capacity: 512,110,190,592 bytes [512 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-2 (minor revision not indicated)
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Sun Jun 14 18:02:59 2020 JST
(省略)
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
1 Raw_Read_Error_Rate -O-R-- 100 100 000 - 0
2 Throughput_Performance P-S--- 100 100 050 - 0
3 Spin_Up_Time POS--- 100 100 050 - 0
5 Reallocated_Sector_Ct PO--C- 100 100 050 - 0
7 Unknown_SSD_Attribute PO-R-- 100 100 050 - 0
8 Unknown_SSD_Attribute P-S--- 100 100 050 - 0
9 Power_On_Hours -O--C- 100 100 000 - 22121
10 Unknown_SSD_Attribute PO--C- 100 100 050 - 0
12 Power_Cycle_Count -O--C- 100 100 000 - 1376
167 Unknown_Attribute -O---K 100 100 000 - 0
168 Unknown_Attribute -O--C- 100 100 000 - 0
169 Unknown_Attribute PO--C- 100 100 010 - 100
173 Unknown_Attribute -O--C- 195 195 000 - 0
175 Program_Fail_Count_Chip PO--C- 100 100 010 - 0
192 Power-Off_Retract_Count -O--C- 100 100 000 - 13
194 Temperature_Celsius PO---K 068 056 020 - 32 (Min/Max 17/44)
197 Current_Pending_Sector -O--C- 100 100 000 - 0
240 Unknown_SSD_Attribute PO--C- 100 100 050 - 0
||||||_ K auto-keep
|||||__ C event count
||||___ R error rate
|||____ S speed/performance
||_____ O updated online
|______ P prefailure warning
Code language: plaintext (plaintext)
せっかくSMART情報が「prefailure warning」を通知しているんだから、そろそろ交換したほうがいいわよ
比較のため、メインPCのSSD(2016年購入)のSMART情報を表示すると、FLAGS列にP(prefailure warning)
がついていたのは、「232 Available_Reservd_Space
」の1項目だけでした。
$ sudo smartctrl --xall /dev/sda
smartctl 6.6 2016-05-31 r4324 [x86_64-linux-5.3.0-59-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: SanDisk Ultra II 960GB
Serial Number:
LU WWN Device Id:
Firmware Version: X41100RL
User Capacity: 960,197,124,096 bytes [960 GB]
Sector Size: 512 bytes logical/physical
Rotation Rate: Solid State Device
Form Factor: 2.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-2 T13/2015-D revision 3
SATA Version is: SATA 3.2, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Sun Jun 14 18:06:58 2020 JST
(省略)
SMART Attributes Data Structure revision number: 4
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAGS VALUE WORST THRESH FAIL RAW_VALUE
5 Reallocated_Sector_Ct -O--CK 100 100 --- - 0
9 Power_On_Hours -O--CK 100 100 --- - 27539
12 Power_Cycle_Count -O--CK 100 100 --- - 155
165 Unknown_Attribute -O--CK 100 100 --- - 859161495760
166 Unknown_Attribute -O--CK 100 100 --- - 3
167 Unknown_Attribute -O--CK 100 100 --- - 52
168 Unknown_Attribute -O--CK 100 100 --- - 19
169 Unknown_Attribute -O--CK 100 100 --- - 975
170 Unknown_Attribute -O--CK 100 100 --- - 0
171 Unknown_Attribute -O--CK 100 100 --- - 0
172 Unknown_Attribute -O--CK 100 100 --- - 0
173 Unknown_Attribute -O--CK 100 100 --- - 7
174 Unknown_Attribute -O--CK 100 100 --- - 53
184 End-to-End_Error -O--CK 100 100 --- - 0
187 Reported_Uncorrect -O--CK 100 100 --- - 0
188 Command_Timeout -O--CK 100 100 --- - 0
194 Temperature_Celsius -O---K 066 064 --- - 34 (Min/Max 16/64)
199 UDMA_CRC_Error_Count -O--CK 100 100 --- - 0
230 Unknown_SSD_Attribute -O--CK 100 100 --- - 6786065106476
232 Available_Reservd_Space PO--CK 100 100 004 - 100
233 Media_Wearout_Indicator -O--CK 100 100 --- - 8015
234 Unknown_Attribute -O--CK 100 100 --- - 46242
241 Total_LBAs_Written ----CK 253 253 --- - 31046
242 Total_LBAs_Read ----CK 253 253 --- - 33872
244 Unknown_Attribute -O--CK 000 100 --- - 0
||||||_ K auto-keep
|||||__ C event count
||||___ R error rate
|||____ S speed/performance
||_____ O updated online
|______ P prefailure warning
Code language: plaintext (plaintext)
参考記事