R&D/OS

Machine Check Exception

sunshout 2012. 2. 18. 20:30
MCE (Machine Check Exception)이란 하드웨어 오류를 탐지하는 방법이다.

윈도우 계열에서의 파란화면이나 리눅스의 커널 Panic과 같은 케이스 중에서 하드웨어의 장애로 발생한 오류를 탐지한다.

리눅스의 경우 아래와 같은 오류 메시지가 콘솔화면에 나오게 된다.
CPU 0: Machine Check Exception: 0000000000000004 Bank 2: f200200000000863 Kernel panic: CPU context corrupt
ㅇ 장애의 타입
1) System Bus error : process와 motherboard 간의 통신 오류
2) Memory error : parity / ECC 의 문제로 에러
3) Cache error : CPU 의 cache에 오류

ㅇ 장애의 원인
- 주로 잘못된 하드웨어 설치나 overheating 으로 발생
1) overclocking : 하드웨어 온도를 높임
2) Fan : CPU 온도를 높임
3) 전원: overloaded internal/external power supply

ㅇ 장애 탐지 방법
1) mcelog
- 리눅스에서 mce로그를 출력하는 프로그램

ㅇ Linux 에서 설치
apt-get install mcelog
yum install mcelog

참조
http://www.cyberciti.biz/tips/linux-server-predicting-hardware-failure.html