봉황대 in CS

[Chapter 3. 컴퓨터 연산] 부동소수점 본문

Computer Science & Engineering/Computer Architecture

[Chapter 3. 컴퓨터 연산] 부동소수점

등 긁는 봉황대 2022. 8. 27. 15:42

* 본 글은 '컴퓨터 구조 및 설계: 하드웨어/소프트웨어 인터페이스(Computer Organization and Design: The Hardware/Software Interface) 5th edition'의 내용과 2021학년도 1학기에 수강한 '컴퓨터 구조' 과목 강의 내용을 함께 정리하여 작성하였습니다.

 

 

프로그래밍 언어는 부호있는 정수와 부호없는 정수뿐만 아니라 소수 부분을 갖는 수, 실수(reals)도 표현할 수 있어야 하고,

엄청나게 큰 값도 표현할 수 있어야 한다.

 

이 수들은 32비트 부호있는 정수로는 표현할 수 없다.

 

과학적 표기법과 정규화된 수, 부동소수점

우선 과학적 표기법과 정규화된 수에 대하여 알아보자.

 

과학적 표기법(scientific notation)은 소수점의 왼쪽에는 한 자리 수만이 나타나게 하는 표기법이다.

0.000000001 = 1.0 × 10^-9

3,155,760,000 = 3.15576 × 10^9

 

정규화된 수(normalized number)는 과학적 표기법으로 표현된 숫자 중에서 맨 앞에 0이 나오지 않는 수를 말한다.

즉, 선행하는 0이 없는 부동소수점 표기법으로 나타낸 수이며

0.1 × 10^-8과 10.0 × 10^-10은 정규화된 과학적 표기법이 아니다.

 

 

위에서의 예시는 십진수를 과학적 표기법으로 표현한 것이고, 이진수도 아래처럼 과학적 표기법으로 표시할 수 있다.

1.0 × 2^-1

 

 

이런 수를 지원하는 컴퓨터 연산은 부동소수점(floating point) 연산이라고 부른다.

이를 '부동'이라고 부르는 이유는 정수에서와 달리, 소수점의 위치가 고정되어 있지 않기 때문이다.

 

 

실수를 정규화된 형태의 표준 과학적 표기법으로 나타내면 다음과 같은 장점이 있다.

 

1. 부동소수점 숫자를 포함한 자료의 교환을 간단하게 한다.

2. 숫자가 항상 이런 형태로 표현됨을 알고 있기 때문에 부동소수점 산술 알고리즘이 간단해진다.

3. 불필요하게 선행되는 0을 소수점 오른쪽에 있는 실제의 숫자로 바꾸기 때문에

    한 워드 내에 저장할 수 있는 수의 정밀도를 증가시킨다.

 

부동소수점 표현


컴퓨터는 고정된 워드 크기를 사용하기 때문에

부동소수점 표현 방식에서는 소수부분(fraction)의 크기와 지수(exponent)의 크기 사이에서 타협점을 찾아야 한다.

 

 

소수부분의 크기를 증가시키면 소수부분으로 표현할 수 있는 수의 정밀도가 높아지고,

지수부분의 크기를 증가시키면 표현할 수 있는 수의 범위가 늘어난다.

 

좋은 설계에는 적당한 절충이 필요하다.

 

IEEE 754 FP Standard

현재 전 세계적으로 모든 컴퓨터에 사용되고 있는 IEEE 754 부동소수점 표준은 아래의 그림과 같다.

 

1. 단일 정밀도(single precision) 부동소수점

 

 

1개의 32비트 워드로 표현된 부동소수점 값이다. 보통 우리가 흔히 아는 float형을 말한다.

 

s는 부동소수점 수의 부호(0이면 양수, 1이면 음수),

지수는 8비트 지수 필드의 값이며(지수의 부호 포함), 소수부분은 23비트의 수이다.

 

 

2. 2배 정밀도(double precision) 부동소수점

 

 

2개의 32비트 워드로 표현된 부동소수점 값이다. 보통 우리가 흔히 아는 double형을 말한다.

 

여기서 지수는 11비트 지수 필드 값을 나타내며, 소수부분의 크기는 52비트이다.

 

 

* 정리

 


부동소수점 표현식은 다음과 같이 나타낼 수 있다.

 

 

* In binary :

 

S field

sign bit (양수이면 0, 음수이면 1)

less than, greater that, equal to 0 등의 테스트를 빠르게 할 수 있도록 부호 비트가 최상위 비트(MSB)에 놓이게 되었다.

 

 

F field

유효자리 부분에 더 많은 수를 담기 위해서

IEEE 754 표준은 정규화된 이진수의 가장 앞쪽 1비트를 생략하고 표현하지 않는다. (hidden bit)

(맨 앞의 1은 모든 정규표현식이 갖고 있으므로 생략해도 무관)

 

즉, 앞의 1을 제외한 소수 부분이 그대로 F field에 오는 것이다.

ex. 1.11 × 2^-100 → F field : 1100 0000 .... 0000

 

 

E field

지수를 유효자리 앞에 두면 부호가 같은 수를 비교할 때 지수가 큰 수가 지수가 작은 수보다 더 큰 정수처럼 보인다.

이는 부동소수점 수를 정수 비교 명령어로 정렬하는 일을 쉽게 해준다.

 

하지만 음수 지수는 숫자 정렬을 어렵게 만든다.

음수를 나타내기 위해 2의 보수법를 사용할 경우 지수가 음수이면 매우 큰 수처럼 보일 것이다.

 

따라서 가장 음수인 지수를 00...00, 가장 양수인 지수를 11...11으로 표현하기로 했으며,

이 방식을 바이어스된 표현법(biased notation)이라고 부른다.

 

bias는 실제 값을 구하기 위해 부호없이 표현된 수에서 빼야 하는 상수를 말한다.

단일 정밀도 표현 방식에서는 bias = 127, 2배 정밀도 표현 방식에서는 bias = 1023 이다.

 

E = e + bias

 

ex. 1.11 × 2^-100

→ E field in single precision : -100 + 127 = 27 즉, 00011011이 E에 오게 될 것이다.

→ E field in double precision : -100 + 1023 = 923 즉, 01110011011이 E에 오게 될 것이다.

 


(예시 문제 1)

-0.75를 부동소수점 표현 방식으로 표현해보자. (single, double 둘 다)

 

-0.75를 이진수로 변환하면 -0.11이다.

이를 정규화하면 다음과 같이 나타낼 수 있다.

 

S = 1

 

F = 1000 ... 0000 (1.1에서 일의 자리 1은 표현되지 않음)

 

E = -1 + bias

1) single : -1 + 127 = 126 = 011111110 (이진수)

2) double : -1 + 1023 = 1022 = 01111111110 (이진수)

 

 

따라서 -0.75를 부동소수점 표현 방식으로 표현하면 다음과 같다.

 

single precision : 1 011111110 1000 ... 0000 (F : 23비트)

double precision : 1 01111111110 1000 ... 0000 (F : 54비트)

 


(예시 문제 2)

single precision 표기로 나타낸 11000000101000...00은 어떤 수(x)를 나타낸 것인가?

 

우선 single이라고 했으므로, S 1비트 - E 8비트 - F 23비트로 쪼개서 보아야 한다.

1 10000001 01000 ... 00

 

S = 1 (음수)

 

F = 01000 ... 00

 

E = 10000001 (이진수) = 129

E = e + bias이므로 e = E - bias = 129 - 127 = 2

 

 

따라서 x는 다음과 같이 나타낼 수 있다.

 

즉, x는 -5.0이다.

 

IEEE 754 FP Normalized Form

정규화된 형식에서 E는 0000 0001(-126) ~ 1111 1110(127)의 범위를 갖는다.

 

 

따라서 정규화된 형식에서 부동소수점 표기로 표현할 수 있는 가장 큰 수와 가장 작은 수는 다음과 같다. (single precision)

* '1.'은 hidden bit을 나타낸 것

 

가장 큰 수 : 0 1111 1110 1.1111 1111 1111 1111 1111 111 

가장 작은 수 : 0 0000 0001 1.0000 0000 0000 0000 0000 000

 

 

0에 가장 가까운 수는 0 00000001 0000 ... 0000 또는 1 00000001 0000 ... 0000이 될 것이다.

 

 

그렇다면 0은 어떻게 표현할 수 있을까?

Normalized form에서는 정확히 표현이 불가하기 때문에 비정규화 형식(Denormalized form)을 사용한다.

 

Denormal Numbers

이는 Normal number보다 작은 수들을 표현하기 위함이다.

 

Denormalized form은 E field가 모두 0이거나 1인 표현식을 말하며

0 혹은 0에 아주 가까운 수들, 무한대인 수들, 또는 숫자가 아닌 수들(NaN)을 표현한다.

 

 

각 표현식은 다음과 같다.

 

* IEEE 754 FP Standard Encoding

 

E field가 모두 1이고 F field가 모두 0일 때는 무한인 수를 말하며,
E field가 모두 1이고 F field가 0이 아니면 숫자가 아님을 나타낸다. (Not a Number, NaN)

 


E field가 모두 0이면

정규화된 표현식처럼 1.~로 표현되는 것이 아니라 0.~으로 표현된다고 생각하면 된다. (hidden bit = 0)

 

비정규화된 표현에서 부동소수점 표현식은 다음과 같이 나타낼 수 있다.

 

 

single precision일 때 bias = 127이었으므로 1-bias = -126

double precision일 때 bias = 1023이었으므로 1-bias = -1022가 된다.

 

 

따라서 E field와 F field가 모두 0이 되는 순간, 진정한 0을 표현할 수 있는 것이다.

 

sign bit가 달라져도 0임을 유지하기 때문에 0의 표현에는 2가지가 있다.

1) 1 00000000 000 ... 00

2) 0 00000000 000 ... 00

 

 


비정규화된 표현으로도 표현할 수 없는 수들이 존재한다.

 

이런 수를 표현하려 할 때는 overflow 혹은 underflow의 오류가 난다.

* 오버플로우(overflow) : 숫자가 너무 커서 표현 불가

* 언더플로우(underflow) : 숫자가 너무 작아서 표현 불가

 

이 오류들은 single precision 대신 double precision을 사용하는 것을 통해 해결할 수 있다.

 

 

반응형
Comments