C++读取 npy 保存的 float16 精度的二进制文件

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 1157 天前的主题，其中的信息可能已经有所发展或是发生改变。

numpy 以浮点型（ float32 ）来保存，然后 C++以浮点型（ float ）可以正常读取数值。为了减少保存文件的大小以半精度浮点型来保存的话，无法读取到正确的数值。请问有知道 C++的读取问题出在哪里吗？

用 Python 保存 npy 文件

import numpy as np
outputDirectory = './t.npy'
data = [1] * (5)

# npData = np.array(data, dtype=np.float32).reshape(5)
npData = np.array(data, dtype=np.float16).reshape(5)
np.save(outputDirectory, npData)

用 C++来读取 npy 文件 ※参照以下库的写法 https://github.com/llohse/libnpy/blob/master/include/npy.hpp#L554

// ・・・
        // read the data
        //stream.read(reinterpret_cast<char*>(data.data()), sizeof(Scalar) * size);
        stream.read(reinterpret_cast<char*>(data.data()), 2 * 3);

第 1 条附言 · 2022 年 12 月 3 日

下面是测试代码片段・59957800大小的npy数组不论float16还是32Python的numpy来load的话仅需0.047s ・float32型npy通过C++来读取需要0.115s（增加近两倍）・float16型npy通过C++来读取+转换需要1.7s（增加近35倍）从结论来看npy以float32来保存还比较实用。

std::vector<float> data;
int total = 59957800;
data.resize(total);

// float32型npy（二维数组214135 * 280）⇒用Python的numpy来load的话仅需0.047s
// stream.read(reinterpret_cast<char*>(&data[0]), 4 * total);
// ⇒用时0.115s

// float16型npy（二维数组214135 * 280）⇒用Python的numpy来load的话跟32bit一样仅需0.047s
uint16_t f16;
for (int i = 0; i <= total; i = i + 1)
{
    stream.read(reinterpret_cast<char*>(&f16), 2);
   // https://www.programiz.com/cpp-programming/online-compiler/
    data[i] = float16_to_float32(f16);
}
// ⇒用时1.7s

第 2 条附言 · 2022 年 12 月 8 日

最近找到了下面这个 float16 精度的库，配合 npy 读取文件库可以相对快速读取 float16 精度的 npy 文件。
https://half.sourceforge.net/index.html#doc
https://github.com/melowntech/half

npy 读取文件库：
https://github.com/PyMesh/PyMesh/blob/main/src/Misc/numpy.hpp

以上的处理速度是原生的 1.8 倍左右
https://github.com/numpy/numpy/blob/3544fae2859d8ecac378b9ddc8f909c69455a831/numpy/core/src/npymath/halffloat.c

Data

浮点型

npy

读取

16 条回复 • 2023-01-07 15:31:54 +08:00

lonewolfakela

2022 年 12 月 2 日

你这个 data vector 里的 Scalar 是啥类型呢

sunhk25

2022 年 12 月 2 日

@lonewolfakela
Scalar 是 float 类型，C++不太理解好像没有 numpy 对应的 float16 。
numpy 可以正常读取保存的 float16 类型。

lonewolfakela

2022 年 12 月 2 日

你把 16 位的数据塞进 32 位 float 的 vector 当然没法得到正确数据啦

tool2d

2022 年 12 月 2 日

需要用 gcc 编译，VC 并不支持 float16 硬件类型。

https://gcc.gnu.org/onlinedocs/gcc/Half-Precision.html

在 x86 上，如果没开 mavx512fp16 ，就是纯软件的 float16 ，计算速度会相当慢。不如转换到 float32 。

sunhk25

2022 年 12 月 2 日

@lonewolfakela
16 位的数据时我读取的时候指定的大小是 2 （ float 的时候 sizeof 是 4 ）

lonewolfakela

2022 年 12 月 2 日

@sunhk25 #5 你指定大小是 2 它也对不了啊，两个 float16 被你塞到一个 float32 里去了你觉得你能读出来什么呢……

sunhk25

2022 年 12 月 2 日

@tool2d
Python 里 float16 和 float32 的计算速度之前有过比较没有变慢所以才想到保存为半精度也没有问题。
想着用 C++来再提高下速度，就遇到了这个问题了。
gcc 编译的话好像挺麻烦的样子我了解了解。

sunhk25

2022 年 12 月 2 日

@lonewolfakela
对是这个问题。不知道如何指定 float16 类型。
刚才那位说了不支持 float16 需要编译一下。

kirory

2022 年 12 月 3 日

可以提出指数和小数部分之后再放到 float 里

kirory

2022 年 12 月 3 日

大概是这样
https://godbolt.org/z/zGxhzWoez

sunhk25

2022 年 12 月 3 日 via Android

@kirory
以 16bit 从二进制文件取出来后放到数组，然后再进行转换吗，效率会不会是个问题。
稍候测一下。

kirory

2022 年 12 月 3 日

@sunhk25 边读边转，转换肯定比 IO 快，影响应该很小

sunhk25

2022 年 12 月 3 日

@kirory
刚才测了一下转换是没有问题，效率有点慢。
比 numpy 的 load 处理慢了 35 倍。

c0xt30a

2022 年 12 月 17 日

OP 为啥不直接 dump 内存？

array.tofile( ... )
array.fromfile( ... )

就可以了啊

C++ 里也是类似处理

sunhk25

2022 年 12 月 17 日 via Android

@c0xt30a numpy 按 16bit 的 array 数组存到文件，然后 c++dump 这个文件后，数组再转换到 float ？这个方案可以参考下。

hunk

2023 年 1 月 7 日

新手小白插一句，浮点真的比较坑，最近看华泰的 sdk 学到一招，浮点数统统乘 1000 ，瞬间安静。
仅供参考。