大体原理是使用人工智能的 CLIP 模型,对用户的文字输入进行编码,并搜索拥有最佳匹配编码的图像,从而实现基于语义的检索。CLIP 的优势是无需针对新类别进行训练,可以看做 zero-shot ;并且允许用户输入任意搜索字符串(比如“笑着躲在门后的黑色柴犬”),从而实现比较复杂的搜索任务,当然并不是 100%准确。
应该是无需联网,完全本地运行(但我没确认),应该可以给想在本地建立照片库并希望实现一些类似于 google photo 照片搜索功能的人们提供了一个新思路。
https://www.reddit.com/r/MachineLearning/comments/pb6ime/p_rclip_use_clip_to_search_for_your_photos_in_the