要先将里面数据先进行向量化咱们前次说到要思进行模子专有化部署况兼读取公司里面常识库,需要先将里面数据先进行向量化。这个不光有OpenAi提供的text-embedding-ada-002模子不错生成。也不错使用国产的文本一样度野心模子bge-large-zh,并专有化部署到公司内网,一次embedding向量化耗时基本在毫秒级别男同 小说,况兼更安全,也更低廉。向量化之后就需要进行向量存储了向量化之后就需要进行向量存储了。需要将这些向量储存在向量数据库里面,不错用向量数据库Qdrant,用的是rust写的,存储和查询会更快一些。进行一样性搜索存储好之后用的话就需要进行一样性搜索。旨趣是通过相比向量之间的距离来判断它们的一样度。有了query问题的向量,还有向数据库录入了常识库的向量后,就不错径直使用向量数据库提供的Similarity Search 方法匹配相干的本色。作念一样性高下文咱们作念评审的时辰,query是完成的代码然后+大言语模子生成追念。然后和常识库作念一样性高下文。