通用于可编程控制器KJ3223X1-BA1

更新时间: 2023-05-31

对人工智能概念的讨论,例如比较数据库中的记录,以及如何将这些技术与Salesforce结合使用。

当您同时比较两个Salesforce记录或任何其他CRM记录时,您可以很容易地确定它们是否重复。然而,即使你有少量的记录,比如说不到10万条,也几乎不可能一个一个地筛选它们,并进行这样的比较。这就是为什么公司已经开发了各种工具来自动化这些过程,但是,为了做好工作,机器需要能够识别记录之间的所有相似性和差异性。在本文中,我们将更仔细地研究数据科学家用来训练机器学习系统以识别重复项的一些方法。

 人工智能

机器学习系统如何比较和对比记录?

研究人员使用的主要工具之一是字符串度量。当您获取两个数据字符串并返回一个值时,如果字符串相似,则返回低值;如果字符串不同,则返回高值。这在实践中是如何起作用的?

如果一个人看到这两个记录,很明显这是重复的。然而,机器依靠字符串度量来复制人类的思维过程,这就是人工智能的全部内容。****的字符串度量之一是汉明距离,它度量将一个字符串转换为另一个字符串所需的替换次数。例如,如果我们返回到上面的两个记录,只需要进行一次替换就可以将“burgendy”变成“burgendy”,因此Hamming距离为1。

还有许多其他的字符串度量标准来度量两个字符串之间的相似性,而分隔每个字符串的是它们所允许的操作。例如,我们提到了汉明距离,但是这个字符串度量只允许替换,这意味着它只能应用于长度相等的字符串。类似Levenshtein距离的东西允许删除、插入和替换。