利用机器学习算法,研究人员可以判断一个人的手写英文文本,从而确定作者是否来自这五个不同的国家国家——马来西亚、伊朗、中国、印度和孟加拉国其中之一。
研究人员创建了一个数据集,其中包含来自这些国家的用英语写作的人,总计行数。
利用这些手写数据,一种名为“线分布云”(COLD) 的工具可以分解单个字母并测量文本的直线度或曲率。
在执行相同任务时,该算法在确定作者国籍方面比现有方法表现更好。
一些国家确定作家国籍的准确度甚至高出一倍。
这个算法所做的就是机器学习最好的方法——获取模式。
例如,当中国本土作家使用罗马字母时,他们会用直线书写字母,因为汉字通常由直笔画组成。
另一方面(双关语),印度和孟加拉国的作家有用曲线书写的习惯,因为他们的大部分字体都是草书,形状更圆。
确定笔迹是计算机视觉研究人员解决的首要任务之一。
之前的研究曾尝试检测情绪、对性别进行分类以及确定书写者的年龄,但除此之外,并没有采取太多措施来尝试从笔迹中提取更多信息,可能是因为没有人找到一种从中获利的方法。
方法。
来自印度、中国和马来西亚的研究人员表示,该技术可用于犯罪调查。
警方越来越多地利用生物识别技术来解决犯罪问题,从笔迹中提取身份信息,补充面部识别软件等其他技术获取的信息。
但目前,该技术或类似技术的隐私和公民权利问题尚未得到解决。
例如,放大训练数据中现有偏见的错误可能会使无辜者卷入刑事调查。
或者,公司可以使用手写识别软件根据某人的国籍甚至智力等特征来区分潜在客户。
事实上,在执法部门考虑是否使用这些技术之前,研究人员必须考虑扩展他们的数据集和用途,以证明 COLD 不仅仅是有趣项目的小数据集。