当人工智能进入实际应用时,遇到的问题大多是复杂的。但现阶段,人工智能自身无法有效分解收集这些问题的信息,导致在实际工作中卡在数据问题上。其中,以下问题较为突出:数据可用性问题,由于数据所有权,大量结构化业务数据极难找到,或者脏数据需要耗费大量精力。在实际生产过程中,90%以上的精力都花在了数据清洗上。在实际数据生产过程中,各种技术问题、人为偏见问题、信息标注问题等都可能导致数据错误。数据流动速度的问题,在实验室里,你可以很轻松地拿着两组数据来评估模型的准确性。但在实际应用中,我们往往会预测未来。这个时候,能否及时将真实的数据反馈给模型就显得非常重要了。数据不足导致算法偏差,比如通过面子风险来判断犯罪概率等。现实问题太过复杂,人工智能的大规模应用必须伴随着整个社会数据使用生态的完善,数据安全在公平公正有序的状态下运行。
