用户登录

|
一种适应大数据应用的快速重复数据删除方法

本发明提供一种适应大数据应用的快速重复数据删除方法,适用于大数据应用下的备份去重系统,解决传统基于内容识别的变长分块算法去重速率低,不能快速识别冗余数据问题;本发明在分块过程中通过调节去重因子和加速因子,在确保去重率的前提下大幅提高去重速率,能够快速进行去重检测,平衡了去重率和去重速率之间的矛盾,降低了备份窗口,节约了网络带宽和存储空间。

一种聚类算法中簇数量确定方法、系统、设 备及存储介质

发明实施例公开了一种聚类算法中簇数量确定方法、系统、设备及存储介质,本发明实施例根据数据的分布特点构建出判别指数算法,通过判别指数算法建立簇数量与判别指数的关系,取判别指数最小时对应的簇数量作为确定的簇数量,克服了传统聚类算法需要手工指定或者经验指定簇数量的随意性的问题,提升了聚类的效果;与已有的考虑数据分布轮廓系数方法和肘部法相比,确定簇数量过程中更加充分地考虑了数据集数据分布的特点,使聚类效果更好。