麻省理工学院 CSAIL 一项关于线性探测哈希表的新研究成果,有望让计算机更有效地存储和检索数据。该成果由该校计算机科学博士生 William Kuszmaul 在内的三人研究小组取得,对 1954 年推出的“线性探测哈希表”进行了优化。
“线性探测哈希表”于 1954 年推出,是当今最古老、最简单和最快的数据结构之一。数据结构提供了在计算机中组织和存储数据的方法,而哈希表是最常用的方法之一。在线性探测哈希表中,可以存储信息的位置是沿着一个线性阵列。
例如,假设一个数据库被设计用来存储 10000 人的身份证号码,Kuszmaul 建议:“我们取你的身份证号码x,然后计算 x 的哈希函数,h(x),它给你一个 1 到10000之间的随机数。下一步是拿着这个随机数 h(x),走到数组中的那个位置,把 x,即身份证号码,放到那个位置”。
Kuszmaul 说,如果已经有东西占据了那个位置,你只需前进到下一个空闲位置并把它放在那里。这就是“线性探测”一词的由来,因为你一直线性地向前移动,直到找到一个空位。
为了以后检索那个社会安全号码,x,你只要去指定的位置,h(x),如果它不在那里,你就向前走,直到你找到 x 或来到一个空闲位置,并得出结论说 x 不在你的数据库中。
对于删除一个项目,如社会安全号码,有一个有点不同的协议。如果你在删除信息后只是在哈希表中留下一个空位,那么当你后来试图寻找其他东西时就会造成混乱,因为这个空位可能会错误地暗示你正在寻找的项目在数据库中无处可寻。为了避免这个问题,Kuszmaul 解释说,你可以去元素被移除的地方,在那里放一个叫做“墓碑”(tombstone)的小标记,表示这里曾经有一个元素,但现在已经消失了。
这个常规程序已经被遵循了半个多世纪。但在所有这些时间里,几乎所有使用线性探测哈希表的人都认为,如果你允许它们变得太满,长长的被占点会跑到一起形成"集群"。因此,找到一个空闲位置所需的时间会急剧上升--事实上是四倍--需要如此长的时间,以至于不切实际。因此,人们被训练成在低容量下操作哈希表--这种做法会影响公司必须购买和维护的硬件数量,从而造成经济损失。
该团队还设计了一种新的策略,称为“墓地散列”(graveyard hashing),其中包括人为地增加放置在阵列中的墓碑数量,直到它们占据了大约一半的空闲位置。然后,这些墓碑保留了可用于未来插入的空间。
Kuszmaul 说,这种方法与人们习惯上被指示的做法相反,"可以导致线性探测哈希表的最佳性能"。或者,正如他和他的合作者在他们的论文中所坚持的那样,"精心设计的墓碑的使用可以完全改变......线性探测的行为方式。"
-
“表演服”用完就退?不能放任后悔权被滥用 世界短讯“七天无理由退货”本是为了保护消费者合法权益,但有人利用...
-
周大生:去年电商业务收入同比增35%,今年目标超去年增速_全球看点周大生在机构调研时表示,2022年电商业务收入同比增长34 65%...
-
视频号运费险正式上线,首次投保根据经营类目有5档选择 环球播报据亿邦动力消息,腾讯发布“视频号小店运费险”服务指南,视...
-
淘宝发布中小商家造星计划,推出最高2000元广告补贴券淘宝宣布启动中小商家的造星计划,推出包含最高2000元广告补...
-
OpenAI CEO:OpenAI还没有开始训练GPT-5大模型 天天播报据外媒报道,OpenAI首席执行官SamAltman在印度经济时报主办的一场会议
-
亚马逊与Hexa达成协作,支持卖家创建3D图像据亿邦动力消息,亚马逊和3D可视化公司Hexa达成一项新举措,...
-
属于王亚伟的时代一去不返近日屡有传闻称,昔日“公募一哥”王亚伟已被监管部门带走调...
-
今头条!渤海化学:全资子公司渤海石化拟投建丙烯酸酯和高吸水性树脂新材料项目渤海化学公告,全资子公司渤海石化拟投资建设丙烯酸酯和高吸...
-
上常从容与信言诸将能不文言文翻译通假字_上常从容与信言诸将能不,各有差翻译想必现在有很多小伙伴对于上常从容与信言诸将能不,各有差翻译...
-
环球快看:信濠光电:公司暂未涉及上述VR、MR领域同花顺金融研究中心6月7日讯,有投资者向信濠光电提问,请问...
- 智联世界,元生无界!快手虚拟人IP亮相2022人工智能大会
2022-09-07 10:47:54
- 机器人界“奥林匹克”!2022世界机器人大会8月18日举行
2022-08-10 09:58:58
- 2025年全球人口将达到90亿!机器人将在农业领域大显身手
2022-07-14 09:41:10
- 中科院院士蒋华良:AI+分子模拟与药物研发将大有可为
2022-07-14 09:37:00
- “千垛之城荷你有约” 2022兴化市荷文化旅游节正式开幕
2022-07-07 09:28:34