12
09/2025
[置顶]李瑞远-浮点时序数据压缩(全文演讲词+PPT)

(本文根据2025年7月5日时序数据库技术创新大会上的演讲整理)大家好!我是重庆大学李瑞远,我的演讲题目是《浮点时序数据压缩》。刚刚几位老师课题非常大(注:前面的演讲者北邮计算机学院院长王尚广教授讲的是“卫星计算”),然后我就从另一个角度,我从小的角度来讲,我是越小越好。压缩我们就希望它压缩后的空间越小越好。最开始我提交这个报告的时候,会议的组织方秦老师就跟我说,这个题目太学术了,能不能改一下。我...
30
12/2020
[置顶]京东城市时空数据引擎JUST亮相中国数据库技术大会(附PPT链接)

受疫情影响,第十一届中国数据库技术大会(DTCC2020)从原定的5月份,推迟到了8月份,再推迟到了12月份。尽管如此,依然没有减退国人对数据库技术的热情。2020年12月21日-12月23日,北京国际会议中心人头攒动,各大厂商争奇斗艳。在NoSQL技术专场,京东智能城市研究院的李瑞远博士给大家带来了《京东城市时空数据引擎JUST的架构设计与应用实践》的主题报告,受到了大家的广泛关注。以下为李瑞远...
06
09/2025
CIKM 2025 | 针对学习型布隆过滤器的通用自适应内存分配(附论文和源码)

存在性测试,即判断一个元素是否属于某个集合,在诸如数据库系统和网络应用等领域被广泛运用。布隆过滤器可以高效的完成该测试,但存在大数据集下内存开销大,假阳率过高等问题。学习型布隆过滤器通过将学习模型和布隆过滤器相结合,通过捕捉数据分布,缓解了上述困难。尽管现有研究针对部分参数的设计有了部分尝试,但如何协调学习模型和布隆过滤器的内存分配以进一步降低假阳率,仍面临许多挑战。本次为大家带来重庆大学时空实验...
29
06/2025
windows apache 2.4服务器限制单个ip的访问频率
1. 从网站https://www.apachehaus.com/cgi-bin/download.plx中下载Mod Limit IP Connection for Apache 2.4.x2. 将mod_limitipconn.so拷贝到apache安装目录下的modules目录下3. 在apache的httpd.conf中增加以下配置:ExtendedStatus On
Load...
08
04/2025
软件学报 | 浮点时序数据压缩综述(附论文、源码)

物联网技术的发展产生了海量的浮点时序数据, 这给存储和传输带来了巨大挑战。为此, 浮点时序数据压缩变得至关重要。其根据数据可逆性可以分为有损和无损压缩。此外,实时性应用的需求催生了流式压缩算法。先前的时序压缩综述论文存在梳理不全面、脉络不清晰、分类标准单一、未归纳较新的具有代表性算法等问题。本次为大家带来重庆大学Start Lab在软件学报最新收录的论文《浮点时序数据压缩综述》。一. 相关背景时序...
07
04/2025
SIGMOD 2025 | Serf: 流式误差有界浮点压缩(附论文和源码)

在物联网场景中,大量的浮点时间序列数据以流的方式生成,并在有限的带宽内传输,用于实时分析。为了提高效率,在传输前可以对数据进行压缩。但现有的浮点压缩方法要么是延迟较长的批处理压缩,要么是允许一定误差情况下压缩率差强人意的流式无损压缩。这两类算法都无法同时适应实时性要求和高压缩率要求。本次为大家带来重庆大学时空实验室和京东智能城市研究院联手在数据库领域顶级会议SIGMOD 2025发表的文章《Ser...
05
08/2023
流批一体化

开篇导语流批一体化(Stream-batch Integration)是一项重要的数据处理技术,在多个领域中具有广泛的应用潜力。尽管现有的流处理和批处理方法能够解决各自领域的问题,但是单独使用它们难以满足全面、实时的数据分析需求,同时还会带来开发、运维成本高昂的问题。流批一体化技术通过将实时数据流和批处理数据相结合,不仅能够实现更加全面、准确和实时的数据分析能力,从而为企业提供更加深入的洞察和决策...
22
05/2023
数据宝藏与精灵法师:探秘Elf擦除魔法的奇幻故事

在数字领域的奇幻王国中,大家视数据为宝藏。作为奇幻王国的国王,在他的宝库中,自然是有着无数的数据宝藏。这么多的数据宝藏,却让国王发难了。因为宝库有限,放不下这么多数据宝藏。因此,国王广招天下的精灵法师,希望借助他们的魔法,能在不损伤这些数据宝藏的前提下,缩小数据宝藏占的空间,从而让宝库中能装下更多的数据宝藏。在广招的精灵法师团队中,有一位年轻而聪明的精灵法师名叫艾尔弗,他以一种神奇的擦除魔法在精灵...
15
05/2023
数据压缩新利器!小精灵ELF助你高效存储与传输

存储空间不够用?网络传输太慢?想必每个人在生活中都会遇到这些问题。看着爆满的硬盘、焦急的等待数据的接受,更新设备?不是每个人都能承担这个成本。那不如尝试一下无损压缩?为了减少存储空间的占用,提高传输效率,START团队提出了一个高效的流式浮点类型数据无损压缩算法——“小精灵ELF”。利用小精灵平均可以将原本100GB的数据可以压缩到33GB。 ELF特点介绍 小精灵ELF是一种...
08
05/2023
无损时序压缩Elf+:压缩率再提升10%,压缩时间减少20%(附源码)

早期推文中介绍了Elf:基于擦除的浮点压缩算法,对于双精度浮点数的压缩有着很高的效率,尤其在压缩率方面相比Gorilla和Chimp128分别提高了50%和13%。观察到时间序列中的值通常有着相似的有效值位数,因此Elf算法有进一步的优化空间。本次为大家带来重庆大学时空实验室基于VLDB 2023工作《Elf: Erasing-based Lossless Floating-Point Compr...