研究领域
近几年,我的研究兴趣主要集中在数据智能和时序数据处理等领域。
NL2SQL是我们近期的主要阵地之一。我们的观点:数据的语义(当前universe的语义空间)对提升翻译的准确性具有重要作用。围绕这一主线,我们开展了一系列研究工作:
Yuankai Fan, Zhenying He, Tonghui Ren, Dianjun Guo, Lin Chen, Ruisi Zhu, Guanduo Chen, Yinan Jing, Kai Zhang, X.Sean Wang. GAR: A Generate-and-Rank Approach for Natural Language to SQL Translation. ICDE 2023.
Yuankai Fan, Tonghui Ren, Zhenying He, X.Sean Wang, Ye Zhang, Xingang Li. GENSQL: A Generative Natural Language Interface to Database Systems. ICDE 2023 (Demo)
Yuankai Fan, Tonghui Ren, Dianjun Guo, Zhigang Zhao, Zhenying He, X. Sean Wang, Yu Wang, Tao Sui. An Integrated Interactive Framework for Natural Language to SQL Translation. WISE 2023.
上述三个工作是我们2022年周期的产出。GAR是其中最重要的工作——通过这个工作,我们揭示了数据空间语义对翻译准确性提升的重要性。当然,我们也给了我们的解法:利用“数据库测试样例”进行数据操作语义的提取。这一周期的几件标志性的事件包括:我们在金融领域NL2SQL的全国比赛中获得第二名(作为赛事主办方之一的银联开启了和我们的合作);感谢银联商务在这个周期对我们科研工作提供的项目经费支持和业务场景支持。
2023年,是我们在这个赛道快速进步的一年,我们的主要产出如下:
Yuankai Fan, Tonghui Ren, Can Huang, Beini Zheng, Yinan Jing, Zhenying He, Jinbao Li, Jianxin Li. A Confidence-based Knowledge Integration Framework for Cross-domain Table Question Answering. KBS 2024, V306, 112718.
Yuankai Fan, Zhenying He, Tonghui Ren, Can Huang, Yinan Jing, Kai Zhang, and X. Sean Wang. MetaSQL: A Generate-and-rank Framework for Natural Language to SQL Translation. ICDE 2024.
Tonghui Ren, Yuankai Fan, Zhenying He, Ren Huang, Jiaqi Dai, Can Huang, Yinan Jing, Kai Zhang, Yifan Yang, X.Sean Wang. PURPLE: Making a Large Language Model a Better SQL Writer. ICDE 2024.
Yuankai Fan, Can Huang, Tonghui Ren, Zhenying He, X. Sean Wang, Xianglian Wu, Yue Wang, Jiaming Li, Yifan Yang. Gar++: Natural Language to SQL Translation with Efficient Generate-and-Rank. APWeb/WAIM 2024.
这个阶段,我们最主要的两个工作是MetaSQL和Purple。MetaSQL motivated by 审稿人对GAR的comments;当GAR被录用后,我们快速完成了MetaSQL的工作——这算是意料之中的收获。Purple有点曲折——在2023年4月之前,我自己的判断是LLM想在这个赛道上形成好的工作,还需要2年左右的时间;阿尔伯塔的DIN-SQL确改变了我的认知,然后就是浙大的C3。这两个工作确实改变了我个人的很多认知。这个周期,我们小组的讨论频率在2-3天(讨论->实验->分析->调整->...),Purple的正式启动到第一次投稿,不到一个月的时间(虽然我们前期也进行了一些前期验证,但还是非常赶),我们没写在论文里的一个观点是:现阶段,由于各种原因,LLM可能还不适合做“问答题”,那我们应该精心控制(当然,如何控制要我们来仔细研究)LLM来完成面向局部任务的“选择题”。在Purple中,我们给LLM的选择题是:在一系列demostration里选若干可能匹配问题的SQL骨架出来。
这期间,有个小的遗憾,为了验证Purple的效果,我们提交了Spider 1.0的测试,也拿到的Spider官方的测试结果,由于论文未来投稿等的双盲要求需要满足,我们没来得及把Purple的结果去挂榜(Spider 1.0封榜了... 中间只差了半个月不到的时间)。甚憾!!
星环在这个周期对我们进行了科研支持。同星环一起,我们也申报了2024年吴文俊技术发明奖。
2024年,我们在这个赛道的主要产出如下:
Yuankai Fan, Tonghui Ren, Can Huang, Zhenying He, X. Sean Wang. Grounding Natural Language to SQL Translation with Data-Based Self-Explanations. ICDE 2025.
Tonghui Ren, Chen Ke, Yuankai Fan, Yinan Jing, Zhenying He, Kai Zhang, X. Sean Wang. The Power of Constraints in Natural Language to SQL Translation. VLDB 2025.
这两篇工作都是我个人比较喜欢的工作。如果非要找一篇更喜欢的,那就是VLDB这篇吧。这篇工作源自小组日常的工作习惯(错例分析);通过错例分析,我们注意到有若干错与数据本身的语义相悖。当然,不管是安全的考虑,还是代价的考虑,我们不可能把全量数据喂给LLM。所以,我们最初是想通过数据的语义做一轮bug correction(印象中,彤辉把论文的题目也叫bug correction),但这不够深刻。当我把题目改成The power of constraints时,彤辉也一直“规劝”我要本份——担心引起审稿人的不适。中间过程不再细表,但题目还是留下来了。虽然,这篇工作离我的期望(技术方面)还有不小的差距,但总算把constraints的观点推出来了(幸甚幸甚)。
----------------------------------------------------------------------------------------------------------------------------------------------
感谢小伙伴们若干个日日夜夜,让我们可以持续不断地发出自己的声音!期间,有太多的段子:
段子一:HC心血来潮,躲着我篡了篇准备投DA****的论文(可能是在讨论过程中,技术上被我拷问过多,论文不再让我去挑刺了)。机缘巧合,刚好遇到了HC教育师弟的场景:“不就是DA****么,... ...”这件事,我很不喜欢——我们的作品,必须要认真对待。至今,HC的那句“不就是DA****么”,变成了大家督促自己认真时使用的经典“错例”!
规格严格非常重要!
段子二:TH在激励JF时,使用的话术我们小组投的I***还没有被毙过。这是句满是血泪的结论,有点类似于战斗机的机翼满是弹痕/机舱和邮箱上却很少的梗。数据上,我们这两年投I***的文章好像都中了;可这些文章大多是被SIGMOD和VLDB杀回来的
。DB领域,每年全球800左右的顶会论文数,想想还是头皮发麻的。这两年,我们的产出算是应了那句“天道酬勤”。
资质不管够不够,勤劳必须凑!
段子三:TH给JF定了一个Flag,“JF,这已经有4篇S*****体量了!”还好没有在喝水,不然真的会笑喷。虽然有玩笑的成分,但我们最新在做的工作确实有个量(份量 and 数量)。
希望就在不远的前方!
也许,这个赛道的故事还会继续下去。有心情时,再来续写吧!
专利
暂无内容
著作成果
暂无内容
科研项目
暂无内容