Dialogue.moe 动画对白全文检索工具

日期 : 2020-07-28 21:33:55



简单来说就是查找对白的出处,与saucenao和whatanime类似,不过这个是检索对白的
能检索到具体的动画、集数和具体时间戳(由于没有人力去一个个确认,所以匹配出的动画和集数仅供参考,具体以下面的字幕文件名为准)
支持在特定动画中进行检索,支持去重

字幕文件都是从网上爬取的,目前数据库里有7700多个动画是有字幕的,有6500W多条对白
全文检索是用es实现的,服务器很烂,所以有点慢 求不要把服务姬弄疼了

其实不管是图像检索还是文本的全文检索,都已经有很成熟的算法了。麻烦的还是在于数据收集整理方面
由于文本容易构造,且存在跨作品的情况,所以对白检索能玩的地方就比画面检索多很多
除了可以根据文本在特定动画中检索其出现的时间戳,还可以:
1 、检索对白出现次数,比如千反田一共说了多少次“我很好奇”这种问题
2、 跨作品检索同一句对白,万恶之源到底是谁
3、 帮助寻找特定场景,比如你想做有关下雪的AMV,却不知道去哪找相关的视频素材,就可以以“雪”作为关键词去检索
4、 文本数据要比图像数据更好使用,一方面可以进行分词做些统计分析...
       另一方面由于前后的对白是存在逻辑关系的,因此可以拿来训练一些对话模型...
等等


一些碎碎念:
这个项目本来是我另外一个点子的副产品,那个点子做不下去了就想着搞点别的
数据收集整理用了一个星期,然后就进考期了,考完了又花了一星期现学了一下vue,顺便做了一下前后端 不务正业忙这个项目真是罪恶
前端真的丑,移动端适配更丑,先这样了求轻喷

这个项目应该会长期维护下去...吧  后续还会继续完善功能,以及拓展出别的点子
在毕业之前寒酸学生是没啥钱买好服务器了,如果用的人比较多的话,可能要么把之前做的bgmtools给停掉,或者学别人那样开启打钱功能了
由于.moe域名在大陆过不了审核,而国外的服务器又比较贵,同时速度捉急也容易被墙 然后大陆内我还有学生优惠,所以最后是把域名解析到香港的土豆服务器,然后再转发回大陆的服务器这样绕圈子,不知道各位有没有什么更好的解决办法

还有一些想说的都写在网站里了,工地英语见谅 暂时先啰嗦到这里吧
照例开源以及放出数据文件,https://github.com/windrises/dialogue.moe
照例求star以及求分享扩散!

标签 :