【python爬虫】爬取Bing词典的单词存到SQLite数据库
爬取Bing词典的单词
打算做一个单词相关的app自己用,那词典从何而来呢? 想到了用爬虫。爬哪里的数据呢? 个人比较喜欢微软的东西,所以打算从Bing翻译爬取单词
Bug
单词格式
Bing词典单词页面大概分了几个模块
音标phonetics
音标有美式usa和英式uk
翻译translations
翻译分词性和翻译
时态tenses
时态分 时态类型和单词 比如 过去分词:acquainted
近义词
词性、单词……
反义词
词性、单词……
Advanced E-C
E-C
例句Sample examples
源码
源码运行需要有一个SQLite型数据库test.db,里边有一个表dictionary 代码运行过程会在test.db中创建其他的表,比如phonetics音标表,translations翻译表……具体什么结构朋友们运行自己看吧 说到SQLite数据库,我推荐大家用SQLite Expert Professional这个可视化界面,当然也可以用navicat
再次说明,我的单词是从本地数据库SQLite中取得,以前还从文件中取过。
单词怎么来的?
从文章中取出来的。 我还有一个python代码,功能是读取txt文件去除其中的所有单词并去重,存到文件或SQLite数据库中。最初是下载了好多英文小说,但是取出的单词有些仅仅是字母的序列,没有任何意义。后来又网上找到了常用七千多个单词的txt和十万个单词的txt,从其中取出的单词一般就没有问题了。