guangzhou



shanghai

Recent posts:
Blog index
About
RSS

Hadoop in Action–获取专利数据集

July 01, 2015     Hadoop   811   

原创文章,转载请注明: 转载自工学1号馆

这篇文章主要下载一些规模适中的数据集,为后面的hadoop实战做数据准备

最近在看《Hadoop in Action》这本书,作者: Chuck Lam,中文版翻译为《Hadoop实战》,是一本比较基础的关于hadoop但偏重于实战的好书,本打算买一本中文版的,但是看到书评得知翻译很烂,于是乎就直接下载了英文版的电子书来仔细研究实战一番。

书中的前三章主要介绍hadoop的原理以及安装方法,比较基础,适合hadoop初学者学习,这里我直接从第四章开始记录我的学习过程与一些思考

http://www.nber.org/patents/ 上有专利相关的s实验测试数据。主要下载两个数据集;

专利引用数据集

http://www.nber.org/patents/acite75_99.zip

压缩后acite75_99.txt的大小:251MB

专利描述数据集:

http://www.nber.org/patents/apat63_99.zip

压缩后apat63_99.txt的大小:225MB

输入下面的命令获取这两个数据集:
wu@ubuntu:~$ wget http://www.nber.org/patents/acite75_99.zip
wu@ubuntu:~$ wget http://www.nber.org/patents/apat63_99.zip

解压缩:

wu@ubuntu: unzip acite75_99.zip 
wu@ubuntu: unzip apat63_99.zip

查看每个数据集的行数:

wu@ubuntu: cat cite75_99.txt | wc -l
16522439
wu@ubuntu: cat apat63_99.txt | wc -l
2923923

专利引用数据有 16522439 条。专利描述有 2923923 条。

查看acite75_99的前5条数据:

wu@ubuntu: head -n 5 cite75_99.txt

“CITING”,”CITED”

3858241,956203

3858241,1324234

3858241,3398406

3858241,3557384

上面显示的是专利之间的引用关系。每行表示一条数据。前面的数字是专业号,后面是被引用的专利号。所以上面的数据可以看到,3858241 引用了 其它的四个专利。当然后面还有很多数据,这其实就是一个多对多的关系。

查看apat63_99的前5条数据:

wu@ubuntu: head -n 5 apat63_99.txt

“PATENT”,”GYEAR”,”GDATE”,”APPYEAR”,”COUNTRY”,”POSTATE”,”ASSIGNEE”,”ASSCODE”,”CLAIMS”,”NCLASS”,”CAT”,”SUBCAT”,”CMADE”,”CRECEIVE”,”RATIOCIT”,”GENERAL”,”ORIGINAL”,”FWDAPLAG”,”BCKGTLAG”,”SELFCTUB”,”SELFCTLB”,”SECDUPBD”,”SECDLWBD”

3070801,1963,1096,,”BE”,””,,1,,269,6,69,,1,,0,,,,,,,

3070802,1963,1096,,”US”,”TX”,,1,,2,6,63,,0,,,,,,,,,

3070803,1963,1096,,”US”,”IL”,,1,,2,6,63,,9,,0.3704,,,,,,,

3070804,1963,1096,,”US”,”OH”,,1,,2,6,63,,3,,0.6667,,,,,,,

上面的数据是一个专利的描述。各字段分别是:PATENT 专利号,GYEAR 批准年,GDATE 批准日,APPYEAR 申请年,COUNTRY 第一发明人国家,POSTATE 第一发明人所在州(如果国家为美国),ASSIGNEE 专利权人,ASSCODE专 利权人类型,CLAIMS 声明数目,NCLASS专利类型

如果文章对您有帮助,欢迎点击下方按钮打赏作者

Comments

No comments yet.
To verify that you are human, please fill in "七"(required)