您当前的位置:首页 > 计算机 > 编程开发 > Python

大数据开放平台汇总(国内+国外)

时间:03-29来源:作者:点击数:

AI 算法基本是开源的(开放源代码),哪怕并不了解算法原理,也可以调用文字识别、图像识别、人脸识别、语音识别的算法。比如,语音识别:

  • 利用声学信息提高语音的识别率;
  • 利用自然语言中的信息,消除语音的错误,提高文字的识别率。

这样的算法是靠数据喂出来的,信息就是钱......当我们无法收集到他人所没有的信息时,我们的算法再好,也无法很好的消除不确定性。要消除不确定性,就需要不断的寻找新的信息。

可惜我们并没有训练算法的大量数据,这些数据往往掌握在大企业里,如:谷歌/百度有搜索数据,Facebook/腾讯有社交数据,亚马逊/阿里有商业行为数据……

所以,我们在此汇总了一些开放的大数据平台, 可以做数据的获取和分析。

1. 世界级大数据开放平台

  • data.worldbank:世界银行,全球人口、大量经济、发展指标的统计数据。
  • Google Trends:互联网搜索行为、热门新闻报道。
  • Google open data:数据极多,此外可视化数据之间的相关性。
  • imf:国际货币基金(余额宝就是货币基金)组织数据:国际货币基金组织公布的有关国际金融,债务利率,外汇储备,商品价格和投资的大数据。
  • markets.ft:世界各地的金融市场的最新信息,包括股票价格指数,商品和外汇。
  • UN comtrade database:全球贸易大数据平台。

2. 国家级大数据平台

3. 经济/金融大数据平台

Quandl:经济和金融数据,有助于建立预测经济指标或股票价格的模型。理杏仁:提供A股、B股、港股、美股以及行业、指数等历史估值数据、财报数据、博弈数据。天天基金网 查看基金业绩,规模、持仓、基金经理的基本信息。

4. 机器学习大数据平台

机器学习入门阶段:

机器视觉:

情绪分析:

自动驾驶:

  • Berkeley DeepDrive BDD100k:带注释的图像来自纽约和旧金山地区
  • 度娘Apolloscapes:定义了26种不同物体,如汽车、自行车、行人、建筑物、路灯等。
  • LISA:交通标志、车辆检测、交通信号灯和轨迹模式。

自然语言处理:

  • HotspotQA:具有自然、多跳问题的问答数据集,具有支持事实的强大监督。
  • 亚马逊评论
  • 维基百科:有400多万篇文章、近19亿个单词,可按段落、短语或段落进行搜索。
  • Spambase:垃圾邮件过滤数据集

提示:数据的雷区

一般能打起数据官司的,不是侵犯了【隐私】就是【版权】。

如果要做与个人相关的研究,敏感信息要脱敏;如果是传统企业,那么多年,积累下来的数据就是一笔非常宝贵的财富。

可以选择和缺乏数据,但有技术的企业合作,比如美国的 Splunk公司。但是,一定要考虑的是,这份数据的所有权。

中国网络安全法:https://baike.baidu.com/item/中华人民共和国网络安全法/16843044

方便获取更多学习、工作、生活信息请关注本站微信公众号城东书院 微信服务号城东书院 微信订阅号
推荐内容
相关内容
栏目更新
栏目热门