SummaryStatistical learning theory tells us:如果测试集和训练集都是从一个叫data generating process的数据集中产生, 我们可以做一些假设, 测试集和训练集将相互独立并且以相同的概率分布. 有了这个假设我们才能对训练集和测试集误差做数学上研究.
取决机器学习算法性能的因素是:
尽可能的减少训练误差
使测试误差尽可能接近训练误差
...
关系型数据库扩展是一个永恒的话题, 尤其是partitioning和一致性方面的问题. 以下结合网上大神资料,做一个大致的总结.
索引想要快速查询, 必须建立合适的索引. 检查经常查询的sql语句, 分析sql是否使用了正确的索引十分重要. 如mysql可以临时开启general_log一两天, 查出使用最频繁的sql, 使用explain sql查看查询执行计划, 然后可以确定是否需要加索...
前言最近尝试用MongoDB替换Mysql, 由于Mysql的写能力限制, 32C128G的实例同时写入1M的数据CPU飙升, 更不用说如果是并发的情况。MongoDB通过sharding能够很好地解决写能力扩展的问题, 故作一篇网上大神博客的小结. MongoDB的架构大致如下图所示(v3.2):
与RBDMS的主要区别MongoDB和RDBMS的主要区别在于:
RBDMS的数据记录是平...
前言Pandas有一些常用方法, 可以作为回调函数用于其它函数.
pandas.DataFrame.reindexreindex方法用于把DataFrame按新的索引转化, 同时可选填充空值或者其他方法(如ffill, 按前项填充). 默认情况下, 重新索引过的DataFrame会复制原来DataFrame, 除非索引没有变或者设置copy=False.
12345678910111213&...
前言基本上, Pandas的Series沿袭了Numpy的设计, 是一维数组和数组的索引, 和Numpy不同的一点是这个一维数组可以是异构的,比如数字int和字符串混在一起, 这个时候数组的类型是object. 而DataFrame是为了处理表格和异构多维的数据.
Series可以用python的list初始化一个Series, 也可以用python的Dict初始化一个Series. 如果使...
前言一般需要对数据做分割/处理/合并的时候会使用groupby, groupby的意思类似sql语句的分组. 对一个DataFrame做分割、处理、合并的过程一般如下图所示, 通过这样的流程能做到聚合数据的能力。
分割官方叫split, 是把数据依照某种条件分组. 对一个DataFrame使用groupby就达到了split.
1234567891011121314151...
基础模块想要构建一个基本的Luigi工作流, 需要创建Task和Target类, 还有Parameter类.使用这些类来定义任务的好处是在代码里定义依赖, 而不是使用DSL.
TargetTarget是Task output返回的结果. Target类对应磁盘上的一个文件, HDFS上的一个文件或者某种checkpoint(比如数据库的条目). 理论上只需要实现exists方法,用于返回文件...
前言最近在使用new relic监控发现有个sql update花了30s, 于是开启了数据库优化的路径…
优化原则数据库性能优化有两个层面: 数据库本身层面和硬件层面. 两个层面的优化原则各不相同
数据库本身优化原则:
表结构是否合理? 更新较多的应用表设计时需要设置多表但是较少的列. 查询较多的应用应该设置较少的表但是列较多.
索引是否设置合理?
存储引擎是否选择合理
列的类型是否...
前言阿里云批量计算支持SGE集群, 版本是GE6.2, 只支持centos. 使用aliyun镜像市场已经打包好的镜像可以方便的起一个集群, 然后使用batchcompute_sgesdk管理和定制自己想要的sge集群特性, 比如动态扩展执行节点.
SGE是什么?Sun Grid Engine (SGE)是一个经典的UNIX批量计算调度系统. SGE可以使用网格有效地利用计算资源, 把节点的...
本文主要介绍aws网络产品, 并对比阿里云的产品阿里云高速通道支持不同区域vpc直连,这个比aws的vpc peering好, vpc peering只能用于同一区域,且是不同ip段连接。aws每个区域的默认 VPC 数量是5个, 每个vpc默认子网有200个, VPC 的网段从/16 到 /28.aws的弹性网路接口(ENI),是一个虚拟网卡,只能用于VPC中的实例。阿...