Kopei's Home

Deep Learning Book Notes--Chapter 5

SummaryStatistical learning theory tells us:如果测试集和训练集都是从一个叫data generating process的数据集中产生, 我们可以做一些假设, 测试集和训练集将相互独立并且以相同的概率分布. 有了这个假设我们才能对训练集和测试集误差做数学上研究. 取决机器学习算法性能的因素是: 尽可能的减少训练误差使测试误差尽可能接近训练误差 ...

2018-10-04

AI

AI

扩展数据库注意事项

关系型数据库扩展是一个永恒的话题, 尤其是partitioning和一致性方面的问题. 以下结合网上大神资料,做一个大致的总结. 索引想要快速查询, 必须建立合适的索引. 检查经常查询的sql语句, 分析sql是否使用了正确的索引十分重要. 如mysql可以临时开启general_log一两天, 查出使用最频繁的sql, 使用explain sql查看查询执行计划, 然后可以确定是否需要加索...

2018-10-03

database

db

MongoDB的架构

前言最近尝试用MongoDB替换Mysql，由于Mysql的写能力限制， 32C128G的实例同时写入1M的数据CPU飙升，更不用说如果是并发的情况。MongoDB通过sharding能够很好地解决写能力扩展的问题, 故作一篇网上大神博客的小结. MongoDB的架构大致如下图所示(v3.2): 与RBDMS的主要区别MongoDB和RDBMS的主要区别在于： RBDMS的数据记录是平...

2018-09-24

database

mongo

Pandas的常用函数

前言Pandas有一些常用方法, 可以作为回调函数用于其它函数. pandas.DataFrame.reindexreindex方法用于把DataFrame按新的索引转化, 同时可选填充空值或者其他方法(如ffill, 按前项填充). 默认情况下, 重新索引过的DataFrame会复制原来DataFrame, 除非索引没有变或者设置copy=False. 12345678910111213&...

2018-09-17

python

python, pandas

Pandas的数据结构

前言基本上, Pandas的Series沿袭了Numpy的设计, 是一维数组和数组的索引, 和Numpy不同的一点是这个一维数组可以是异构的,比如数字int和字符串混在一起, 这个时候数组的类型是object. 而DataFrame是为了处理表格和异构多维的数据. Series可以用python的list初始化一个Series, 也可以用python的Dict初始化一个Series. 如果使...

2018-09-16

python

python, pandas

Pandas的Groupby

前言一般需要对数据做分割/处理/合并的时候会使用groupby, groupby的意思类似sql语句的分组. 对一个DataFrame做分割、处理、合并的过程一般如下图所示，通过这样的流程能做到聚合数据的能力。分割官方叫split, 是把数据依照某种条件分组. 对一个DataFrame使用groupby就达到了split. 1234567891011121314151...

2018-08-31

python

python

Luigi基础概念

基础模块想要构建一个基本的Luigi工作流, 需要创建Task和Target类, 还有Parameter类.使用这些类来定义任务的好处是在代码里定义依赖, 而不是使用DSL. TargetTarget是Task output返回的结果. Target类对应磁盘上的一个文件, HDFS上的一个文件或者某种checkpoint(比如数据库的条目). 理论上只需要实现exists方法,用于返回文件...

2018-07-20

python

python

MySQL 5.7 性能调优

前言最近在使用new relic监控发现有个sql update花了30s, 于是开启了数据库优化的路径… 优化原则数据库性能优化有两个层面: 数据库本身层面和硬件层面. 两个层面的优化原则各不相同数据库本身优化原则: 表结构是否合理? 更新较多的应用表设计时需要设置多表但是较少的列. 查询较多的应用应该设置较少的表但是列较多. 索引是否设置合理? 存储引擎是否选择合理列的类型是否...

2018-06-27

database

mysql

使用阿里云的批量计算做SGE

前言阿里云批量计算支持SGE集群, 版本是GE6.2, 只支持centos. 使用aliyun镜像市场已经打包好的镜像可以方便的起一个集群, 然后使用batchcompute_sgesdk管理和定制自己想要的sge集群特性, 比如动态扩展执行节点. SGE是什么?Sun Grid Engine (SGE)是一个经典的UNIX批量计算调度系统. SGE可以使用网格有效地利用计算资源, 把节点的...

2018-05-14

cloud

cloud

Read more使用阿里云的批量计算做SGE

阿里云和aws的网路特点

本文主要介绍aws网络产品, 并对比阿里云的产品阿里云高速通道支持不同区域vpc直连，这个比aws的vpc peering好， vpc peering只能用于同一区域，且是不同ip段连接。aws每个区域的默认 VPC 数量是5个, 每个vpc默认子网有200个, VPC 的网段从/16 到 /28.aws的弹性网路接口（ENI)，是一个虚拟网卡，只能用于VPC中的实例。阿...

2018-05-06

cloud

cloud