Python2 str unicode小记

str与unicode

在Python,str与unicode是两种不同的类型。

string里的character是有多种编码方式的,比如单字节的ASCII,双字节的GB2312等等,再比如UTF-8。很明显要想解读string,必需知道string里的character是用哪种编码方式,然后才能进行。

Unicode code unit又是什么东西呢?一个Unicode code unit是一个16-bit或者32-bit的数值,每个数值代表一个unicode符号。在python里,16-bit的unicode,对应的是ucs2编码。32-bit对应的是ucs4编码。是不是感觉string里character的编码没什么区别?反正我现在脑子里就是这样一个印象:在Python里,ucs2或者ucs4编码的,我们叫做unicode object,其他编码的我们就叫做string。

继续阅读Python2 str unicode小记

Python包发布到PyPI的常用命令

Python包发布版本创建

  • python setup.py sdist:创建源码发布。
  • python setup.py install:安装。
  • python setup.py bdist_wininst:创建MS Windows安装版本。
  • python setup.py bdist_rpm:创建RPM安装版本。
  • python setup.py bdist --help-formats:查看可创建的发布版本格式。

Python包版本发布于PyPI

注意:每个文件上传后,即使删除该文件,也无法重新上传相同名称的文件,所以要谨慎上传!要想重新上传同名文件,只能”曲线救国”,如更新一次版本号(如从1.0.1更新成1.0.2),或者修改源代码发行包格式,如将tar.gz更改为zip压缩格式。

  • python setup.py register:PyPI新版本注册。
  • python setup.py sdist --formats=zip upload:上传Zip格式的源码发布。

继续阅读Python包发布到PyPI的常用命令

百度数据挖掘实习工程师一、二现场面试(深圳)

一面

项目

详细介绍项目。

现场手写代码

  • 字符串反转
  • 快排

Python

  • 如何提高Python的运行效率
  • 写一个简单的正则匹配表达式(将文本中的123.4匹配出来)

机器学习

  • KNN(分类与回归)
  • CART(回归树用平方误差最小化准则,分类树用基尼指数最小化准则)
  • Logistics(推导)
  • GBDT(利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的残差的近似值,拟合一个回归树)
  • 随机森林(Bagging+CART)
  • SVM与随机森林比较
  • 改变随机森林的训练样本数据量,是否会影响到随机森林学习到的模型的复杂度
  • Logistics与随机森林比较
  • GBDT与随机森林比较
  • 自己实现过什么机器学习算法
  • 推荐算法(基于用户的协同过滤,基于内容的协同过滤)
  • 如何做一个新闻推荐

继续阅读百度数据挖掘实习工程师一、二现场面试(深圳)

阿里巴巴电话面试2面总结_数据挖掘工程师(天猫事业部)

项目相关

  • 介绍项目
  • 项目相比别人有什么优劣
  • 项目的数据从哪里来
  • 项目的特征向量的归一化与异常处理
  • 项目的下载量
  • 目前在研究什么
  • 参加天猫大数据推荐算法成绩

机器学习

  • 线性分类器与非线性分类器的区别及优劣;
  • 特征比数据量还大时,选择什么样的分类器?
  • 对于维度很高的特征,你是选择线性还是非线性分类器?
  • 对于维度极低的特征,你是选择线性还是非线性分类器?
  • 如何解决过拟合问题?
  • L1和L2正则的区别,如何选择L1和L2正则?
  • 随机森林的学习过程;
  • 随机森林中的每一棵树是如何学习的;
  • 随机森林学习算法中CART树的基尼指数是什么?

算法

  • 如何找到第k大的数?

继续阅读阿里巴巴电话面试2面总结_数据挖掘工程师(天猫事业部)