Static Oneplus 不可控制论

21
May

New neural parser added to LTP

[Github] [Pre-trained Model]

We recently added a new dependency parser to LTP. This parser is a transiton-based neural network parser, which mainly based on Chen and Manning (2014). Besides the parser originally described in their work, additional...

[READ MORE]

29
Mar

ZGen v0.2.0 Released

[Sourceforge Project Home] [Github Mirror]

I’ve been working on the ZGen project since Sept. the last year. It’s a linearization system that constructs natural language sentences from bags of words, given optional input syntactic constraints. Depending...

[READ MORE]

10
Mar

A benchmark on mapping few keys

Recently, I’ve worked on optimizing my transition-based parser and came across such situation:

I need an associated, or key-value, structure to store the cached scored for each transition action at a certain state. In practice, the number of transition...

[READ MORE]

25
Apr

Parallel and HPC with Python (or numpy)

For guys working with natural language processing problems, it’s daily task to process tons of data. To handle the millions of lines of sentences, I would prefer C/C++ or Java in the past, especially at certain scenario like performing machine learning...

[READ MORE]

5
Aug

研一这一年吧

给这一年列一个时间表吧,这篇文章想写很久了,虽然有预感写出来又是满满的负能量。

2012年

8月-9月

写了一篇叫《基于序列标注的中文分词、词性标注模型比较分析》,投了一个学生会议。大概是想论证用分类方法做分词、词性标注这些序列性问题可以取得与序列标注模型类似的性能。还想强调分类速度比较快。不过实验并没有获得符合预期的结果。所以这篇论文的论点比较奇怪,不管是写还是修改都很痛苦。在后来被转投中文信息学报,我又不得不痛苦地改了一遍。

9月-10月

参加了微博分词的评测。最后提交的系统是一...

[READ MORE]

21
Jul

脱臼

昨天睡觉前,躺在床上打了个哈欠,结果一不小心下巴脱臼了。

下巴脱臼已经不是一次两次了。第一次脱臼好像是由于吃苹果张太大口,后来则以打哈欠打脱臼了居多。我把这种病症归咎于基因,因为印象中我妈好像也脱臼过。可能是骨骼的构造不合适,也可能是韧带的力度不够,不过这些一定是由基因决定的。由于接受了这种设定,我也就比较释然,重来没埋怨过苹果或者是哈欠。

出于多次脱臼的经验,我已经学会了一些基本的救治手段。一般是将下巴向左稍用力顶一下,感觉头骨错动,也可能会听到咯噔一声。如果运气好,脱臼就归位了。运...

[READ MORE]

18
Jun

实现一个更快一点的hashmap

这段时间在写parser,难免又碰到了特征映射的问题。去年毕设做分词、词性标注时,这部分是用__gnu_cxx::hash_map<string,int>来实现的。下表显示了几种数据集条件下的特征字典规模。

数据集 Ctb5 Ctb7 People’s Daily
数据规模 1.8W sent. 4.7W sent. 18.4W sent.
分词特征规模 203.1W 334.8W 774.9W
词性标注特征规模 158.7W 274.2W 751.3W

对于这个级别的数据量,在特征检索过程中,特征字典的...

[READ MORE]

13
Oct

小记博客重组织

oneplus.info这个域名和它使用的主机空间是我在2011年初买下的。到现在,就快有两年的时间了。两年之间,这个里产生了38篇博文,接受了2.4万次PV,其中《哈工大男女比例调研报告》和《关于一个点歌社交网络的构想》两篇得到了豆瓣九点首页的推荐。总的来讲,我对博客中提供的内容还是比较用心。

虽然这个博客的一直以来的表现也没什么差错,但是我却在很早以前就产生了重新组织网站结构的想法。建站之初,没什么经验(现在我也没什么经验),直接把wordpress安装在web根目录public_html...

[READ MORE]

6
Oct

实现一个线程安全的logging库

Introduction

Log是用来记录程序事件的一系列打印信息,和调试时的printf大法有点像。Log和我所接触的工作关系还是比较密切的。比方说,打印一下模型的加载时间、句子的解析速度、开发集上准确率什么的。由于接下来一段时间的工作需要写多线程,网上的logging库又不怎么习惯,所以计划造一个Log库的轮子。这篇文章中大概会讨论下面两方面内容:

  • 用singleton模式实现logging库
  • Singleton模式的线程安全

Singleton

单件(Singleton...

[READ MORE]

22
Jul

最大熵模型的简单实现

谈到最大熵,真的是一个妇孺皆知老少咸宜的好模型。 而且,网上确实已有大批量的论文、笔记、幻灯片介绍最大熵。 所以,这篇的重点放在如何实现一个简单的最大熵分类器上。

最大熵模型推导

机器学习的任务是从数据中学习知识。 我们做分类问题,看到的数据往往是每个实例对应一个类别。 比如说词性标注中一个词对应一个标注。 为了下面讨论的方便,将类别称为Outcome,将每个实例的上下文环境叫做Context。 实例被称为Event,一个实例是Outcome与Context的二元组。

为了表示数据,...

[READ MORE]


1 / 5 Next