阳光太仓人才网




-> 专题栏目 -> 专题报道 找资讯

太仓阳光人才网批百度:连分词都不会还搞什么人工智能

发布时间:2018-06-21 阅读次数:  

太仓阳光人才网批百度:连分词都不会还搞什么人工智能
该好好思考下方向了

    谷歌退出中国后,百度一家独大,曾经满怀热情迎接我们自己的搜索引擎的中国人却逐渐发现了百度和谷歌的不同,谷歌不断致力于技术的创新,同时要求自己发展的底线是“do not be evil”,如今智能手机的普及,很大的功劳在于安卓系统的出现和不断完善,而谷歌就是这个系统的缔造者,打破了苹果IOS的垄断。另一边呢,百度借着谷歌退出中国大陆,香港谷歌被墙的机会上位,然后却久久没有创新,一直在吃老本,靠着给钱就给排名的广告业务毫无底线的去敛财,曾经轰动一时的百度医疗广告门就是之一。

    智能手机的出现,移动互联网时代的来到,也没能让依旧低头数着广告钱的百度醒过来,2010年底,微信悄悄的就来了,很多人只是觉得微信不过是手机版的QQ,或者说是取代了短信和电话的部分功能,实际上远不止如此,腾讯的业务领域比百度更广,且其中却还有张小龙那样有技术、有追求,有远大抱负的人,如今基于微信的公众号、小程序正在有条不紊地布下一个大局,抢夺的就是“互联网入口”的地位。最早人们通过ip地址直接访问互联网,然后有了便于记忆的域名,yahoo不过是建立了一些域名的目录,就成了当时的大亨,然后出现了搜索引擎,之后搜素引擎一直占据互联网入口霸主地位,在国内,也就是百度。

    互联网入口,其实很容易理解,就是人们访问互联网的第一站,记得我在1995年刚开始上网的时候,拨号上网,拨通以后会自动打开“太仓视窗”这个页面,里面汇集了当时并不丰富的一些网站的链接,其实也就是一个分类目录。我在2000年参加工作以后,才知道了谷歌,之后一直用谷歌,直到在国内打不开……,这不是崇洋媚外,因为在搜索一些技术术语,技术文章时,确确实实发现百度上怎么输入关键词都不能搜索到满意的结果,两个搜索引擎在对搜索用户的意图的理解上确实还有很大的差距。回到“互联网入口”的话题,自从微信诞生以来,公众号,小程序的逐步推进,我们发现,移动用户的互联网入口已经不是搜索引擎了,而同时,移动互联网用户又大大超越了非移动端的用户。

    如今,李彦宏又说百度将致力于发展人工智能技术,还要搞无人驾驶汽车,但是似乎雷声大,雨点小,而2018年5月18日,作为百度人工智能发展方向的倡导者,百度的副总裁陆奇辞职离开了百度,让百度更加前途未卜。我之前也从中国交通现状,以及社会心理的角度出发,写过一篇文章,认为无人驾驶汽车即便技术成熟了但依旧很难普及,原因是一些社会问题。从而我也预言,百度、阿里、腾讯这三个巨头中,百度有可能将成为首个被时代淘汰的“前巨头”。当然,除非拿出实质性的行动出来,开拓新的领域。

    而今天,我又要批一下百度,“你连分词都不会,还搞搜索引擎?还搞人工智能?”。事情起因是太仓市2018年夏季大型人才交流会暨毕业生“双选”洽谈会,将于7月7日在太仓市明德高级中学举办,为了更好的发布这个消息,我们也选择了在百度发布广告,然而,令人不可思议的一幕发生了,我们在百度广告后台拟定好了需要发布的内容,提交后居然不能通过审核,原因是:你所提交的内容涉及商标侵权(商标:德高)。真是让人哭笑不得啊。“太市明德高中”、“太仓市明德高级中学”这是本次举办招聘会的地址,从文字包含的角度来说,确实包含了“德高”两个字,但是从中文分词的角度,“太仓市明德高级中学”应该是分成“太仓市 | 明德 | 高级中学”。这让我想起了几个笑话,说是学校老师让同学们用“如果”造句,小明造句:“白开水不如果汁好喝。”老师让用“难过”造句,小明造句:“我家门口有条沟,很难过去。”,这样的造句,都包含了要求的词,但是能算对吗?这就是分词,中文分词是人工智能领域的基本技术之一,是人工智能在与用户互动时,识别用户意图的重要手段之一。

    其实,百度怎么可能没有中文分词技术,只是百度如今“身材臃肿”,对待不断改变和日益增长的人民群众的新需求根本无暇去做出改变和革新,拿这个“德高”商标保护功能来说,它仅仅就是包含匹配,只要你的广告中包含了“德高”就算商标侵权,而如果像我们这个“太仓市明德高中”这个句子要能发布,就需要后台截图,写材料,盖章,发给百度客服,提交审核,漫长和复杂的流程,类似的问题我们在2014年就发现了,4年来,百度未做出任何改进,如果我来设计,哪怕不用分词技术,其实也可以增加一个“例外词”功能,在数据库中,品牌保护的一条记录里,“德高”作为品牌词,然后增加一个字段叫做“例外词”,例外词里可以加入:“明德高级中学”和“明德高中”,这样,如果广告语匹配到保护商标,还要看看是否是例外词,如果是例外词,就不触发商标保护规则。这样的改动,我来做的话,一天之内就能完成。

    以小见大,百度这个企业的各个产品线,以及各个级层的工作人员,他们的素质、能力、热情、态度等可见一斑,企业大了,规矩多了,每个员工都是按部就班,像机器人一样做事,不求变革,底层的问题在各种流程中被逐渐消磨掉,无法传达到高层,高层的领导,眼里只有财务报表,只看中盈亏,没有创新的勇气和动力,也没有用心经营的毅力,只是维持现状的苟活着。我写这些,也不是想要诋毁百度,毕竟瘦死的骆驼比马大,何况它还没有瘦死,如果能发现问题,把事情细节做好,且真正用心去做好用户体验,机会总还是有的。

测试一下阳光太仓人才网的分词功能,请在文本框内填写希望分词的中文句子。

分词结果:(说明:word=词组 off=所在位置 len=字节长度 idf=逆文本词频 attr=词性)
Array
(
    [0] => Array
        (
            [word] => 
            [off] => 0
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [1] => Array
        (
            [word] => 
            [off] => 2
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [2] => Array
        (
            [word] => 
            [off] => 4
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [3] => Array
        (
            [word] => 
            [off] => 6
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [4] => Array
        (
            [word] => 7
            [off] => 8
            [len] => 2
            [idf] => 0
            [attr] => un
        )

    [5] => Array
        (
            [word] => 
            [off] => 10
            [len] => 2
            [idf] => 0
            [attr] => n
        )

    [6] => Array
        (
            [word] => 7
            [off] => 12
            [len] => 2
            [idf] => 0
            [attr] => un
        )

    [7] => Array
        (
            [word] => 
            [off] => 14
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [8] => Array
        (
            [word] => 
            [off] => 16
            [len] => 2
            [idf] => 0
            [attr] => #
        )

    [9] => Array
        (
            [word] => 
            [off] => 18
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [10] => Array
        (
            [word] => 
            [off] => 20
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [11] => Array
        (
            [word] => 
            [off] => 22
            [len] => 2
            [idf] => 0
            [attr] => un
        )

    [12] => Array
        (
            [word] => 
            [off] => 24
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [13] => Array
        (
            [word] => 
            [off] => 26
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [14] => Array
        (
            [word] => 
            [off] => 28
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [15] => Array
        (
            [word] => 
            [off] => 30
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [16] => Array
        (
            [word] => 
            [off] => 32
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [17] => Array
        (
            [word] => 
            [off] => 34
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [18] => Array
        (
            [word] => 
            [off] => 36
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [19] => Array
        (
            [word] => 
            [off] => 38
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [20] => Array
        (
            [word] => 
            [off] => 40
            [len] => 2
            [idf] => 0
            [attr] => un
        )

    [21] => Array
        (
            [word] => 
            [off] => 42
            [len] => 2
            [idf] => 0
            [attr] => g
        )

    [22] => Array
        (
            [word] => 
            [off] => 44
            [len] => 2
            [idf] => 0
            [attr] => @
        )

    [23] => Array
        (
            [word] => 
            [off] => 46
            [len] => 2
            [idf] => 0
            [attr] => un
        )

    [24] => Array
        (
            [word] => 
            [off] => 48
            [len] => 2
            [idf] => 0
            [attr] => ng
        )

    [25] => Array
        (
            [word] => 
            [off] => 50
            [len] => 2
            [idf] => 0
            [attr] => @
        )

)

 

专题报道 (最近更新)

正在打开...
【提出建议、反馈错误,得红包奖励】

微信扫码访问获得更好体验
【营业执照、人力资源服务许可证】

刷新

返回