区块链技术博客
www.b2bchain.cn

删除基于单词计数的关键字来自大量python数据框 – python程序员分享

本文介绍了删除基于单词计数的关键字来自大量python数据框 – python程序员分享,有助于帮助完成毕业设计以及求职,是一篇很好的资料。

对技术面试,学习经验等有一些体会,在此分享。

如果我有41,000行的 df 数据框,则包含成千上万个单词,例如 df :

column1                                                                   column2 better spotted better rights rights rights fresh fresh rights rights      2015 better rights reserved                                                    2016 better                                                                    2015 better horse                                                              2014 

使用以下代码,我得到了从 df df2 的每个单词的出现频率:
df2 = df['column1'].str.split(expand=True).stack().value_counts()
我的 df2 看起来像这样:
keywords counts
spotted 1
better 5
fresh 2
rights 6
horse 1
reserved 1

然后,如何删除 df 中的所有关键字,其的计数是 df2 的5倍以下,因此 df 如下所示:

column1                                           column2 better better rights rights rights rights rights  2015 better rights                                     2016 better                                            2015 better                                            2014 

我最初的尝试是像这样从 df2 制作关键字列表:

ListKeywords = ['spotted', 'fresh', 'horse', 'reserved'] 

然后使用以下代码从 df 中删除 ListKeywords 中的所有单词:

df['column1'] = df['column1'].apply(lambda x: ' '.join([word for word in x.split() if word not in (ListKeywords)])) 

然后我很沮丧,因为我有15,000个关键字,其中所有行的单词数都低于5倍。这意味着我必须将那15,000个关键字放入 ListKeywords 中,这很疯狂。

有人可以帮助我摆脱困境吗?谢谢

参考方案

尽管创建了df2,但在value_counts之前使用stack ed系列更容易。这允许您过滤它,然后str.join仅返回要保留的单词。

s = df['column1'].str.split(expand=True).stack()  # Keep only words with frequency above specified threshold cutoff = 5 s = s[s.groupby(s).transform('size') >= cutoff]  # Alignment based on original Index df['column1'] = s.groupby(level=0).agg(' '.join) 
                                            column1  column2 0  better better rights rights rights rights rights     2015 1                                     better rights     2016 2                                            better     2015 3                                            better     2014 

据您自己所知,如果使用value_counts DataFrame,则可以将其作为子集并仅通过指定截止值来生成ListKeywords。但是,我们已经使用split'column1'系列来获取计数,因此在此处重新进行此计算效率很低。

df2 = df['column1'].str.split(expand=True).stack().value_counts()  cutoff = 5 ListKeywords = df2[df2 >= cutoff].index #Index(['rights', 'better'], dtype='object')  df['column1'].apply(lambda x: ' '.join([i for i in x.split(' ') if i in ListKeywords])) 

起始数据

df = pd.DataFrame({'column1': ['better spotted better rights rights rights fresh fresh rights rights',                                'better rights reserved', 'better', 'better horse'],                    'column2': [2015, 2016, 2015, 2014]}) 

在返回'Response'(Python)中传递多个参数 – python

我在Angular工作,正在使用Http请求和响应。是否可以在“响应”中发送多个参数。角度文件:this.http.get("api/agent/applicationaware").subscribe((data:any)… python文件:def get(request): … return Response(seriali…

Python exchangelib在子文件夹中读取邮件 – python

我想从Outlook邮箱的子文件夹中读取邮件。Inbox ├──myfolder 我可以使用account.inbox.all()阅读收件箱,但我想阅读myfolder中的邮件我尝试了此页面folder部分中的内容,但无法正确完成https://pypi.python.org/pypi/exchangelib/ 参考方案 您需要首先掌握Folder的myfo…

python JSON对象必须是str,bytes或bytearray,而不是'dict – python

在Python 3中,要加载以前保存的json,如下所示:json.dumps(dictionary)输出是这样的{"('Hello',)": 6, "('Hi',)": 5}当我使用json.loads({"('Hello',)": 6,…

R'relaimpo'软件包的Python端口 – python

我需要计算Lindeman-Merenda-Gold(LMG)分数,以进行回归分析。我发现R语言的relaimpo包下有该文件。不幸的是,我对R没有任何经验。我检查了互联网,但找不到。这个程序包有python端口吗?如果不存在,是否可以通过python使用该包? python参考方案 最近,我遇到了pingouin库。

Python ThreadPoolExecutor抑制异常 – python

from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED def div_zero(x): print('In div_zero') return x / 0 with ThreadPoolExecutor(max_workers=4) as execut…

部分转自互联网,侵权删除联系

赞(0) 打赏
部分文章转自网络,侵权联系删除b2bchain区块链学习技术社区 » 删除基于单词计数的关键字来自大量python数据框 – python程序员分享
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

b2b链

联系我们联系我们