NLTKのコーパスを用いたStopWord除去(英語)[Python][NLP]
In [1]: from nltk.corpus import stopwordsIn [2]: stopWords = stopwords.words('english')In [3]: stopWordsOut[3]: ['i', 'me', 'my', 'myself', 'we', 'our', (省略)]In[4]: len(stopWords)Out[4]: 179In[5]: words = ["he", "gets", "an", "apple"] # ストップワードを除去したい文をスペース区切りしたリストIn[6]:Out[6]: ['gets', 'apple']終わり。
LookupErrorが発生した場合の対処法
In[1]: from nltk.copus import stopwordsIn[2]: stopWords = stopwords.words('english')Out[2]:LookupError:**********************************************************************Resource stopwords not found.Please use the NLTK Downloader to obtain the resource:import nltknltk.download('stopwords')Searched in:- '/home/hoge/nltk_data'- '/usr/share/nltk_data'- '/usr/local/share/nltk_data'- '/usr/lib/nltk_data'- '/usr/local/lib/nltk_data'- '/usr/nltk_data'- '/usr/lib/nltk_data'**********************************************************************LookupError発生時は以下のコマンドを入力し、コーパスをダウンロードしエラー回避。
In[1]: import nltkIn[2]: nltk.download('stopwords')Proxy下の場合は、エラーがでる。
In[1]: nltk.download('stopwords') Error loading stopwords:Out[1]: FalseProxy下の場合は、一旦ターミナルに戻って、以下のコマンドを打ってエラー回避。
# コーパスのダウンロード$ sudo -E python -m nltk.downloader -d /home/hoge/nltk_data all