pmCountSing()
Analysis:
PubMedより XML形式でダウンロードした検索結果のファイルに対してテキストマイニングを行い、論文タイトルとアブストラクトの単語の出現回数を文献集合単位、文献単位で求め、 出現率を文献単位で算出する。結果はCSVファイルとして出力する。また、ワードクラウドの画像JPEGファイルとチェックボックス付きの単語リストのHTMLファイルを作成する。 HTMLファイルをブラウザーで開いて、単語を選択することによって検索式を作成し、Search PubMedボタンをクリックすると検索を実行し結果を表示する。 pmCountと異なり、一つのファイルを対象に解析を行う。
Dependent packages:
"tcltk2"
,
"XML"
,
"tm"
,
"pander"
,
"wordcloud"
,
"RColorBrewer"
packneed=c("tcltk2","XML","tm","pander","wordcloud","RColorBrewer") current=installed.packages() addpack=setdiff(packneed,rownames(current)) url="https://cran.ism.ac.jp/" if(length(addpack)>0){install.packages(addpack,repos=url)} if(length(addpack)==0){print("Already installed.")}
*青のボタンをクリックして、、Rに戻って、Rエディタ中のVia Clipboardの#2のスクリプトを実行することによって、必要なパッケージがインストール済みかチェックし、未インストールの場合は自動でインストールする。(インターネット接続の環境が必要)。
**tmパッケージのインストールには時間がかかる。
***tmなどが利用しているRcppパッケージはzipファイルをダウンロードしてそこからインストールする必要があるかもしれない。
****通常のインストールではProgram Filesの下にRフォルダーがあり、その中にRバージョンナンバーのフォルダーがあり、その下のlibaryフォルダーにパッケージが保存されている。
Data:
PubMedからダウンロードしたアブストラクトを含む文献のXMLファイル.
26080338
2015
06
17
....
*ここではXML文書の最初の数行のみを示してあるだけで、解析用データとしてこのまま用いることはできない。
Output:
CSVファイル, ワードクラウドのjpegファイルおよびHTMLファイル。
Operational script:
#一つのXMLファイルの単語頻度解析# source("http://zanet.biz/med/ref/pmCountSingU.R")
*青のボタンをクリックしてから、Rに戻り、RでRエディタ中のVia Clipboardの#2のスクリプトを実行する。最初のダイアログボックスで文献のXMLファイルを選択し、2番目のダイアログボックスで結果を保存するフォルダーを作成するか選択する。プログラムの実行が終了するとブラウザーでHTMLファイルが表示される。HTMLファイルで青字で表示される単語は文献ごとの出現率が100%の単語である。Macの場合、2番目のダイアログボックスで新規フォルダ作成ができないので、解析開始前に結果ファイルを保存するフォルダを作成しておくこと。