pmCount()
Analysis:
標的文献サンプルおよび対照文献サンプルのPubMed XMLファイルのテキストマイニングを行い、論文タイトルとアブストラクトの単語の出現回数を文献集合単位、文献単位で求め、出現率を文献単位で算出し、標的文献サンプルと対照文献サンプルの出現回数の比も計算する。結果はCSVファイルとして出力する。また、ワードクラウドの画像JPEGファイルとチェックボックス付きの単語リストのHTMLファイルを作成する。HTMLファイルをブラウザーで開いて、単語を選択することによって検索式を作成し、Search PubMedボタンをクリックすると検索を実行し結果を表示する。pmCountSingと異なり、標的文献サンプルと対照文献サンプルの2つのXMLファイルを対象に解析を行う。
Dependent packages:
"tcltk2"
,
"XML"
,
"tm"
,
"pander"
,
"wordcloud"
,
"RColorBrewer"
packneed=c("tcltk2","XML","tm","pander","wordcloud","RColorBrewer") current=installed.packages() addpack=setdiff(packneed,rownames(current)) url="https://cran.ism.ac.jp/" if(length(addpack)>0){install.packages(addpack,repos=url)} if(length(addpack)==0){print("Already installed.")}
*青のボタンをクリックして、Rに戻って、Via Clipboardの#2のスクリプトを実行することによって、必要なパッケージがインストール済みかチェックし、未インストールの場合は自動でインストールする。(インターネット接続の環境が必要)。
**tmパッケージのインストールには時間がかかる。
***tmなどが利用しているRcppパッケージはzipファイルをダウンロードしてそこからインストールする必要があるかもしれない。
****通常のインストールではProgram Filesの下にRフォルダーがあり、その中にRバージョンナンバーのフォルダーがあり、その下のlibaryフォルダーにパッケージが保存されている。
Data:
PubMedからダウンロードしたXMLファイルで標的文献サンプルと対照文献サンプルの両方を用意する。なお、アブストラクト付き論文に限定する必要がある。
26080338
2015
06
17
....
*ここではXML文書の最初の数行のみを示してあるだけで、解析用データとして用いることはできない。
Output:
CSVファイル, ワードクラウドのjpegファイル, および HTMLファイル。HTMLファイルは解析終了後にブラウザで表示される。
Operational script:
#標的文献サンプルと対照文献サンプルの二つのXMLファイルを解析する# source("http://zanet.biz/med/ref/pmCountU.R")
*青のボタンをクリックし、Rに戻って、RでRエディタ中のVia Clipboardの#2のスクリプを実行する。最初のダイアログボックスで標的文献サンプルのXMLファイルを選択し、2番目のダイアログボックスで対照文献サンプルのXMLファイルを選択し、3番目のダイアログボックスで結果を保存するフォルダーを作成するか選択する。プログラムの実行が終了するとブラウザーでHTMLファイルが表示される。HTMLファイルは標的文献サンプルでの文献当たりの出現率が100%の単語だけをリストアップするものと最大50個までの出現頻度順に並べた単語をリストアップするものと2種類作成される。Macの場合、3番目のダイアログボックスで新規フォルダ作成ができないので、解析開始前に結果ファイルを保存するフォルダを作成しておくこと。