• <td id="ae6ms"><li id="ae6ms"></li></td>
  • <xmp id="ae6ms"><td id="ae6ms"></td><table id="ae6ms"></table>
  • <table id="ae6ms"></table>
  • <td id="ae6ms"></td>
    <td id="ae6ms"></td>
  • <table id="ae6ms"></table><table id="ae6ms"><td id="ae6ms"></td></table>
  • <td id="ae6ms"></td>
  • <table id="ae6ms"><li id="ae6ms"></li></table>
  • <table id="ae6ms"></table>
    西西軟件園多重安全檢測下載網站、值得信賴的軟件下載站!
    西西首頁 常用軟件 軟件下載 安卓軟件 游戲下載 安卓游戲 MAC應用 驅動下載 安卓電視
    系統工具網絡工具媒體工具圖形圖像聊天工具應用軟件編程開發手機軟件安卓應用電腦安全字體素材

    PowerGREP漢化版

    5.05 官方最新版
    • PowerGREP漢化版5.05 官方最新版
    • 軟件大小:21.9M
    • 更新時間:2017-01-10 11:39
    • 軟件語言:中文
    • 軟件廠商:
    • 軟件類別:國產軟件 / 免費軟件 / 編程輔助
    • 軟件等級:4級
    • 應用平臺:WinAll
    • 官方網站:暫無
    好評:50%
    壞評:50%

    裝機必備軟件

    軟件介紹

    PowerGREP漢化版是一款功能強大的正則表達式應用軟件,這款軟件不僅具備檢索功能,還具備數據編輯、替換以及數據采集等功能。其中,檢索功能可用于詞匯搭配研究、類聯接研究;數據編輯、替換與采集功能可用于語料庫的加工與處理。

    基本功能:

    1.1 信息檢索

    信息檢索是語料庫研究中最常見的手段之一。利用PowerGREP進行檢索,其檢索方法主要為文本檢索和正則表達式檢索,前者比較直觀、易學,但功能比較單一,可用于一些簡單的檢索;而后者的掌握需要一定時間的學習,但功能強大,可用于大型的檢索。
    選擇主界面(圖1)中的動作標簽(Action),在定義操作類型(Action type)欄的下拉菜單中選擇顯示搜索匹配(Display search matches),并在定義搜索類型(Search type)欄的下拉菜單中選擇普通文本(Literal text)或正則表達式。搜索類型默認為正則表達式,如果搜索詞為普通檢索詞,軟件會自動識別。不同的操作類型與文本類型的確定會顯示不同的選項供人們選擇,如區別大小寫(Case sensitivity search)、大小寫自適應(Adapt case of replacement text)等。在搜索框中輸入檢索詞或正則表達式,點擊搜索即可完成檢索。
    2.2 編輯與替換

    在進行語料分析時,研究者們有時需要對語料庫中的語料或標注重新進行加工,如刪除、替換或添加標注等。我們可以使用PowerGREP的編輯與替換功能來批量完成這些任務。只要在定義操作類型欄的下拉菜單中選擇搜索與替換(Search and replace),并在定義搜索類型欄的下拉菜單中選擇普通文本或正則表達式,然后在搜索框與替換框上分別輸入被替換詞與替換詞,點擊替換按鈕即可完成文本信息的替換。其編輯功能主要通過內置的編輯器(Editor)實現,用法類似于Windows系統自帶的記事本,這里不再介紹。
    2.3 數據采集
    采集功能是PowerGREP的又一特色,它的用途是將所有匹配檢索詞所在的句子保存為一個或多個文件,方便研究者根據自己的研究目的或需求對語料進行重新賦碼。在定義操作類型欄的下拉菜單中選擇采集數據(Collect data),并在定義搜索類型欄的下拉菜單中選擇普通文本或正則表達式。然后,在文件區域(File sectioning)的下拉菜單中選擇逐行(Line by line),并勾選采集或替換所有匹配區域(Collect/Replace whole sections),這么做的目的是保證采集結束后所有的匹配結果將以逐行的形式提取并可保存為一個文件。接著,設置保存的文件名、文件類型與路徑。最后在檢索框輸入檢索詞并點擊采集(Collect),完成數據的采集工作。

    2 正則表達式簡述
    所謂正則表達式,就是用某種模式去匹配一類字符串的公式。它由一些普通字符和11個元字符(metacharacters)組成。普通字符包括大小寫的字母和數字,而元字符則具有特殊的含義。例如,漢語“灰色”在英語中可以寫為gray或grey。如果我們用一般文本檢索的話,需要將gray和grey分兩次填入搜索框并進行兩次檢索。但如果使用正則表達式,我們只需選擇搜索類型為正則表達式,然后在搜索框中一次輸入gr[ae]y就可以了。其中的方括號就是一個正則表達式,表示匹配方括號中a和e任意一個字符。我們于表1中列出了所有11個元字符,并逐一進行解釋。

    在語料庫語言學研究中,我們需要掌握一些基本的字符組合,即元字符和普通字符的組合。\d代表 [0-9],即0到9之間任意一個數字; \w代表[A-Za-z],即A到Z或a到z之間任意一個字母;\s代表“空白字符”(whitespace character),包括空格符(space)、制表符(tab)、回車符(return)或換行符(newline)。如果將這三個正則表達式中的普通字符由小寫改為大寫,正則表達式的含義恰恰相反。\D表示[^\d],即非0到9之間任意一個數字;\W表示[^\w] ,即非A到Z或a到z之間任意一個字符;\S表示 [^\d],即非空格符、制表符、回車符、換行符。值得注意的是,如果將這些表示否定的字符組合放在方括號內,其意義將發生變化。例如,正則表達式[\D\S] 的含義為非數字或者非空格符、制表符、回車符、換行符。換言之,它可以匹配任意一個字符,包括數字、空格符、制表符、回車符、換行符和字母。而表達式[\s\d]的含義為既非數字,也非空格符、制表符、回車符或換行符,即該表達式匹配任意一個字母。

    在進行語料庫檢索中,我們還必須了解一些常用字符組合。\b 匹配單詞的前或后邊界。例如,\bray\b只能匹配ray這個單詞(見圖3.5),這樣做類似于文本檢索中的whole words only ray,而ray\b則可以匹配以字母ray結束的單詞,如gray或者ray 中的ray,但不能匹配 rayage中的ray。這個表達式非常重要,在語料庫研究中我們可以用tion\b來檢索以tion為后綴的所有單詞,也可以使用\bpre這個表達式來檢索所有以pre為前綴的單詞。又如,\A表示文件的開始。此外,在語料庫文本處理時還會用到三個不可顯示的或非打印的特殊字符\r,\t和\n,它們分別代表回車符,制表符和換行符。

    在使用正則表達式的過程中,了解以上提及的字符與字符組合,我們還要注意優先級順序。類似于數學表達式求值,正則表達式是從左至右按優先級順序來描述一個字符串的。下表由高到低列出了各種正則表達式操作符的優先級順序:3 PowerGREP在語料庫加工中的應用
    語料庫一般分為標注語料庫與非標注語料庫或生語料庫。語料庫語言學研究中非常重要的一環就是對語料庫中的標注進行添加、刪除或修改。語料庫標注不僅包括詞性標注,還包括句法標注、語義標注、話語標注和語用標注等(Meyer 2004)。但,現有的語料庫標注主要為詞性標注,而由于其他形式的標注自動化賦碼比較難以實現(Hunston 2002),一般采取人工標注,并僅限于一些小型語料庫(注:如句法標注語料庫PoW(the Polytechnic of Walescorpus of children’s spoken language)。)。因此,根據不同的研究需求,大多時候語料庫研究者需要對現有的語料庫進行加工與處理。目前能夠用于語料庫賦碼處理的軟件為數不多(如Microsoft Office Word和UltraEdit-32等),PowerGrep則是其中的一名佼佼者。本文重點舉例說明PowerGrep對BNC語料庫標注進行刪除、添加和修改的應用。
    3.1 刪除語料標注
    假設我們要調查中國大學生記敘文中單詞so的使用情況,選用《中國學生英語口筆語語料庫》(SWECCL)和《英國國家語料庫》(BNC)進行對比研究(嚴華,2006)。本研究需要按照so的話語功能分類進行標注,而后者的語料已進行過詞性賦碼,因此,我們需要先刪除其原始詞性標注。
    在正式刪除詞性標注前,我們有必要了解一下BNC的標注特征。BNC的標注一般放在一對尖括號內,具體的標注說明可以參照BNC2 POS-Tagging Guide(Leech & Smith 2000)和Users Reference Guide British National Corpus(Burnard 1995),這里僅補充他們沒有提及但我們必須熟悉和了解的一些標注:① BNC的文件頭標注既包括尖括號內容,也包括普通文本,只有將之刪除才能確保研究者進行詞數統計的精確性;② 標注中的s代表句子(sentence),n=“1”代表第一行;③ 尖括號內的所有單詞的詞性標注都是以字母w開始的,其中,w代表單詞word;④ 標點符號除雙引號外均以字母c開始;⑤ &bquo;代表直接引語開始時的雙引號,&equo;代表直接引語結束時的雙引號。鑒于以上BNC的詞性標注特征,我們將刪除工作分為四步。
    (1) 刪除文件頭
    用PowerGREP自帶的編輯器(Editor)打開選取的文件。BNC中標志正式文本語料開始的第一行,此前是對該文本的說明,即文件頭。因此,我們在文本中定位到,然后刪除之前的文件頭部分。
    (2) 替換&bquo;與&equo;為雙引號。
    首先在定義操作類型(Action type)欄的下拉菜單中選擇搜索與替換(Search and replace),并在搜索類型(Search type)欄的下拉菜單中選擇正則表達式(Regular expression)。然后,在搜索欄中輸入&bquo;替換欄中輸入雙引號,點擊替換按鈕(Replace),將&bquo;替換成雙引號。接著,我們采取同樣的方法將&equo;也替換成雙引號。
    (3) 替換等行號為空格。
    在搜索欄輸入正則表達式,將光標插入替換欄,敲擊兩下空格鍵,這樣做的目的是為了保持原文的格式,即首行縮進兩個字符。接著,點擊替換按鈕(Replace),完成語料中以s開頭的行號標注的刪除工作(見圖2)。
    (4) 刪除其余所有標注。
    在搜索欄中輸入正則表達式,替換欄留空,然后點擊替換按鈕(Replace),完成其余他所有標注的刪除。我們用編輯器(Editor)查看最終的編輯效果。如圖3所示,一個干凈可讀的文本展示在我們面前,將之直接保存即可。
    3.2 添加語料標注
    刪除了BNC語料中的標注之后,接下來我們就可以按單詞so的話語功能對中國學習者語料和BNC語料重新進行標注。我們需要先采集所有包含單詞so的句子,然后利用PowerGREP的編輯器功能進行人工賦碼。
    (1) 采集
    如圖4所示,我們首先選擇在定義操作類型(Action type)欄的下拉菜單中選擇采集(Collect data),并在搜索類型(Search type)欄的下拉菜單中選擇正則表達式(Regular expression)。然后,勾選Group results for all files與Group identical matches兩個選項,并在搜索欄中輸入檢索詞so的正則表達式\bso\b(注:\bso\b只能匹配單詞so,這樣做類似于文本檢索中的whole words only。)。接著,在文件區域(File sectioning)的下拉菜單中選擇逐行(Line by line),并勾選采集或替換所有匹配區域(Collect/Replace whole sections),這樣保證采集結束后所有的匹配結果將以逐行的形式提取并可保存為一個文件。在采集之前還需預先設置文件保存的類型和路徑。因此,我們在創建目標文件(Target File Creation)中選擇將結果保存為單個文件(Save results into a single file),然后在目標文件地址(Target file location)處填入保存文件名與路徑,如D:\我的文擋\so.txt。最后,點擊采集按鈕(Collect)即可得到所有包含單詞so的句子。
    (2) 標注
    我們用PowerGREP自帶的編輯器(Editor)打開剛剛采集并保存的文檔。如圖5所示,每行都只有一個單詞so,這樣既方便了賦碼操作,又節省了我們研究者的時間。限于篇幅,具體的賦碼過程在此不一一敘述。BNC語料賦碼結束后,我們重復以上步驟對SWECCL進行標注,這樣就完成了單詞so研究分析前的標注工作。
    3.3 修改語料標注
    PowerGREP還可用來修改語料標注。語料標注的修改大致出于兩種原因:標注調整和賦碼糾正。

    軟件評價:

    內容搜索圖片,
    在本抓圖中,我搜索了c:/My Documents/My Web Sites文件夾及其子目錄下所有的html文件。我使用了一條正則表達式把搜索范圍限定在HTML tag之內,使用另一條正則式在這些標記中搜索所有的email地址。

    搜索和替換
    一個好用的功能是可以預覽結果而不是立即替換。匹配結果以黃色標出。雙擊匹配就能打開對應的文檔并檢驗其內容。
    點擊執行后,顏色改變,表示已經實施替換。

    收集信息和統計數據,
    本例是“檢測Apache網絡日志--google search terms”的例子。本例使用的正則式在PowerGREP幫助文檔中有詳細講解。

    靈活的“撤消”歷史記錄,讓你不再抓狂,
    在執行替換的同時,PowerGREP已經備份了原文件。只要你沒有手動刪除這些備份的文件,你可以隨便撤消你做過的任何操作。世界上真有后悔藥的呀。

    搜索PDF文檔,
    PDF也能使用正則式進行搜索?當然了,你沒有看錯。只是,要確保PDF文檔中你要搜索的內容是文字而非圖像。也就是說,掃描版的PDF不享受此功能的喲。

    在MS word 文檔中搜索,
    這個功能也十分有用。我記得還有個東東叫ViEmu for Word & Outlook,可以在word和outlook中模擬vim,當然可以使用正則式搜索替換了。不過,ViEmu一來也是收費軟件(在2008年5月31日之前是79美刀,之后是99美刀),我還沒有找到免費版本;二來其正則式是vim風格的,只習慣Perl風格的同學可能不太習慣。在google documents里也支持正則式搜索了,具體語法、風格尚未廣泛測試。

    在MS Excel中搜索,
    同樣也是批量搜索、替換。不單單是對一個文檔、一個sheet。

    以16進制模式,在2進制文檔中搜索,
    跟二進制編輯器界面類似,多了正則式批量搜索替換功能。

    在zip壓縮文檔中搜索,
    把zip文件當作普通文件夾來搜索。很強大吧?

    正則表達式序列
    大多數正則式工具一次只支持一條正則式的操作。而PowerGREP可以一次執行多條正則式!使用checkbox來進行多項選擇。

    漢化方法:

    下載并安裝完畢后,將漢化文件拖到軟件安裝目錄中即可。

    軟件截圖

    PowerGREP漢化版 5.05 官方最新版

      其他版本下載

      發表評論

      昵稱:
      表情: 高興 可 汗 我不要 害羞 好 下下下 送花 屎 親親

      下載幫助下載幫助西西破解版軟件均來自互聯網, 如有侵犯您的版權, 請與我們聯系。

      TOP
      軟件下載
      女人让男人桶30分钟免费视频,女人张开腿让男人桶个爽,一进一出又大又粗爽视频
    • <td id="ae6ms"><li id="ae6ms"></li></td>
    • <xmp id="ae6ms"><td id="ae6ms"></td><table id="ae6ms"></table>
    • <table id="ae6ms"></table>
    • <td id="ae6ms"></td>
      <td id="ae6ms"></td>
    • <table id="ae6ms"></table><table id="ae6ms"><td id="ae6ms"></td></table>
    • <td id="ae6ms"></td>
    • <table id="ae6ms"><li id="ae6ms"></li></table>
    • <table id="ae6ms"></table>