書誌事項
- タイトル別名
-
- Automatic Fixation of Decompiler Quirks Using Large Language Model
この論文をさがす
説明
バイトコードからソースコードを復元するための手法としてデコンパイラが数多く提案されている.デコンパイラの1つの課題として元のソースコードとの差異(歪み)の発生があげられる.歪みはソースコードの可読性の低下だけでなく,プログラムの振舞いの変化にもつながる可能性がある.本研究では,自然言語処理の分野で用いられる文法誤り訂正のアイデアを活用したデコンパイラの歪み修正手法を提案する.文法誤り訂正の中でも特に大規模言語モデルベースの手法を用いることで,プログラミング言語やデコンパイラの種類によらずソースコード復元における歪み修正が可能となる.実験では,識別子歪みと構造的歪みの2種類の歪みに関して,提案手法でそれぞれどの程度修正が可能かを検証した.その結果,識別子歪みでは約6割を,構造的歪みでは約9割を修正できることを確認した.一方で新たな歪みを生み出してしまうケースも確認した.
Decompiler is a system for recovering the original code from bytecode. A critical challenge in decompilers is that the decompiled code contains differences from the original code. These differences not only reduce the readability of the source code but may also change the program's behavior. In this study, we propose a large language model-based quirk fixation method that adopts grammatical error correction. One advantage of the proposed method is that it can be applied to any programming language and decompiler. In the experiment, we apply our proposed quirk fixation to two types of quirks; identifier qurks and structural qurks. The experimental results show that the proposed method removes about 60% of identifier quirks and about 90% of structural quirks. In some cases, however, the proposed method injected a small amount of new quirks.
収録刊行物
-
- 情報処理学会論文誌
-
情報処理学会論文誌 65 (11), 1576-1585, 2024-11-15
情報処理学会
- Tweet
詳細情報 詳細情報について
-
- CRID
- 1390865187705434752
-
- NII書誌ID
- AN00116647
-
- ISSN
- 18827764
-
- 本文言語コード
- ja
-
- 資料種別
- journal article
-
- データソース種別
-
- JaLC
- IRDB